1 / 41

Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10

Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10. Hướng dẫn : PGS.TS Hà Quang Thụy Sinh viên thực hiện : Vũ Trọng Hóa Đào Quốc Vương. Nội dung. Dữ liệu trên Twitter Phương pháp. Nội dung. Dữ liệu trên Twitter Phương pháp. Dữ liệu trên Twitter. Thời điểm 2012

lavada
Download Presentation

Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Khaipháquanđiểmtrêndữliệu Twitter tiếnđộ 12/10 Hướngdẫn: PGS.TSHàQuangThụy Sinhviênthựchiện : VũTrọngHóa ĐàoQuốcVương

  2. Nội dung • Dữliệutrên Twitter • Phươngpháp

  3. Nội dung • Dữliệutrên Twitter • Phươngpháp

  4. Dữliệutrên Twitter Thờiđiểm 2012 • 340,000,000 Tweets mộtngày [1] • 140,000,000 ndtíchcực/ 465,000,000 nd • 1,000,000 tàikhoảnmộtngày

  5. Dữliệutrên Twitter

  6. Dữliệutrên Twitter

  7. Dữliệutrên Twitter • Tweet: tin nhắn, trạngtháicóđộdàikhôngquá 140 kítự • Follow: quanhệ 1 chiềugiữa 2 ngườidùng. • Mention: nhắcđếntênngườidùngkhác eg: "Glad your shipment arrived @janesmith!" • Message: Tin nhắncánhânchongườidùngnhấtđịnh, bắtđầuvsDMhoặc D: eg: "DM @joesmith234 what is your order number?"

  8. Dữliệutrên Twitter • Hashtag: Ngườidùngđánhdấucácchủđề. eg: "Check out our new products for the Fallhttp://t.co/link2 #fallsale"

  9. Dữliệutrên Twitter • Mạngxãhộicóđadạngngườisửdụng, họ chia sẻ ý kiếnvềnhiềuchủđềkhácnhau, do đónólànguồncógiátrị • Twitter chứasốlượnglớncác post vàpháttriểnmạnhmỗingày. Dữliệucóthểlớntùy ý • Ngườidùng Twitter cóthểlàphổthông -> nổitiếng, đạidiệncôngty, chínhtrịgia -> dễdàngthuthậptheocáctiêuchí(ngônngữ, sởthích … ).

  10. Dữliệutrên Twitter • Twitter cungcấp API mở, đơngiản, search & streaming khônggiớihạnvàkhôngyêucầuđăngnhập • Diakopoulos and Shamma (2010) : Barack Obama vs John McCain • Bollen et al. (2010): upcoming stock market fluctuations

  11. Dữliệutrên Twitter • Dữliệudùngchokhaipháquanđiểmchủyếulàcác tweet • Nội dung ngắn : 140kt • Ngônngữkhóhiểu, biếnthể.

  12. Nội dung • Dữliệutrên Twitter • Phươngpháp

  13. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Tiếpcậnhọcmáy (SVM, tree kernel) • Nghiêncứu 2 bộphânlớp tweet • Negative vs Positive • Negative vs Neutral vs Positive • Baseline: unigram model • Dữliệu: 5127 tweet đượcgánnhãnthủcông • Sửdụngcáckĩthuậtphântíchvàlựachọnđặctrưng, tiềnxửlí

  14. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 Tiềnxửlí • Từđiểnbiểutượngcảmxúc

  15. Từđiểnviếttắt

  16. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 Tiềnxửlí • ThaythếUlrbằng ||U||, tag @Jonh = ||T|| • Thaythếcácbiểutượngcảmxúcbằnghướngquanđiểm • Chuỗikítựlặp :Cooooooooooooool - > coool • SửdụngbộtokenizercủaStandford • Stopword

  17. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 100% 38.3% 30.1% 11.8% 6.1% 4.2% 2.8% 1.2% 11.7%

  18. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Cho điểmcáctừ (quanđiểm) • Sửdụngbộ : Dictionary of Affect in Language (DAL) (Whissel, 1989) gồm 8000 từtiếnganh • Điểm 1 (Negative) - 3 (Positive) • MởrộngnóbằngWordnet • Tìmthấy88.9% từtiếnganh

  19. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Tree kernel : Partial Tree (PT) kernel đềxuấtbởiMoschitti (2006) • Tínhtoánsựtươngquangiữa 2 câybằngcách so sánhtấtcảcây con • Eg. @Fernando this isn’t a great day for playing theHARP! :)

  20. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Đặctrưng (Senti-feature)

  21. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Kếtquảthựcnghiệm • Họsửdụng 3 môhìnhvàkếthợpchúng • Unigram model (our baseline) • Tree kernel model • 100 Senti-features model • Kernel plus Senti-features • Unigram plus Senti-features

  22. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Positive versus Negative (baseline 50%) • 1709 mẫuvớimỗinhãn, 5 folds • 100 Senti-feature xấpxỉ 10,000 unigram

  23. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Phântíchđặctrưng • Bắtđầuvới unigram sauđóthêmdầncácđặctrưng • Kếtluân: đặctrưngquantrọngnhấtlà Polar + POS

  24. Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Positive vs Negative vs Neutral(baseline 33,3%) • 1709 dữliệuchomỗinhãn. • 100 Senti-feature xấpxỉ 13,000 unigram

  25. Using Word Lengthening to Detect Sentiment in Microblogs 2011(Samuel Brody- Nicholas Diakopoulos) • Chứng minh sựphổbiếncủakéodàitừtrên Twitter vàcóliênquanđếnthểhiệnquanđiểm • Eg: Niiiice, realllly, Coooooooooooolllll !!!!! • Đềxuấtphươngpháphọcmáybángiámsát, pháthiệnnhữngtừmangquanđiểmvàcảmxúc

  26. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Độnglực: • Rấtnhiềunghiêncứutrênmicroblogssửdụngphươngphápchođiểmcáctừdựavàotừđiển (a sentiment lexicon) • Cáctừđiểnđãcóthìđềuđượcthiếtkếchomiềnchung, hạnchếđốivớimiềnmạngxãhội • Nếuthiếtkếđượctừđiểnphùhợp, độchínhxácvàđộphủcaohơn.

  27. Using Word Lengthening to Detect Sentiment in Microblogs 2011 Phươngpháp • Trongngữcảnhnói: sựnhấnmạnhthểhiện ở độcao, kéodài, chấtlượngâmtiết… • Trongvănbảnviết : gạchchân , in đậm… • Twitter: Viếthoa, giữa 2 dấu *, lặplạichữcái : Coooooooooooolllll !!!!!

  28. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • TN1 : chứngtỏsựphổbiến • TN2: Việckéodàikhônghềtùy ý • TN3: Mởrộngtừđiểnhiệntại, thíchnghihơn

  29. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Dữliệu: Gầnnửatriệu tweet đượcthubằng Streaming API vào 9/3/2011 • Chỉ ở cáckhuvựcMỹvàphầnnhỏ ở Anh • Gần 6.5 triệu từ, với 22 ngàntừxuấthiệntrên 10 lần.

  30. Using Word Lengthening to Detect Sentiment in Microblogs 2011 TN1

  31. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Trongsốnửatriệu tweet củahọcótới108,762 từbịkéodàivàxuấthiệntrong87,187 tweets • Chiếm 17.44% tức 1/6 • Việcnàykhábấtngờmặcdù Twitter hạnchếsốlượngkítự

  32. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • TN2sửdụngtừđiểncủa(Wilson et al., 2005)

  33. Using Word Lengthening to Detect Sentiment in Microblogs 2011 TN3 • Từđiểnhiệntạicó • 6,878 từ, chỉxuấthiện 4,939, 2446 trên 10 lần • Cáctừđượckéodàichỉcó 485/3,727 từtrongtừđiển • Chọntậpcácứngviên : Cáctừmàcónhiềuhơn 5 dạng • Thu được 720 candidate

  34. Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Phươngphápđồthị • Brody and Elhadad (2010) for detecting sentiment in reviews • Velikovich et al. (2010) for finding sentiment terms in a giga-scale web corpus

  35. Using Word Lengthening to Detect Sentiment in Microblogs 2011

  36. Tàiliệuthamkhảo • [1] Infographic Labs http://infographiclabs.com/news/twitter-2012/ • [AXVRP11] ApoorvAgarwal, BoyiXie, Ilia Vovsha, Owen Rambow and Rebecca Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language in Social Media LSM 2011:30-38. • [BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562-570.

More Related