420 likes | 693 Views
Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10. Hướng dẫn : PGS.TS Hà Quang Thụy Sinh viên thực hiện : Vũ Trọng Hóa Đào Quốc Vương. Nội dung. Dữ liệu trên Twitter Phương pháp. Nội dung. Dữ liệu trên Twitter Phương pháp. Dữ liệu trên Twitter. Thời điểm 2012
E N D
Khaipháquanđiểmtrêndữliệu Twitter tiếnđộ 12/10 Hướngdẫn: PGS.TSHàQuangThụy Sinhviênthựchiện : VũTrọngHóa ĐàoQuốcVương
Nội dung • Dữliệutrên Twitter • Phươngpháp
Nội dung • Dữliệutrên Twitter • Phươngpháp
Dữliệutrên Twitter Thờiđiểm 2012 • 340,000,000 Tweets mộtngày [1] • 140,000,000 ndtíchcực/ 465,000,000 nd • 1,000,000 tàikhoảnmộtngày
Dữliệutrên Twitter • Tweet: tin nhắn, trạngtháicóđộdàikhôngquá 140 kítự • Follow: quanhệ 1 chiềugiữa 2 ngườidùng. • Mention: nhắcđếntênngườidùngkhác eg: "Glad your shipment arrived @janesmith!" • Message: Tin nhắncánhânchongườidùngnhấtđịnh, bắtđầuvsDMhoặc D: eg: "DM @joesmith234 what is your order number?"
Dữliệutrên Twitter • Hashtag: Ngườidùngđánhdấucácchủđề. eg: "Check out our new products for the Fallhttp://t.co/link2 #fallsale"
Dữliệutrên Twitter • Mạngxãhộicóđadạngngườisửdụng, họ chia sẻ ý kiếnvềnhiềuchủđềkhácnhau, do đónólànguồncógiátrị • Twitter chứasốlượnglớncác post vàpháttriểnmạnhmỗingày. Dữliệucóthểlớntùy ý • Ngườidùng Twitter cóthểlàphổthông -> nổitiếng, đạidiệncôngty, chínhtrịgia -> dễdàngthuthậptheocáctiêuchí(ngônngữ, sởthích … ).
Dữliệutrên Twitter • Twitter cungcấp API mở, đơngiản, search & streaming khônggiớihạnvàkhôngyêucầuđăngnhập • Diakopoulos and Shamma (2010) : Barack Obama vs John McCain • Bollen et al. (2010): upcoming stock market fluctuations
Dữliệutrên Twitter • Dữliệudùngchokhaipháquanđiểmchủyếulàcác tweet • Nội dung ngắn : 140kt • Ngônngữkhóhiểu, biếnthể.
Nội dung • Dữliệutrên Twitter • Phươngpháp
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Tiếpcậnhọcmáy (SVM, tree kernel) • Nghiêncứu 2 bộphânlớp tweet • Negative vs Positive • Negative vs Neutral vs Positive • Baseline: unigram model • Dữliệu: 5127 tweet đượcgánnhãnthủcông • Sửdụngcáckĩthuậtphântíchvàlựachọnđặctrưng, tiềnxửlí
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 Tiềnxửlí • Từđiểnbiểutượngcảmxúc
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 Tiềnxửlí • ThaythếUlrbằng ||U||, tag @Jonh = ||T|| • Thaythếcácbiểutượngcảmxúcbằnghướngquanđiểm • Chuỗikítựlặp :Cooooooooooooool - > coool • SửdụngbộtokenizercủaStandford • Stopword
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 100% 38.3% 30.1% 11.8% 6.1% 4.2% 2.8% 1.2% 11.7%
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Cho điểmcáctừ (quanđiểm) • Sửdụngbộ : Dictionary of Affect in Language (DAL) (Whissel, 1989) gồm 8000 từtiếnganh • Điểm 1 (Negative) - 3 (Positive) • MởrộngnóbằngWordnet • Tìmthấy88.9% từtiếnganh
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Tree kernel : Partial Tree (PT) kernel đềxuấtbởiMoschitti (2006) • Tínhtoánsựtươngquangiữa 2 câybằngcách so sánhtấtcảcây con • Eg. @Fernando this isn’t a great day for playing theHARP! :)
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Đặctrưng (Senti-feature)
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Kếtquảthựcnghiệm • Họsửdụng 3 môhìnhvàkếthợpchúng • Unigram model (our baseline) • Tree kernel model • 100 Senti-features model • Kernel plus Senti-features • Unigram plus Senti-features
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Positive versus Negative (baseline 50%) • 1709 mẫuvớimỗinhãn, 5 folds • 100 Senti-feature xấpxỉ 10,000 unigram
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Phântíchđặctrưng • Bắtđầuvới unigram sauđóthêmdầncácđặctrưng • Kếtluân: đặctrưngquantrọngnhấtlà Polar + POS
Sentiment Analysis of Twitter Data- Agarwalvàcộngsự 2011 • Positive vs Negative vs Neutral(baseline 33,3%) • 1709 dữliệuchomỗinhãn. • 100 Senti-feature xấpxỉ 13,000 unigram
Using Word Lengthening to Detect Sentiment in Microblogs 2011(Samuel Brody- Nicholas Diakopoulos) • Chứng minh sựphổbiếncủakéodàitừtrên Twitter vàcóliênquanđếnthểhiệnquanđiểm • Eg: Niiiice, realllly, Coooooooooooolllll !!!!! • Đềxuấtphươngpháphọcmáybángiámsát, pháthiệnnhữngtừmangquanđiểmvàcảmxúc
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Độnglực: • Rấtnhiềunghiêncứutrênmicroblogssửdụngphươngphápchođiểmcáctừdựavàotừđiển (a sentiment lexicon) • Cáctừđiểnđãcóthìđềuđượcthiếtkếchomiềnchung, hạnchếđốivớimiềnmạngxãhội • Nếuthiếtkếđượctừđiểnphùhợp, độchínhxácvàđộphủcaohơn.
Using Word Lengthening to Detect Sentiment in Microblogs 2011 Phươngpháp • Trongngữcảnhnói: sựnhấnmạnhthểhiện ở độcao, kéodài, chấtlượngâmtiết… • Trongvănbảnviết : gạchchân , in đậm… • Twitter: Viếthoa, giữa 2 dấu *, lặplạichữcái : Coooooooooooolllll !!!!!
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • TN1 : chứngtỏsựphổbiến • TN2: Việckéodàikhônghềtùy ý • TN3: Mởrộngtừđiểnhiệntại, thíchnghihơn
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Dữliệu: Gầnnửatriệu tweet đượcthubằng Streaming API vào 9/3/2011 • Chỉ ở cáckhuvựcMỹvàphầnnhỏ ở Anh • Gần 6.5 triệu từ, với 22 ngàntừxuấthiệntrên 10 lần.
Using Word Lengthening to Detect Sentiment in Microblogs 2011 TN1
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Trongsốnửatriệu tweet củahọcótới108,762 từbịkéodàivàxuấthiệntrong87,187 tweets • Chiếm 17.44% tức 1/6 • Việcnàykhábấtngờmặcdù Twitter hạnchếsốlượngkítự
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • TN2sửdụngtừđiểncủa(Wilson et al., 2005)
Using Word Lengthening to Detect Sentiment in Microblogs 2011 TN3 • Từđiểnhiệntạicó • 6,878 từ, chỉxuấthiện 4,939, 2446 trên 10 lần • Cáctừđượckéodàichỉcó 485/3,727 từtrongtừđiển • Chọntậpcácứngviên : Cáctừmàcónhiềuhơn 5 dạng • Thu được 720 candidate
Using Word Lengthening to Detect Sentiment in Microblogs 2011 • Phươngphápđồthị • Brody and Elhadad (2010) for detecting sentiment in reviews • Velikovich et al. (2010) for finding sentiment terms in a giga-scale web corpus
Using Word Lengthening to Detect Sentiment in Microblogs 2011
Tàiliệuthamkhảo • [1] Infographic Labs http://infographiclabs.com/news/twitter-2012/ • [AXVRP11] ApoorvAgarwal, BoyiXie, Ilia Vovsha, Owen Rambow and Rebecca Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language in Social Media LSM 2011:30-38. • [BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562-570.