1 / 31

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter. Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy. Nội dung chính. Giới thiệu Các nghiên cứu liên quan Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter Kết luận Định hướng nghiên cứu.

royce
Download Presentation

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy

  2. Nội dung chính • Giới thiệu • Các nghiên cứu liên quan • Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter • Kết luận • Định hướng nghiên cứu

  3. INTRODUCTION Bàitoándựbáothịtrườngchứngkhoán Bàitoándựbáothịtrườngchứngkhoándựatrên Tweeter

  4. Cóthựcsựdựđoánđượcthịtrườngchứngkhoán? • NguyênlýBướcđingẫunhiên (Walk random) • vàgiảthuyếtThịtrườnghiệuquả • (Efficient Market) • Khôngthểdựđoánthịtrườngchứngkhoán Lýthuyếtphântích cổphiếu (Chartist theory) - Cóthểdựđoánđượcdựavàoquákhứ

  5. Các nghiên cứu liên quan • 2005, Gruhlvàcộngsựđãnghiêncứucáchlàmthếnàođểhoạtđộng chat online cóthểdựđoánđượcviệcbánsách • 2006, MishnevàRijkesửdụngcácđánhgiácủacácquanđiểmđượcthểhiệntrên blog đểdựđoánviệcbánphim • 2007, Liu vàcộngsựdựđoánviệcbáncácsảnphẩmsửdụngmôhìnhphântíchngữnghĩaẩnxácsuất (PLSA) đểtríchxuấtcácchỉsổcủaquanđiểmtừcác blog. • 2009, Schumakervà Chen điềutramốiquanhệgiữacác tin tứcvềcôngtyphásảnvớisựthayđổivềgiácảtrongthịtrường • 2010, AsurvàHubermanchỉrarằngnhữngquanđiểmliênquanđếncácphimđượcthểhiệncôngkhaitrên Tweeter thựcsựcóthểdựđoánđượcdoanhthuphòngvé • Gầnđây, 2011, Johan Bollenvàcôngsựđãcónghiêncứuchỉrarằngcóthểdựđoánthịtrườngchứngkhoándựatrêncác Tweet củacáccôngtytrongthịtrườngchứngkhoán, vớiđộchínhxáclênđến > 85%

  6. Dự báo thị trường chứng khoán • Kinhtếhọchành vi chỉrarằng: • Cảmxúccóthểảnhhưởngđếncáchành vi củacánhânvàtrongviệcđưara 1 quyếtđịnhnàođó • Cácquyếtđịnhtàichínhđượcthúcđẩybởicảmxúcvàtâmtrạngcủa con người • Giảthuyết: Tâmtrạng, cảmxúccóthểảnhhưởngđếngiátrịchứngkhoántươngđươngvớiviệccác tin tứcảnhhưởngđếnthịtrườngchứngkhoán • Bàitoándựbáothịtrườngchứngkhoánchiathành 2 loại: • Dựbáochỉsốchứngkhoánsẽtăng hay giảm • Dựbáochỉsốchứngkhoánsẽtănglênbaonhiêuhoặcgiảmxuốngbaonhiêu • Ý nghĩacủabàitoán: • Giúpcácnhàđầutưđưarađượccácquyếtđịnhđầutưtứcthời => đemlạilợinhuậncaochocácnhàđầutư

  7. Dựbáothịtrườngchứngkhoándựatrên Tweeter • Cộng đồng sử dụng và chia sẻ trạng thái của mình trên Twitter cho biết họ đang cảm thấy như thế nào về ngày hôm đó • dẫn dắt các quyết định mua bán trên thị trường • ảnh hưởng đến giá cả trong thị trường chứng khoán • Có thể dự đoán được chỉ số chứng khoán dựa trên Tweeter

  8. Tại sao chọn Tweeter? • Có thể trích xuất các nội dung tweet để đánh giá được tâm trạng của công chúng trực tiếp, theo thời gian thực một cách nhanh chóng và tiết kiệm => Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ số chứng khoán • Tweeter là 1 trong các mạng xã hội được sử dụng phổ biến nhất trên thế giới => Là 1 nguồn cấp dữ liệu có quy mô rất lớn

  9. Phươngphápdựbáothịtrườngchứngkhoándựatrên Tweeter của Johan Bollenvàcộngsự Cácbước Ưuvànhượcđiểm

  10. Dữliệu • Nguồndữliệu: • 9.83.498 Tweet trêntrang Tweeter, được post bởigần 2.7 triệungườidùngtrongcáccôngtytrongthịtrường DJIA • Cácthông tin tríchxuấttrongmỗi tweet gồm: • Thông tin xácđịnh tweet • Ngày submit • Kiểu submit • Nội dung (khôngquá 140 kýtự) • Thờigian: 28/2/2008 – 19/12/2008 • Cácbướcchuẩnbịdữliệu: • Loạibỏtừdừng, dấuchấmcâu • Nhómcác tweet được submit trêncùngngàyvào 1 nhóm • Chú ý: • Chỉquantâmnhững tweet chứatâmtrạngrõràngcủatácgiả

  11. Các bước Đođộtrễcảmxúc Phântíchcảmxúcngườidùng Dựđoángiácổphiếu

  12. Bước 1: Sinhchuỗithờigiancảmxúc (OF và GPOMS) • OpinionFinder: • Phântíchquanđiểm ở mứccâu • Đocảmxúccủangườidùng: tíchcực hay tiêucực • Xácđịnhtỉlệ tweet tíchcực so với tweet tiêucựcmỗingày • GPOMS: • Đocảmxúccủangườidùngtrên 6 chiềukhácnhau: Calm, Alert, Sure, Vital, Kind, Happy  Đocảmxúcngườidùngthành 7 chiều

  13. Bước 2: Đánh giá OF và GPOMS

  14. Bước 2: Đánhgiá OF và GPOMS – hồiquyđabiến

  15. Vây, các sự kiện văn hóa, xã hội có tác động lên cảm xúc, tâm trạng của cộng đồng. Có thể đoán được cảm xúc của cộng đồng thông qua các tweet của mỗi cá nhân trên Tweeter Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan gì đến sự thay đổi trong thị trường chứng khoán, cụ thể là chỉ số DJIA?

  16. Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA • Giảthuyết: Nếu 1 biến X gâyra Y thìnhữngthayđổitrong X sẽxuấthiện 1 cáchhệthốngtrướcnhữngthayđổitrong Y. => Cácgiátrịtrễcủa X biểuhiện 1 mốitươngquancó ý nghĩathốngkêđốivới Y • Ápdụng: • Tâmtrạng chung của cộng đồng trên Twitter có sự tương đồng với thị trường chứng khoán, nhưng chúng phản ánh trước diễn biến từ 3-4 ngày chứ không phải là một kết quả trong việc tăng giảm của thị trường. • Nếungườidùngcócảmnhậntíchcựcvềmãchứngkhoáncủa 1 côngtythìtrong 1 ngàynàođótrongtươnglai, giácổphiếucủacôngtyđósẽtăng, vàngượclại

  17. Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA (cont.)

  18. Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA (cont.) • Ý nghĩa: • Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng khoán ngày i (tác giả chọn giá trị này là 3 ngày)) • Giá trị p-values < 0.05 => Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng không thể dự đoán được giá trị DJIA

  19. Bước 4: Dựđoánthịtrườngchứngkhoán • Sử dụng mô hình Self-organizing Fuzzy neural Network(SOFNN) để dự đoán giá trị DJIA trên 2 tập đầu vào: • Giá trị DJIA 3 ngày trước • Các hoán vị khác nhau của chuỗi cảm xúc • Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN gồm: • Các giá trị DJIA • Các giá trị đo tâm trạng của n ngày trước

  20. Bước 4: Dựđoánthịtrườngchứngkhoán (cont.) • Tácgiảthử 7 hoánvịcủacácbiếnđầuvàođốivớimôhình SOFNN: IOF = {DJIAt-3, 2,1 , XOF, t-3,2,1} • Trongđó: • DJIA t-3,2,1: giátrị DJIA và X1,t-3,2,1: giátrịchiều 1 củatâmtrạngđượcđobởi GPOMS tạithờiđiểm t-3, t-2, t-1 • I1,3; I1,4; I1,5; I1,6: kếthợpgiữagiátrị DJIA trongquákhớvớichiều 3, 4, 5 , 6 tạithờigiẩm t-3, t-2, t-1

  21. Bước 4: Dựđoánthịtrườngchứngkhoán (cont.) • Kết quả: • Kết luận: • Cảm xúc được đo bởi OF là không hiệu quả • Ngoài Calm, tác giả tìm thấy độ chính xác cao nhất với I1 • Happy không có mối quan hệ nhân quả Granger tốt nhưng khi kết hợp với Caml thì dự đoán chính xác hơn

  22. Ưu và nhược điểm • Ưu điểm: • Độ chính xác khá cao • Nhược điểm: • Chỉ dự đoán được sự tăng, giảm của thị trường chứng khoán • Chưa giới hạn được vùng địa lý và ngôn ngữ • Với những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán

  23. Phương pháp đề xuất Môhình Phânlớp SVM-kNN Dựbáothịtrườngchứngkhoán

  24. Mô hình

  25. Điểm khác biệt • Tập từ POMS: • J.Bollen: Mở rộng dựa trên n-gram theo Google • Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google và tập các từ đồng nghĩa. • Dự đoán chỉ số DJIA: • J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN) • Đề xuất: Áp dụng phương pháp phân lớp bán giám sát SVM-kNN hoặc EM hoặc …

  26. Dự đoán xu hướng • Input: • n: số ngày cảm xúc trễ • Các chỉ số đóng DJIA của n ngày trước đó • Chuỗi tâm trạng theo thời gian của công chúng trong n ngày trước đó tính theo 6 chiều. • Output: Xu hướng của chứng khoán ngày t • Tăng so với ngày t-1 • Giảm so với ngảy t-1 • Bằng ngày t-1

  27. Dự đoán xu hướng (cont.) • Vector thể hiện đặc trưng: Vit = <dt-1, dt-2, …, dt-n, Xi, t-1­, Xi,t-2­, …, Xi,t-n> • vit : vector thể hiện đặc trưng của cảm xúc theo chiều I • dt : giá trị chỉ số DJIA ngày t • Xi, t : giá trị cảm xúc chiều i trong ngày t. • n: số ngày cảm xúc trễ • Gán nhãn: dựa trên chỉ số đóng DJIA mỗi ngày • +1: chỉ số ngày t > ngày t-1 • -1: chỉ số ngày t < ngày t-1 • 0: chỉ số ngày t = ngày t-1

  28. Kết luận • Báo cáo đã: • Giới thiệu về bài toán dự đoán thị trường chứng khoán dựa trên khai phá quan điểm từ dữ liệu Tweeter • Tìm hiểu về chứng minh giả thuyết “Tâm trạng có thể dự đoán được thị trường chứng khoán” của J.Bollen. • Đề xuất 1 hướng giải quyết nhằm cải tiến kết quả

  29. Định hướng nghiên cứu • Càiđặtvàthửnghiệmchomôhìnhđãđềxuất • Nghiêncứucácmôhìnhbángiámsátkhácvàápdụngvớibàitoándựbáothịtrườngchứngkhoántrên tweeter • Nghiêncứuhướngdựđoánchứngkhoánsẽtănglênbaonhiêuhoặcgiảmxuốngbaonhiêu

  30. Tài liệu tham khảo • 2008. Eugene F.Fama. The behavior of Stock- Market Prices • 2010. X. Zhang, H. Fuehres, P.A. Gloor, Predicting Stock Market Indicators Through Twitter I Hope It is Not as Bad as I Fear, Collaborative Innovation Networks (COINs), Savannah, GA, • 2011. Johan Bollen và công sự, Twitter mood predicts the stock market

  31. Thank you for your listening!

More Related