310 likes | 481 Views
Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter. Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy. Nội dung chính. Giới thiệu Các nghiên cứu liên quan Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter Kết luận Định hướng nghiên cứu.
E N D
Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy
Nội dung chính • Giới thiệu • Các nghiên cứu liên quan • Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter • Kết luận • Định hướng nghiên cứu
INTRODUCTION Bàitoándựbáothịtrườngchứngkhoán Bàitoándựbáothịtrườngchứngkhoándựatrên Tweeter
Cóthựcsựdựđoánđượcthịtrườngchứngkhoán? • NguyênlýBướcđingẫunhiên (Walk random) • vàgiảthuyếtThịtrườnghiệuquả • (Efficient Market) • Khôngthểdựđoánthịtrườngchứngkhoán Lýthuyếtphântích cổphiếu (Chartist theory) - Cóthểdựđoánđượcdựavàoquákhứ
Các nghiên cứu liên quan • 2005, Gruhlvàcộngsựđãnghiêncứucáchlàmthếnàođểhoạtđộng chat online cóthểdựđoánđượcviệcbánsách • 2006, MishnevàRijkesửdụngcácđánhgiácủacácquanđiểmđượcthểhiệntrên blog đểdựđoánviệcbánphim • 2007, Liu vàcộngsựdựđoánviệcbáncácsảnphẩmsửdụngmôhìnhphântíchngữnghĩaẩnxácsuất (PLSA) đểtríchxuấtcácchỉsổcủaquanđiểmtừcác blog. • 2009, Schumakervà Chen điềutramốiquanhệgiữacác tin tứcvềcôngtyphásảnvớisựthayđổivềgiácảtrongthịtrường • 2010, AsurvàHubermanchỉrarằngnhữngquanđiểmliênquanđếncácphimđượcthểhiệncôngkhaitrên Tweeter thựcsựcóthểdựđoánđượcdoanhthuphòngvé • Gầnđây, 2011, Johan Bollenvàcôngsựđãcónghiêncứuchỉrarằngcóthểdựđoánthịtrườngchứngkhoándựatrêncác Tweet củacáccôngtytrongthịtrườngchứngkhoán, vớiđộchínhxáclênđến > 85%
Dự báo thị trường chứng khoán • Kinhtếhọchành vi chỉrarằng: • Cảmxúccóthểảnhhưởngđếncáchành vi củacánhânvàtrongviệcđưara 1 quyếtđịnhnàođó • Cácquyếtđịnhtàichínhđượcthúcđẩybởicảmxúcvàtâmtrạngcủa con người • Giảthuyết: Tâmtrạng, cảmxúccóthểảnhhưởngđếngiátrịchứngkhoántươngđươngvớiviệccác tin tứcảnhhưởngđếnthịtrườngchứngkhoán • Bàitoándựbáothịtrườngchứngkhoánchiathành 2 loại: • Dựbáochỉsốchứngkhoánsẽtăng hay giảm • Dựbáochỉsốchứngkhoánsẽtănglênbaonhiêuhoặcgiảmxuốngbaonhiêu • Ý nghĩacủabàitoán: • Giúpcácnhàđầutưđưarađượccácquyếtđịnhđầutưtứcthời => đemlạilợinhuậncaochocácnhàđầutư
Dựbáothịtrườngchứngkhoándựatrên Tweeter • Cộng đồng sử dụng và chia sẻ trạng thái của mình trên Twitter cho biết họ đang cảm thấy như thế nào về ngày hôm đó • dẫn dắt các quyết định mua bán trên thị trường • ảnh hưởng đến giá cả trong thị trường chứng khoán • Có thể dự đoán được chỉ số chứng khoán dựa trên Tweeter
Tại sao chọn Tweeter? • Có thể trích xuất các nội dung tweet để đánh giá được tâm trạng của công chúng trực tiếp, theo thời gian thực một cách nhanh chóng và tiết kiệm => Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ số chứng khoán • Tweeter là 1 trong các mạng xã hội được sử dụng phổ biến nhất trên thế giới => Là 1 nguồn cấp dữ liệu có quy mô rất lớn
Phươngphápdựbáothịtrườngchứngkhoándựatrên Tweeter của Johan Bollenvàcộngsự Cácbước Ưuvànhượcđiểm
Dữliệu • Nguồndữliệu: • 9.83.498 Tweet trêntrang Tweeter, được post bởigần 2.7 triệungườidùngtrongcáccôngtytrongthịtrường DJIA • Cácthông tin tríchxuấttrongmỗi tweet gồm: • Thông tin xácđịnh tweet • Ngày submit • Kiểu submit • Nội dung (khôngquá 140 kýtự) • Thờigian: 28/2/2008 – 19/12/2008 • Cácbướcchuẩnbịdữliệu: • Loạibỏtừdừng, dấuchấmcâu • Nhómcác tweet được submit trêncùngngàyvào 1 nhóm • Chú ý: • Chỉquantâmnhững tweet chứatâmtrạngrõràngcủatácgiả
Các bước Đođộtrễcảmxúc Phântíchcảmxúcngườidùng Dựđoángiácổphiếu
Bước 1: Sinhchuỗithờigiancảmxúc (OF và GPOMS) • OpinionFinder: • Phântíchquanđiểm ở mứccâu • Đocảmxúccủangườidùng: tíchcực hay tiêucực • Xácđịnhtỉlệ tweet tíchcực so với tweet tiêucựcmỗingày • GPOMS: • Đocảmxúccủangườidùngtrên 6 chiềukhácnhau: Calm, Alert, Sure, Vital, Kind, Happy Đocảmxúcngườidùngthành 7 chiều
Vây, các sự kiện văn hóa, xã hội có tác động lên cảm xúc, tâm trạng của cộng đồng. Có thể đoán được cảm xúc của cộng đồng thông qua các tweet của mỗi cá nhân trên Tweeter Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan gì đến sự thay đổi trong thị trường chứng khoán, cụ thể là chỉ số DJIA?
Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA • Giảthuyết: Nếu 1 biến X gâyra Y thìnhữngthayđổitrong X sẽxuấthiện 1 cáchhệthốngtrướcnhữngthayđổitrong Y. => Cácgiátrịtrễcủa X biểuhiện 1 mốitươngquancó ý nghĩathốngkêđốivới Y • Ápdụng: • Tâmtrạng chung của cộng đồng trên Twitter có sự tương đồng với thị trường chứng khoán, nhưng chúng phản ánh trước diễn biến từ 3-4 ngày chứ không phải là một kết quả trong việc tăng giảm của thị trường. • Nếungườidùngcócảmnhậntíchcựcvềmãchứngkhoáncủa 1 côngtythìtrong 1 ngàynàođótrongtươnglai, giácổphiếucủacôngtyđósẽtăng, vàngượclại
Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA (cont.)
Bước 3: Phântíchmốiquanhệnhânquảgiữatâmtrạngvàgiá DJIA (cont.) • Ý nghĩa: • Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng khoán ngày i (tác giả chọn giá trị này là 3 ngày)) • Giá trị p-values < 0.05 => Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng không thể dự đoán được giá trị DJIA
Bước 4: Dựđoánthịtrườngchứngkhoán • Sử dụng mô hình Self-organizing Fuzzy neural Network(SOFNN) để dự đoán giá trị DJIA trên 2 tập đầu vào: • Giá trị DJIA 3 ngày trước • Các hoán vị khác nhau của chuỗi cảm xúc • Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN gồm: • Các giá trị DJIA • Các giá trị đo tâm trạng của n ngày trước
Bước 4: Dựđoánthịtrườngchứngkhoán (cont.) • Tácgiảthử 7 hoánvịcủacácbiếnđầuvàođốivớimôhình SOFNN: IOF = {DJIAt-3, 2,1 , XOF, t-3,2,1} • Trongđó: • DJIA t-3,2,1: giátrị DJIA và X1,t-3,2,1: giátrịchiều 1 củatâmtrạngđượcđobởi GPOMS tạithờiđiểm t-3, t-2, t-1 • I1,3; I1,4; I1,5; I1,6: kếthợpgiữagiátrị DJIA trongquákhớvớichiều 3, 4, 5 , 6 tạithờigiẩm t-3, t-2, t-1
Bước 4: Dựđoánthịtrườngchứngkhoán (cont.) • Kết quả: • Kết luận: • Cảm xúc được đo bởi OF là không hiệu quả • Ngoài Calm, tác giả tìm thấy độ chính xác cao nhất với I1 • Happy không có mối quan hệ nhân quả Granger tốt nhưng khi kết hợp với Caml thì dự đoán chính xác hơn
Ưu và nhược điểm • Ưu điểm: • Độ chính xác khá cao • Nhược điểm: • Chỉ dự đoán được sự tăng, giảm của thị trường chứng khoán • Chưa giới hạn được vùng địa lý và ngôn ngữ • Với những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán
Phương pháp đề xuất Môhình Phânlớp SVM-kNN Dựbáothịtrườngchứngkhoán
Điểm khác biệt • Tập từ POMS: • J.Bollen: Mở rộng dựa trên n-gram theo Google • Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google và tập các từ đồng nghĩa. • Dự đoán chỉ số DJIA: • J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN) • Đề xuất: Áp dụng phương pháp phân lớp bán giám sát SVM-kNN hoặc EM hoặc …
Dự đoán xu hướng • Input: • n: số ngày cảm xúc trễ • Các chỉ số đóng DJIA của n ngày trước đó • Chuỗi tâm trạng theo thời gian của công chúng trong n ngày trước đó tính theo 6 chiều. • Output: Xu hướng của chứng khoán ngày t • Tăng so với ngày t-1 • Giảm so với ngảy t-1 • Bằng ngày t-1
Dự đoán xu hướng (cont.) • Vector thể hiện đặc trưng: Vit = <dt-1, dt-2, …, dt-n, Xi, t-1, Xi,t-2, …, Xi,t-n> • vit : vector thể hiện đặc trưng của cảm xúc theo chiều I • dt : giá trị chỉ số DJIA ngày t • Xi, t : giá trị cảm xúc chiều i trong ngày t. • n: số ngày cảm xúc trễ • Gán nhãn: dựa trên chỉ số đóng DJIA mỗi ngày • +1: chỉ số ngày t > ngày t-1 • -1: chỉ số ngày t < ngày t-1 • 0: chỉ số ngày t = ngày t-1
Kết luận • Báo cáo đã: • Giới thiệu về bài toán dự đoán thị trường chứng khoán dựa trên khai phá quan điểm từ dữ liệu Tweeter • Tìm hiểu về chứng minh giả thuyết “Tâm trạng có thể dự đoán được thị trường chứng khoán” của J.Bollen. • Đề xuất 1 hướng giải quyết nhằm cải tiến kết quả
Định hướng nghiên cứu • Càiđặtvàthửnghiệmchomôhìnhđãđềxuất • Nghiêncứucácmôhìnhbángiámsátkhácvàápdụngvớibàitoándựbáothịtrườngchứngkhoántrên tweeter • Nghiêncứuhướngdựđoánchứngkhoánsẽtănglênbaonhiêuhoặcgiảmxuốngbaonhiêu
Tài liệu tham khảo • 2008. Eugene F.Fama. The behavior of Stock- Market Prices • 2010. X. Zhang, H. Fuehres, P.A. Gloor, Predicting Stock Market Indicators Through Twitter I Hope It is Not as Bad as I Fear, Collaborative Innovation Networks (COINs), Savannah, GA, • 2011. Johan Bollen và công sự, Twitter mood predicts the stock market