DỰ đoán XU HƯỚNG CHỨNG KHOÁN tại sàn HOSE dựa TRÊN TIN tức tài CHÍNH

17 736 5
DỰ đoán XU HƯỚNG CHỨNG KHOÁN tại sàn HOSE dựa TRÊN TIN tức tài CHÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÁO CÁO BÀI TẬP CHUYÊN ĐÊ HỆ HỖ TRỢ QUYẾT ĐỊNH Đề Tài: DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH ▪ Ngành: KHMT ▪ Khóa: 09 ▪ Giảng viên hướng dẫn: PGS.TS ĐỖ PHÚC ▪ Nhóm học viên thực hiện: Huỳnh Đức Huy CH1401005 Cao Hùng Thiên Bảo CH1401001 Dương Thị Xuân Thoại CH1301061 Trần Thành Tân CH1401018 Tháng 08, Thành phố Hồ Chí Minh. Mục Lục DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Chương 1. GIỚI THIỆU Chứng khoán kênh đầu tư có khả sinh lợi cao tiềm ẩn nhiều rủi ro. Do đó, việc dự báo xu hướng vận động thị trường giá cổ phiếu quan tâm. Một mô hình dự đoán có hiệu nhà đầu tư sử dụng để đưa định sử dụng bên hệ thống giao dịch tự động. Việc dự đoán giá chứng khoán tăng giảm khoảng thời gian tới giúp đưa định đầu tư đắn. Kỹ thuật dự báo phổ biến thực dựa liệu giá khứ. Các nhà nghiên cứu áp dụng nhiều thuật toán như: Moving average nhóm tác giả Lauren [12], Giải thuật di truyền Thomas cộng [14], Support Vector Machine nhóm tác giả Lin [13] kỹ thuật khác để phân tích xu hướng chứng khoán đạt kết khả quan. Vấn đề hướng tiếp cận nhà nghiên cứu cố gắng dự đoán xu hướng chứng khoán từ mức giá lịch sử. Tuy nhiên, vấn đề thị trường chứng khoán có dịch chuyển nên dự đoán dựa vào giá khứ chưa đủ. Một số kiện gây tác động tốt xấu đến thị trường chứng khoán. Ví dụ, giá xăng giảm mạnh tác động đến nhà đầu tư, họ bán tất cổ phiếu chứng khoán dầu khí kết giá chứng khoán dầu khí xuống. Một giải pháp khác cho vấn đề xem xét tác động tin tức tài để dự báo cho xu hướng chứng khoán Trước đến với báo cáo em, cần phải xác định việc dự đoán thị trường chứng khoán có khả thi hay không? Theo học thuyết Efficient Market Hypothesis (EMH), thị trường tài chính, hội lợi nhuận khai thác sau phát sinh, DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH giá cổ phiếu bao gồm liệu lịch sử thông tin tổng quát công ty tin tức nội gây khó khăn việc dự đoán nhà đầu tư. Tuy nhiên, theo báo nhóm tác giả Kaya [5] nhóm tác giả Lauren [12] hoàn toàn dự báo thị trường chứng khoán. Trong thực tế, phải thời gian để thị trường tự điều chỉnh theo tác động tin tức. Vì vậy, hướng tiếp cận em thích hợp việc tạo tín hiệu hành động (mua, bán) tương ứng với thông tin từ thị trường so với việc dự đoán xác giá tương lai cổ phiếu. Tại Việt Nam, sàn giao dịch chứng khoán thành phố Hồ Chí Minh (HOSE) thành lập từ năm 2000 việc dự đoán xu hướng chứng khoán sử dụng tin tức tài chưa nghiên cứu. Hơn nữa, ngôn ngữ tiếng Việt có cấu trúc khác với tiếng Anh [3], nên việc xử lý ngôn ngữ phức tạp hơn. Đó động lực để em làm nghiên cứu đề xuất mô hình dự đoán xu hướng chứng khoán cho thị trường Việt Nam thông qua sử dụng tin tức tài liệu giá chứng khoán. Chương 2. QUÁ TRÌNH NGHIÊN CỨU Trong việc xác định xu hướng lên, xuống thị trường chứng khoán. Cần phải xem xét nhiều yếu tố: • Dữ liệu đầu vào: Phương pháp tiếp cận thứ dựa giá lịch sử chứng khoán sử dụng phương thức phân tích kĩ thuật để dự đoán thị trường chứng khoán, phương thức tiếp cận thứ hai dựa vào việc sử dụng tin tức tài chính, em kết hợp hai phương pháp với hy vọng tăng độ xác dự đoán. DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH • Mục tiêu: Mục tiêu chương trình đa dạng dự đoán giá chứng khoán tương lai, xu hướng chứng khoán biến động thị trường. Xu hướng chứng khoán đơn giản dịch chuyển giá cổ phiếu lên xuống. Biến động thị trường thể giao động không ổn định thị trường. Thị trường biến động đồng nghĩa với việc biến động giá cổ phiếu tương ứng. • Khoản thời gian xem xét: Khoản thời gian xem xét dự đoán ngắn hạn dài hạn. Dự đoán ngắn hạn phút đến ngày sau tin tức đưa ra, dự đoán dài hạn tuần, tháng năm sau tin tức đưa ra. Trong nghiên cứu em sử dụng việc dự đoán ngắn hạn cụ thể theo ngày tin tức đưa nhà đầu tư đọc, cập nhật thời gian ngắn tin tức đưa có xu hướng mua hay bán cổ phần nắm giữ dựa vào tính tích cực hay tiêu cực báo ảnh hưởng trực tiếp đến giá cổ phiếu. Nên em kết luận, tin tức ảnh hưởng giá cổ phiếu thời gian ngắn hạn. 2.1. Các bước việc dự đoán xu hướng chứng khoán Dự đoán xu hướng chứng khoán dựa vào tin tức tài xem đơn giản việc phân loại tin. Mục tiêu cuối hệ thống dự đoán xu hướng thị trường chứng khoán dựa vào nội dung tin tức. Dựa yếu tố ảnh hưởng đến việc dự đoán mô tả mục trước, tập phân lớp định sẵn. Ví dụ như: “+1” tương ứng với xu hướng tăng giá cổ phiếu, “-1” tương ứng với xu hướng giảm giá cổ phiếu. Em giả thuyết tin tức đưa có ảnh hưởng đến giá cổ phiếu theo chiều hướng tốt xấu. Vì DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH vậy, em không đưa lớp trung lập vào hệ thống. Tất tin tức đưa vào hệ thống phân vào hai lớp đề cập trên. Hệ thống em chia làm bước chính: bước huấn luyện bước kiểm tra. Trong bước huấn luyện, em chuẩn bị tập liệu huấn luyện, tin tức phân lớp sẵn dựa vào liệu giá cổ phiếu theo ngày. Tập liệu đầu vào cho phương pháp huấn luyện máy học để xây dựng mô hình sử dụng bước kiểm tra để tìm độ xác việc dự đoán. Mô hình dự đoán chứa thành phần mô tả hình gồm: Hình 1. • • • • Mô hình hệ thống Lấy liệu giá chứng khoán tin tức tài Tiền xử lý nội dung văn Gán nhãn văn Xây dựng từ điển mức độ ảnh hưởng tích cực, tiêu cực từ • Đánh trọng số từ văn • Giảm số chiều từ văn • Phân lớp cho văn DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH 2.1.1. Lấy liệu giá chứng khoán và tin tức tài Giá chứng khoán Trong nghiên cứu này, em chọn giá chứng khoán theo ngày rổ chứng khoán VN30 khoản thời gian từ tháng 01/2014 đến tháng 5/2015. Tin tức tài Tin tức tài thu thập chủ yếu từ nguồn tin tức trang web VIETSTOCK.VN hai trang cung cấp tin thức doanh nghiệp niêm yết HSX.VN HNX.VN khoản thời gian từ tháng 01/2014 đến tháng 05/2015. 2.1.2. Tiền xử lý nội dung văn Tất tin tức thu thập dạng html nên chứa nhiều thẻ không cần thiết ngôn ngữ HTML. Vì thế, cần loại bỏ tất thẻ không cần thiết để trích lấy nội dung lưu định dạng văn bản. Đến bước văn chứa nhiều câu, bước hệ thống tách từ từ câu văn bản. Em sử dụng chương trình tách từ Tiếng Việt VNTOKENIZER nhóm tác giả Dien Dinh Hoang Kiem [3]. Công cụ chứng minh đem lại độ xác 90% việc tách từ Tiếng Việt. Tất từ thu đầu vào cho bước tiếp theo. Trong bước cuối giai đoạn này, hệ thống lấy từ tách từ tất văn cải thiện mức độ hiệu tài nguyên hệ thống cách loại bỏ từ không cần thiết mà không đem lại thông tin có ích cho việc phân loại: từ dừng (và, của, là, .), số, kí hiệu. Vì mục đích mà danh sách từ dừng Tiếng Việt với 900 từ em thu thập tay. DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH 2.1.3. Gán nhãn văn Trong nghiên cứu trước đây, có hai cách tiếp cận việc gán nhãn văn bản. Cách tiếp cận thứ gán nhãn cho văn tay dựa vào ý kiến chuyên gia nội dung báo ảnh hưởng đến xu hướng chứng khoán. Mặc dù đạt tỉ lệ xác cao sử dụng phương pháp này, nhiên số lượng báo vấn đề cần quan tâm. Cách tiếp cận thứ hai gán nhãn báo tự động dựa vào ảnh hưởng chúng vào giá cổ phiếu. Phương pháp không xác phương pháp thứ thay đổi giá không nhãn thực báo nhiều trường hợp. Ví dụ, báo tích cực ảnh hưởng đến tăng giá cổ phiếu, nhiên khủng hoảng tài làm rớt giá cổ phiếu. Ngoài ra, áp dụng nghiên cứu thị trường chứng khoán Việt Nam nơi tin tức không phản ánh xác tình hình hoạt động công ty nước ngoài, tin tức thị trường chứng khoán Việt Nam bị thao túng số cá nhân tung tin đồn làm cho giá cổ phiếu giảm tăng theo ý muốn họ nên việc tìm nguồn tin tức đáng tin cậy việc vô quan trọng. 2.1.4. Xây dựng từ điển đánh giá mức độ quan trọng từ Trong nghiên cứu gần nhóm tác giả Mizumoto [15] nhóm tác giả Yang Gao [16], hướng tiếp cận dự đoán xu hướng chứng khoán có sử dụng phương pháp Sentiment dictionary – từ điển đánh giá mức độ tác động tích cực hay tiêu cực từ đến báo nhằm mục đích tăng thêm mức độ xác cho việc đánh trọng số từ. Nhóm tìm hiểu đề xuất việc xây dựng từ điển sentiment xây dựng với mục đích tìm cách nâng cao độ xác DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH báo tiếng Việt. Đầu tiên nhóm sử dụng từ điển tiếng Việt tác giả Duc Ho (Viet74k), sau sử dụng công cụ VNTagger tác giả Phuong Le [17] nhằm mục đích gán nhãn từ loại (tính từ, danh từ, động từ,…) cho từ điển lọc tính từ động từ (tăng, mạnh,…). Cuối cùng, tiến hành gán nhãn báo dựa vào giá cổ phiếu duyệt qua tất báo văn bản, đếm số lần từ từ điển xuất báo với phân lớp tăng số lần từ từ điển xuất báo với phân lớp giảm áp dụng công thức (1) (2) để tính số từ từ điển: Với tp,wi điểm ứng với ảnh hưởng tích cực từ wi từ điển, tn,wi điểm ứng với ảnh hưởng tiêu cực từ wi từ điển. | P| số văn gán nhãn tăng mà từ t xuất hiện, |N| số văn gán nhãn giảm mà từ t xuất hiện. Sau duyệt qua tất báo, từ từ điển mà không xuất báo phân lớp tăng giảm bị loại bỏ để giảm thời gian xử lý. 2.1.5. Đánh trọng số từ văn Sau loại bỏ bớt từ không cần thiết, sau tạo từ điển luật dựa vào việc phân tích từ văn bản. Mỗi dòng từ điển đại diện cho văn gồm: số lượng từ tương ứng văn bản, dánh sách từ, trọng số từ. Để đánh trọng số cho luật em sử dụng phương pháp Delta TFIDF nhóm tác giả Prollochs [8], mục tiêu việc cải tiến tăng độ quan trọng luật phân bố không lớp giảm lớp tăng giảm độ DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH quan trọng luật phân bố lớp giảm lớp tăng. Chi tiết thuật toán sau: Với Ct,d số lần luật t xuất tin tức d, P t số văn gán nhãn tăng mà luật t xuất hiện, |P| số văn gán nhãn tăng toàn văn bản, N t số văn gán nhãn giảm mà luật t xuất hiện, |N| số văn gán nhãn giảm toàn văn bản, Vt,d trọng số cho luật t văn d 2.1.6. Giảm số chiều từ văn Phương pháp giảm số chiều văn chia thành: thuật toán FE (Feature extraction) Martineau cộng [9] thuật toán FS (Feature selection) nhóm tác giả Kaya [5]. Thuật toán FS chọn tập luật có tính đại diện cao từ từ điển luật từ lập luật với số chiều giảm bớt đáng kể Thuật toán FE biến đổi luật ban đầu thành luật với không gian luật nhỏ để giảm bớt số chiều. Mặc dù thuật toán FE chứng minh hiệu cho việc giảm số chiều, nhiên tập luật lớn thường làm số thuật toán FE khả giải độ tính toán phức tạp thuật toán FS sử dụng phổ biến cho việc giải vấn đề giảm số chiều từ điển luật. Trong nghiên cứu này, em áp dụng thuật toán FS. Đã có nhiều nghiên cứu tiến hành giải thuật FS nhóm tác giả Hayes [10] việc phân loại văn như: MI (Mutual information), IG (Information Gain), GSS (GSS Coefficient), CHI (Chi square), RS (Relevancy Score). Gần đây, nghiên cứu Lewis cộng [6] cho thấy thuật toán OCFS cho hiệu suất cao thuật toán FS. Ý tưởng thuật toán OCFS là: 10 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH • Tính centroid m=1,2,…,c cho phân lớp huấn luyện • Tính centroid m cho tất phân lớp huấn luyện • Tính điểm luật i-th • Chọn K luật có điển cao Em dùng thuật toán OCFS việc giảm số chiều nghiên cứu này. 2.1.7. Phân lớp cho văn Dựa vào cách tiếp cận gần đây: theo nhóm tác giả Minh Nguyen [4] có lớp định nghĩa để dự báo xu hướng thị trường: lớp tương ứng với tăng giảm lớp tương ứng với tăng, giảm, trung lập. Mục tiêu chung xử lý tin tức để phân lớp tin tức vào lớp: tăng giảm với cổ phiếu chọn. Thỉnh thoảng việc phân lớp mở rộng việc định nghĩa lớp trung lập cách làm nhóm tác giả Sebastiani [11]. 2.2. Chi tiết hệ thống Em thu thập báo từ trang web vietstock.vn khoản thời gian từ tháng 01/2014 đến tháng 05/2015. Kết quả, em thu 2725 báo. Trong nghiên cứu, em chọn báo chung kinh tế Việt Nam báo liên quan đến hoạt động kinh doanh công ty liên quan rổ VN30 (BVH, CII, CSM, DPM, DRC, FLC, FPT, GMD, HAG, HCM, HPG, HSG, HVG, IJC, ITA, KBC, KDC, MBB, MSN, OGC, PPC, PVD, PVT, REE, SSI, STB, VCB, VIC, VNM, VSM) thuộc sàn giao dịch Hồ Chí Minh. Để tiện cho trình so sánh dựa khoản thời gian số lượng báo em chia chương trình làm mẫu gồm: mẫu chứa tin tức từ tháng 01/2015 đến tháng 05/2015, mẫu chứa tin tức từ tháng 06/2014 10 11 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH đến tháng 05/2015, mẫu chứa tin tức từ tháng 01/2014 đến tháng 05/2015 bảng 1. Chi tiết báo theo mẫu Tập huấn luyện 1090 1499 1730 Em sử dụng SVM tác giả Vapnik [2] làm phương pháp máy học để phân loại báo. SVM chứng minh phương pháp phân loại văn hiệu với tiếng Việt tiếng Anh. SVM dựa vào biên định, nhằm chia mẫu lớp khác nhau. Một biên định tốt phải cách xa mẫu tất lớp tách biệt. SVM xem dễ triển khai giải thuật phân lớp khác, nhiên người sử dụng chưa quen với thường đạt kết không mong muốn họ triển khai thuật toán trên. Do em sử dụng công cụ LibSVM nhóm tác giả Chang [1] để tiến hành trình phân lớp. LibSVM thư viện thiết kế cho phương pháp máy học SVM. Mục tiêu thư viện giúp người dùng tùy biến triển khai SVM đạt kết tối ưu nhất. 11 12 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Chương 3. KẾT QUẢ THỰC NGHIỆM Ma trận kết hợp (Confusion matrix), precision (độ xác mẫu), độ phủ (recall) accuracy (độ xác) sử dụng để đánh giá mô hình đề xuất. Trong ma trận kết hợp, TP TN phân lớp cho lớp tương ứng, FP FN phân lớp sai cho lớp tương ứng. Ma trận kết hợp Bảng 1. Lớp dự đoán Tăng T Lớp ăng G thực tế iảm Giả m TP FN FP TN Accuracy phần tăng dự đoán tăng (TP) giảm dự đoán giảm (TN), precision định nghĩa tăng dự đoán tăng (TP) chia cho tổng tăng dự đoán tăng (TP) giảm dự đoán tăng (FP). Recall định nghĩa tăng dự đoán tăng (TP) chia cho tổng tăng dự đoán tăng (TP) tăng dự đoán giảm (FN). Các công thức tương ứng sau: Để tìm mô hình tối ưu cho hệ thống dự đoán xu hướng chứng khoán, em tiến hành kiểm tra hoạt động hệ thống với nhiều cách tiếp cận khác nhau. Em tiến hành so sánh hiệu suất ba mô hình phân loại văn sau đây: mô hình sử dụng phương pháp 12 13 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH TFIDF thông thường, mô hình sử dụng thuật toán TFIDF cải tiến, mô hình sử dụng thuật toán TFIDF cải tiến kết hợp với từ điển đánh giá mức độ ảnh hưởng từ sử dụng liệu báo mẫu 1, em chọn tham số tối ưu cho phương pháp máy học SVM sau: Loại SVM C-SVM, hàm kernel RBF với tham số C=4148, g=0.00048. Bảng so sánh phương pháp Alpha TFIDF TFIDF Accuracy 0.696 0.763 0.602 Bảng cho thấy tối ưu thuật toán đánh trọng số alpha TFIDF so với phương pháp TFIDF với độ xác cải thiện lên thêm 9.4% từ 60.2% lên 69.6% việc phân lớp báo Tiếng Việt. Ngoài việc kết hợp phương pháp Alpha TFIDF từ điển mức độ ảnh hưởng từ đề xuất độ xác tăng thêm 6.7% từ 69.6% lên 76.3%. Vì em sử dụng kết hợp phương pháp alpha TFIDF từ điển mức độ ảnh hưởng mô hình. Tiếp theo, em tiến hành so sánh độ đo mẫu thời gian ứng với tháng, 10 tháng, 15 tháng để tìm hiểu độ xác hệ thống tăng số lượng báo khoản thời gian dài hơn. Hình 2. Biểu đồ so sánh mẫu theo khoản thời gian Biểu đồ cho thấy độ xác (accuracy) mẫu tốt khoản 76% với độ phủ (recall) lên đến 94%. Ở mẫu độ xác (accuracy) giảm xuống 66.5%, nhiên mẫu độ xác 13 14 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH (accuracy) lại tăng lên 71.4%. Ở mẫu độ xác mẫu (precision) lại tăng lên 80% lớn so với mẫu 1, điều số lượng báo tăng lên nên nâng cao đáng kể độ xác mẫu dự đoán. Nhìn chung độ xác (accuracy) hệ thống mức 65% việc độ xác (accuracy) cao thấp mẫu có nhiễu tin tức thu thập được. Để chứng minh khả dự đoán xu hướng thực tế, em sử dụng liệu giá đóng cửa chứng khoán rổ VN30 vào tháng 03/2015. Sau đó, chọn báo khoản thời gian sử dụng mô hình tiến hành dự đoán xu hướng giá. Theo kết thu hình 3, ta thấy xu hướng tăng (+1), giảm (-1) thể đường bên đường biểu diễn giá cho thấy kết dự đoán xu hướng so với giá thực tế cổ phiếu rổ VN30. Kết thực nghiệm cho thấy việc dự đoán xu hướng thông qua tin tức tài có độ tương quan cao với giao động giá thực tế. Hình 3. Biểu đồ giá dự đoán xu hướng tháng 03/2015 Qua phần thử nghiệm trên, mô hình xây dựng cho thấy tính khả thi việc dự đoán xu hướng chứng dựa vào tin tức tài thị trường chứng khoán Việt Nam. Ngoài việc kết hợp 14 15 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH số phương pháp alpha TFIDF việc xây dựng từ điển đánh giá mức độ ảnh hưởng từ lên báo cho thấy độ xác hệ thống cải thiện so với không sử dụng phương pháp cải tiến trên. Chương 4. KẾT LUẬN Trong nghiên cứu này, em chứng minh việc sử dụng tin tức tài có ảnh hưởng đến giá cổ phiếu Việt Nam cụ thể kết thực nghiệm rổ VN30. Để đạt điều đó, tin tức tài với giá chứng khoán đưa vào đánh giá. Và qua trình thực nghiệm chứng minh tin tức tài có tương quan với giá chứng khoán. Tuy nhiên, tỉ lệ xác chương trình nâng cao tìm nguồn tin tức đáng tin cậy phản ánh thực tế thị trường chứng khoán Việt Nam. Trong tương lai, nhóm tiến hành cải thiện độ tin cậy chương trình dựa vào việc cải tiến thuật toán SVM, sử dụng phương pháp huấn luyện sử dụng phương pháp thống kê Naïve Bayes để so sánh với SVM nhằm cải thiện độ xác việc phân loại tin tức. 15 16 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Chương 5. TÀI LIỆU THAM KHẢO Chang, C. C., C. J. Lin, “LIBSVM: a library for support vector machines. ACM transactions on intelligent systems and technology 2: 27: 1–27: 27.” (2012). [2] Cortes, Vladimir Vapnik, “Support-vector networks.” Machine learning 20.3 (1995): 273-297. [3] Dien Dinh, Hoang Kiem, “Vietnamese Word Segmentation.” NLPRS. Vol. 1. 2001. [4] Nguyên Thi Minh, Azim Roussanaly, “A hybrid approach to word segmentation of Vietnamese texts.” Language and Automata Theory and Applications. Springer Berlin Heidelberg, 2008. 240249. [5] Kaya, MI Yasef, “Stock price prediction using financial news articles.” Information and Financial Engineering (ICIFE), 2010 2nd IEEE International Conference on. IEEE, 2010. [6] Lewis, David D, “Feature selection and feature extraction for text categorization.” Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992. [7] Yan, Jun, “OCFS: optimal orthogonal centroid feature selection for text categorization.” Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2005. [8] Prollochs, Nicolas, “Enhancing Sentiment Analysis of Financial News by Detecting Negation Scopes.” System Sciences (HICSS), 2015 48th Hawaii International Conference on. IEEE, 2015. [9] Martineau, Justin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis.” ICWSM. 2009. [10] Hayes, Phillip J., “Tcs: a shell for content-based text categorization.”Artificial Intelligence Applications, 1990., Sixth Conference on. IEEE, 1990. [11] Sebastiani, Fabrizio, “Machine learning in automated text categorization.” ACM computing surveys (CSUR) 34.1 (2002): 147. [12] Lauren, Stefan, “Stock trend prediction using simple moving average supported by news classification.” Advanced Informatics: Concept, Theory and Application (ICAICTA), 2014 International Conference of. IEEE, 2014. [1] 16 17 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Lin, Yuling, “An SVM-based approach for stock market trend prediction.” Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013. [14] Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms(2000): 72-75. [15] Mizumoto, Keisuke, “Sentiment analysis of stock market news with semi-supervised learning.” Computer and Information Science (ICIS), 2012 IEEE/ACIS 11th International Conference on. IEEE, 2012. [16] Gao, Yang, "Sentiment classification for stock news." Pervasive Computing and Applications (ICPCA), 2010 5th International Conference on. IEEE, 2010. [17] Le-Hong, Phuong, “An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts.” Traitement Automatique des Langues Naturelles-TALN 2010. 2010. [13] 17 [...]... thấy việc dự đoán xu hướng thông qua tin tức tài chính có độ tương quan khá cao với sự giao động của giá thực tế Hình 3 Biểu đồ giá và dự đoán xu hướng trong tháng 03/2015 Qua phần thử nghiệm ở trên, mô hình được xây dựng cho thấy tính khả thi trong việc dự đoán xu hướng chứng dựa vào tin tức tài chính tại thị trường chứng khoán Việt Nam Ngoài ra việc kết hợp một 14 15 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG... như sau: Để tìm được mô hình tối ưu nhất cho hệ thống dự đoán xu hướng chứng khoán, em tiến hành kiểm tra hoạt động của hệ thống với nhiều cách tiếp cận khác nhau Em tiến hành so sánh hiệu suất của ba mô hình phân loại văn bản sau đây: mô hình 1 sử dụng phương pháp 12 13 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH TFIDF thông thường, mô hình 2 sử dụng thuật toán... lai, nhóm sẽ tiến hành cải thiện độ tin cậy của chương trình dựa vào việc cải tiến thuật toán SVM, sử dụng phương pháp huấn luyện sử dụng phương pháp thống kê Naïve Bayes để so sánh với SVM nhằm cải thiện độ chính xác việc phân loại tin tức 15 16 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Chương 5 TÀI LIỆU THAM KHẢO Chang, C C., C J Lin, “LIBSVM: a library for... được điều đó, tin tức tài chính cùng với giá chứng khoán được đưa vào đánh giá Và qua quá trình thực nghiệm đã chứng minh tin tức tài chính có sự tương quan với giá chứng khoán Tuy nhiên, tỉ lệ chính xác của chương trình có thể được nâng cao nếu tìm được một nguồn tin tức đáng tin cậy và phản ánh đúng thực tế thị trường chứng khoán tại Việt Nam Trong tương lai, nhóm sẽ tiến hành cải thiện độ tin cậy của... độ chính xác của hệ thống khi tăng số lượng bài báo và khoản thời gian dài hơn Hình 2 Biểu đồ so sánh các mẫu theo khoản thời gian Biểu đồ trên cho thấy độ chính xác (accuracy) của mẫu 1 là tốt nhất khoản 76% với độ phủ (recall) lên đến 94% Ở mẫu 2 độ chính xác (accuracy) giảm xu ng còn 66.5%, tuy nhiên ở mẫu 3 độ chính xác 13 14 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC... TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH số phương pháp như alpha TFIDF cũng như việc xây dựng một bộ từ điển đánh giá mức độ ảnh hưởng của từ lên bài báo cho thấy độ chính xác của hệ thống được cải thiện so với khi không sử dụng các phương pháp cải tiến trên Chương 4 KẾT LUẬN Trong bài nghiên cứu này, em đã chứng minh việc sử dụng tin tức tài chính có ảnh hưởng đến giá cổ phiếu tại Việt Nam... người dùng tùy biến và triển khai SVM đạt kết quả tối ưu nhất 11 12 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH Chương 3 KẾT QUẢ THỰC NGHIỆM Ma trận kết hợp (Confusion matrix), precision (độ chính xác giữa các mẫu), độ phủ (recall) và accuracy (độ chính xác) được sử dụng để đánh giá mô hình đề xu t Trong ma trận kết hợp, TP và TN chỉ ra phân lớp đúng cho các lớp...11 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH đến tháng 05/2015, mẫu 3 chứa các tin tức từ tháng 01/2014 đến tháng 05/2015 như bảng 1 1 Chi tiết bài báo theo từng mẫu Tập huấn luyện 1090 1499 1730 Em sử dụng SVM của tác giả Vapnik trong [2] làm phương pháp máy học để phân loại bài báo SVM được chứng minh là một phương pháp phân... Bảng 1 Lớp dự đoán Tăng T Lớp m TP G iảm FN FP ăng thực tế Giả TN Accuracy là phần tăng dự đoán là tăng (TP) và giảm dự đoán là giảm (TN), precision được định nghĩa là tăng dự đoán là tăng (TP) chia cho tổng của tăng được dự đoán là tăng (TP) và giảm được dự đoán là tăng (FP) Recall được định nghĩa là tăng được dự đoán là tăng (TP) chia cho tổng của tăng dự đoán là tăng (TP) và tăng được dự đoán là giảm... được Để chứng minh khả năng dự đoán xu hướng trong thực tế, em sử dụng dữ liệu giá đóng cửa của chứng khoán rổ VN30 vào tháng 03/2015 Sau đó, chọn các bài báo trong cùng khoản thời gian trên và sử dụng mô hình tiến hành dự đoán xu hướng giá Theo kết quả thu được trong hình 3, ta thấy xu hướng tăng (+1), giảm (-1) được thể hiện bằng đường bên dưới đường biểu diễn giá cho thấy kết quả dự đoán xu hướng . DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH • Mục tiêu: Mục tiêu chương trình có thể rất đa dạng có thể là dự đoán giá chứng khoán trong tương lai, xu hướng. .;B=C;;-8/-DEF/0G9H;IJKF./LM-=C/0;-N/0O-F./ Dự đoán xu hướng chứng khoán dựa vào tin tức tài chính có thể được xem đơn giản là việc phân loại tin. Mục tiêu cuối cùng của hệ thống là dự đoán xu hướng thị trường chứng khoán dựa vào. bản • Phân lớp cho văn bản 5 6 DỰ ĐOÁN XU HƯỚNG CHỨNG KHOÁN TRONG RỔ VN30 TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH 2.1.1. Lấy dữ liệu giá chứng khoán v tin tức ti chính 9.;-N/0O-F./ Trong bài

Ngày đăng: 14/09/2015, 18:42

Từ khóa liên quan

Mục lục

  • Chương 1. GIỚI THIỆU

  • Chương 2. QUÁ TRÌNH NGHIÊN CỨU

    • 2.1. Các bước chính trong việc dự đoán xu hướng chứng khoán

      • 2.1.1. Lấy dữ liệu giá chứng khoán và tin tức tài chính

        • Giá chứng khoán

        • Tin tức tài chính

        • 2.1.2. Tiền xử lý nội dung văn bản

        • 2.1.3. Gán nhãn văn bản

        • 2.1.4. Xây dựng bộ từ điển đánh giá mức độ quan trọng của từ

        • 2.1.5. Đánh trọng số của từ trong văn bản

        • 2.1.6. Giảm số chiều của từ trong văn bản

        • 2.1.7. Phân lớp cho văn bản

        • 2.2. Chi tiết hệ thống

        • Chương 3. KẾT QUẢ THỰC NGHIỆM

        • Chương 4. KẾT LUẬN

        • Chương 5. TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan