ỨNG DỤNG TEXT MINING dự báo THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

57 520 9
ỨNG DỤNG TEXT MINING dự báo THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - PHẠM XUÂN DŨNG ỨNG DỤNG TEXT MINING DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH Mã sớ: 60.48.01.01 HƯỚNG DẪN KHOA HỌC: GS.TSKH HOÀNG VĂN KIẾM TP HỒ CHÍ MINH - 2015 Lời cam đoan: Tơi xin cam đoan nội dung luận văn tơi tìm hiểu, tổng hợp tự nghiên cứu Tất liệu thử nghiệm liệu thực kết thử nghiệm trình bầy luận văn trung thực Những phần hay phương pháp sưu tầm từ tài liệu khác trích dẫn đầy đủ Tơi xin chịu trách nghiệm nội dung luận văn chịu hình thức kỷ luật lời cam đoan không trung thực TP HCM, ngày tháng năm 2016 Học Viên Phạm Xuân Dũng i MỤC LỤC Trang CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG KHỐN, CÁC KỸ THUẬT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 1.1 Mục tiêu, đối tượng, phạm vi đề tài luận văn thạc sĩ 1.2 Giới thiệu toán dự báo thị trường chứng khoán 1.3 Giả thiết thị trường hiệu [6, 30] 1.4 Các chứng chống lại giải thiết thị trường hiệu [6, tr 53-56] 1.5 Tổng quan tình hình nghiên cứu nước giới CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12] 12 2.1 Thuật tốn K-Trung bình (K-means)[4] 12 2.2 Thuật toán định (Decision tree)[4] 13 2.3 K-láng giềng gần (K-Nearest Neighbor)[4] .13 2.4 Support Vector Machines (SVM)[4] 15 2.4.1 Giới thiệu 15 2.4.2 Bài toán cách giải 15 2.4.3 Hàm nhân Kernel 21 2.4.4 Thuật toán Sequential Minimal Optimization (SMO) 22 CHƯƠNG 3: ĐỀ XUẤT MƠ HÌNH CẢI TIẾN DỰ BÁO XU HƯỚNG CỦA CHỈ SỐ VN-INDEX SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN 24 3.1 Đề xuất mô hình cải tiến 25 3.2 Nguồn liệu: 26 3.3 Phương pháp kết hợp nội dung tin tức 27 3.4 Gán nhãn tin tức để chuẩn bị liệu cho giai đoạn huấn luyện .28 3.5 Loại bỏ thành phần không cần thiết báo 29 3.6 Gán nhãn từ loại 29 3.7 Loại bỏ từ dừng[4] 30 3.8 Lựa chọn đặc trưng [4, 12] 32 3.9 Biểu diễn báo theo không gian vector 33 ii CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 35 4.1 Các module chương trình thử nghiệm 35 4.2 Phương pháp đánh giá hiệu dự báo 35 4.3 Kết thử nghiệm: 36 4.3.1 Thử nghiệm 1: Áp dụng mơ hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu .36 4.3.2 Thử nghiệm 2: Áp dụng mơ hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu .38 4.3.3 Thử nghiệm 3: Áp dụng mơ hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu .40 4.4 Tổng kết chương 42 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43 5.1 Kết luận 43 5.2 Hướng phát triển 43 TÀI LIỆU THAM KHẢO 45 iii Danh mục thuật ngữ ký hiệu Giải thích Mutual information(thơng tin tương hỗ) Thị trường giao dịch chứng khoán Thị trường chứng khoán Support vector machine(máy vectơ hỗ trợ) Sequential minimal optimization(thuật tốn tới tiểu tuần tự) Là sớ thể biến động giá cổ phiếu giao dịch TTGDCK TP.HCM Tin tức làm cho giá VN-INDEX ngày hôm sau tăng so với ngày hôm trước Tin tức làm cho giá VN-INDEX ngày hôm sau không tăng, không giảm so với ngày hôm trước Tin tức làm cho giá VN-INDEX ngày hôm sau giảm so với ngày hôm trước Kỹ thuật khai phá văn Thuật ngữ MI TTGDCK TTCK SVM SMO VN-INDEX Tin tớt Tin trung tính Tin xấu KTKPVB iv Danh mục bảng DANH MỤC BẢNG Trang Bảng 1.1: Thơng tin số cơng trình nghiên cứu sử dụng text mining dự báo chứng khoán giới .10 Bảng 3.1: Bảng số liệu tin tức thu thập từ trang báo điện tử loại bỏ nhiễu tin ngắn 26 Bảng 3.2: Bảng lịch sử giá số VN-INDEX 26 Bảng 3.3: Bảng phân loại tin tức theo lịch sử giá 28 Bảng 3.4: Các biểu thức quy lấy phần tin tức VNEXPRESS 29 Bảng 3.5: Một số từ dừng văn tiếng Việt 30 Bảng 3.6: Trích phần danh sách từ tiếng Việt [31] 31 Bảng 4.1: Các module chương trình thử nghiệm .35 Bảng 4.2 Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm .36 Bảng 4.3: Một số đặc trưng có thơng tin tương hỗ cao lớp tương ứng thử nghiệm 37 Bảng 4.4: Kết thử nghiệm .37 Bảng 4.5: Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm 38 Bảng 4.6: Một số đặc trưng có thơng tin tương hỗ cao lớp tương ứng thử nghiệm 38 Bảng 4.7: Bảng kết thử nghiệm .39 Bảng 4.8: Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm 40 Bảng 4.9: Một số đặc trưng có thơng tin tương hỗ cao lớp tương ứng thử nghiệm 40 Bảng 4.10: Bảng kết thử nghiệm .41 v Danh mục hình vẽ biểu đồ DANH MỤC HÌNH VẼ Trang Hình 1.1: Tính liên ngành ứng dụng text mining để dự báo thị trường[21] Hình 1.2: Sơ đồ thành phần hệ thớng dự báo thị trường[21] Hình 1.3: Mơ hình dự báo giá chứng khoán sử dụng liệu Twitter [24] Hình 1.4: Mơ hình huấn luyện đề xuất [23] sử dụng phân loại văn dự báo số VN-INDEX .9 Hình 1.5: Mơ hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn đề xuất [23] Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4] 16 Hình 2.2: Ví dụ biên không tốt [4] 17 Hình 2.3: Ví dụ biên tối ưu [4] 17 Hình 2.4: Siêu phẳng phân chia liệu ràng buộc [4] .18 Hình 2.5: Trường hợp liệu có nhiễu [4] 20 Hình 3.1: Sơ đồ xây dựng mơ hình máy học sử dụng text mining dự báo VNINDEX, cải tiến từ mơ hình đề xuất [23] 25 Hình 3.2: Sơ đồ dự báo xu hướng sớ VN-INDEX sử dụng mơ hình máy học đã xây dựng .25 Hình 3.3: Sơ đồ phương pháp kết hợp tin tức thành văn 28 vi MỞ ĐẦU MỞ ĐẦU Để tồn phát triển, người ln ln tìm cách để dự báo tương lai, có nhiều tốn dự báo mà người đã tìm cách giải dự báo thời tiết, dự báo thị trường chứng khoán, dự báo giá vàng, dự báo nhu cầu tiêu dùng, v.v Trong đó, dự báo xu hướng thị trường chứng khoán tốn khó từ lâu đã thu hút nhiều nghiên cứu giới Thị trường chứng khốn đới tượng dự báo phúc tạp, điều thể chỗ thị trường luôn biến động, chịu tác động nhiều yếu tớ khó kiểm sốt khó đốn biết tình hình thiên tai, dịch bệnh, quân giới, hành vi mua bán mang tính cảm tính nhà đầu tư thị trường Trong dịnh hàng ngày, bị chi phối thông tin mà nghe thấy, nhìn thấy Một nguồn thơng tin mà nghe thấy, nhìn thấy hàng ngày tin tức tình hình kinh tế, xã hội báo điện tử Các tin tức tắc động đến hành vi mua bán, đầu tư chúng ta, đến lượt hành vi mua bán, đầu tư tác động đến tình hình cung, cầu thị trường qua tác động đến giá thị trường Góp phần vào giải pháp dự báo thị trường chứng khoán Việt Nam, đặc biệt khảo sát liên hệ tin tức tình hình kinh tế, tài báo điện tử phổ biến Việt Nam số VN-INDEX, luận văn đề xuất thử nghiệm mơ hình dự báo thị trường chứng khoán Việt Nam cách kết hợp thuật tốn khai phá văn liệu sớ Nguồn liệu văn luận văn tin tức tài chính, chứng khốn báo điện tử phổ thông Việt Nam báo Tuổi trẻ, Thanh Niên, VNEXPRESS, Vietstock, đối tượng dự báo luận văn số VN-INDEX Các kết thử nghiệm luận văn đã cho kết khả quan kết dự báo nguồn tham khảo khách quan có giá trị cho nhà quản lý đầu tư thị trường chứng khoán định đầu tư Cấu trúc luận văn gồm chương sau: - Chương 1: Tổng quan toán dự báo thị trường chứng khốn, kỹ thuật cơng trình liên quan MỞ ĐẦU - Chương 2: Các phương pháp khai phá văn - Chương 3: Đề xuất mô hình dự báo thị trường chứng khốn Việt Nam sử dụng kỹ thuật khai phá văn - Chương 4: Xây dựng chương trình thử nghiệm, kết phân tích - Chương 5: Kết luận hướng phát triển Chương 1: Tổng quan toán dự báo TTCK, kỹ thuật cơng trình liên quan CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG KHỐN, CÁC KỸ THUẬT VÀ CÁC CƠNG TRÌNH LIÊN QUAN Trong chương chúng tơi trình bầy mục tiêu, đối tượng, phạm vi đề tài luận văn thạc sĩ Sau chúng tơi giới thiệu qua toán dự báo thị trường chứng khoán, cuối điểm qua số kỹ thuật dự báo thị trường chứng khốn sớ cơng trình nghiên cứu liên quan đến luận văn nước giới thời gian gần 1.1 Mục tiêu, đối tượng, phạm vi đề tài luận văn thạc sĩ Mục tiêu nghiên cứu đề tài + Tìm hiểu, phân tích kỹ thuật dự báo chứng khoán đại Việt Nam giới + Đề xuất cải tiến nhằm làm tăng độ xác việc dự báo thị trường chứng khoán sử dụng kỹ thuật text mining + Xây dựng chương trình thử nghiệm Đối tượng phạm vi nghiên cứu đề tài + Đối tượng nghiên cứu luận văn dự báo lên xuống (với ba mức tăng, không tăng-không giảm, giảm) sớ chứng khốn VN-INDEX trước ngày + Phạm vi nghiên cứu luận văn sử dụng kỹ thuật phân loại văn bản(SVM) áp dụng tập tin tức tiếng Việt chuyên mục tài chính, chứng khoán trang báo điện tử phổ biến Việt Nam 1.2 Giới thiệu toán dự báo thị trường chứng khoán Dự báo thị trường chứng khoán từ lâu đã thu hút nhiều nghiên cứu từ nhà kinh tế học nhà khoa học máy tính Dự báo thị trường chứng khoán sử dụng text mining lĩnh vực thu hút nhiều nghiên cứu giới Đây lĩnh vực liên ngành ngơn ngữ học, học máy, tài hành vi (xem Hình 1.1) Chương 4: Xây dựng chương trình thử nghiệm TU: Là sớ dự báo cho xu hướng tăng TD: Là số dự báo cho xu hướng giảm TN: Là số dự báo cho xu hướng không tăng, không giảm FU: Là số dự báo sai cho xu hướng tăng FD: Là số dự báo sai cho xu hướng giảm FN: Là số dự báo sai cho xu hướng không tăng, không giảm Hiệu (hay độ xác) hệ thớng dự báo, đánh giá công thức (1.1): Accuracy TU + TD + TN TU + TD + TN + FU + FD + FN (4.1) 4.3 Kết thử nghiệm: Trong phần này, tiến hành nhiều thử nghiệm với tập liệu huấn luyện liệu kiểm tra thời kỳ khác để so sánh kết đánh giá hiệu mơ hình đã đề xuất chương 4.3.1 Thử nghiệm 1: Áp dụng mơ hình cải tiến đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu Giải thích: Trong thử nghiệm này, kết hợp nội dung tất báo ngày từ tất các trang web đã diễn tả bảng 3.5 phân chia tập liệu tổng thể thành tập huấn luyện kiểm tra sau: Bảng 4.2 Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm Tập huấn luyện Tập kiểm tra Từ ngày Đến ngày Số lượng báo Số tin tốt 13/12/2013 20/01/2015 258 21/01/2015 01/04/2015 37 36 Số tin xấu 146 Số tin trung tính 19 18 112 Chương 4: Xây dựng chương trình thử nghiệm Sau trình tiền xử lý, gán nhãn từ loại, lựa chọn đặc trưng dựa vào thông tin tương hỗ, chúng tơi chọn sớ đặc trưng có giá trị thông tin tương hỗ cao đối với mỗ lớp bảng sau, số lượng đặc trưng dài vài chúng tơi trình bầy sớ Bảng 4.3: Một sớ đặc trưng có thơng tin tương hỗ cao đới với lớp tương ứng thử nghiệm Đặc trưng Thông tin tương hỗ lớp tin tốt Thông tin tương hỗ lớp tin xấu đầu_cơ/v 0.025249237 0.02319865 mạnh_dạn/a 0.023437539 0.023691759 bay_hơi/v 0.01869221 0.018894653 thanh_tra/v 0.01869221 0.018894653 dao_động/v 0.017376904 0.018956855 vững_chắc/a 0.01715846 0.022911831 lạc_quan/a 0.017052476 0.015980932 đảo_ngược/v 0.016662147 0.018025462 công_tác/v 0.016325821 0.016130281 ế/a 0.016325821 0.016130281 Kết quả: Bảng 4.4: Kết thử nghiệm Số lượng đặc trưng 75 82 88 Tham số mơ hình SVM Epsilon=0.000001, Complexity=8, Tolerance=0.001, Kernel Type=Laplacian Epsilon=0.000001, Complexity=8, Tolerance=0.01, KernelType=Laplacian Epsilon=0.000001,Complexity=10, Tolerance=0.001, KernelType=Laplacian 37 Tỉ lệ dự báo 70.27% 70.27% 64.88% Chương 4: Xây dựng chương trình thử nghiệm 33 Epsilon=0.000001, Complexity=6, Tolerance=0.01, kernelType=Laplacian 56.75% 4.3.2 Thử nghiệm 2: Áp dụng mơ hình cải tiến đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu Tương tự thử nghiệm mặt phương pháp, nhiên chọn tập liệu huấn luyện tập liệu kiểm tra khác thử nghiệm mặt thời gian sau: Bảng 4.5: Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm Tập huấn luyện Tập kiểm tra Từ ngày Đến ngày Số lượng báo Số tin tốt 16/12/2013 19/11/2014 220 20/11/2014 19/01/2015 35 Số tin xấu 123 Số tin trung tính 22 13 97 Bảng 4.6: Một sớ đặc trưng có thơng tin tương hỗ cao đối với lớp tương ứng thử nghiệm Đặc trưng Thông tin tương hỗ lớp tin tốt Thông tin tương hỗ lớp tin xấu 0.0115831 0.0114226 0.0050281 0.0054310 0.0020041 0.0020863 0.0001713 0.0002000 0.0023449 0.0020490 0.0000001 0.0000038 ấm/a ảm_đạm/a ấn_định/v an_tâm/a an_toàn/a ấn_tượng/a 38 Chương 4: Xây dựng chương trình thử nghiệm an_ủi/v 0.0000848 0.0000991 Kết thử nghiệm Bảng 4.7: Bảng kết thử nghiệm Số lượng đặc trưng tham số mơ hình SVM Độ xác Sớ đặc trưng=67,,Epsilon=0.000001,Complexity=1,Tolerance=0 01,kernelType=1 77.14% Số đặc trưng=69,,Epsilon=0.000001,Complexity=1,Tolerance=0 01,kernelType=1 77.14% Số đặc trưng=69,,Epsilon=0.000001,Complexity=1,Tolerance=0 001,kernelType=1 77.14% Số đặc trưng=67,,Epsilon=0.000001,Complexity=2,Tolerance=0 01,kernelType=1 74.29% Số đặc trưng=67,,Epsilon=0.000001,Complexity=3,Tolerance=0 01,kernelType=1 74.29% Số đặc trưng=69,,Epsilon=0.000001,Complexity=9,Tolerance=0 001,kernelType=3 74.29% Số đặc trưng=69,,Epsilon=0.000001,Complexity=10,Tolerance= 0.001,kernelType=3 74.29% Số đặc trưng=64,,Epsilon=0.000001,Complexity=4,Tolerance=0 01,kernelType=3 71.43% Số đặc trưng=64,,Epsilon=0.000001,Complexity=4,Tolerance=0 01,kernelType=1 71.43% Số đặc trưng=64,,Epsilon=0.000001,Complexity=4,Tolerance=0 001,kernelType=3 71.43% 39 Chương 4: Xây dựng chương trình thử nghiệm Sớ đặc trưng=64,,Epsilon=0.000001,Complexity=4,Tolerance=0 001,kernelType=1 71.43% Số đặc trưng=89,,Epsilon=0.000001,Complexity=8,Tolerance=0 01,kernelType=2 71.43% Số đặc trưng=89,,Epsilon=0.000001,Complexity=8,Tolerance=0 001,kernelType=2 71.43% Ghi chú: kernel type=1 Gaussian kernel, Polynomial kernel, Laplacian kernel 4.3.3 Thử nghiệm 3: Áp dụng mơ hình cải tiến đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm tập liệu Tương tự thử nghiệm mặt phương pháp, nhiên chọn tập liệu huấn luyện tập liệu kiểm tra khác thử nghiệm mặt thời gian sau: Bảng 4.8: Bảng phân chi tập liệu huấn luyện kiểm tra cho thử nghiệm Tập huấn luyện Tập kiểm tra Từ ngày Đến ngày Số lượng báo Số tin tốt 27/09/2012 08/11/2013 242 11/11/2013 31/12/2013 33 Số tin xấu 131 Số tin trung tính 16 17 111 Bảng 4.9: Một số đặc trưng có thơng tin tương hỗ cao đới với lớp tương ứng thử nghiệm Đặc trưng chật_vật/a tiệm_cận/v do_dự/a vượt/v tiền_mặt/v trống/a trả_giá/v tốn/v cung_cầu/v Thông tin tương hỗ Thông tin tương hỗ lớp tin tốt lớp tin xấu 0.032873756 0.033260291 0.030337597 0.029960455 0.026466485 0.026137811 0.024161454 0.025271491 0.023330453 0.023603969 0.023330453 0.023603969 0.023330453 0.023603969 0.022618473 0.022337877 0.022618473 0.022337877 40 Chương 4: Xây dựng chương trình thử nghiệm trao/v phá/v phục_hồi/v đe_dọa/v quên/v nguội/a eo_hẹp/a thành_tâm/a nghe_ngóng/v tơn_trọng/v hữu_nghị/a nhận_diện/v lường/v vỡ/v bất_ngờ/a dứt_khốt/a tiến_hành/v 0.022157161 0.020538581 0.019047241 0.018793278 0.018793278 0.018793278 0.018604854 0.018604854 0.018604854 0.018604854 0.018604854 0.018444512 0.018444512 0.017308699 0.016127765 0.016027918 0.015434578 0.022785598 0.017983006 0.017269448 0.018560374 0.018560374 0.018560374 0.018822653 0.018822653 0.018822653 0.018822653 0.018822653 0.018785188 0.018785188 0.015162135 0.013710105 0.015704483 0.016203054 Kết thử nghiệm Bảng 4.10: Bảng kết thử nghiệm Số lượng đặc trưng tham số mơ hình SVM Sớ đặc trưng==82,Epsilon=0.000001,Complexity=9,Tolerance=0.01,kernel Type=2 Số đặc trưng==82,Epsilon=0.000001,Complexity=10,Tolerance=0.01,kerne lType=2 Số đặc trưng==82,Epsilon=0.000001,Complexity=1,Tolerance=0.01,kernel Type=2 Số đặc trưng==82,Epsilon=0.000001,Complexity=3,Tolerance=0.01,kernel Type=2 Số đặc trưng==82,Epsilon=0.000001,Complexity=4,Tolerance=0.01,kernel Type=2 Số đặc trưng==82,Epsilon=0.000001,Complexity=5,Tolerance=0.01,kernel Type=2 41 Độ xác 75.76% 75.76% 72.73% 72.73% 72.73% 72.73% Chương 4: Xây dựng chương trình thử nghiệm Sớ đặc trưng==50,Epsilon=0.000001,Complexity=8,Tolerance=0.01,kernel Type=1 Số đặc trưng==62,Epsilon=0.000001,Complexity=4,Tolerance=0.01,kernel Type=1 69.70% 60.61% Ghi chú: kernel type=1 Gaussian kernel, Polynomial kernel, Laplacian kernel 4.4 Tổng kết chương Trong chương 4, chúng tơi đã trình bầy kết thử nghiệm khác cho toán dự báo thị trường chứng khoán Việt Nam, từ kết thử nghiệm cho thấy mơ hình cải tiến từ mơ hình đề xuất cơng trình sớ [23] có kết khả quan Và thử nghiệm cho kết cao, kết thử nghiệm khẳng định thêm chứng cho thấy tin tức tình hình tài chính, chứng khốn báo điện tử phổ thơng dùng để dự báo xu hướng giá chứng khoán VN-INDEX Tuy nhiên thị trường chứng khốn thị trường ln ln biến động chịu tác động nhiều yếu tớ, có sớ trường hợp tin tức báo tích cực vào ngày hơm nay, nhiên giá chứng khốn giảm vào ngày hơm sau Theo nguyên nhân yếu tố khác tác động đến thị trường tâm lý nhà đầu tư, thông tin nội bộ, hay thị trường bị ảnh hưởng thơng tin tình hình kinh tế, chứng khoán giới v.v Trong thời gian tới, tiếp tục nghiên cứu kỹ thuật liên quan nhằm gia tăng độ xác mơ hình 42 Chương 5: Kết luận hướng phát triển CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong luận văn này, đã khảo sát, tổng kết sớ cơng trình dự báo thị trường chứng khoán gần đây, từ phương pháp dựa vào liệu số đơn đến phương pháp sử dụng khai phá văn Sau chúng tơi đã đề xuất mơ hình cải tiến từ mơ hình đề xuất cơng trình sớ [23], mơ hình đề xuất, chúng tơi nghiên cứu tiến hành thử nghiệm chương trình dự báo sớ VNINDEX dựa vào tin tức tiếng Việt tải từ trang web tin tức phổ biến Việt Nam đề xuất cách lựa chọn đặc trưng theo từ loại nghiên cứu từ loại góp phần làm cho kết dự báo VN-INDEX tốt Như đã trình bầy thử nghiệm chương 4, kết dự báo xu hướng giá số VN-INDEX xác đến 77.14 %, điều chứng tỏ tin tức tình hình tài chính, chứng khốn báo chí phổ thơng có ảnh hưởng đến xu hướng giá số VN-INDEX Kết dự báo mơ hình cải tiếng luận văn nguồn tham khảo khách quan có giá trị cho nhà quản lý nhà đầu tư định thị trường chứng khoán Tuy nhiên, kết dự báo luận văn chưa thật cao, theo phần tính biến động khó lường thị trường chứng khốn Trong thời gian tới chúng tơi tiếp tục nghiên cứu nhằm gia tăng độ xác mơ hình Ngồi ra, mơ hình cải tiến luận văn sử dụng hệ thớng khác dự báo tỉ giá, phân tích quan điểm nhận xét sản phẩm, dự báo giá vàng, phân loại tin tức theo chủ đề, phân loại email, trang tin tức tùy biến theo ngữ cảnh…v.v 5.2 Hướng phát triển Trong thời gian tới tiếp tục nghiên cứu nhằm nâng cao độ xác mở rộng đối tượng dự báo mô hình đề xuất, sau sớ cách tiếp cận mà dự định thực hiện: 43 Chương 5: Kết luận hướng phát triển + Nghiên cứu khả dự báo giá chứng khốn cơng ty cụ thể dựa tin tức + Kết hợp tin tức từ trang web thị trường chứng khốn tiếng giới vào mơ hình + Phân tích ảnh hưởng tin tức liên quan đến tình hình kinh tế nói chung đến nhóm công ty nghành nghề kinh doanh đưa dự báo xu hướng giá tương ứng + Kết hợp kỹ thuật, thuật toán khác lĩnh vực máy học khai phá liệu học chủ động, học với liệu chưa gán nhãn để tăng tính hiệu mơ hình + Kết hợp luật chuyên gia thu thập từ chuyên gia kinh tế vào mơ hình để tăng độ xác 44 Tài liệu tham khảo TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt Lê Đạt Chí (2011), “Ứng dụng mơ hình mạng thần kinh nhân tạo dự báo kinh tế - Trường hợp thị trường chứng khoán Việt Nam”, Luận án tiến sĩ kinh tế, Đại học Kinh tế TP.HCM Vũ Hữu Dũng (2013), “Ứng dụng khai phá liệu dự báo biến động thị trường chứng khoán Việt Nam”, LVThs CNTT, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội Đặng Thị Thanh Hương (12/2009), “Ứng dụng khai phá liệu để phân tích dự đốn diễn biến thị trường chứng khoán” LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Bùi Nguyên Khởi (2009), “Nghiên cứu số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản”, LVThs CNTT, Đại học q́c gia thành phớ Hồ Chí Minh, Trường Đại học Cơng nghệ Thông tin.\ Nguyễn Minh Kiều, Nguyễn Văn Điệp (2013), “Quan hệ yếu tố kinh tế vĩ mơ biến động thị trường chứng khốn: chứng nghiên cứu từ thị trường Việt Nam”, SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 16, No.Q3- 2013 Nguyễn Minh Kiều (2009), Nghiệp vụ kinh doanh đầu tư chứng khoán, Nhà XB Thớng Kê Trịnh Thanh Ngọc (2013), “Dự đốn xu hướng thị trường chứng khoán cách sử dụng Twitter”, LVThs CNTT, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội Đặng Hồng Phú (06/2008), “Ứng dụng Microsoft Time Series xây dựng hệ thống dự báo thị trường chứng khoán Việt Nam” LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Phạm Thành Phước (2013), “Mạng neural ứng dụng dự báo giá chứng khoán trung tâm giao dịch chứng khốn Hồ chí minh”, LVThs KHMT, HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG 10 Tô Nguyễn Nhật Quang (4/2007), “Ứng dụng giải thuật di tryuyền Logic mờ dự báo thị trường chứng khoán”, LVThs KHMT, ĐH CNTT, ĐH QG TPHCM 11 Nguyễn Tiến Thanh (06/2008), “Dự báo thị trường chứng khoán sử dụng mạng nơron kết hợp giải thuật di truyền” LVThs KHMT, ĐH CNTT, ĐH QG TPHCM 12 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2011), Giáo trình Khai phá liệu web, Nhà XB GD VN Tài liệu tham khảo tiếng Anh 45 Tài liệu tham khảo 13 Nikfarjam, A ; Emadzadeh, E ; Muthaiyah, S.(2010), “Text mining approaches for stock market prediction” Computer and Automation Engineering (ICCAE), 2010 The 2nd International Conference on, Vol.4, 26-28 Feb 2010, Singapore, IEEE, pp.256 – 260 14 Kim-Georg Aase (2011), “Text Mining of News Articles for Stock Price Predictions”, Master Thesis Norwegian University of Science and Technology, Department of Computer and Information Science 15 Simon Bacher (Oct 2012), “Mining Unstructured Financial News to Forecast Intraday Stock Price Movements”, Master Thesis, University Mannheim 16 Shou-Hsiung Cheng(Jul 2010), “Forecasting the change of intraday stock price by using text mining news of stock”, Machine Learning and Cybernetics (ICMLC), 2010 International Conference on, Qingdao, Vol.5, IEEE, pp 2605 – 2609 17 Brett DRury(2014), “A Text Mining System for Evaluating the Stock Market's response To News”, Doctoral Program in Computer Sciense of the Universities of Minho, Aveiro and Porto 18 T Fletcher(2009), "Support Vector Machines www.tristanfletcher.co.uk/SVM%20Explained.pdf, (05/2015) Explained", 19 Michael Hagenau, Michael Liebmann, Markus Hedwig, Dirk Neumann (2012), “Automated News Reading: Stock Price Prediction Based on Financial News Using Context-Specific Features”, 2012 45th Hawaii International Conference on System Sciences 20 Zhichao Han (2012), “Data and text mining of financial markets using news and social media”, Master thesis, THE UNIVERSITY OF MANCHESTER 21 Arman Khadjeh Nassirtoussi, Saeed Aghabozorgi, Teh Ying Wah, David Chek Ling Ngo (2014), “Text mining for market prediction: A systematic review”, Expert Systems with Applications, Vol.41, 15 November 2014, pp.7653–7670 22 L H Phuong, N T.M Huyen, R Azim, H T Vinh(2008), “A hybrid approach to word segmentation of Vietnamese texts” Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196, Tarragona, Spain, 2008 23 Hoang T P Thanh, Phayung Meesad(2014), “Stock Market Trend Prediction Based on Text Mining of Corporate Web and Time Series Data”, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.18 No.1, 2014 24 Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012) "An Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter", IEEASMD2012,Mumbai,India, December 9, 2012, http://wing.comp.nus.edu.sg/~antho/W/W12/W12-5503.pdf 46 Tài liệu tham khảo Website 25 Financial Predictor via Neural Network (03/2015), http://www.codeproject.com/Articles/175777/Financial-predictor-via-neuralnetwork 26 Báo điện tử Thanh Niên (05/2015), http://www.thanhnien.com.vn/chung-khoan/ 27 Báo điện từ Tuổi Trẻ (05/2015), http://tuoitre.vn/tin/kinh-te 28 Báo điện tử Vietstock (05/2015), http://vietstock.vn/ 29 Báo điện tử VNEXPRESS (05/2015), http://kinhdoanh.vnexpress.net/ 30 Giả thuyết thị trường hiệu (05/2015), https://vi.wikipedia.org/wiki/Gi%E1%BA%A3_thuy%E1%BA%BFt_th%E1%BB %8B_tr%C6%B0%E1%BB%9Dng_hi%E1%BB%87u_qu%E1%BA%A3 31 Bộ liệu từ điển tiếng Việt(05/2015), http://www.informatik.unileipzig.de/~duc/Dict/ 32 Bộ gán nhãn từ tiếng Việt(05/2015), https://github.com/hakz/vntagger-gateplugin.vntagger 47 Phụ lục Phụ Lục: Một số mẫu tin tức tài chính, chứng khốn Cổ phiếu dầu khí đồng loạt lao dốc GAS giảm sàn, PVD cách giá đáy 100 đồng, rổ dầu khí rớt mạnh so với đầu ngày khiến Vn-Index 6,5 điểm chốt phiên giao dịch ngày 25/3 Chứng khốn x́ng thấp tuần Sau phiên sa sút giảm mạnh ngày hơm qua, sáng chứng khốn TP HCM tiếp đà lao dớc VnIndex thống bật xanh đợt từ đợt khớp lệnh liên tục trở thị trường trở lại tình trạng rung lắc mạnh Lúc 10h30, Vn-Index điểm, sát vùng 560 điểm Có lúc GAS trượt sàn cổ phiếu dầu khí đồng loạt x́ng nguyên nhân khiến số sàn TP HCM lao dốc Sau hai đồng hồ giao dịch, đà giảm chậm lại tình trạng rớt giá tiếp diễn hầu hết mã lớn VNM, MSN, PVD giảm 1.000-1.900 đồng VIC, HAG, KDC, VCB, HSG bị trừ 100-700 đồng Tương tự phiên trước, lực bán sáng mạnh nhiều nhà đầu tư lưỡng lự, chọn phương án đứng thị trường quan sát lo ngại đà giảm chưa dứt Đóng cửa phiên sáng với 100 mã xuống, Vn-Index giảm 5,45 điểm, tạm dừng vùng 561,98 điểm, mua bán 42,4 triệu cổ phiếu, trị giá 900 tỷ đồng Sàn Hà Nội chìm sắc đỏ, nhiều mã dầu khí quay đầu x́ng PVG, PVC,PVB, PVS giảm 100-500 đồng Nghỉ phiên, HNX-Index giảm 0,22 điểm, xuống 83,1 điểm, khoản thấp, mua bán 20 triệu đơn vị, ứng với 251 tỷ đồng Chiều số sàn TP HCM tiếp tục trượt dài sắc đỏ PVD GAS giảm 3.100-5.000 đồng cổ phiếu, lọt vào danh sách mã sa sút mạnh HOSE nguyên nhân kéo thị trường x́ng Rổ dầu khí chứng kiến PVT, PXS, CNG, PPC, COM đồng loạt suy yếu PVD dư mua sàn 689.000 đơn vị BVH đầu ngày trụ vạch tham chiếu ći phiên chiều giảm 500 đồng VIC, REE, KDC, SSI, HAG, GMD, HPG, HSG, MSN bị trừ 100-1.500 đồng VNM nỗ lực giữ giá FPT, VCB, STB bật xanh thị trường thiếu lực đỡ nên tiếp tục chùn x́ng Đóng cửa, Vn-Index giảm 6,5 điểm, x́ng 560,93 điểm, sang tay 87,6 triệu cổ phiếu, tương đương 1.750 tỷ đồng HOSE thỏa thuận 4,5 triệu chứng khoán, trị giá 224 tỷ đồng Sàn Hà Nội khơng có biến động nhiều so với đầu ngày, cổ phiếu dầu khí nhuộm đỏ bảng điện tử Rổ HNX30 ghi nhận ACB, KLS tăng giá trở lại VCG, SHB, PVS bị nhà đầu tư nước bán 80.000-264.000 đơn vị Cuối ngày, HNX-Index giảm 0,17 điểm, dừng 83,15 điểm, tồn sàn có 38,5 triệu cổ phiếu đổi chủ, ứng với 514 tỷ đồng Chuyên viên phân tích cao cấp Cơng ty Chứng khốn Bản Việt, Nguyễn Thế Minh nhận xét, cổ phiếu dầu khí chiếm tỷ trọng lớn sàn TP HCM nên nhóm sa sút khiến số Vn-Index điều chỉnh mạnh Trong vài phiên tuần này, tâm lý thị trường có dấu hiệu xuống, thiếu ổn định Động thái bán ròng khới ngoại diễn dồn dập cộng thêm đồng USD tăng giá khiến nhà đầu tư tỏ thận trọng Theo ông Minh, khối ngoại chưa có dấu hiệu dừng xả hàng, nhiều khả chiến lược phòng thủ phần lớn nhà đầu tư áp dụng phiên tới "Điều đáng lo ngại nhà đầu tư nước ngồi bán ròng kéo dài khiến áp lực giải chấp tăng lên Lúc cổ phiếu nhiều ngành khác giá phản ứng dây chuyền, ảnh hưởng không tốt đến thị trường", ông cho hay Nguồn: http://kinhdoanh.vnexpress.net/tin-tuc/chung-khoan/co-phieu-daukhi-dong-loat-lao-doc-3162284.html, truy cập ngày 25/03/2015 Source code hàm nhân Laplacian public override double Function(double[] x, double[] y) { // Optimization in case x and y are // exactly the same object reference if (x == y) return 1.0; double norm = 0.0; 48 Phụ lục for (int i = 0; i < x.Length; i++) { double d = x[i] - y[i]; norm += d * d; } norm = Math.Sqrt(norm); return Math.Exp(-gamma * norm); } Source code hàm gộp báo public void KetHopCacBaiBao(ArrayList listInputFolders,string outputFolder,DateTime from, DateTime to) { string[][] listFiles = new string[listInputFolders.Count][]; int i = 0; foreach (string folder in listInputFolders) { string[] files = Directory.GetFiles(folder, "*.*", SearchOption.AllDirectories); listFiles[i++] = files; } for (DateTime date = from; date

Ngày đăng: 23/12/2018, 06:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan