ỨNG DỤNG KHAI PHÁ DỮ LIỆU (DATA MINING). XÂY DỰNG HỆ THỐNG TỔNG HỢP THÔNG TIN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

72 91 0
ỨNG DỤNG KHAI PHÁ DỮ LIỆU (DATA MINING). XÂY DỰNG HỆ THỐNG TỔNG HỢP THÔNG TIN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN Tel (84-511) 736 949, Fax (84-511) 842 771 Website: itf.ud.edu.vn, E-mail: cntt@edu.ud.vn LUẬN VĂN TỐT NGHIỆP KỸ SƯ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ NGÀNH : 05115 ĐỀ TÀI : ỨNG DỤNG KHAI PHÁ DỮ LIỆU (DATA MINING) XÂY DỰNG HỆ THỐNG TỔNG HỢP THÔNG TIN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM Mã số : 06T2-141 Ngày bảo vệ : 15-16/06/2011 CBHD : TS.HUỲNH CÔNG PHÁP SINH VIÊN : NGUYỄN HÀ TIẾN LỚP : 06T2 ĐÀ NẴNG, 06/2011 LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy cô khoa Công nghệ thông tin thầy cô giảng dạy trường Đại học Bách khoa Đà Nẵng truyền đạt kiến thức quý báu cho năm học vừa qua Đặc biệt, xin chân thành cảm ơn thầy TS Huỳnh Công Pháp - thuộc khoa Công nghệ thông tin, trường Đại học Bách khoa, Đại học Đà Nẵng tận tình hướng dẫn, động viên giúp đỡ suốt thời gian thực đề tài Và để có kết ngày hơm nay, tơi biết ơn gia đình động viên, khích lệ, tạo điều kiện thuận lợi suốt trình học tập trình thực đề tài tốt nghiệp Xin chân thành cám ơn thầy cô khoa Công nghệ thông tin bạn khóa 06 ủng hộ, giúp đỡ, chia sẻ kiến thức, kinh nghiệm tài liệu có cho tơi q trình nghiên cứu thực đề tài Một lần xin chân thành cảm ơn! Đà Nẵng, ngày 27 tháng 05 năm 2011 Sinh viên, NGUYỄN HÀ TIẾN LỜI CAM ĐOAN Tôi xin cam đoan : Những nội dung luận văn thực hướng dẫn trực tiếp thầy TS HUỲNH CÔNG PHÁP Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Sinh viên, NGUYỄN HÀ TIẾN NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… NHẬN XÉT CỦA HỘI ĐỒNG BẢO VỆ ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… DANH MỤC HÌNH ẢNH Hình 1: Luồng liệu Java 15 Hình 2: Truy xuất liệu Java 15 Hình 3: Luồng kí tự Java 22 Hình 4: Quá trình phát tri thức sở liệu 40 Hình 5: Sơ đồ phân rã chức hệ thống 48 Hình 6: Sơ đồ dòng liệu hệ thống 48 Hình 7: Sơ đồ Use Case 49 Hình 8: Mơ hình sở liệu hệ thống 50 Hình 9: Thuật tốn trích liệu VCBS 52 Hình 10: Thuật tốn trích liệu sàn HNX 53 Hình 11: Thuật tốn tìm kiếm 54 Hình 12: Thơng tin chứng khoán sàn HSX 55 Hình 13: Thơng tin sàn HSX xếp theo chiều giảm dần 55 Hình 14: Thơng tin sàn HSX xếp theo chiều tăng dần 56 Hình 15: Thơng tin chứng khốn sàn HNX 56 Hình 16: Thơng tin sàn HNX xếp theo chiều giảm dần 57 Hình 17: Thông tin sàn HSX xếp theo chiều tăng dần 57 Hình 18: Kết tìm kiếm 58 Hình 19: Top 15 mã chứng khoán biến động 58 Hình 20: Biểu đồ so sánh giá Trần giá Sàn mã chứng khốn .59 Hình 21: Biểu đồ hiển thị thơng tin mã chứng khốn 59 Hình 22: Biểu đồ thống kê giá Tham Chiếu 10 ngày gần 60 Hình 23: Tổng hợp trang Web hay chứng khoán 60 DANH MỤC TỪ VIẾT TẮT LAN : Local Area Network TCP/IP : Transmission Control Protocos/Internet Protocol URL : Uniform Resource Locator ASCII : American Standard Code for Information HTML : Hyper Text Markup Language HTTP : HyperText Transfer Protocol FTP : File Transfer Protocol MIME : Multipurpose Internet Mail Extensions IDE : Integrated Development Environment ISO : International Organization for Standardization SQL : Structured Query Language JSP : Java Server Pages KDD : Knowledge Discovery in Database CSDL : Cơ sở liệu EE : Enterprise Edition SE : Standard Edition ME : Micro Edition JSF : Java Server Faces SWF : Shockwave Flash MỤC LỤC MỞ ĐẦU CHƯƠNG .3 CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU I Cơ sở lý thuyết: I.1 Lập trình mạng: I.1.1 Lớp InetAddress: I.1.2 Lớp URL: I.1.3 Lớp URLConnection: .8 I.2 Các luồng vào/ra: .15 I.2.1 Khái niệm luồng JAVA: 15 I.2.2 Luồng xuất nhập chuẩn: 16 I.2.3 Luồng nhị phân: .16 I.2.4 Luồng ký tự: 22 I.2.5 Luồng đệm: 27 I.2.6 Luồng vào – New Input Output: 28 I.3 Sơ lược JSP (Java Server Pages) .34 I.3.1 Giới thiệu: 34 I.3.2 Cú pháp JSP: 34 I.4 Cơ sở liệu: .35 I.5 Java Script: 36 I.5.1 Giới thiệu: 36 I.5.2 Nhúng JavaScript vào file HTML: 36 II Tổng quan khai phá liệu: 39 II.1 Khai phá liệu gì? .39 II.1.1 Khái niệm: 39 II.1.2 Tại phải khai phá liệu? 39 II.1.3 Các bước trình khai phá liệu: .40 II.2 Các phương pháp khai phá liệu: 41 II.3 Các loại liệu khai phá: .41 II.4 Các ứng dụng khai phá liệu: 42 II.4.1 Phát gian lận ( fraud detection ): 42 II.4.2 Quản lý chăm sóc khách hàng: 43 II.4.3 Phát cô lập lỗi hệ thống mạng viễn thông (Network fault isolation): .44 II.5 Một số thách thức đặt cho việc khai phá liệu: 44 CHƯƠNG 45 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 45 I Phân tích sơ bộ: 45 I.1 Hiện trạng hệ thống Website doanh nghiệp nay: .45 I.2 Giải pháp: 45 I.3 Công nghệ sử dụng: 46 II Xây dựng chức năng: 47 II.1 Chức hệ thống: 47 II.1.1 Chức lấy thông tin: .47 II.1.2 Chức người dùng: 47 i II.2 II.3 II.4 Sơ đồ phân rã chức năng: 47 Mơ hình dòng liệu: 48 Mơ hình sở liệu: .49 CHƯƠNG 51 XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ MINH HỌA .51 I Các module chương trình: .51 II Thuật toán: 51 II.1 Thuật tốn trích thơng tin: 51 II.2 Thuật tốn tìm kiếm: 54 III Kết xây dựng hệ thống: .55 KẾT LUẬN 61 I Những kết đạt được: .61 II Mặt hạn chế: .61 III Hướng phát triển: .61 i Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khốn Việt Nam Hình 5: Sơ đồ phân rã chức hệ thống .II.3 Mơ hình dòng liệu: Quản trị viên có nhiệm vụ kiểm tra địa nguồn Sau định thời gian cho hệ thống tự động thấy thông tin cho vào kho Người dùng đưa yêu cầu để hệ thống trả kết hiển thị website Hình 6: Sơ đồ dòng liệu hệ thống SVTH: Nguyễn Hà Tiến_LỚP: 06T2 48 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khoán Việt Nam Sơ đồ USE CASE: Hình 7: Sơ đồ Use Case II.4 Mơ hình sở liệu: Cơ sở liệu xây dựng gồm table sau: Table thongtinVCBS: gồm thông tin số chứng khoán lấy địa http://www.vcbs.com.vn Table sanhsx_hnx: gồm thông tin số chứng khoán lấy địa http://data.vietstock.vn/bang-gia-truc-tuyen/hsx.aspx http://data.vietstock.vn/bang-giatruc-tuyen/hsx.aspx Table thongtincongty: gồm thông tin liên quan tới mã chứng khốn đó, lấy từ địa chỉ: http://www.vcbs.com.vn/Research/Company.aspx?stock_symbol=AAA Thông tin hai tables thongtinVCBS sanhsx_hnx lấy theo chu kì định sẵn để cập nhật thơng tin kịp thời SVTH: Nguyễn Hà Tiến_LỚP: 06T2 49 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam Hình 8: Mơ hình sở liệu hệ thống SVTH: Nguyễn Hà Tiến_LỚP: 06T2 50 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ MINH HỌA I Các module chương trình: Hệ thống xấy dựng gồm module sau: Đối với trang chủ index.jsp: trang dùng để đăng thông tin theo yêu cầu khách hàng hay cập nhật tin tức ngày Với trang luachon.jsp: người dùng xem hướng dẫn cách sử dụng chức hệ thống Trang liên kết đên trang:  showVCBS: trang dùng để xem 15 mã chứng khốn có nhiều biến động thị trường  showHNX: trang để người dùng xem diễn biến số chứng khoán sàn HNX Tại trang liên kết đến trang sapxepTangHNX, sapxepGiamHNX, showHSX để người dùng tiện cho việc truy cập  showHSX: trang để người dùng xem diễn biến số chứng khoán sàn HSX Tại trang liên kết đến trang sapxepTangHSX, sapxepGiamHSX, showHNX  bieudo: trang cho phép người dùng chọn mã chứng khốn muốn xem dạng biểu đồ Người dùng có nhìn trực quan Tại trang liên kết đến trang bieudoVien Trang giúp người xem so sánh mức giá Trần giá Sàn mã chứng khoán với Với trang timKiemMaCK: người dùng chọn mã chứng khốn mà muốn tìm Kết trả tình hình mã chứng khốn 10 ngày gần Tại người dùng xem thơng tin có liên quan tới cơng ty phát hành mã chứng khốn Trang liên kết đến trang tìm kiếm http://data.vietstock.vn để xem tổng hợp mã chứng khoán mà người dùng muốn xem .II Thuật tốn: II.1 Thuật tốn trích thơng tin: Bước 1: Đọc địa đầu vào ghi vào đệm Bước 2: Đọc thông tin từ đệm phân tích xem có nội dung cần lấy khơng?  Để biết có nội dung cần lấy hay khơng ta phải so sánh thông tin lấy từ đệm với chuỗi kí tự mà ta chọn làm mẫu  Dựa vào xác suất xuất kí tự lấy so với chuỗi kí tự mẫu mà hệ thống biết thơng tin có phải thơng tin chứng khốn khơng SVTH: Nguyễn Hà Tiến_LỚP: 06T2 51 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khoán Việt Nam Bước 3: Sau xác định địa có thơng tin chứng khốn ta tiến hành trích liệu  Phân tích xem số liệu dạng văn hay số chứng khoán  Nếu số chứng khoán kiểm tra xem có tổng cộng có hàng cột table để tiện cho việc chọn lựa bảng để lưu vào sở liệu  Xác định vị trí đầu cuối thông tin cần lấy lấy nội dung hai vị trí Bước 4: Lưu thơng tin lấy vào sở liệu tương ứng  Dưới sơ đồ khối mô tả việc lấy thông tin địa chỉ: http://www.vcbs.com.vn Hình 9: Thuật tốn trích liệu VCBS SVTH: Nguyễn Hà Tiến_LỚP: 06T2 52 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam  Dưới sơ đồ khối mô tả việc lấy thơng tin địa chỉ: http://data.vietstock.vn/bang-gia-truc-tuyen/hsx.aspx Hình 10: Thuật tốn trích liệu sàn HNX SVTH: Nguyễn Hà Tiến_LỚP: 06T2 53 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khốn Việt Nam .II.2 Thuật tốn tìm kiếm: Bước 1: Nhập thơng tin cần tìm kiếm Bước 2: Kiểm tra thơng tin nhập vào  Nếu có thơng tin sơ sở liệu lấy thơng tin có liên quan  Nếu khơng u cầu nhập lại thơng tin tìm kiếm Bước 3: Hiển thị thông tin lấy cho người dùng Sơ đồ thuật tốn: Hình 11: Thuật tốn tìm kiếm SVTH: Nguyễn Hà Tiến_LỚP: 06T2 54 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khoán Việt Nam .III Kết xây dựng hệ thống: Hình 12: Thơng tin chứng khốn sàn HSX Hình 13: Thơng tin sàn HSX xếp theo chiều giảm dần SVTH: Nguyễn Hà Tiến_LỚP: 06T2 55 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khốn Việt Nam Hình 14: Thơng tin sàn HSX xếp theo chiều tăng dần Hình 15: Thơng tin chứng khoán sàn HNX SVTH: Nguyễn Hà Tiến_LỚP: 06T2 56 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khốn Việt Nam Hình 16: Thơng tin sàn HNX xếp theo chiều giảm dần Hình 17: Thơng tin sàn HSX xếp theo chiều tăng dần SVTH: Nguyễn Hà Tiến_LỚP: 06T2 57 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thông tin thị trường chứng khốn Việt Nam Hình 18: Kết tìm kiếm Hình 19: Top 15 mã chứng khốn biến động SVTH: Nguyễn Hà Tiến_LỚP: 06T2 58 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam Hình 20: Biểu đồ so sánh giá Trần giá Sàn mã chứng khốn Hình 21: Biểu đồ hiển thị thông tin mã chứng khoán SVTH: Nguyễn Hà Tiến_LỚP: 06T2 59 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam Hình 22: Biểu đồ thống kê giá Tham Chiếu 10 ngày gần Hình 23: Tổng hợp trang Web hay chứng khoán SVTH: Nguyễn Hà Tiến_LỚP: 06T2 60 Ứng dụng khai phá Dữ liệu (Data mining) Xây dựng hệ thống tổng hợp thơng tin thị trường chứng khốn Việt Nam KẾT LUẬN I Những kết đạt được: o Cho phép người dùng thực công việc xem, tìm kiếm, xếp thơng tin, xây dựng trang biểu đồ trực quan o Cho phép người quản trị Website kiểm tra định thời gian cập nhật liệu tự động cho hệ thống o Nắm cách thức xây dựng trang web với JSP kết nối cở sở liệu MySQL o Hiểu ứng dụng kỷ thuật xây dựng biểu đồ thiết kết website o Nắm cách thứ xử lý tiếng việt xây dụng website o Hiểu biết cách xây dựng JavaScript o Xây dựng website tổng hợp thơng tin thị trường chứng khốn Việt Nam II Mặt hạn chế: o Chưa tìm hiểu XML o Việc áp dụng biểu đồ vào Website chưa thật tốt o Cách tổ chức trang Web chưa thật khoa học o Hệ thống phụ thuộc vào trang Web khác o Chưa áp dụng CSS vào trang Web o Chưa xây dựng hết module theo thiết kế .III Hướng phát triển: o Xây dựng hệ thống có khả tự động tìm kiếm trang Web chứng khoán lấy sở liệu o Để hạn chế phụ thuộc vào trang Web khác ta nên xây dựng lấy thơng tin dạng XML o Cần tham khảo cách tổ chức trang Web để có cách tổ chức khoa học o Tìm hiểu cách dùng CSS vào trang Web o Tham khảo thêm cách xây dựng biểu đồ o Xây dựng chức quản lý cho hệ thống o Xây dựng thêm mudule giá vàng ngoại tệ SVTH: Nguyễn Hà Tiến_LỚP: 06T2 61 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] Lập trình mạng Java Nguyễn Phương Lan-Hoàng Đức Hải Xây dựng Web JSP Phạm Hữu Khang Giáo trình khai phá liệu data warehousing (Đại học quốc gia TP HCM) Các phương pgáp kĩ thuật Data Mining Nguyễn Trần Minh Khuê http://www.mimuw.edu.pl/~son/datamining/datamining.htm http://vn.360plus.yahoo.com/tv_thinh/article?mid=3084&fid=-1 SVTH: Nguyễn Hà Tiến_LỚP: 06T2 62

Ngày đăng: 07/08/2019, 02:36

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • .I Cơ sở lý thuyết:

      • .I.1. Lập trình mạng:

        • .I.1.1. Lớp InetAddress:

          • .1 Tạo các đối tượng InetAddress:

          • .2 Nhận các trường thông tin của một đối tượng InetAddress:

          • .I.1.2. Lớp URL:

            • .1 Tạo các URL

            • .2 Phân tích một URL thành các thành phần:

            • .3 Tìm kiếm dữ liệu từ một URL:

            • .I.1.3. Lớp URLConnection:

              • .1 Mở các URLConnection:

              • .2 Đọc dữ liệu từ một server:

              • .3  Phân tích Header:

              • .4 Tìm kiếm các trường Header MIME:

              • .5 Các trường và các phương thức có liên quan:

              • .I.2. Các luồng vào/ra:

                • .I.2.1. Khái niệm về luồng trong JAVA:

                • .I.2.2. Luồng xuất nhập chuẩn:

                • .I.2.3. Luồng nhị phân:

                  • .1 Lớp InputStream:

                  • .2 Lớp OutputStream:

                  • .3 Các luồng xuất nhập mảng byte:

                  • .4 Luồng xuất nhập tập tin:

                  • .5 Truy nhập tệp ngẫu nhiên:

                  • .6 Luồng PrintStream:

                  • .I.2.4. Luồng ký tự:

                    • .1 Sự tương ứng giữa luồng byte và luồng ký tự:

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan