Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU LUẬT KẾT HỢP & ỨNG DỤNG TRỢGIÚP NHÀ ĐẦU TƯ RA QUYẾT ĐỊNH TRONG THỊTRƯỜNG CHỨNG KHOÁN VIỆT NAM

27 503 0
Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU LUẬT KẾT HỢP & ỨNG DỤNG TRỢGIÚP NHÀ ĐẦU TƯ RA QUYẾT ĐỊNH TRONG THỊTRƯỜNG CHỨNG KHOÁN VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÁO CÁO THU HOẠCH CHUYÊN ĐỀ: HỆ HỖ TRỢ RA QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU LUẬT KẾT HỢP & ỨNG DỤNG TRỢGIÚP NHÀ ĐẦU TƯ RA QUYẾT ĐỊNH TRONG THỊTRƯỜNG CHỨNG KHOÁN VIỆT NAM GVHD: PGS.TS Đỗ Phúc HV thực hiện: Phan Tử Ánh MSSV: CH1301080 TP.HCM – 2014 Báo cáo môn Hệ hỗ trợ định Trang MỤC LỤC CHƯƠNG I LỜI GIỚI THIỆU Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên,họlưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (KDD Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Bước Báo cáo môn Hệ hỗ trợ định Trang quan trọng trình Khai phá liệu (Data Mining - DM), giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác,rất nhiều doanh nghiệp tổ chức giới ứng dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Nhưng để làm điều phát triển mơ hình tốn học giải thuật hiệu chìa khố quan trọng phần tiểu luận này,tác giả đề cập tới kỹ thuật thường dùng khai phá liệu để phân tích dự đoán khai thác liệu chứng khoántrợ giúp nhà đầu tư định CHƯƠNG II TỔNG QUANVỀ KHAI PHÁ DỮ LIỆU Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hố cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lí , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có íchtừ kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới II.1 Khái niệm khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 1980 q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu Hiện nay, thuật ngữ khai phá liệu, người ta cịn dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL, trích lọc liệu, phân tích liệu/mẫu, khảo cổ liệu, nạo vét liệu,nhiều người coi khai phá liệu thuật ngữ thông dụng khác phát tri thức CSDL (Knowlegde Discovery in Databases - KDD) nhiên thực tế, Báo cáo môn Hệ hỗ trợ định Trang Trích lọc liệu Dữ liệu chuyển đổi khai phá liệu bước thiết yếu q trình phát tri thức CSDL Có thể nói Data Mining giai đoạn quan trọng tiến trình phát tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh, trình phát tri thức tiến hành qua giai đoạn sau hình 1.1: Internet, Hình 1.1 trình phát tri thức II.2 Luật kết hợp khai phá liệu Mục tiêu khai phá liệu (KPDL) lấy thơng tin hữu ích từ lượng liệu khổng lồ bước trình KPDL bao gồm: Gom liệu (Gathering): tập hợp liệu bước trình KPDL bước khai thác CSDL, kho liệu chí liệu từ nguồn ứng dụng Web Báo cáo môn Hệ hỗ trợ định Trang Trích lọc liệu (Selection): giai đoạn liệu lựa chon phân chia theo số tiêu chuẩn đó, ví dụ chon tất người có tuổi đời từ hai lăm đến ba lăm có trình độ đại học Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre-processing and Preparation): giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình KPDLmột số lỗi thường mắc phải gom liệu tính khơng đủ chặt chẽ, logic, liệu thường chứa giá trị vơ nghĩa khơng có khả kết nối liệu, trình quan trọng liệu khơng “làm – tiền xử lý - chuẩn bị trước” gây nên kết sai lệch nghiêm trọng Chuyển đổi liệu (Transformation): giai đoạn chuyển đổi liệu, liệu đưa sữ dụng điều khiển việc tổ chức lại nódữ liệu chuyển đổi phù hợp với mục đích khai thác Phát trích mẫu liệu (Pattern Extraction and Discovery): bước mang tính tư KPDL giai đoạn nhiều thuật toán khác sử dụng để trích mẫu từ liệu thuật toán thường dùng nguyên tắc phân loại, nguyên tắc kết hợp mô hình liệu Đánh giá kết mẫu (Evaluation of Result): giai đoạn cuối trình KPDL giai đoạn mẫu liệu chiết xuất phần mềm KPDL mẫu liệu hữu ích, đơi cịn bị sai lệch cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức cần chiết xuất Đây q trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết nhiệm vụ khai phá liệu là: phân cụm, phân loại, phân nhóm, phân lớp; khai phá luật kết hợp; lập mơ hình báo; phân tích đối tượng ngồi cuộc; phân tích tiến hóa Báo cáo môn Hệ hỗ trợ định Trang Các tồn cần phải giải KPDL lượng liệu lớn; kích thước lớn; liệu động; trường liệu không phù hợp; giá trị bị thiếu; trường liệu bị thiếu; khả biểu đạt mẫu tương tác với người sử dụng tri thức sẳn có Một hướng tiếp cận hiệu sử dụng luật kết hợp (association rules) dạng luật biểu diễn tri thức dạng đơn giản phương pháp nhằm phát luật kết hợp thành phần liệu CSDL mẫu đầu giải thuật KPDL tập luật kết hợp II.3 Các kỹ thuật khai phá liệu Hình 1.2 biểu diễn tập liệu giả hai chiều bao gồm 23 trường hợp điểm hình đại diện cho người vay tiền ngân hàng số thời điểm khứ liệu phân loại vào hai lớp: người khơng có khả trả nợ người tình trạng vay nợ trạng thái tốt (tức thời điểm có khả trả nợ ngân hàng) Hai mục đích khai phá liệu thực tế dự báo mô t Nợ Không có khả trả nợ Có khả trả nợ Thu nhập Hỡnh 1.2: Tp d liu với lớp: có khơng có khả trả nợ II.3.1 Khai phá liệu dự đoán Nhiệm vụ khai phá liệu dự đoán đưa dự đoán dựa vào suy diễn liệu thời,nó sử dụng biến hay trường sở liệu để dự đoán Báo cáo môn Hệ hỗ trợ định Trang giá trị hay giá trị tương laibao gồm kỹ thuật phân loại (classification), hồi quy (regression) Phân loại Mục tiêu phương pháp phân loại liệu dự đoán nhãn lớp cho mẫu liệu,quá trình phân loại liệu thường gồm hai bước xây dựng mơ hình sử dụng mơ hình để phân loại liệu Bước 1: Xây dựng mơ hình dựa việc phân tích mẫu liệu cho trước mẫu thuộc lớp, xác định thuộc tính gọi thuộc tính lớp mẫu liệu gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có giám sát Bước 2: Sử dụng mơ hình để phân loại liệu trước hết phải tính độ xác mơ hìnhnếu độ xác chấp nhận được, mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai Hay nói cách khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước Hình 1.3 cho thấy phân loại liệu vay nợ vào hai miền lớp ngân hàng sử dụng miền phân loại để tự động định liệu nhữngngười vay nợ tương lai có nên cho vay hay khơng Nỵ Thu nhËp Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay Báo cáo môn Hệ hỗ trợ định Trang Hồi quy Phương pháp hồi quy khác với phân loại liệu chỗ, hồi quy dùng để dự đoán giá trị liên tục cịn phân loại liệu dùng để dự đoán giá trị rời rạc,hồi quy học hàm ánh xạ mục liệu vào biến dự báo giá trị thực, ứng dụng hồi quy có nhiều, ví dụ đánh giá xác xuất bệnh nhân chết dựa tập kết xét nghiệm chẩn đoán, dự báo nhu cầu người tiêu dùng sản phẩn dựa hoạt động quảng cáo tiêu dùng II.3.2 Khai phá liệu mơ tả Kỹ thuật có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Bao gồm kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules) Phân cụm Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồngphân cụm liệu ví dụ phương pháp học khơng giám sátkhơng giống phân loại liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân loại liệu học ví dụ (learning by example) Trong phương pháp bạn biết kết cụm thu bắt đầu trình vậy, thơng thường cần có chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… phân cụm liệu cịn sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác Hình 1.4 cho thấy phân cụm tập liệu cho vay vào cụm: lưu ý cụm chồng lên cho phép điểm liệu thuộc nhiều cụm Báo cáo môn Hệ hỗ trợ định Trang Cơm Nỵ Cơm Cơm Thu nhËp Hình 1.4: Phân cụm tập liệu cho vay vào cụm Luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL,mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm được,khai phá luật kết hợp thực qua bước: Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Bài toán luật kết hợp Khái niệm: cho tập I = {I1, I2 ,Im} tập m mục, giao dịch T định nghĩa tập khoản mục I (T I) Gọi D co sở liệu n giao dịch giao dịch đánh nhãn với định danh nhấtmột giao dịch TD hỗ trợ tập XI chưa tất item X Bài toán 1: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ tối thiểu người dùng xác định, tập mục thỏa mãn độ hỗ trợ tối thiểu gọi tập mục phổ biến Bài toán 2: Dùng tập mục phổ biến để sinh luật mong muốn Báo cáo môn Hệ hỗ trợ định Trang 10 else add c Ck tang biến đếm tương ứng thêm 1; End Lk = {c Ck|c.count minsup} End Trả lời = kLk; III.2 Thuật toán SETM Thuật toán Houtsma đề nghị năm 1995 Thuật toán sử dụng kỹ thuật bổ sung phần tử (từ tập hợp phần tử) nhằm tìm kiếm tập hợp ứng cử viên cải tiến đáng kể thuật toán đề nghị lưu lại ID giao dịch với tập hợp ứng cử viên Agrwal thuật tốn khơng khơng có phương án quản lý nhớ mà cịn giả định nhét toàn tập hợp ứng cử viên bước trước vào nhớ để bước sau tiền bề sử dụng Thuật toán Input: CSDL D, minsup Output: Các tập mục phổ biến L1 = {các tập mục phổ biển}; L’1 = {các tập mục phổ biến TID xếp theo TID}; for (k=2; luật kết hợpk-1# 0; k++) begin Ck=0; forall giao dịch t D begin Lt = (l L’k-1|l.TID =t.TID); // tập có (k-1) mục phổ biến giao dịch t forall tập mục phổ biến lt ltdo begin Báo cáo môn Hệ hỗ trợ định Trang 13 Ct = tăng lt thêm mục có giao dịch t; // ứng cử viên có t C’k +={|cCt}; End End Sort C’k theo tập mục; Delete mục c C’k có c.count

Ngày đăng: 21/05/2015, 08:12

Từ khóa liên quan

Mục lục

  • CHƯƠNG I. LỜI GIỚI THIỆU

  • CHƯƠNG II. TỔNG QUANVỀ KHAI PHÁ DỮ LIỆU

    • II.1. Khái niệm khai phá dữ liệu

    • II.2. Luật kết hợp trong khai phá dữ liệu

    • II.3. Các kỹ thuật khai phá dữ liệu

      • II.3.1 Khai phá dữ liệu dự đoán

      • II.3.2 Khai phá dữ liệu mô tả

      • CHƯƠNG III. MỘT SỐTHUẬT TOÁN SINH LUẬT KẾT HỢP

        • III.1. Thuật toán AIS

        • III.2. Thuật toán SETM

        • III.3. Thuật toán Apriori

        • III.4. Thuật toán FP-Growth

        • CHƯƠNG IV. DÙNG THUẬT TOÁN APRIORI TRONG MẨU DỮ LIỆU CHỨNG KHOÁN

          • IV.1. Thực trạng tại thị trường chứng khoán việt nam

          • IV.2. Phân tích và ứng dụng luật kết hợp để khai phá

          • IV.3. Một số hàm của chương trình

          • IV.4. Mô phỏng chương trình

          • CHƯƠNG V. KẾT LUẬN

          • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan