đồ án công nghệ thông tin Khai phá cơ sở dữ liệu gia tăng Trình bày phương pháp khai phá cở sở dữ liệu thay đổi theo thời gian (cơ sở dữ liệu gia tăng).

103 704 0
đồ án công nghệ thông tin Khai phá cơ sở dữ liệu gia tăng Trình bày phương pháp khai phá cở sở dữ liệu thay đổi theo thời gian (cơ sở dữ liệu gia tăng).

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, PGS.TS Nguyễn Ngọc Bình, mơn Công nghệ phần mềm khoa Công nghệ thông tin trường Đại học Bách khoa Hà Nội gợi ý hướng dẫn tận tình giúp đỡ em hồn thành đồ án Em xin chân thành cảm ơn TS Nguyễn Thành Quang ban lãnh đạo trung tâm CNTT Bảo Việt tạo điều kiện thuận lợi thiết bị máy móc cung cấp sở liệu để kiểm thử chương trình Em xin chân thành cảm ơn thầy cô khoa Công nghệ thông tin thầy cô giảng dạy trường Đại học Bách khoa Hà Nội truyền đạt cho em kiến thức bổ ích suốt thời gian học tập nghiên cứu trường Em xin chân thành cảm ơn ban lãnh đạo trung tâm Kĩ sư tài trường Đại học Bách Khoa Hà Nội giúp đỡ, tạo môi trường học tập nghiên cứu thuận lợi cho em trình học tập Cuối cùng, em xin bày tỏ lịng biết ơn đến gia đình bạn bè giúp đỡ, động viên em nhiều suốt trình học tập làm đồ án tốt nghiệp Do thời gian kiến thức có hạn, đồ án khơng tránh khỏi thiếu sót định Em mong nhận góp ý thầy cô giáo bạn Em xin chân thành cảm ơn ! Hà nội ngày 07 tháng 05 năm 2004 Sinh viên Hồ Xũn Hựng MỤC LỤC ỨNG DƠNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP LÝ THUYẾT TỔNG QUAN 10 1.1 SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC .11 1.2 BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 21 1.3 THUẬT TOÁN TèM LARGE ITEMSET - APRIORI .26 1.4 THUẬT TOÁN SINH LUẬT 31 MỘT SỐ VẤN ĐỀ MỞ RỘNG 33 1.5 CÁC THUẬT TOÁN TèM LUẬT KẾT HỢP KHÁC 33 1.6 KHAI PHÁ LUẬT KẾT HỢP TRấN CƠ SỞ DỮ LIỆU PHÂN TÁN.38 1.7 CÁC VẤN ĐỀ KHAI PHÁ LUẬT TRONG THỰC TẾ .43 KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU GIA TĂNG .47 1.8 SƠ LƯỢC .47 1.9 THUẬT TOÁN UWEP 51 1.10 THUẬT TOÁN ZIGZAG 58 PHÂN TÍCH - THIẾT KẾ .64 1.11 PHÂN TÍCH .64 1.12 THIẾT KẾ MODULE 68 1.13 THIẾT KẾ DỮ LIỆU 73 CÀI ĐẶT 76 1.14 LỰA CHỌN GIẢI PHÁP 76 1.15 MÔI TRƯỜNG 77 1.16 CÀI ĐẶT CÁC KĨ THUẬT CẢI TIẾN TỐC ĐỘ THUẬT TOÁN .77 KẾT QUẢ - ĐÁNH GIÁ - ỨNG DỤNG 83 1.17 KẾT QUẢ ĐẠT ĐƯỢC .84 1.18 THỬ NGHIỆM – ĐÁNH GIÁ 86 1.19 ĐỀ XUẤT GIẢI PHÁP CHO BÀI TOÁN THỰC TẾ 94 TÀI LIỆU THAM KHẢO 99 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP DANH MỤC HèNH ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP DANH MỤC BẢNG ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ gốc KDD Knowledge Discovery from Data MIS Minimum Item Support TID Transaction Identifier DD Data Distribution DMA Distritbuted Mining of Association Rules DIC Dynamic Itemset Counting CD Count Distribution AIS R Agrawal – T Imielinski – A Swami MFCS Maximum Frequent Candidate Set MFS Maximum Frequent Set SETM Set-Oriented Mining for Association Rules DHP Direct Hashing and Puning FP-Tree Frequent pattern tree DIC Dynamic Itemset Counting DANH MỤC CÁC THUẬT NGỮ ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Tên tiếng Anh Tên Tiếng Việt Ý nghĩa Item Khoản mục Một thuộc tính Cơ sở liệu giao dịch Itemset Tập khoản mục Tập hợp khoản mục Association Rule Luật kết hợp Support(X) Độ Hỗ trợ(X) Subset Tập Confidence Độ tin cậy Large Itemset Tập (Frequent Itemset) lớn Min Support Hỗ trợ tối thiểu Candidate Itemset Tập khoản mục Ứng viên Local Support Count Số đếm cục Global Support Count Số đếm toàn cục Transaction Giao dịch k-itemset Itemset có k item Interesting itemset Itemset đáng quan tâm Itemset tiềm Maximal Large Itemset cực đại Large Itemset mà khơng có frequent Tỉ lệ phần trăm giao dịch hỗ trợ tổng số giao dịch D khoản mục itemset Tập Khoản mục có Hỗ trợ lớn Hỗ trợ tối thiểu Tập trung gian khoản mục, dùng để tạo tập khoản mục lớn Large superset large itemset (Các thuật ngữ xếp theo mức độ quan trọng) LỜI NÓI ĐẦU Giới thiệu đề tài ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Khai phá Tri thức hoạt động tư người dựa tri giác kết đạt từ việc khai phá liệu Tri thức có khai phá liệu phân thành loại sau: a Phân lớp (Classification) :Mục đích tìm tập khẳng định (predicate) mô tả lớp đối tượng liệu áp dụng để xác định đối tượng liệu thuộc hay không thuộc lớp b Kết hợp (Association) :Tri thức cho biết quan hệ thuộc tính đối tượng liệu dạng luật, gọi luật kết hợp Cơ sở lý thuyết cho lớp toán khai phá tri thức kết hợp dựa việc thống kê mức độ thường xuyên xảy đồng thời thuộc tính đú trờn sở liệu “Nghiờn cứu phương pháp khai phá luật kết hợp áp dụng để khai phá liệu tác nghiệp” nội dung, đồng thời tên đề tài tốt nghiệp Đề tài giới thiệu toán khai phá luật kết hợp với phương pháp, thuật toán kinh điển quan trọng đặc biệt bám sát phương pháp kể từ sau năm 2000 Đề tài đưa đánh giá hiệu số thuật toán dựa kết thử nghiệm cài đặt thuật tốn Lí chọn đề tài Đề tài lựa chọn lí sau: a Đề tài nghiên cứu có khả ứng dụng cao, áp dụng để khai phá thông tin nhiều lĩnh vực xã hội, Y tế, Bảo hiểm, Chứng khoán v.v b Đề tài nghiên cứu vấn đề quan trọng giới mẻ Việt Nam c Đề tài nghiên cứu có thách thức định chun mơn, địi hỏi người tham gia phải nắm vững vấn đề chun mơn khác như: sở liệu, tính tốn song song, kĩ thuật lập trình v.v Mục tiêu đề tài Trong khuôn khổ luận văn tốt nghiệp, mục tiêu đề tài xác định gồm: ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP a Xác định rõ vấn đề cần nghiên cứu b Nắm kết nghiên cứu đạt giới xu phát triển c Nắm vững lý thuyết, biết phân tích ưu & khuyết điểm phương pháp, thuật toán nhằm đưa phương án tối ưu tình khai phá cụ thể d Vận dụng kiến thức nắm được, tiến hành cài đặt thử nghiệm thuật toán, đánh giá hiệu nghiên cứu phương án cải tiến e Đề xuất giải pháp ứng dụng cho toán nước Phương pháp luận Tác giả thực nghiên cứu theo phương pháp luận sau: a Tự tìm, đọc hiểu tài liệu mạng Internet b Tham khảo hướng dẫn thầy giáo hướng dẫn Bố cục luận văn Phần - Cơ sở lý thuyết : Giới thiệu lý thuyết liên quan, tóm lược nghiên cứu kinh điển khứ tập trung trình bày nghiên cứu gần thuật toán khai phá sở liệu gia tăng Phần bao gồm chương: Chương 1: Lý thuyết : Giới thiệu tổng quan toán khai phá luật kết hợp Trình bày thuật tốn Apriori Chương 2: Một số vấn đề mở rộng : Giới thiệu thuật toán khai phá song song toán khai phá luật kết hợp mở rộng Chương 3: Khai phá sở liệu gia tăng : Trình bày phương pháp khai phá cở sở liệu thay đổi theo thời gian (cơ sở liệu gia tăng) Phần - Cài đặt thử nghiệm đánh giá kết quả: Trình bày cơng việc thực q trình cài đặt thử nghiệm thuật toán, đồng thời đánh giá kết đạt ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP PHẦN I CƠ SỞ LÝ THUYẾT Phần I trình bày vấn đề lý thuyết liên quan đến nội dung nghiên cứu luận văn, bao gồm lí thuyết tổng quan khai phá liệu, ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP thuật toán khai phá luật kết hợp kinh điển, vấn đề gặp phải thực tế tiến hành khai phá luật đặc biệt tập trung vào nghiên cứu gần toán khai phá sở liệu gia tăng Nội dung: Chương Lý thuyết Tổng quan Chương Một số vấn đề mở rộng Chương Khai phá sở liệu gia tăng LÝ THUYẾT TỔNG QUAN Mục đích chương giới thiệu vấn đề tổng quan thiết yếu khai phá liệu Chương so sánh ưu điểm khai phá luật kết hợp so với kĩ thuật khác Những vấn đề đề cập gồm có: • Căn khai phá tri thức khai phá liệu Các kĩ thuật khai phá điển hình so sánh • Căn khai phá luật kết hợp (các khái niệm, tính chất, qui trình khai phá) 10 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP cho thấy Basket có tốc độ khai phá nhanh nhiều so với BKDM Các nguyên nhân dẫn đến vượt trội tốc độ khai phá Basket là: • Tốc độ tính tốn chương trình biên dịch ngơn ngữ C nhanh so với chương trình biên dịch ngơn ngữ Java • Basket quản lí nhớ trực tiếp, BKDM lệ thuộc vào dịch vụ quản lí nhớ trình biên dịch • Basket nhỏ, gọn viết Dos nên tốn tài nguyên cho thao tác xử lí giao diện So sánh kết sinh luật độ phủ trung bình (độ tương đồng) hai tập luật khoảng 80% Nguyờn nhân khác biệt BKDM cài đặt thuật tốn Apriori ngun thủy, cịn thuật tốn cài đặt Basket cải tiến nhiều 1.18.3 Thử nghiệm khai phá liệu tác nghiệp Bảo Việt Cơ sở liệu Bảo Việt tổ chức theo mơ hình Data Warehouse, sử dụng hệ quản trị sở liệu Oracle 9i Dữ liệu Bảo Việt liệu phân tán, trải trờn cỏc chi nhánh Tại Hà Nội, có đặt máy chủ cấu hình mạnh có chức thu hồi, lưu trữ tồn liệu địa phương Cấu trúc bảng sở liệu tác nghiệp phức tạp đồ sộ, khai phá trực tiếp tất liệu Dưới đề xuất ban lãnh đạo trung tâm CNTT Bảo Việt, tác giả tiến hành khai phá mẫu Transaction có cấu trúc sau: Tên MAYEUCAU Kiểu Varchar(18) TEN Varchar2(50) RIENG_CHINH Varchar2(1) NGAYPHATHANH Giải thích Date Mã yêu cầu Hợp đồng hay điểu khoản riêng – Chính, -Riêng Ngày phát hành hợp đồng 89 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP NS_NTGIA Date Ngày sinh người tham gia bảo hiểm TUOI_NTGIA Number(3) Tuổi người tham gia GIOI_NTGIA Number(3) TT_GDINH Varchar2(1) NGHENGHIEP Varchar2(50) Giới tính người tham gia – Nam, - Nữ Tình trạng gia đình - Chết, - Độc thân, – Có gia đình Nghề nghiệp người tham gia Bảo Hiểm DK_NOP Varchar2(2) Định kì nộp phí bảo hiểm STBH Number(20) Số tiền bảo hiểm PHI Number(22) Phí nộp / kì THOIHAN Number(3) Thời hạn nộp bảo hiểm (Nguồn liệu Bảo Việt) Lưu ý: Những thông tin liên quan đến tính riêng tư khách hàng loại bỏ tên, địa khách hàng… Cơ sở liệu dùng để thử nghiệm có 360 items 239190 transactions Cỏc phiên khai phá tiến hành máy chủ có cấu sau: Mơi trường khai phá Compaq Proliant ML530 G2 RAM : 2GB HDD : SCSI RAID 1, cache 128MB CPU : Intel Xeon CPU GHz OS : MS Windows 2000 Advance Server SP4 DBMS : Oracle9i CSDL dùng để thử nghiệm Số item: 360 items Số transaction: 239190 transactions Số lượng item lớn itemset: 10 Thuật tốn Apriori 90 ỨNG DƠNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Cỏc phiên khai phá Nội dung khai phá Thuật Min Min toán Support Confidence Apriori 0.1 0.1 Kết Thời gian sinh luật (ms) 59079 Số luật tìm thấy 3044 Số lần duyệt Apriori Apriori Apriori Apriori Apriori Apriori Apriori 0.1 0.1 0.3 0.3 0.3 0.4 0.4 0.7 0.9 0.3 0.7 0.7 (đã duyệt) (đã duyệt) (đã duyệt) (đã duyệt) (đã duyệt) (đã duyệt) (đã duyệt) 1250 516 484 203 15 94 627 248 238 91 50 Apriori 0.7 0.7 (đã duyệt) 16 Apriori 0.2 (đã duyệt) 0 Bảng 6-2 Kết khai phá sở liệu Bảo Việt Trích dẫn số luật khai phá Tiền đề Kết luận Support Confidenc e RIENG_CHINH=0 PHI=0->10229895 0.49737856 0.9938595 PHI=0->10229895, THOIHAN=5 STBH=0->18000001 0.3593026 0.9014412 THOIHAN=5 STBH=0->18000001 0.35933188 0.8988558 THOIHAN=5 STBH=0->18000001, PHI=0- 0.3593026 0.8987826 TT_GDINH=2 0.33249018 0.87868077 GIOI_TGIA=2, DK_NOP=01 TT_GDINH=2 0.3325236 0.8786429 GIOI_TGIA=2, DK_NOP=01 TT_GDINH=2, PHI=0->10229895 0.33249018 0.8785545 GIOI_TGIA=2, PHI=0- TT_GDINH=2 0.5618906 0.87721026 GIOI_TGIA=2 TT_GDINH=2 0.5632871 0.87700903 RIENG_CHINH=1, PHI=0- TT_GDINH=2 0.43750733 0.8762383 RIENG_CHINH=1 TT_GDINH=2 0.4375993 0.8759897 RIENG_CHINH=1 TT_GDINH=2, PHI=0->10229895 0.43750733 0.87580556 >10229895 GIOI_TGIA=2, DK_NOP=01, PHI=0->10229895 >10229895 >10229895 91 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP GIOI_TGIA=2 TT_GDINH=2, PHI=0->10229895 0.5618906 0.8748348 RIENG_CHINH=1, PHI=0- STBH=0->18000001 0.43596035 0.87314 TT_GDINH=2, PHI=0->10229895 0.38052094 0.87283385 TT_GDINH=2 0.38052094 0.87283385 TT_GDINH=2 0.38052094 0.87283385 RIENG_CHINH=1 STBH=0->18000001 0.43596035 0.8727088 RIENG_CHINH=1 STBH=0->18000001, PHI=0- 0.43596035 0.8727088 TT_GDINH=2 0.42831758 0.87104946 TT_GDINH=2 0.42873567 0.8709592 TT_GDINH=2, PHI=0->10229895 0.42831758 0.87010986 STBH=0->18000001 0.38052094 0.8697476 RIENG_CHINH=1, STBH=0->18000001, PHI=0- 0.38052094 0.8695648 TT_GDINH=2 >10229895 RIENG_CHINH=1, STBH=0->18000001 0.38052094 0.8695648 DK_NOP=01, PHI=0->10229895 TT_GDINH=2 0.48903337 0.8648399 DK_NOP=01 TT_GDINH=2 0.48907518 0.86469644 DK_NOP=01 TT_GDINH=2, PHI=0->10229895 0.48903337 0.86462253 PHI=0->10229895 TT_GDINH=2 0.8609959 0.86386365 DK_NOP=01, STBH=0- TT_GDINH=2 0.38482732 0.860006 TT_GDINH=2 0.38482732 0.860006 TT_GDINH=2, PHI=0->10229895 0.38482732 0.860006 TT_GDINH=2 0.6545238 0.85688716 >10229895 RIENG_CHINH=1, STBH=0>18000001 RIENG_CHINH=1, STBH=0>18000001 RIENG_CHINH=1, STBH=0>18000001, PHI=0->10229895 >10229895 GIOI_TGIA=2, STBH=0>18000001, PHI=0->10229895 GIOI_TGIA=2, STBH=0>18000001 GIOI_TGIA=2, STBH=0>18000001 RIENG_CHINH=1, TT_GDINH=2, PHI=0->10229895 TT_GDINH=2 >18000001 DK_NOP=01, STBH=0>18000001, PHI=0->10229895 DK_NOP=01, STBH=0>18000001 STBH=0->18000001, PHI=0>10229895 92 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP STBH=0->18000001 TT_GDINH=2 0.6552429 0.8568203 STBH=0->18000001 TT_GDINH=2, PHI=0->10229895 0.6545238 0.85587996 RIENG_CHINH=0 TT_GDINH=2 0.42600134 0.8512339 GIOI_TGIA=1 TT_GDINH=2 0.30013797 0.85040575 RIENG_CHINH=0 TT_GDINH=2, PHI=0->10229895 0.4234886 0.8462129 PHI=0->10229895, THOIHAN=5 TT_GDINH=2 0.32117653 0.8057881 THOIHAN=5 TT_GDINH=2 0.32209215 0.805702 THOIHAN=5 TT_GDINH=2, PHI=0->10229895 0.32117653 0.80341154 (Nguồn liệu Bảo Việt) Bảng 6-3 Trích dẫn số luật khai phá Nhận xét ý nghĩa ứng dụng luật khai phá Một số luật có nội dung hiển nhiên, chẳng hạn: Nếu Tên hợp đồng “Bảo hiểm tiết kiệm năm” suy Thời hạn năm với Support 0.1 Confidence 0.99 Những luật không mang ý nghĩa thực tiễn không đem lại tri thức cho người dùng Điều cho thấy khai phá, pha tiền xử lí (được hiểu bao gồm khâu lọc liệu khâu chọn lựa tiêu chí khai phá) quan trọng Số lượng luật có ý nghĩa thực tiễn Lí liệu khai phá khơng có nhiều trường (13) Một số luật có ý nghĩa thực tiễn (đã kiểm chứng chuyên gia ngành bảo hiểm) sau: Nếu Những người có gia đình mua hợp đồng bảo hiểm 99 % số mua bảo hiểm với mức phí 10 triệu Nếu Những người có nghề khơng (khác với danh mục nghề liệt kê) kí hợp đồng năm nộp định kì 100% số mua bảo hiểm mức phí 18 triệu Nếu Người kí hợp đồng có Tình trạng gia đình độc thân 80% số kí hợp đồng nộp định kì theo tháng 93 ỨNG DƠNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Kết luận Ứng dụng thành tựu khoa học vào thực tế không đơn giản Trong lĩnh vực khai phá luật kết hợp, để khai phá tri thức (có ích) cần phải có điều kiện sau: - Dữ liệu lớn với nhiều thuộc tính - Dữ liệu cần tinh chỉnh trước khai phá, thuộc tính cần có tính độc lập cao - Có lọc luật thơng minh xỏc, giúp nhanh chóng tìm luật hữu ích 1.19ĐỀ XUẤT GIẢI PHÁP CHO BÀI TỐN THỰC TẾ Sản phẩm hồn thành BKDM coi cơng cụ khai phá áp dụng cho sở liệu tiền xử lí, tức địi hỏi thao tác vận hành người điều hành Do sản phẩm chưa mang tính thực tiễn cao chưa thể áp dụng cho nhu cầu khai phá thực tế Trong thực tế, liệu lưu trữ đa dạng, phức tạp nên cần có giải pháp cho sản phẩm độc lập có khả khai phá liệu hệ thống Dưới xin đề xuất giải pháp mức phân tích - thiết kế tổng quát 1.19.1 Các yêu cầu tính hệ thống Hỗ trợ đa (Windows, Linux, Unix) Giao tiếp với nhiều hệ quản trị sở liệu (Oracle, Ms SQL, Access, My SQL) Bổ sung thuật tốn mà khơng phải cài đặt lại tồn hệ thống Mơ hình Client – Server Module khai phá & liệu khai phá đặt Server Client yêu cầu khai phá trực tuyến gửi yêu cầu offline qua file XML lên Server Dịch vụ Server định kì duyệt xem cú yờu cầu khơng, có tiến hành khai phá gửi trả lại Client kết dạng file XML 94 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP theo luồng winsock Dữ liệu truyền qua mạng mó hoỏ tuỳ vào sách bảo mật hệ thống Tự động cập nhật liệu theo liệu Client Lưu ý cập nhật theo cấu trúc Server đồng liệu Dữ liệu Server phân thành Partition vào khoảng chia thời gian (theo ngày, tháng năm) Báo cáo trực tuyến Hỗ trợ phân tích trực tuyến OLAP Quản lý kết khai phá: So sánh tham số khai phá, thấy trùng với phiên khai phá từ trước trả lại kết lưu mà không thời gian khai phá lại Tự động khai phá: Với phiên khai phá (được xác định Min Support Min Confidence), luật thoả mãn tự động cập nhật theo định kì (theo ngày, tuần, tháng v.v) dựa việc thực thi thuật toán khai phá liệu gia tăng 1.19.2 Giải pháp Hỗ trợ đa (Windows, Linux, Unix) Giải pháp: Cài đặt ngôn ngữ Java Bổ sung thuật tốn mà khơng phải cài đặt lại tồn hệ thống Giải pháp: Các thuật tốn có chung giao diện (interface) Đóng gói thuật tốn file jar Trong module quản lý cấu hình chương trình Server có chức quản lý thuật toán Chức tải file jar thuật tốn vào nhớ thực thi chương trình Mơ hình Client – Server Giải pháp: Cài đặt hai chương trình Client Server Chương trình Client gửi yêu cầu khai phá đón kết trả Chương trình Server tiếp nhận yêu cầu, khai phá gửi trả kết 95 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Giải pháp tối ưu có máy chủ cấu hình mạnh để lưu trữ liệu khai phá để cài đặt chương trình Server Chương trình Server chạy ngầm, gọi lên hình để thay đổi cấu hình cần Chương trình Server phải kiểm tra quyền khai phá nhận yêu cầu khai phá Quyền khai phá định danh chương trình Client mó hoỏ header gói tin yêu cầu Việc kiểm tra quyền nhằm tránh trường hợp Server bị công phương thức DOS (gửi yêu cầu khai phá đến liên tục nhằm chiếm tài nguyên dẫn đến trạng thái đổ vỡ) Tự động cập nhật liệu theo liệu Client Giải pháp: Viết Java Stored Procedure Trigger cho thao tác Insert, Update, Delete hệ quản trị sở liệu máy Client Mỗi lần thao tác thực thi, Trigger tương ứng kích hoạt chạy Java Stored Procedure để cập nhật lại liệu trờn mỏy Server Các Java Stored Procedure đóng gói thơng tin gửi gói tin lờn mỏy Server Chương trình Server nhận gói tin cập nhật vào sở liệu trờn mỏy Server Dữ liệu truyền định dạng XML mã hóa lưu thư mục xác định trước Server Sau thời điểm định, dịch vụ tự động đọc nội dung file XML cập nhật vào sở liệu trung tâm hệ thống, sau xóa file XML để dành không gian cho lần cập nhật 96 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP Chun d¹ng XML File Get Kho chøa tạm Gửi đến Server Update CSDL Transactions CSDL Địa phương CSDL Kết Truy vấn Update Get Tự động Khai phá DL Thô XML File Hỡnh 6-35 xut mụ hình hệ thống khai phá luật kết hợp tổng quát KẾT LUẬN KẾT QUẢ ĐẠT ĐƯỢC Về bản, tác giả đồ án đạt mục tiêu đề ra, bao gồm mục tiêu sau: • Hiểu vấn đề cách hệ thống, nắm xu hướng phát triển lĩnh vực khai phá luật kết hợp giới • Lập trình kiểm chứng ưu, nhược điểm số thuật toán khai phá luật kết hợp thơng dụng, qua hiểu chất thuật tốn 97 ỨNG DƠNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP • Nắm vấn đề triển khai hệ thống thực tế qua đề xuất mơ hình khai phá luật kết hợp thực tế • Khai phá thành công sở liệu tác nghiệp bảo hiểm Tuy nhiên sản phẩm BKDM bộc lộ nhiều yếu điểm, rõ nét hiệu khai phá Tốc độ khai phá chậm Người dùng BKDM phải người dùng có chun mơn liệu đầu vào phải liệu trải qua bước tiền xử lí, tức phải chuyển dạng lọc sở liệu trước khai phá ĐỊNH HƯỚNG PHÁT TRIỂN Về lý thuyết • Nghiên cứu áp dụng lý thuyết máy học để giúp chương trình nhận dạng luật có ích (tùy thuộc liệu) để cảnh báo với người dùng Điều có ý nghĩa kết khai phá thường nhiều với hàng trăm nghìn luật, gây khó khăn cho việc phát luật có ích • Nghiên cứu ứng dụng lý thuyết khai phá luật kết hợp vào kĩ thuật phân nhóm Bằng việc hạn chế phần hệ số trường cho trước, kết khai phá dùng lớp tốn phân nhóm • Nghiên cứu ứng dụng chế suy diễn tiến, suy diễn lùi lý thuyết hệ chuyên gia để sinh luật & rút gọn luật cú • Nghiên cứu ý nghĩa thống kê luật tương đương hình thành từ luật mà có tiền đề kết luận đổi vị trí (Ví dụ: A  B BA) • Nghiên cứu hình thành luật thống kê dựa sở thống kê luật khai phá Về chương trình • Cải tiến thuật toán khai phá cho phù hợp với sở liệu tác nghiệp (các Transaction có số trường xác định) • Cài đặt thuật tốn mở rộng đề cập chương 98 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP • Phát triển ứng dụng theo mơ hình Client – Server với tính đề cập phần 6.3 • Cải tiến chức hiển thị kết Kết cần trình bày dạng trực quan (có thể dùng biểu đồ) Đặc biệt trọng chức báo cáo nhanh qua mạng, hỗ trợ phân tích trực tuyến OLAP Mặc dù nhiều vấn đề chưa đề cập đồ án, vấn đề nghiên cứu trình bày đồ án coi sở lý thuyết quan trọng, tạo nên bước khởi đầu có tính hệ thống để người nghiên cứu tiếp tục thâm nhập sâu Hi vọng thời gian tới, người nghiên cứu có đủ điều kiện để tiến hành phát triển đề tài theo hướng nêu TÀI LIỆU THAM KHẢO [AGR93b] R Agrawal, T Imielinski and A Swami, “Mining Associations between Sets of Items in Massive Databases”, Proc ACM SIGMOD, Washington D.C., May 1993 www.softlab.ece.ntua.gr/ [AGR94] R Agrawal and R Srikant, “Fast Algorithms for Mining Association Rules in Large Databases”, Proc VLDB, Santiago, Sep 1994 http://citeseer.ist.psu.edu/article/agrawal94fast.html [KLE94] M Klemettien, H Mannila, P Ronakainen, H Toivonen and A Verkamo, “Finding Interesting Rules from Large Sets of Discovered Association Rules”, Proc CIKM, Gaithersburg, Nov 1994 http://citeseer.ist.psu.edu/klemettinen94finding.html 99 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP [SAV95] A Savasere, E Omiecinski, S Navathe, “An Efficient Algorithm for Mining Association Rules in Large Databases”, Proc VLDB, Zurich, Sep 1995 http://citeseer.ist.psu.edu/sarasere95efficient.html [SRI95] R Srikant and R Agrawal, “Mining Generalized Association Rules”, Proc VLDB, Zurich, Sep 1995 http://citeseer.ist.psu.edu/srikant95mining.html [HAN95] J Han and Y Fu, “Discovery of Multiple-level Association Rules from Large Databases”, Proc VLDB, Zurich, Sep 1995, pp 420-431 [PAR95a] J -S Park and Y Fu, “An Efficient Hash Based Algorithm for Mining Association Rules”, Proc SIGMOD, 1995, pp 175-186 http://citeseer.nj.nec.com/article/chen95efficient.html [PAR95b] J -S Park, M -S Chen and P S Yu, “Efficient Parallel Data Mining for Association Rules”, Proc CIKM, 1995 www.acm.org/pubs/articles/proceedings/ cikm/221270/p31-park/p31-park.pdf [CHE96] D Cheung, J Han, V Ng and C.Wong, “Maintenance of Discovered Association Rules in Large Databases : An Incremental Updating Technique”, Proc ICDE, New Orleans, Feb 1996 citeseer.ist.psu.edu/cheung96maintenance.html [AYA99] Necip Fazil Ayan , “Updating Large Itemsets with Early Pruning”, 1999 http://citeseer.nj.nec.com/ayan99updating.html [VEL02] A.A Veloso, W Meira Jr, MB De Carvalho, B Possas, S Pathasarathy, M Javeed Jaki , “Mining Frequent Itemsets in Evoling Database”, 2002 http://citeseer.nj.nec.com/veloso02mining.html [CHE02] Minghua Zhang, Ben Kao, David Cheung, Chi-Lap Yip, “Efficient Algorithms for Incremental Update of Frequent Sequences” - 2002 http://citeseer.nj.nec.com/578999.html Phụ lục A CÀI ĐẶT VÀ SỬ DỤNG CHƯƠNG TRÌNH Yêu cầu hệ thống Tài nguyên RAM CPU OS Middle Ware SDK Cấu hình tối thiểu 32 Mb 33 MHz Win 98, Linux Access JDK 1.2 Mô tả đĩa CD kèm theo Hunghx : Thư mục gốc - setup : Thư mục chứa file Setup 100 Cấu hình gợi ý 512 Mb 2.4 GHz Win 2K Server, Unix Oracle 8.17 JDK 1.4 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP - source code : Thư mục chứa chương trình nguồn - report: Thư mục chứa báo cáo - test data : Thư mục chứa số file liệu thử - references : Thư mục chứa tài liệu tham khảo - Articles: Thư mục chứa file tham khảo PDF, Doc - Source code: Thư mục chứa chương trình mã nguồn mở Cài đặt - Vào thư mục setup, chạy file setup.exe - Khởi động BKDM Hướng dẫn sử dụng Chạy chương trình BKDM Giao diện sau: 1.1 Chọn chế độ đo/ so sánh tốc độ thuật tốn: Chọn BenchMark 101 ỨNG DƠNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP - Chọn Database chọn nút Bổ sung để đưa vào tập cần khai phá - Ấn định Support vào cột Min Support - Chọn nút So sánh Thời gian thực thi theo thuật toán điền vào cỏc ụ tương ứng 1.2 Chọn chế độ khai phá Chọn nút Khai phá Các bước cần làm trước khai phá: - Chọn sở liệu 102 ỨNG DÔNG LÝ THUYẾT LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP - Chọn thuật toán - Nhập Min Support Min Confidence - Chọn phân vùng - Chọn Options cách chọn checkbox (Hiển thị kết quả, Hiển thị LargeItemset, Diễn giải luật, Hiển thị Transaction) Chọn nút Khai phá để khai phá Kết hiển thị Tab: Luật kết hợp Kết Chọn nút Lưu kết để lưu lại kết khai phá (thời gian, luật) vào file text Chọn nút BenchMark để đo/ so sánh thuật toán khai phá sở liệu với Min Support khác Kết hiển thị Tab Kết Chọn nút Thốt để trở hình 103 ... sở liệu gia tăng : Trình bày phương pháp khai phá cở sở liệu thay đổi theo thời gian (cơ sở liệu gia tăng) Phần - Cài đặt thử nghiệm đánh giá kết quả: Trình bày cơng việc thực q trình cài đặt... SỞ DỮ LIỆU GIA TĂNG Một vấn đề quan tâm nhiều lĩnh vực khai phá liệu toán khai phá luật sở liệu lớn thay đổi thường xuyên, gọi sở liệu gia tăng (incremental database) Chương trình bày vấn đề đồng... LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU TÁC NGHIỆP 1.8.2 Bài toán khai phá luật kết hợp sở liệu gia tăng Một vấn đề toán khai phá luật kết hợp là: Làm để khai phá luật kết hợp sở liệu thay đổi thường xuyên

Ngày đăng: 24/04/2015, 22:12

Từ khóa liên quan

Mục lục

  • 1.1 SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC

    • 1.1.1 Khái niệm & nguồn gốc

    • 1.1.2 Các bước khai phá tri thức

    • 1.1.3 Các phương pháp khai phá dữ liệu

    • 1.1.4 Các kĩ thuật khai phá dữ liệu kinh điển

    • 1.2 BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP

      • 1.2.1 Giới thiệu bài toán

      • 1.2.2 Các khái niệm

      • 1.2.3 Các tính chất liên quan đến luật kết hợp

      • 1.2.4 Phát biểu bài toán

      • 1.2.5 Lược đồ cơ bản của thuật toán khai phá luật kết hợp

      • 1.3 THUẬT TOÁN TèM LARGE ITEMSET - APRIORI

        • 1.3.1 Yêu cầu thuật toán

        • 1.3.2 Thuật toán

        • 1.3.3 Một số thuật toán Apriori cải tiến

        • 1.4 THUẬT TOÁN SINH LUẬT

        • 1.5 CÁC THUẬT TOÁN TèM LUẬT KẾT HỢP KHÁC

          • 1.5.1 Thuật toán khai phá luật kết hợp không cần sinh Candidate

          • 1.5.2 Khai phá sử dụng câu lệnh truy vấn SQL

          • 1.6 KHAI PHÁ LUẬT KẾT HỢP TRấN CƠ SỞ DỮ LIỆU PHÂN TÁN

            • 1.6.1 Thuật toán Phân phối số đếm

            • 1.6.2 Thuật toán Phân phối dữ liệu

            • Thuật toán Phân phối dữ liệu

            • 1.6.3 Thuật toán Phân phối Candidate

            • 1.7 CÁC VẤN ĐỀ KHAI PHÁ LUẬT TRONG THỰC TẾ

              • 1.7.1 Khai phá luật kết hợp trọng số

Tài liệu cùng người dùng

Tài liệu liên quan