Khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi

74 274 0
Khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trong quá trình thực hiện luận văn này, em đã nhận đƣợc sự hƣớng dẫn, chỉ bảo rất tận tình của GS. TS. Vũ Đức Thi, Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam là cán bộ trực tiếp hƣớng dẫn khoa học cho em. Em xin chân thành cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin, các thầy cô thuộc Viện Công nghệ Thông tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trƣờng Đại học sƣ phạm Hà Nội 2 cùng các anh chị đồng nghiệp trong cơ quan đã tạo những điều kiện thuận lợi cho em đƣợc học tập và nghiên cứu tại trƣờng Đại học Sƣ Phạm Hà Nội 2. Qua đây em cũng xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học K15KHMT- trƣờng Đại học sƣ phạm Hà Nội 2 đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ những kinh nghiệm học tập, công tác trong suốt khoá học. Cuối cùng, tôi xin gửi tới gia đình, bạn bè và những ngƣời thân đã luôn bên cạnh tôi động viên tôi trong suốt quá trình thực hiện luận văn lời cám ơn vô hạn nhất. Thời gian qua mặc dù đã có rất nhiều cố gắng song luận văn không thể tránh khỏi những thiếu sót, rất mong đƣợc sự chỉ bảo của các quý thầy cô và các bạn. Tôi xin chân thành cảm ơn! Hà Nội, ngày 5 tháng 12 năm 2013 Tác giả Hoàng Thị Cúc 2 LỜI CAM ĐOAN thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc. Hà Nội, ngày 5 tháng 12 năm 2013 Tác giả Hoàng Thị Cúc 3 MỤC LỤC LỜI CẢM ƠN 1 LỜI CAM ĐOAN 2 MỤC LỤC 3 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 4 DANH MỤC CÁC BẢNG 5 DANH MỤC CÁC HÌNH 6 MỞ ĐẦU 7 Chƣơng 1. TỔNG QUAN 9 1.1. Khai phá dữ liệu 9 1.2. Khai phá luật quyết định 12 1.3. Lý thuyết tập thô 15 1.3.1. Hệ thông tin 15 1.3.2. Quan hệ bất khả phân biệt 16 1.3.3. Xấp xỉ tập hợp 18 1.3.4. Bảng quyết định 20 1.3.5. Luật quyết định 18 1.4. Khái niệm làm thô, làm mịn giá trị thuộc tính 25 1.5. Tiến trình cập nhật tri thức khi làm thô, làm mịn các giá trị thuộc tính 26 1.6. So sánh kĩ thuật phân lớp dựa trên luật kết hợp và phân lớp dựa trên tập thô 27 Chƣơng 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 29 2.1. Cơ sở toán học 29 2.1.1. Làm thô các giá trị thuộc tính điều kiện 29 2.1.2. Làm mịn các giá trị thuộc tính điều kiện 31 2.1.3. Làm thô các giá trị thuộc tính quyết định 33 2.1.4. Làm mịn các giá trị thuộc tính quyết định 33 2.2. Thuật toán 34 2.3. Độ phức tạp của thuật toán 42 CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 51 3.1. Mô tả dữ liệu 51 3.2. Cấu trúc chƣơng trình 52 3.3. Kết quả thử nghiệm 56 3.4. Nhận xét 58 PHẦN KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 73 4 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu Ý nghĩa BN p (X) P – miền biên của X PX P - Xấp xỉ trên của X PX P- Xấp xỉ dƣới của X IND(P) P – Quan hệ bất khả phân biệt Sup(C i , D j ) Độ hỗ trợ của luật quyết đinh C i D j Cov(C i , D j ) Độ phủ của luật quyết đinh C i D j Acc(C i , D j ) Độ chính xác của luật quyết đinh C i D j [x] p Lớp tƣơng đƣơng chứa x trong quan hệ IND(P) Acc (t) (C, D) Ma trận độ chính xác tại thời điểm t của tất cả các luật quyết định C i D j Sup (t) (C, D) Ma trận độ hỗ trợ tại thời điểm t của tất cả các luật quyết định C i D j Cov (t) (C, D) Ma trận độ phủ tại thời điểm t của tất cả các luật quyết định C i D j 5 DANH MỤC CÁC BẢNG Bảng 1.1: Ví dụ về hệ thông tin 16 Bảng 1.2: Ví dụ về bảng quyết định 21 Bảng 2.1: Ví dụ về bảng quyết định đầy đủ và nhất quán 46 Bảng 2.2: Độ chính xác và độ phủ đối với mỗi luật tại thời điểm t+2 49 6 DANH MỤC CÁC HÌNH Hình 2.1: Các bƣớc cơ bản của thuật toán rút trích luật quyết định khi làm thô/mịn các giá trị thuộc tính. 21 Hình 3.1: Cấu trúc bảng dữ liệu minh họa 35 Hình 3.2: Dữ liệu lƣu trữ trong 1 bảng minh họa 51 Hình 3.3: Cấu trúc bảng TableMetaData 52 Hình 3.4: Dữ liệu trong bảng TableMetaData 52 Hình 3.5: Giao diện chƣơng trình nạp bảng quyết định 69 Hình 3.6: Tính toán với dữ liệu minh họa khi tính toán 70 Hình 3.7: Lựa chọn cặp giá trị cần làm thô trên lớp điều kiện 70 Hình 3.8: Lựa chọn tập đối tƣợng cần làm mịn trên lớp quyết định 71 7 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay công nghệ thông tin đƣợc phát triển rộng rãi trong hầu hết các lĩnh vực của đời sống xã hội. Điều này dẫn đến sự bùng nổ thông tin đòi hỏi phải phát triển các phƣơng pháp khai phá dữ liệu hiệu quả để có thể phát hiện ra tri thức hữu ích, tiềm ẩn trong các cơ sở dữ liệu lớn nhằm mục đích hỗ trợ các nhà quản lý, kinh doanh trong lĩnh vực ra quyết định, các chuyên gia và các nhà khoa học trong nghiên cứu. Hội nghị quốc tế về khai phá dữ liệu và khám phá tri thức đƣợc tổ chức hàng năm, luân phiên tại nhiều nƣớc đã thu hút hàng trăm nhà khoa học hàng đầu tham gia. Lý thuyết tập thô đƣợc đề nghị bởi Pawlak Z. [12], [13] từ những năm đầu của thập niên 80 của thế kỉ trƣớc là một cách tiếp cận mới để xử lý dữ liệu mơ hồ và không chắc chắn. Cách tiếp cận lý thuyết tập thô có vai trò quan trọng trong trí tuệ nhân tạo, đặc biệt trong các lĩnh vực học máy, hỗ trợ quyết định, khám phá tri thức từ cơ sở dữ liệu phục vụ các hệ thống hỗ trợ quyết định, lập luận quy nạp và nhận dạng mẫu. Sử dụng lý thuyết tập thô có thể giải quyết hiệu quả các vấn đề quan trọng nhƣ: Rút gọn thuộc tính, xử lý giá trị thiếu, rời rạc hóa dữ liệu, phát hiện phụ thuộc dữ liệu, phát hiện các luật quyết định, luật kết hợp (tĩnh hoặc động), phân cụm dữ liệu Khi áp dụng tập thô để giải quyết vấn đề khám phá tri thức và trích rút các luật quyết định từ cơ sở dữ liệu, chúng ta thƣờng phải đối mặt với các tình huống cơ sở dữ liệu có hàng triệu đối tƣợng và theo thời gian số thuộc tính hoặc các thuộc tính có thể thay đổi. Khi đó để thu đƣợc các luật quyết định mới có ý nghĩa từ tập dữ liệu đã bị thay đổi, nếu chúng ta xem xét lại cả cơ sở dữ liệu ban đầu và cả dữ liệu bị thay đổi gần nhất thì công việc này cũng sẽ tiêu tốn một số lƣợng thời gian tính và không gian bộ nhớ. Do đó hiệu quả của các thuật toán này rất thấp. Trong thực tế vấn đề trên thƣờng xuyên xảy 8 ra, khi đó việc nghiên cứu tìm ra các thuật toán mới nhằm nâng cao hiệu quả trong việc cập nhật tri thức từ bảng dữ liệu động là công việc cần thiết đòi hỏi sự quan tâm của các nhà nghiên cứu. Trên cơ sở đó tôi chọn đề tài: “Khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi” làm đề tài luận văn của mình. 2. Mục đích nghiên cứu Lựa chọn các phƣơng pháp phù hợp với lớp bài toán cần giải quyết, sau đó là so sánh, đánh giá các phƣơng pháp theo các tiêu chuẩn khác nhau. 3. Nhiệm vụ nghiên cứu Xây dựng thuật toán khai phá các luật từ bảng dữ liệu khi làm thô, mịn các giá trị của thuộc tính; cải tiến thuật toán khai phá luật quyết định khi bổ sung, loại bỏ các đối tƣợng ra khỏi hệ thống nhằm giảm độ phức tạp tính toán và không gian nhớ. 4. Đối tƣợng nghiên cứu Đối tƣợng nghiên cứu của luận văn là bảng dữ liệu có các giá trị thuộc tính thay đổi. 5. Phạm vi nghiên cứu Tập trung vào việc nghiên cứu thuật toán theo tiếp cận gia tăng phát hiện các luật quyết định mới khi các giá trị thuộc tính thay đổi. 6. Phƣơng pháp nghiên cứu Tiếp cận gia tăng theo tiếp cận thô để giải quyết các bài toán khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi. 9 Chƣơng 1. TỔNG QUAN 1.1. Khai phá dữ liệu Khám phá tri thức là một quá trình tìm kiếm trong cơ sở dữ liệu các mẫu đúng đắn, mới, có ích tiềm tàng và có thể hiểu đƣợc đối với ngƣời sử dụng. Quá trình khám phá tri thức gồm nhiều pha, mỗi pha có vai trò và tầm quan trọng riêng. Khai phá dữ liệu (DM) là một pha quan trọng trong toàn bộ tiến trình khám phá tri thức, sử dụng các thuật toán đặc biệt để chiết xuất các mẫu từ dữ liệu. Về bản chất đây là giai đoạn duy nhất để rút trích và tìm ra đƣợc các mẫu, các mô hình, các tri thức tiềm ẩn có trong cơ sở dữ liệu phục vụ cho việc mô tả và dự đoán. Quá trình khai phá dữ liệu trải qua ba bƣớc:[5] Bước 1: Lọc dữ liệu (tiền xử lý). Khi dữ liệu đƣợc thu thập từ nhiều nguồn khác nhau, nên sẽ có những sai sót, dƣ thừa và trùng lặp. Lọc dữ liệu nhằm loại bỏ những dƣ thừa để có đƣợc dữ liệu định dạng thống nhất. Sau khi lọc và chỉnh sửa sẽ gọn hơn, do vậy có thể xử lý nhanh chóng hơn. Ví dụ trong bài toán tìm quy luật mua hàng của khách hàng trong một siêu thị, ta cần xem khách hàng thƣờng mua những mặt hàng nào, dựa trên đó để sắp xếp những món hàng đó gần nhau. Từ dữ liệu nguồn do siêu thị cung cấp, có thể có nhiều thuộc tính không cần thiết cho khai phá dữ liệu nhƣ: mã khách hàng, nhà cung cấp, đơn giá hàng, ngƣời bán hàng … Các dữ liệu này cần cho quản lý bán hàng nhƣng không cần cho khai phá dữ liệu, vì vậy có thể loại bỏ thuộc tính này trƣớc khi tiến hành công việc khai phá dữ liệu. Bước 2: Khai phá dữ liệu (là công việc chính) sử dụng các thuật toán khác nhau để khai phá các tri thức tiềm ẩn trong dữ liệu. Bước 3: (Hậu xử lý) là quá trình đánh giá kết quả khai phá theo yêu cầu của ngƣời dùng. Các ký thuật khai phá dữ liệu khác nhau đƣợc dùng cho cùng một nguồn dữ liệu, có thể sẽ cho các kết quả khác nhau. Các kết quả này đƣợc 10 đánh giá theo các quy tắc, trong số các kết quả thỏa mãn yêu cầu đánh giá, giữ lại kết quả phù hợp nhất với yêu cầu của ngƣời sử dụng. Có nhiều kỹ thuật khai phá dữ liệu đƣợc nghiên cứu, trong đó có ba kỹ thuật đƣợc các nhà nghiên cứu sử dụng nhiều nhất là: Kỹ thuật phát hiện luật kết hợp, kỹ thuật phân lớp dữ liệu và kỹ thuật phân nhóm dữ liệu. Kỹ thuật luật kết hợp Khái niệm luật kết hợp đƣợc Agrawal và nhóm nghiên cứu đƣa ra năm 1993. Mục tiêu của kỹ thuật luật kết hợp là tìm ra những mối tƣơng quan giữa những mục dữ liệu thƣờng xuyên trong cơ sở dữ liệu. Bài toán khai phá luật kết hợp đƣợc chia thành hai bài toán nhỏ. Bài toán thứ nhất là tìm tất các các tập mục dữ liệu có độ hỗ trợ thỏa mãn ngƣỡng tối thiểu cho trƣớc, gọi là tập mục dữ liệu thƣờng xuyên. Bài toán thứ hai là tìm ra luật kết hợp từ những tập mục thƣờng xuyên thỏa mãn độ tin cậy tối thiểu cho trƣớc. Ví dụ về luật kết hợp: Cửa hàng bán văn phòng phẩm đăng thông tin quảng cáo tuần trên tờ báo địa phƣơng. Khi một mặt hàng nào đó, chẳng hạn nhƣ mực in, đã đƣợc chỉ định bán giảm giá, cửa hàng phải xác định đƣợc các mặt hàng khác thƣờng đƣợc khách hàng mua cùng với mực in. Dữ liệu bán hàng cho thấy rằng giấy A4 và mực in đƣợc khách hàng mua cùng lúc chiếm 30% và kẹp giấy đƣợc mua kèm với mực in là 40 %. Dựa vào các mối quan hệ này, cửa hàng nên bán giấy A4 và kẹp giấy gần với mặt hàng mực in khi bán giảm giá. Đồng thời, để tăng doanh thu, họ cũng quyết định không đƣa mặt hàng giấy A4 và kẹp giấy vào danh sách các mặt hàng giảm giá. Các hành động này nhằm mục đích tăng thêm toàn bộ khối lƣợng hàng bán ra (do bán đƣợc cho khách hàng các mặt hàng mua mực in khi đƣợc quảng cáo) và tăng doanh thu cửa hàng. [...]... trọng, trong khi đó Rc thì xem sự phân biệt giữa các giá trị của thuộc tính trên cơ sở khái niệm phân biệt là quan trọng 29 Chƣơng 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 2.1 Cơ sở toán học 2.1.1 Làm thô các giá trị thuộc tính điều kiện Định lý 2.1 Giả sử sau thời điểm t, hai giá trị w, y của thuộc tính a thô thành giá trị mới z, z C đƣợc làm Va Tại thời điểm t +... hai trƣờng hợp thay đổi của bảng dữ liệu đó là: Bảng dữ liệu có các giá trị thuộc tính thay đổi và bảng dữ liệu có tập các đối tƣợng thay đổi Trong cả hai trƣờng hợp này, để đánh giá kết quả trích rút các luật quyết định, luận văn sử dụng độ chính xác và độ phủ của luật 15 1.3 Lý thuyết tập thô 1.3.1 Hệ thông tin Định nghĩa 1.1 [2] Một tập dữ liệu đƣợc cho dƣới dạng bảng, trong đó các hàng biểu diễn... phải tính giá trị Sup(Cp, Dj) đối với mọi j, sau đó suy ra giá trị của Sup(Cq, Dj) là hiệu giữa giá trị của Sup(Cs, Dj) và Sup(Cp, Dj) 2.1.3 Làm thô các giá trị thuộc tính quyết định Tƣơng tự nhƣ các kết quả đã thu đƣợc khi làm thô các giá trị thuộc tính điều kiện, khi làm thô các giá trị thuộc tính quyết định ta cũng thu đƣợc kết quả nhƣ sau: Giả sử thời điểm t, hai giá trị w, y của thuộc tính quyết định. .. thì ta gọi giá trị z của thuộc tính a là đƣợc làm mịn thành hai giá trị mới là w và y 1.5 Tiến trình cập nhật tri thức khi làm thô, làm mịn các giá trị thuộc tính Cho bảng quyết định DS = (U, C D, V, f), Va, Vd tƣơng ứng là tập các giá trị của thuộc tính điều kiện a và thuộc tính quyết định d Yêu cầu đặt ra: Tiến hành rút trích các luật quyết định mới khi làm thô, làm mịn các giá trị thuộc tính điều... ứng dụng, các nghiên cứu này xem xét trên các bảng dữ liệu tĩnh Trong thực tế, dữ liệu thƣờng xuyên thay đổi theo thời gian Đã có một số nghiên cứu về các khía cạnh khác nhau để cập nhật tri thức trên bảng dữ liệu động, tập trung chủ yếu vào ba trƣờng hợp sau đây: (1) Tập các giá trị thuộc tính thay đổi trong khi tập các tập đối tƣợng và các tập thuộc tính không đổi; (2) Tập các đối tƣợng thay đổi trong... khi các tập thuộc tính và tập các giá 13 trị thuộc tính không đổi; (3) Tập các thuộc tính thay đổi trong khi tập các đối tƣợng và tập các giá trị thuộc tính không đổi Trong trƣờng hợp thứ nhất, Chen đã đề nghị một thuật toán để cập nhật các xấp xỉ của một khái niệm (một lớp tƣơng đƣơng quyết định) khi làm mịn các giá trị thuộc tính điều kiện Trong thuật toán này, chƣa đề cập đến vấn đề cập nhật các. .. đến trƣờng hợp bảng dữ liệu gia tăng theo chiều ngang dựa trên việc xây dựng cây quyết định để sinh luật Tuy nhiên, nghiên cứu trong [7] chƣa đề cập đến vấn đề làm sao để khai phái các luật kết hợp khi tập các giá trị thuộc tính thay đổi hoặc khi loại bỏ đối tƣợng ra khỏi bảng dữ liệu Trong khuôn khổ của luận văn, đi sâu vào nghiên cứu thuật toán khai phá luật quyết định trên bảng dữ liệu động theo... dụng sự giống nhau định lƣợng dƣới dạng khoảng cách Độ đo giống nhau có thể xác định dựa trên ý kiến chuyên gia trong lĩnh vực 1.2 Khai phá luật quyết định Khai phá các luật quyết là quá trình xác định những luật quyết định trên bảng quyết định cho trƣớc, phục vụ cho việc phân lớp của các đối tƣợng mới Khai phá luật quyết định đã đƣợc nhiều chuyên gia trong và ngoài nƣớc quan tâm trên cả hai phƣơng... toán Trên cơ sở các định lý và các hệ quả đƣợc trình bày ở trên, luận văn đi tìm hiểu thuật toán để rút trích các luật quyết định có ý nghĩa khi làm thô, làm mịn các giá trị thuộc tính điều kiện hoặc khi làm thô, làm mịn các giá trị thuộc tính quyết định Thuật toán đƣợc xây dựng theo hƣớng tiếp cận gia tăng, không đòi hỏi phải thực hiện lại phân lớp khi các giá trị thuộc tính thay đổi, chỉ cần tìm các. .. khi làm thô, làm mịn các giá trị thuộc tính quyết định Các luật quyết định đƣợc trích rút thỏa mãn đồng thời cả ngƣỡng độ chính xác và ngƣỡng độ phủ cho trƣớc Giả sử tập thuộc tính quyết định D chỉ gồm một thuộc tính d, tiến trình học các luật quyết định khi các giá trị thuộc tính thay đổi diễn ra từ thời điểm t đến thời điểm t+1; U/C = {C1, …,Cm}, U/D = {D1, …, Dn} tƣơng ứng là các phân hoạch đƣợc . hợp thay đổi của bảng dữ liệu đó là: Bảng dữ liệu có các giá trị thuộc tính thay đổi và bảng dữ liệu có tập các đối tƣợng thay đổi. Trong cả hai trƣờng hợp này, để đánh giá kết quả trích rút các. thuộc tính thay đổi. 6. Phƣơng pháp nghiên cứu Tiếp cận gia tăng theo tiếp cận thô để giải quyết các bài toán khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi. . dựa trên luật kết hợp và phân lớp dựa trên tập thô 27 Chƣơng 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 29 2.1. Cơ sở toán học 29 2.1.1. Làm thô các giá

Ngày đăng: 23/07/2015, 23:44

Tài liệu cùng người dùng

Tài liệu liên quan