250344

79 668 5
Tài liệu đã được kiểm tra trùng lặp
250344

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC TS. VŨ THANH NGUYÊN Thành phố Hồ Chí Minh - 2010 i NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN . . . . . . . . . . . . . . . . . TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ hướng dẫn TS. Vũ Thanh Nguyên ii NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN . . . . . . . . . . . . . . . . . TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ phản biện iii MỤC LỤC Trang NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN I NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN II MỤC LỤC .III DANH MỤC CÁC BẢNG . VI DANH MỤC CÁC HÌNH VII DANH MỤC CÁC TỪ VIẾT TẮT VIII CHƯƠNG 1. GIỚI THIỆU .1 1.1. KHAI PHÁ DỮ LIỆU .1 1.2. LUẬT KẾT HỢP .2 1.3. LÝ THUYẾT TẬP THÔ .2 1.4. ĐÁNH GIÁ LUẬT 3 1.5. TÓM LẠI 4 CHƯƠNG 2. KIẾN THỨC CƠ BẢN .5 2.1. LÝ THUYẾT TẬP THÔ .5 2.1.1. Các khái niệm 5 2.1.2. Thuật toán tìm các rút gọn .12 2.1.3. Thuật toán tìm rút gọn tối ưu .16 2.1.4. Tập thô và rời rạc hóa dữ liệu 17 2.2. PHÁT SINH LUẬT KẾT HỢP .23 2.2.1. Giới thiệu .23 2.2.2. Khai thác tập phổ biến .23 2.2.3. Khai thác luật kết hợp từ tập phổ biến .28 2.2.4. Sử dụng luật kết hợp vào việc phân lớp .30 CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ 32 3.1. ĐỘ ĐO SỰ HỮU ÍCH CỦA LUẬT 32 3.1.1. Độ hỗ trợ .33 3.1.2. Độ tin cậy 33 3.1.3. Độ đo Lift .34 iv 3.1.4. Độ đo Laplace 34 3.1.5. Độ chắc chắn .35 3.1.6. Độ đo Leverage 35 3.1.7. Độ đo Correlation 35 3.1.8. Độ đo Jaccard .36 3.1.9. Độ đo Cosine 36 3.1.10. Độ đo Odds Ratio .36 3.1.11. Rule Template 36 3.2. ĐỘ ĐO TẦM QUAN TRỌNG CỦA LUẬT .38 3.2.1. Các định nghĩa .38 3.2.2. Một ví dụ về độ đo RIM 39 3.2.3. Nhận xét về độ đo RIM 40 3.3. ĐỘ ĐO XEM LUẬT NHƯ THUỘC TÍNH .41 3.3.1. Xây dựng bảng quyết định mới 41 3.3.2. Các định nghĩa .43 3.3.3. Một ví dụ về độ đo RAM .43 3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM 44 3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN 45 3.4.1. Định nghĩa 45 3.4.2. Quá trình thực hiện 45 3.4.3. Một ví dụ về độ đo ERIM 46 3.4.4. Nhận xét về độ đo ERIM .47 3.5. ĐỘ ĐO WAERIM .47 3.5.1. Định nghĩa 48 3.5.2. Quá trình thực hiện 48 3.6. ĐỘ ĐO AIERIM .49 3.6.1. Định nghĩa 49 3.6.2. Một ví dụ về độ đo AIERIM 50 CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO .51 4.1. GIỚI THIỆU .51 4.1.1. Nguồn dữ liệu “Nursery” .51 4.1.2. Nguồn dữ liệu “BankLoan” .52 v 4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG .54 4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO .55 4.3.1. Sử dụng nguồn “Nursery” 55 4.3.2. Sử dụng nguồn “BankLoan” 56 4.3.3. Kết luận 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO .67 vi DANH MỤC CÁC BẢNG Bảng 2.1. Một ví dụ về Hệ thông tin . 5 Bảng 2.2. Một ví dụ về Bảng quyết định . 6 Bảng 2.3. Ma trận khả phân xây dựng từ Bảng 2.2 11 Bảng 2.4. Một ví dụ về Bảng quyết định . 11 Bảng 2.5. Ma trận khả phân xây dựng từ Bảng 2.4 12 Bảng 2.6. Quá trình rời rạc hoá . 18 Bảng 2.7. Bảng quyết định mới ∗ T . 21 Bảng 2.8. Kết quả rời rạc hóa dữ liệu 23 Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch 24 Bảng 2.10. Một ví dụ về tập phổ biến . 24 Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% . 29 Bảng 3.1. Ví dụ cho mẫu luật 37 Bảng 3.2. Một số rút gọn từ nguồn Zoo 39 Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo 40 Bảng 3.4. Bảng quyết định ví dụ cho độ đo RAM . 42 Bảng 3.5. Xây dựng bảng quyết định mới . 43 Bảng 3.6. Các luật kết hợp từ nguồn Lenses với minSupp=3% và minConf=70% 44 Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses 44 Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car . 46 Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car 46 Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car . 50 Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car 50 Bảng 4.1. Các thuộc tính của nguồn Nursery . 51 Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 52 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan 53 Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery . 60 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) . 62 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 2) . 64 vii DANH MỤC CÁC HÌNH Hình 1.1. Quá trình phát hiện tri thức 1 Hình 2.1. Tập các điểm cắt trên thuộc tính a 19 Hình 2.2. Tập các điểm cắt cực tiểu . 22 Hình 2.3. Cây tìm kiếm IT-tree . 26 Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% . 27 Hình 4.1. Mô hình xây dựng ứng dụng . 54 Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery . 55 Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) . 56 Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) . 57 viii DANH MỤC CÁC TỪ VIẾT TẮT AIERIM Attributes Importance Degree Based Enhanced Rule Importance Measure CBA Classification Based on Associations CSDL Cơ Sở Dữ Liệu ERIM Enhanced Rule Importance Measure IT-pair Itemset-Tidset pair IT-tree Itemset-Tidset tree KDD Knowledge Discovery in Database RIM Rule Importance Measure RAM Rule-as-Attribute Measure WAERIM Weight Average Based Enhanced Rule Importance Measure

Ngày đăng: 05/04/2013, 13:59

Hình ảnh liên quan

Quá trình phát hiện tri thức có thể được biểu diễn bằng Hình 1.1: - 250344

u.

á trình phát hiện tri thức có thể được biểu diễn bằng Hình 1.1: Xem tại trang 11 của tài liệu.
Xem ví dụ đơn giản về hệ thông tin trong Bảng 2.1, ta có tập vũ trụ } - 250344

em.

ví dụ đơn giản về hệ thông tin trong Bảng 2.1, ta có tập vũ trụ } Xem tại trang 16 của tài liệu.
Bảng 2.5. Matr ận khả phân xây dựng từ Bảng 2.4 - 250344

Bảng 2.5..

Matr ận khả phân xây dựng từ Bảng 2.4 Xem tại trang 22 của tài liệu.
Input: Bảng quyết định nhất quán T= (C , D) - 250344

nput.

Bảng quyết định nhất quán T= (C , D) Xem tại trang 26 của tài liệu.
Xét bảng quyết định T= (U, C∪ D ), với mỗi thuộc tính a∈ C có miền trị Va - 250344

t.

bảng quyết định T= (U, C∪ D ), với mỗi thuộc tính a∈ C có miền trị Va Xem tại trang 28 của tài liệu.
Hình 2.1. Tập các điểm cắt trên thuộc tín ha - 250344

Hình 2.1..

Tập các điểm cắt trên thuộc tín ha Xem tại trang 29 của tài liệu.
T được xây dựng trong Bảng2.7 - 250344

c.

xây dựng trong Bảng2.7 Xem tại trang 31 của tài liệu.
Hình 2.2. Tập các điểm cắt cực tiểu - 250344

Hình 2.2..

Tập các điểm cắt cực tiểu Xem tại trang 32 của tài liệu.
Kết quả rời rạc hóa tập dữ liệu mẫu với tập các điểm cắt cực tiểu (Bảng 2.8 ):  - 250344

t.

quả rời rạc hóa tập dữ liệu mẫu với tập các điểm cắt cực tiểu (Bảng 2.8 ): Xem tại trang 32 của tài liệu.
Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch - 250344

Bảng 2.9..

Ví dụ về cơ sở dữ liệu dạng giao dịch Xem tại trang 34 của tài liệu.
Hình 2.3. Cây tìm kiếm IT-tree - 250344

Hình 2.3..

Cây tìm kiếm IT-tree Xem tại trang 36 của tài liệu.
Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% - 250344

Hình 2.4..

Cây tìm kiếm tập phổ biến với minSupp=50% Xem tại trang 37 của tài liệu.
Ví dụ: Với cơ sở dữ liệu trong Bảng 2.9, cây tìm kiếm minh họa cho quá trình tìm tập phổ biến với ngưỡng minSupp=50% (xem Hình 2.4):  - 250344

d.

ụ: Với cơ sở dữ liệu trong Bảng 2.9, cây tìm kiếm minh họa cho quá trình tìm tập phổ biến với ngưỡng minSupp=50% (xem Hình 2.4): Xem tại trang 37 của tài liệu.
Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% - 250344

Bảng 2.11..

Luật kết hợp thỏa minSupp=50%, minConf=80% Xem tại trang 38 của tài liệu.
hình thành một phân lớp (Classifier) chính xác từ cơ sở dữ liệu dùng cho mục - 250344

hình th.

ành một phân lớp (Classifier) chính xác từ cơ sở dữ liệu dùng cho mục Xem tại trang 40 của tài liệu.
Bảng 3.2. Một số rút gọn từ nguồn Zoo - 250344

Bảng 3.2..

Một số rút gọn từ nguồn Zoo Xem tại trang 49 của tài liệu.
Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo - 250344

Bảng 3.3..

Tập luật quan trọng theo độ đo RIM từ nguồn Zoo Xem tại trang 50 của tài liệu.
luật từ bảng quyết định với minSupp=3% và minConf=70%, kết quả gồm 8 luật trong Bảng 3.6 - 250344

lu.

ật từ bảng quyết định với minSupp=3% và minConf=70%, kết quả gồm 8 luật trong Bảng 3.6 Xem tại trang 54 của tài liệu.
Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car - 250344

Bảng 3.9..

Tập luật với độ đo ERIM từ nguồn Car Xem tại trang 56 của tài liệu.
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car - 250344

Bảng 3.10..

Mức độ quan trọng của các tập thuộc tính trên nguồn Car Xem tại trang 60 của tài liệu.
Bảng 3.11. - 250344

Bảng 3.11..

Xem tại trang 60 của tài liệu.
4.1.2. Nguồn dữ liệu “BankLoan” Lo ại  - 250344

4.1.2..

Nguồn dữ liệu “BankLoan” Lo ại Xem tại trang 62 của tài liệu.
được trình bày trong Bảng 5.1. - 250344

c.

trình bày trong Bảng 5.1 Xem tại trang 63 của tài liệu.
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG - 250344

4.2..

MÔ HÌNH XÂY DỰNG ỨNG DỤNG Xem tại trang 64 của tài liệu.
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm - 250344

Bảng 4.4.

trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm Xem tại trang 65 của tài liệu.
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3  biểu diễn bằng hình vẽđộ chính xác trung bình trong 10 lần test theo t ừ ng  - 250344

Bảng 4.5.

trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3 biểu diễn bằng hình vẽđộ chính xác trung bình trong 10 lần test theo t ừ ng Xem tại trang 66 của tài liệu.
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) - 250344

Hình 4.4..

Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) Xem tại trang 67 của tài liệu.
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery - 250344

Bảng 4.4..

Kết quả 10 lần thử nghiệm với Nursery Xem tại trang 70 của tài liệu.
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) - 250344

Bảng 4.5..

Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) Xem tại trang 72 của tài liệu.
Bảng 4.6. Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2) - 250344

Bảng 4.6..

Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2) Xem tại trang 74 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan