KHAI PHÁ DỮ LIỆU MỘT SỐ BÀI TOÁN VỀ DATAMINING

39 710 0
KHAI PHÁ DỮ LIỆU MỘT SỐ BÀI TOÁN VỀ DATAMINING

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI KHAI PHÁ DỮ LIỆU MỘT SỐ BÀI TOÁN VỀ DATAMINING GVHD: PGS.TS. ĐỖ PHÚC Học viên thực hiện: Huỳnh Thị Mỹ Hồng Mã số học viên: CH1101086 TP.HCM, năm 2012 MỤC LỤC Trang MỞ ĐẦU 1 Chương 1: GIỚI THIỆU VỀ KHÁM PHÁ TRI THỨC VÀ KHAI MỎ DỮ LIỆU 2 1.1. Sơ lược quá trình hình thành khám phá tri thức và khai mỏ dữ liệu 2 1.2. Khám phá tri thức và khai thác dữ liệu 4 Chương 2: CÂY QUYẾT ĐỊNH 7 2.1. Các lớp giải thuật học 7 2.2. Giải thuật học cây quyết định 7 2.3. Giải thuật học cây quyết định gồm 2 bước lớn 8 2.4. Chọn thuộc tính phân hoạch 8 2.5. Tính chất của độ đo thuần khiết: 3 tính chất 12 2.6. Tính chất của entropy 12 Chương 3: LUẬT KẾT HỢP 13 3.1. Giới thiệu 13 3.2. Các định nghĩa 14 3.3. Giải thuật luật kết hợp APRIORI 16 Chương 4: TÌM HIỂU KỸ THUẬT PHÂN LỚP MỚI SVM 19 4.1. Giới thiệu máy học véctơ hỗ trợ SVM 19 4.2. Giải thuật máy học SVM 19 4.3. Ứng dụng của SVM 26 4.4. Demo chương trình 27 Chương 5: Ý TƯỞNG ỨNG DỤNG KHAI MỎ DỮ LIỆU ĐỂ LỌC THƯ RÁC 31 5.1. Những tiện ích của thư điện tử (Email) 31 5.2. Những vấn nạn của thư rác (Spam) 31 5.3. Những thống kê về tổn thất do thư rác gây ra 31 5.4. Ý tưởng của việc lọc thư rác 31 5.5. Giải thuật MNB (Multinomial Naïve Bayes) 32 5.6. Giải thuật 33 5.7. Chuẩn bị dữ liệu 33 5.8. Tiêu chí đánh giá 33 TÀI LIỆU THAM KHẢO 35 1 MỞ ĐẦU Khai thác dữ liệu được biết là một môn chuyên ngành rất quan trọng đối với chương trình đào tạo cử nhân, kỹ sư và thạc sĩ công nghệ thông tin. Khai thác dữ liệu là tập hợp những phương pháp từ các chuyên ngành xác suất thống kê, phân tích dữ liệu, máy học, trí tuệ nhân tạo, hiển thị dữ liệu và cơ sở dữ liệu, nhằm khám phá tri thức tiềm ẩn dữ liệu lớn. Khai thác dữ liệu được ứng dụng nhiều trong các bài toán thực tế, nó có đến hàng trăm giải thuật. Trong bài tiểu luận này em xin trình bài sơ lược về khám phá tri thức, khai thác dữ liệu và một số giải thuật quan trọng trong Khai thác dữ liệu. Qua đây được gửi lời cảm ơn sâu sắc đến PGS.TS. Đỗ Phúc, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học “Khai thác dữ liệu” và cũng xin gửi lời cảm ơn đến TS. Đỗ Thanh Nghị (Trường ĐH Cần Thơ) người đã cung cấp cho em những tài liệu về Khai mỏ dữ liệu. Bên cạnh đó cũng không thể không nhắc đến công lao trợ giúp không mệt mỏi của các chuyên gia cố vấn qua mạng thuộc Trung tâm phát triển CNTT – ĐH Quốc gia TP.HCM và toàn thể các bạn bè học viên cùng lớp. 2 Chương 1 GIỚI THIỆU VỀ KHÁM PHÁ TRI THỨC VÀ KHAI MỎ DỮ LIỆU 1.1. Sơ lược quá trình hình thành khám phá tri thức và khai mỏ dữ liệu Trong những 1990, cuộc cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí thấp, thêm vào đó là sự phát triển của công nghệ thông tin về phần cứng lẫn phần mềm, công nghệ truyền thông, Web, internet đã góp phần đưa máy tính vào các sinh hoạt thường nhật của con người. Tất cả các hoạt động kinh doanh, vui chơi giải trí, nghiên cứu khoa học, giáo dục, truyền thông đều có sự hỗ trợ của máy tính. Từ đó, kết quả là dữ liệu ngày càng lớn và con người tìm ra các thiết bị lưu trữ trong cơ sở dữ liệu như băng từ, đĩa từ. Từ năm 1999, Giáo sư P.Lyman và các cộng sự của ông ở Đại học Berkeley đã tiến hành thống kê dữ liệu được sinh ra hằng năm trên toàn cầu. Kết quả chỉ trong năm 2002-2003 (tham khảo ở địa chỉ http:www.sims. berkeley.edu/research/projects/how-much-info-2003), dữ liệu toàn cầu tăng 5 Exabytes(5.10 18 ). Dữ liệu tăng 2 lần trong vòng 9 tháng. Những số minh chứng của sự bùng nổ cơ sở dữ liệu trong cuộc sống hằng ngày: - Một số dữ liệu thiên văn khoa học + Eroby’s Very Long Base Line Interforometry (VLBI). + 16 kính thiên văn (mỗi kính thu 1/Gigabit trên giây dữ liệu. Phân tích dữ liệu trong 25 ngày, kho dữ liệu quá lớn vài trăm Terabytes). - Các cơ sở dữ liệu khoa học + NSA: Hàng triệu văn bản nói về khủng bố. + Merck: Hàng triệu cấu trúc phân tử hóa học. + E1 nino: vài trăm Gigabytes. - Cơ sở dữ liệu truyền thông + AT&T: Tiếp nhận 275 cuộc gọi mỗi ngày. - Cơ sở dữ liệu thương mại + Rất nhiều công ty hiện đang duy trì các kho dữ liệu khổng lồ về các giao dịch của khách hàng. Một kho dữ liệu tương đối nhỏ thôi cũng có thể lưu trữ hơn một triệu giao dịch. + Phục vụ cho kế hoạch đầu tư và phát triển. + France Telecom: 30 Terabyte thông tin về khách hàng. 3 + Walmart: 20 triệu giao dịch mỗi ngày. - Dữ liệu về Word wide + Google: Tiếp nhận hơn 4 tỉ yêu cầu tìm kiếm / ngày, lưu trữ hàng trăm Terabytes dữ liệu. Vì kho dữ liệu quá lớn nên đòi hỏi cần khai thác những tri thức tìm ẩn. Vấn đề đặt ra là làm sao chúng ta có thể rút trích tri thức quan trọng từ các kho dữ liệu khổng lồ. Các tri thức phục vụ cho tổ chức cơ quan bao gồm việc phát hiện quan trọng trong khoa học, các dự báo chính xác về thời tiết và các thảm họa tự nhiên, những tri thức cho ta xác định được nguyên nhân và phương pháp điều trị các bệnh hiểm nghèo, … Sự ra đời của công nghệ khám phá tri thức và khai mỏ dữ liệu trong những năm gần đây nhằm đáp ứng các nhu cầu cần thiết của các tổ chức, cơ quan, công ty về phát triển tri thức từ các kho dữ liệu khổng lồ và áp dụng nhiều dữ liệu khác nhau. Các ứng dụng thành công của công nghệ khai mỏ dữ liệu có thể tìm thấy trong nhiều lĩnh vực như: tiếp thị, ngân hàng, bảo hiểm, y tế, sinh học, phát hiện gian lận, tìm kiếm thông tin, lọc thư rác, phân loại văn bản. Tạp chí về công nghệ môi trường MIT số ra tháng 7 năm 2001 cho rằng khai mỏ dữ liệu là một trong 10 công nghệ nổi bật nhất của thế kỷ XXI. Hình 1.1: Lĩnh vực ứng dụng thành công của khai mỏ dự liệu 4 1.2. Khám phá tri thức và khai thác dữ liệu Công nghệ khám phá tri thức từ dữ liệu được định nghĩa là sự trích xuất từ dữ liệu những thông tin hữu ích là tiềm ẩn và chưa được biết đến. Khai thác dữ liệu là một bước quan trọng, là quá trình khám phá tri thức từ dữ liệu. Khai thác dữ liệu được phân tích và khảo sát, phân tích một lượng lớn dữ liệu nhằm phát hiện ra các mẫu hoặc các luật có ý nghĩa. Hình 1.2: Quá trình khám phá tri thức Quá trình khám phá tri thức mô tả trong hình 1.2 là một quá trình lặp phức tạp, sử dụng nhiều cơ sở dữ liệu, máy học, phương pháp thống kê trong phân tích dữ liệu, hiển thị dữ liệu, tri thức nhân tạo, nhằm tìm ra những tri thức từ kho dữ liệu khổng lồ. Hình 1.3: Các lĩnh vực liên quan đến khám phá tri thức và khai thác dữ liệu Quy trình khám phá tri thức bao gồm 3 bước chính: tiền xử lý khai thác dữ liệu và đánh giá kết quả. Từ mục tiêu đề ra của ứng dụng, ở bước tiền xử lý chúng ta cần thực hiện: - Tập hợp dữ liệu từ nguồn dữ liệu khác nhau. - Chọn dữ liệu cần thiết cho mục tiêu đề ra, mẫu tin, trường dữ liệu. 5 - Biểu diễn dữ liệu, chuyển đổi kiểu sao cho phù hợp với giải thuật khai mỏ dữ liệu mà bước tiếp theo được sử dụng. - Làm sạch dữ liệu khắc phục đối với trường dữ liệu rỗng, dư thừa hoặc dữ liệu rỗng không hợp lệ, có thể tinh giảm dữ liệu hơn. Sau khi đã tiến hành xử lý dữ liệu xong, đến bước khai mỏ dữ liệu tiến hành xây dựng các mô hình với sự hỗ trợ của: + Máy học. + Trí tuệ nhân tạo. + Phân tích dữ liệu nhiều chiều bằng phương pháp thống kê. + Phương pháp trực quan hiển thị dữ liệu. Bước khai mỏ dữ liệu được xem là bước trung tâm của quá trình khám phá tri thức. Công việc rất phức tạp, lặp đi lặp lại các công việc như: xây dựng mô hình, tạo tri thức về dữ liệu, kiểm định lại mô hình, nếu chưa đạt thì phải xây dựng mô hình khác. Khai thác dữ liệu tập trung giải quyết các vấn đề cơ bản như phân lớp, truy hồi, gom nhóm và luật kết hợp. Phân lớp: Xây dựng mô hình phân loại dựa trên tập dữ liệu học có nhãn (lớp). Ví dụ: Chúng ta có sẵn tập dữ liệu thư điện tử, mỗi thư có nhãn là thư rác hay thư bình thường, mục tiêu là xây dựng mô hình phân lớp tập dữ liệu thư điện tử thành thư rác hay thư bình thường để khi có một thư điện tử mới đến thì mô hình dự báo được là thư này có phải là thư rác hay không? Hồi quy: Xây dựng mô hình phân loại trên tập dữ liệu học có nhãn (lớp) là giá trị liên tục. Ví dụ: Người ta xây dựng mô hình báo cáo mực nước sông MêKông (kiểu số thực) từ các yếu tố như thời tiết, mùa. Gom nhóm: Xây dựng mô hình gom cụm tập dữ liệu học (không có nhãn) sao cho các dữ liệu cùng nhóm có các tính chất tương tự nhau và dữ liệu của hai nhóm khác nhau có các tính chất khác nhau. Ví dụ: Chúng ta cần gom nhóm học sinh trong một lớp sao cho các học sinh cùng nhóm học giỏi cùng ban (khoa học xã hội, khoa học tự nhiên). Gom nhóm cũng như vấn đề học không giám sát. Luật kết hợp: Phát hiện mối liên quan giữa các biến của dữ liệu, chẳng hạn luật kết hợp có thể phát quy luật như một khách hàng mua bơ, bánh mì thì cũng mua sữa. 6 Sau bước khai mỏ dữ liệu, tiếp đến là đánh giá tri thức sinh ra từ việc tiền xử lý và khai mỏ dữ liệu. Kiểm định kết quả dựa vào mục tiêu ban đầu của ứng dụng. Nghĩa là chỉ có người sử dụng hoặc chuyên gia về lĩnh vực mới có khả năng đánh giá được tri thức sinh ra. Vì vậy, kết quả sinh ra từ quá trình khám phá tri thức cần dễ hiểu, dễ dịch kết quả để giúp người sử dụng hoặc chuyên gia có thể đánh giá và hiểu được kết quả sinh ra. Nếu kết quả không đạt được so với mục tiêu đề ra, người ta có thể quay lại các bước tiền xử lý hay khai mỏ dữ liệu để lặp lại quá trình khám phá tri thức. Những giải thuật trong 10 giải thuật quan trọng trong khai mỏ dữ liệu bao gồm: 1. K láng giềng 2. Baby ngây thơ 3. Cây quyết định 4. Phương pháp tập hợp mô hình như bagging, boosting. 5. Rừng ngẫu nhiên 6. Máy học và véctơ hỗ trợ 7. Giải thuật gom cụm kMeans 8. Luật kết hợp có tên là Apriori. [...]... học dẫn đến giải bài toán quy hoạch toàn phương, luôn có kết quả tối ưu toàn cục SVM là một trong những giải thuật trong khai mỏ dữ liệu 4.2 Giải thuật máy học SVM Giải thuật máy học là tìm một siêu phẳng tối tưu của phép chia các điểm dữ liệu thành hai thành phần sao cho các điểm ở một lớp nằm cùng một phía của siêu phẳng này Đối với bài toán nhiều lớp chúng ta có thể đưa về bài toán 2 lớp bằng kỹ thuật:... 26 Cả hai bài toán quy hồi và 1 lớp đều dẫn đến giải bài toán quy hoạch toàn phương tương tự như bài toán phân lớp của SVM 4.3 Ứng dụng của SVM • Nhận dạng: tiếng nói, ảnh, chữ viết tay • Phân loại văn bản, khai thác dữ liệu văn bản Phân tích dữ liệu theo thời gian • Phân tích dữ liệu gien, nhận dạng bệnh, công nghệ bào chế thuốc • Phân tích dữ liệu maketing  SVM nhận dạng chữ viết tay Hình 4.9: Hình... phần tử dữ liệu với độ lệch chuẩn là ε Trong các ứng dụng để phát hiện phần tử cá biệt hay người ta còn gọi là bài toán 1 lớp SVM Để xử lí vấn đề này, SVM đi tìm siêu cầu trong không gian (hàm nhân), có tâm 0 và bán kính nhỏ nhất r chứa hầu hết dữ liệu Các phần tử nằm ngoài siêu cầu được cho là các phần tử cá biệt Hình 4.8: SVM cho bài toán 1 lớp phát hiện các phần tử cá biệt 26 Cả hai bài toán quy... được đề xuất đầu tiên bởi Agrawal và các cộng sự cho phép khám phá ra các mối liên quan giữa các biến dữ liệu Luật kết hợp được ứng dụng rất nhiều trong thực tế, luôn nằm trong nhóm đầu của các giải thuật ứng dụng thành công của khai mỏ dữ liệu Giải thuật cũng góp mặt vào trong 10 giải thuật quan trọng của khai mỏ dữ liệu Ví dụ: Tập dữ liệu chứa các giao dịch sau: 14 3.2 Các định nghĩa Trước khi trình... giải bài toán quy hoạch toàn phương Với cùng giải thuật chỉ cần thay đổi cách sử dụng hàm nhân có thể giúp SVM có thể xử lý bài toán tuyến tính hoặc phi tuyến Hình 4.5: SVM đa lớp với 1-tất cả Để giải quyết bài toán phân k lớp (k>2 có hơn hai lớp) SVM có thể xây dựng trực tiếp mô hình cho nhiều lớp từ bài toán tối ưu cho k lớp Tuy nhiên các bài toán dưới đây được dùng nhiều trong thực tế: - Phương pháp... trọng của khai mỏ dữ liệu 2.1 Các lớp giải thuật học - Kết quả sinh ra dễ dịch (if… then) - Khá đơn giản, nhanh, hiệu quả được sử dụng nhiều - Liên tục trong nhiều năm qua, cây quyết được bình chọn là giải thuật được dùng nhiều nhất và thành công nhất - Giải quyết các vấn đề của phân loại, hồi qui - Làm việc cho dữ liệu số và loại - Được ứng dụng thành công trong hầu hết về phân tích dữ liệu, phân... phát triển mạnh, trở thành công cụ phổ biến trong khai phá dữ liệu Bằng việc phương pháp kết hợp hàm nhân, máy học vectơ hỗ trợ cung cấp các mô hình hiệu quả chính xác cho các vấn đề phân lớp và hồi qui tuyến tính và phi tuyến trong thực tế Giải thuật máy học SVM nhận đầu vào là một hàm nhân sẽ tạo ra một mô hình mới không cần đến bất kì thay đổi nào từ mã chương trình Giải thuật học dẫn đến giải bài. .. (Top-down) - Bắt đầu từ nút gốc, tất cả dữ liệu học ở nút gốc - Phân hoạch dữ liệu một cách đệ quy bằng việc chọn một thuộc tính để thực hiện phân hoạch tốt nhất có thể 2.3.2 Cắt nhánh Bottom-up Cắt nhánh cây con hoặc cắt nhánh cây từ dưới lên trên, để tránh học vẹt (overfitting, over leaning) 2.4 Chọn thuộc tính phân hoạch Ở mọi nút được đánh giá dựa trên phân tích dữ liệu học tốt nhất có thể: Việc đánh... cực tiểu hóa lỗi Giải thuật SVM dẫn đến bài toán quy hoạch toàn phương m min Ψ ( w, b, z ) = (1 / 2) x + c∑ zi 2 i =1 s.t (3) yi ( w.xi − b) ≥ 1 zi ≥ 0 (i=1,2,…,m) hằngc>0 sử dụng để chỉnh độ rộng lề và lỗi 22 Lời giải bài toán quy hoạch toàn phương (1) hay (3) của giải thuật học SVM có thể tìm được lời giải tương đương trong bài toán đối ngẫu của chúng Bài toán quy hoạch toàn phương (1) có thể viết... iα j yi y j xi x j 2 i =1 j =1 Bài toán quy hoạch toàn phương đưa đến việc tìm max α Φ (α ) với ràng buộc như (4.1) và các nhân tử Lagrange α i ≥ 0 có thể được viết lại thành: max α m 1 m m ∑∑α iα j yi y j xi x j − ∑α i 2 i =1 j =1 i =1 s.t (5) m ∑a y i =1 i j =0 αi ≥ 0 Tương tự, bài toán quy hoạch toàn phương (3) dành cho phân lớp dữ liệu không tách rời cũng có bài toán đối ngẫu là min α m 1 m m ∑∑ . MẠNG BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI KHAI PHÁ DỮ LIỆU MỘT SỐ BÀI TOÁN VỀ DATAMINING GVHD: PGS.TS. ĐỖ PHÚC Học viên thực hiện: Huỳnh Thị Mỹ Hồng Mã số học. biết đến. Khai thác dữ liệu là một bước quan trọng, là quá trình khám phá tri thức từ dữ liệu. Khai thác dữ liệu được phân tích và khảo sát, phân tích một lượng lớn dữ liệu nhằm phát hiện ra. 1 Chương 1: GIỚI THIỆU VỀ KHÁM PHÁ TRI THỨC VÀ KHAI MỎ DỮ LIỆU 2 1.1. Sơ lược quá trình hình thành khám phá tri thức và khai mỏ dữ liệu 2 1.2. Khám phá tri thức và khai thác dữ liệu 4 Chương 2: CÂY

Ngày đăng: 09/04/2015, 22:44

Từ khóa liên quan

Mục lục

  • CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG

    • MỤC LỤC

Tài liệu cùng người dùng

Tài liệu liên quan