Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

98 1.2K 5
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá các luật liên kết từ kho dữ liệu là một nội dung quan trọng của khai phá dữ liệu. Nó có một ứng dụng rộng rãi trong việc khám phá các tri thức có ích từ cơ sở dữ liệu, từ đó giúp đỡ tư vấn cho người dùng đưa ra những quyết định đúng đắn, đem lại hiệu quả. Khai phá dữ liệu có thể áp dụng với nhiều loại dữ liệu khác nhau từ hoạt động khoa học đến kinh doanh, y tế, pháp luật… Một trong những ứng dụng quan trọng của khai phá dữ liệu là xây dựng cơ sở tri thức cho hệ chuyên gia. Đề tài đã nghiên cứu về các phương pháp kỹ thuật khai phá luật liên kết và xây dựng được một chương trình ứng dụng khai phá dữ liệu nhằm mục đích xây dựng cơ sở tri thức. Chương trình đã được thử nghiệm và thu được một số kết quả bước đầu. Tuy nhiên do hạn chế về kinh nghiệm và thời gian nên chương trình vẫn còn một số thiếu sót như quy mô, tính dễ sử dụng, hệ thống trợ giúp...Hướng phát triển tiếp theo của đề tài: tiếp tục nghiên cứu sâu hơn về các kỹ thuật khai phá luật liên kết mới, có hiệu quả, hoàn thiện chương trình nhằm xây dựng một bộ công cụ để khai phá luật liên kết từ mọi loại dữ liệu. Ngoài ra, có thể tích hợp bộ phận khai phá dữ liệu vào một hệ chuyên gia nhằm tạo ra một phần mềm ứng dụng hoàn chỉnh.Hệ thống này có khả năng tự động hoá mọi quy trình từ thu thập tri thức, xây dựng cơ sở tri thức và dùng cơ sở tri thức này để hệ chuyên gia đưa ra các quyết định.

Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức MỤC LỤC CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ SỞ DỮ LIỆU KHAI PHÁ DỮ LIỆU 3 1.1 sở tri thức 3 1.2 Phát hiện tri thức từ sở dữ liệu 3 1.3 Khai phá dữ liệu 5 1.4 Kho dữ liệu 5 1.5 Ưu thế của khai phá dữ liệu 7 1.5.1 Máy học 7 1.5.2 Thống kê 8 1.6 Ứng dụng của khai phá dữ liệu 9 CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 10 2.1. Xác định vấn đề 11 2.2 Chuẩn bị dữ liệu 12 2.2.1 Dạng chuẩn 12 2.2.2 Biến đổi dữ liệu 14 2.2.3 Dữ liệu thiếu 18 2.3 Rút gọn dữ liệu 19 2.3.1 Lựa chọn các thuộc tính 20 2.3.2 Lựa chọn các trường hợp 20 2.4 Xây dựng đánh giá các mô hình khai phá dữ liệu 23 2.5 Triển khai mô hình thu thập kết quả 24 CHƯƠNG III : CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 25 3.1 Cây quyết định 25 3.2 Mạng Nơ ron 30 3.3 Kỹ thuật K- láng giềng gần nhất 33 3.4 Luật quyết định luật liên kết 35 CHƯƠNG IV: MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT LIÊN KẾT 38 4.1 Mô hình hình thức 38 4.1.1 Tìm kiếm các tập phần tử lớn 40 Nguyễn Tiến Thành – Công nghệ phần mềm K44 1 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức 4.1.2 Xác định các tập ứng cử 41 4.1.3 Xác định tập biên 43 4.2 Thuật toán Apriori 44 4.2.1 Hàm Apriori-gen 46 4.2.2 Hàm Subset 47 4.3 Thuật toán AprioriTid 48 4.4 Thuật toán FP-growth 52 4.4.1 Cây mẫu thường xuyên : Thiết kế xây dựng 54 4.4.2 Sử dụng cây FP trong khai phá các mẫu thường xuyên 60 CHƯƠNG V : TỔNG QUAN VỀ CHƯƠNG TRÌNH ỨNG DỤNG 69 5.1 Đặt vấn đề 69 5.2 Phương pháp giải quyết 70 5.3 Mô hình hệ thống 74 CHƯƠNG VI : PHÂN TÍCH THIẾT KẾ HỆ THỐNG 75 6.1 Biểu đồ Use Case 75 6.2 Biểu đồ tương tác 78 6.3 Biểu đồ trình tự 79 CHƯƠNG VII : XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG 83 7.1 Module Chuẩn bị dữ liệu 83 7.2 Module Khai phá dữ liệu 85 7.3 Module Giao diện 87 7.4 Một số kết quả 88 KẾT LUẬN 94 TÀI LIỆU THAM KHẢO 95 PHỤ LỤC 96 Nguyễn Tiến Thành – Công nghệ phần mềm K44 2 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ SỞ DỮ LIỆU KHAI PHÁ DỮ LIỆU 1.1 sở tri thức Cơ sở tri thức là một tập hợp các thông tin hữu ích về một vấn đề nào đó. Các thông tin này đã được phân loại, định dạng theo những cách đặc biệt. Cụ thể hơn, các thông tin được gọi là tri thức là các thông tin được phân loại theo chủ đề, đã qua kiểm chứng tính đúng đắn. Với các hệ chuyên gia, sở tri thức là tập các sự kiện luật. Trước đây, các tri thức dạng luật được thu thập từ phát biểu của các nhà chuyên gia. Điều này nhược điểm là một quá trình thủ công, dựa nhiều vào kinh nghiệm. Do đó tính đầy đủ chính xác của các tri thức phụ thuộc vào ý kiến chủ quan của con người. Hiện nay, với sự xuất hiện của các kỹ thuật khai phá dữ liệu đã mở ra một hướng mới trong việc thu thập tri thức. Đó là cách khai thác các tri thức hữu ích một cách trực tiếp tự động nhờ các bộ công cụ khai phá dữ liệu. Nhờ đó, công việc thu thập tri thức trở nên nhanh chóng hiệu quả, tri thức thu được mang tính khách quan. Đồng thời cách tiếp cận này cũng làm giảm đáng kể chi phí về thời gian nhân lực, hỗ trợ hiệu quả cho quá trình xây dựng các hệ chuyên gia. 1.2 Phát hiện tri thức từ sở dữ liệu Với những sở dữ liệu lớn nhiều trường điều cần thiết là phải một phương thức công cụ để giúp đỡ con người trích xuất những thông tin hữu ích (tri thức) từ chúng. Các phương thức công cụ này là chủ đề của phát hiện tri thức từ sở dữ liệu (KDD). Ở một mức cụ thể hơn, KDD quan tâm đến việc phát triển các phương thức kỹ thuật để xử lý dữ liệu. Vấn đề bản trong KDD là ánh xạ các dữ liệu mức thấp (có số lượng rất lớn để thể hiểu phân loại dễ dàng) Nguyễn Tiến Thành – Công nghệ phần mềm K44 3 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức thành các dạng đơn giản hơn (ví dụ như một báo cáo), cụ thể hơn. Trung tâm của quá trình KDD là ứng dụng các phương pháp khai phá dữ liệu xác định nhằm mục đích khai phá các mẫu trích xuất thông tin.[7] Các phương thức truyền thống nhằm chuyển dữ liệu thành các tri thức phụ thuộc vào các phân tích giải thích thủ công. Ví dụ như trong ngành y tế, các chuyên gia thường phải định kỳ phân tích các xu hướng hiện tại các thay đổi trong dữ liệu chăm sóc sức khỏe. Sau đó họ sẽ lập một báo cáo phân tích chi tiết để gửi lên trên, báo cáo này sẽ là sở để đưa ra các quyết định trong tương lai lập kế hoạch cho công tác quản lý y tế. Trong rất nhiều lĩnh vực khác như khoa học, tài chính, tiếp thị, hoạt động bán lẻ hoạt động phân tích dữ liệu đều chủ yếu nhờ vào các chuyên gia kinh nghiệm. Với các lĩnh vực trên, việc tìm kiếm thông tin từ tập dữ liệu một cách thủ công rất tốn thời gian, tiền bạc mang tính chủ quan. Trên thực tế, với các dữ liệu phình to một cách nhanh chóng, cách phân tích này trở nên không khả thi trong nhiều phạm vi. CSDL gia tăng kích thước theo hai cách: 1.Số lượng các đối tượng bản ghi trong CSDL 2.Số luợng các trường hoặc thuộc tính của một đối tượng bản ghi. Một CSDL lớn thể bao gồm khoảng 10 9 đối tượng càng ngày càng tăng, ví dụ như các dữ liệu thiên văn. Tương tự, số lựợng các trường thể tăng lên thành 10 2 hay 10 3 , ví dụ như các dữ liệu chẩn đoán bệnh. Như vậy không ai thể phân tích một CSDL tới hàng triệu bản ghi, mỗi bản ghi từ hàng chục đến hàng trăm trường. Sự cải tiến khả năng phân tích của con người để xử lý khối lượng dữ liệu lớn là rất cấn thiết cả về mặt kinh tế khoa học. Các nhà kinh doanh sử dụng dữ liệu để giành lợi thế trong cạnh tranh, tăng mức độ hiệu quả cung cấp thêm các dịch vụ lợi cho người tiêu dùng. Những dữ liệu thu thập được về môi trường là căn cứ sở để chúng ta hình thành khái niệm về thế giới hiện tại. Do máy tính cho phép con người thể thu thập nhiều Nguyễn Tiến Thành – Công nghệ phần mềm K44 4 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức dữ liệu hơn khả năng phân tích của con người nên rất cần những kỹ thuật tính toán để trợ giúp trong việc khai phá các mẫu cấu trúc từ những tập dữ liệu cực lớn. Do đó KDD là một giải pháp cho vấn đề của thời đại thông tin số : quá tải dữ liệu. 1.3 Khai phá dữ liệu KDD là một quy trình tổng thể nhằm phát hiện các tri thức hữu ích từ dữ liệu, khai phá dữ liệu là một bước đặc biệt của quy trình đó. Nó bao gồm một việc phân tích dữ liệu sử dụng các kỹ thuật nhằm tìm ra các mẫu, các mô hình tổng thể từ dữ liệu. Mục đích của khai phá dữ liệu phụ thuộc vào cách sử dụng hệ thống. hai loại mục đích chính là: dự đoán mô tả. Dự đoán là cách hệ thống tìm kiếm các mẫu để dự đoán hành vi của một số thực thể trong tương lai. Mô tả là công việc của hệ thống tìm kiếm các mẫu để biểu diễn dưới dạng dễ hiểu đối với người sử dụng. Khai phá dữ liệu bao gồm các mô hình thích hợp nhằm xác định dạng của mẫu khảo sát dữ liệu. Các mô hình này đóng vai trò suy luận tri thức: khi mô hình cho thấy các thông tin tri thức là hữu ích, các quy trình khác của KDD sẽ được áp dụng. hai dạng mô hình toán học được sử dụng : dạng thống kê dạng logic. Hầu hết các phuơng pháp khai phá dữ liệu đều dựa trên kỹ thuật thử kiểm tra trong máy học, nhận dạng mẫu và thống kê : phân loại, gộp nhóm, hồi quy Số lượng các thuật toán khác nhau trong mỗi loại kỹ thuật là rất nhiều, tuy nhiên chúng đều tuân theo những nguyên tắc bản của kỹ thuật. 1.4 Kho dữ liệu Kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. thể coi kho dữ liệu là một môi trường cấu trúc các hệ thống thông tin cung cấp cho người dùng các thông tin khó thể truy nhập hoặc biểu diễn trong các Nguyễn Tiến Thành – Công nghệ phần mềm K44 5 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức cơ sở dữ liệu tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. Như vậy một kho dữ liệu bao gồm : • sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập các bảng dữ liệu • Một hoặc nhiều công cụ để chiết xuất dữ liệu bất kỳ dạng cấu trúc dữ liệu nào Các kho dữ liệu được sử dụng vào các mục đích sau • Theo cách khai thác truyền thống : kho dữ liệu được sử dụng để khai thác các thông tin bằng các công cụ truy vấn báo cáo. Nhờ việc chiết xuất, tổng hợp chuyển đổi từ các dữ liệu thô sang các dạng dữ liệu chất lượng cao ổn định, kho dữ liệu giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống (truy vấn và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng sở dữ liệu, dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập biểu diễn thông tin từ nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các sở dữ liệu khác nhau. Tuy nhiên đây mới là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh chính xác hơn chứ chưa đưa ra được dữ liệu tri thức • Hỗ trợ phân tích trực tuyến (OLAP) : Trong khi ngôn ngữ truy vấn chuẩn SQL các công cụ làm báo cáo truyền thống chỉ thể miêu tả những gì trong sở dữ liệu thì phân tích trực tuyến khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai • sở cho khai phá dữ liệu : Thông thường, các dữ liệu để khai phá được trích rút từ một kho dữ liệu chính vào một sở dữ liệu hoặc một tập hợp dữ liệu theo chủ đề (Data mart). Nếu như dữ liệu để khai phá là một phần của kho dữ liệu thì sẽ tạo thuận lợi lớn, do việc làm sạch dữ liệu của kho dữ liệu của khai phá dữ liệu là Nguyễn Tiến Thành – Công nghệ phần mềm K44 6 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức khá giống nhau. Nếu như dữ liệu cần khai phádữ liệu từ kho dữ liệu đã được làm sạch thì không cần phải thực hiện quá trình làm sạch một lần nữa. Ngoài ra, các vấn đề về hợp nhất dữ liệu cũng được chỉ ra được đặt vào quy trình bảo trì. Mối quan hệ giữa nguồn dữ liệu với kho dữ liệu dữ liệu cho khai phá dữ liệu được thể hiện trong hình 1.1 Hình 1.1 Quan hệ giữa nguồn dữ liệu kho dữ liệu 1.5 Ưu thế của khai phá dữ liệu Trước khi khai phá dữ liệu xuất hiện, đã những phương pháp khác nhằm khai thác các thông tin ích từ sở dữ liệu như máy học, thống kê. Tuy nhiên, khai phá dữ liệu những ưu thế hơn hẳn chúng. Các phân tích dưới đây sẽ giải thích điều này. 1.5.1 Máy học Mặc đã những cố gắng nhằm cải tiến các phương pháp máy học để cho phù hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc điểm của sở dữ liệu làm cho phương pháp máy học trở nên kém hiệu quả với mục đích này. Nguyễn Tiến Thành – Công nghệ phần mềm K44 7 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức Trong quản trị sở dữ liệu, một sở dữ liệu là một tập hợp dữ liệu được tích hợp một cách logic, được lưu trong một hay nhiều tệp được tổ chức để lưu trữ hiệu quả, sửa đổi lấy thông tin liên quan được dễ dàng. Ví dụ như trong sở dữ liệu quan hệ, dữ liệu được tổ chức thành các tệp hoặc các bảng, trong đó các bản ghi độ dài cố định. Mỗi bản ghi là một danh sách thứ tự các giá trị, mỗi giá trị được đặt vào một trường. Một hệ thống quản trị sở dữ liệu sẽ quản lý các thủ tục để lấy, lưu trữ xử lý dữ liệu trong các sở dữ liệu đó. Cơ sở dữ liệu máy học chủ yếu đề cập đến một tập các mẫu (example) được lưu trong tệp. Các mẫu thường là các vectơ thuộc tính độ dài cố định. Thông tin về tên các thuộc tính, dãy giá trị của chúng đôi khi cũng được lưu lại như trong từ điển dữ liệu. Một số thuật toán học sử dùng tập dữ liệu các thông tin kèm theo tập dữ liệu đó làm đầu vào, đầu ra biểu thị kết quả của việc học. Như vậy, sở dữ liệu máy học sở dữ liệu thông thường những điểm tương đồng, do đó thể áp dụng phương pháp máy học cho các dữ liệu thông thường. Tuy nhiên, quá trình phát hiện tri thức trong sở dữ liệu làm tăng thêm các vấn đề vốn của học máy vượt quá khả năng của máy học. sở dữ liệu thực tế thường đông, không đầy đủ, bị nhiễu có kích thước lớn hơn nhiều so với các tập dữ liệu máy học điển hình. Điều này làm cho các thuật toán máy học trở nên không hiệu quả. 1.5.2 Thống kê Thống kê từ lâu đã được sử dụng một cách hiệu quả các phương pháp thống kê vào nhiều lĩnh vực khác nhau. Đã nhiều phương pháp ước lượng xác định những mẫu ngẫu nhiên được nghiên cứu phát triển. Mặc các phương pháp thống kê cung cấp một nền tảng lý thuyết vững chắc cho các bài toán phân tích dữ liệu. Nhưng nếu chỉ thống kê thuần túy thì chưa đáp ứng được các mục tiêu của khai phá dữ liệu. Các Nguyễn Tiến Thành – Công nghệ phần mềm K44 8 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu cấu trúc trong sở dữ liệu. Ngoài ra với một sở dữ liệu lớn với nhiều trường, ví dụ như sở dữ liệu bảng điểm của sinh viên thì các kết quả của phân tích thống kê sẽ rất lớn, do đó rất khó thể khai thác hiệu quả. Mặt khác, các kết quả này đòi hỏi phải những chuyên gia phân tích trong từng lĩnh vực, tiêu tốn nhiều nhân lực với chi phí lớn hiệu quả không cao. Khác với thống kê cổ điển, khai phá dữ liệu ưu điểm tự động hóa quá trình thống kê một cách hiệu quả , làm giảm khối lượng công việc của người dùng đầu cuối. Công việc phân tích cũng được thực hiện một cách tự động, khiến cho độ chính xác được nâng cao rút ngắn thời gian phân tích, đồng thời tiết kiệm chi phí nhân lực bỏ ra. 1.6 Ứng dụng của khai phá dữ liệu Hiện nay khá nhiều các ứng dụng của khai phá dữ liệu KDD được triển khai, đem lại hiệu quả cao trong thực tế, phục vụ cho sản xuất kinh doanh nghiên cứu khoa học. Trong khoa học, một trong những ngành ứng dụng chính là thiên văn học. Hệ thống SKICAT dùng để phân tích ảnh, phân loại xếp nhóm các vật thể không gian từ các ảnh quan sát vũ trụ. Hệ thống này được dùng để xử lý 3 terabytes dữ liệu ảnh từ Đài thiên văn Palomar, với khoảng 1 tỉ vật thể không gian phát hiện được. SKICAT thể làm được những công việc tính toán cực lớn trong việc phân loại các ảnh vật thể không rõ ràng[7] Trong kinh doanh, các ứng dụng chính của KDD bao gồm tiếp thị, tài chính (đặc biệt là đầu tư), phát hiện gian lận, sản xuất, viễn thông các Internet agent (tác tử). Tiếp thị: ứng dụng chính là hệ thống CSDL tiếp thị, phân tích các dữ liệu khách hàng để phân loại các nhóm khách hàng khác nhau dự báo về sở thích của họ. Nguyễn Tiến Thành – Công nghệ phần mềm K44 9 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức Đầu tư: LBS Capital Management dùng để quản lý danh mục vốn đầu tư Phát hiện gian lận : Hệ thống HNC Falcon and Nestor PRISM dùng để theo dõi các gian lận thẻ tín dụng, thể theo dõi hoạt động của hàng triệu tài khoản. Hệ thống FAIS dùng để thẩm định các giao dịch thương mại bao gồm hoạt động chuyển tiền bất hợp pháp Sản xuất: Hệ thống xử lý sự cố CASSIOPEE được sử dụng để phát hiện và tiên đoán các sự cố của máy bay Boeing. Viễn thông: Hệ thống TASA dùng để phân tích các lỗi báo động trên đường truyền Các tác tử thông minh: dùng để duyệt qua một môi trường nhiều thông tin như Internet. Các hệ thống này yêu cầu người dùng mô tả sở thích cá nhân tìm kiếm các thông tin liên quan từ nhiều nguồn khác nhau. CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU Nguyễn Tiến Thành – Công nghệ phần mềm K44 10 [...].. .Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức 2.1 Xác định vấn đề Giai đoạn đầu tiên của quá trình khai phá tri thức là tìm hiểu dữ liệu vấn đề đặt ra Nếu như không sự hiểu biết về vấn đề thì không thể tìm ra được một kết quả đáng tin cậy Vì vậy, để ứng dụng một cách tốt nhất khai phá dữ liệu, cần phải một mô tả đầy đủ về mục tiêu... dữ liệu Các phương pháp khai phá dữ liệu, đặc biệt là các phương pháp toán học cần các số liệu được chuẩn hoá để đạt hiệu quả tốt Với các giá trị thể được phân chia vào một khoảng xác định, chẳng hạn từ -1 đến +1 Ví dụ Nguyễn Tiến Thành – Công nghệ phần mềm K44 15 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức với mạng nơ ron việc học sẽ hiệu quả hơn nếu các giá trị dữ liệu nhập vào... tính Quá trình biến đổi dữ liệu sang dạng chuẩn được mô tả trong hình 2.3 Nguyễn Tiến Thành – Công nghệ phần mềm K44 14 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức Dạng chuẩn Lựa chọn thuộc tính Kho dữ liệu Biến đổi thuộc tính Hình 2.3 Quá trình chuyển đổi từ kho dữ liệu sang dạng chuẩn Dựa vào những hiểu biết về vấn để mục đích của quá trình khai phá dữ liệu, người phân tích lựa... mẫu tăng dần khai phá dữ liệu 10% trường hợp Thực nghiệm So sánh hiệu quả 20% trường hợp Thực nghiệm Thực nghiệm Tăng Nguyễn Tiến Thành – Công nghệ phần mềm K44 21 Dừng Tăng So sánh hiệu quả 33% trường hợp Không tăng Không tăng Dừng Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức Hình 2.4 Lấy mẫu tăng dần khai phá dữ liệu 2.3.2.2 Mẫu trung bình Một kho dữ liệu thể chứa... giúp ta hiểu được những thuận lợi hạn chế của các phương pháp khai phá dữ liệu nói chung Hầu hết các phương pháp khai phá dữ liệu đều đòi hỏi dữ liệu phải ở một dạng chuẩn nào đó.[4] Ngoài ra, nhằm mục đích phân loại dữ liệu thì mục đích của việc khai phá phải được làm rõ Trong khi một số sở dữ liệu thể đã được sắp xếp vào một dạng chuẩn, một số lớn sở dữ liệu khác thể bao gồm rất nhiều... thể nhận Mặc một số sở dữ liệu thể được thiết kế dưới dạng bảng tính hay thể dễ dàng chuyển sang dạng bảng tính, việc ánh xạ các dữ liệu này Nguyễn Tiến Thành – Công nghệ phần mềm K44 13 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức sang dạng chuẩn nhìn chung là không dễ dàng Ví dụ về sự khó khăn khi ánh xạ các dữ liệu sang dạng chuẩn là các kiểu dữ liệu thô sau - Văn bản... cùng Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức Dữ liệu được lấy từ các mẫu trên sẽ kích thước nhỏ hơn nhiều so với toàn bộ kho dữ liệu Ngoài ra, việc tổng hợp các kết quả để thu được kết quả cuối độ sai lệch thấp hơn so với chỉ lấy một tập mẫu Nếu số mẫu lấy đủ lớn, kết quả thu được sẽ tương đương với kết quả từ việc xử lý cả kho dữ liệu 2.4 Xây dựng đánh giá các mô hình khai. .. tập dữ liệu lớn hơn Nguyễn Tiến Thành – Công nghệ phần mềm K44 29 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức 3.2 Mạng Nơ ron Mạng nơ ron là một mô hình dựa trên hoạt động của bộ não con người Mặc được mô tả là một mạng, tuy nhiên một mạng nơ ron đơn giản là một thuật toán với đầu vào đầu ra Mạng nơ ron được dùng trong khai phá dữ liệu nhằm mục đích dự đoán kết quả dựa vào các... liệu hiện tại Nguyễn Tiến Thành – Công nghệ phần mềm K44 23 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức 2.5 Tri n khai mô hình thu thập kết quả Sau khi mô hình đã được xây dựng kiểm tra, nó sẽ được sử dụng để tìm ra các mẫu ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó Các mẫu này phải khả năng sử dụng tiềm tàng, tức là sau khi xử lý phải dẫn đến những hành... vậy mô hình phải được kiểm tra lại để hiệu chỉnh thậm chí là xây dựng lại hoàn toàn Việc so sánh giữa giá trị dự báo giá trị theo dõi thực tế là cách tốt nhất để kiểm soát hiệu quả của mô hình Nguyễn Tiến Thành – Công nghệ phần mềm K44 24 Kỹ thuật khai phá dữ liệu ứng dụng xây dựng sở tri thức CHƯƠNG III : CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 3.1 Cây quyết định Cây quyết định là một mô hình vừa . Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức MỤC LỤC CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU. phần mềm K44 7 Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu được tích

Ngày đăng: 22/01/2014, 18:54

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

    • 1.1 Cơ sở tri thức

    • 1.2 Phát hiện tri thức từ cơ sở dữ liệu

    • 1.3 Khai phá dữ liệu

    • 1.4 Kho dữ liệu

      • Hình 1.1 Quan hệ giữa nguồn dữ liệu và kho dữ liệu

      • 1.5 Ưu thế của khai phá dữ liệu

        • 1.5.1 Máy học

        • 1.5.2 Thống kê

        • 1.6 Ứng dụng của khai phá dữ liệu

        • CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

          • 2.1. Xác định vấn đề

          • 2.2 Chuẩn bị dữ liệu

            • 2.2.1 Dạng chuẩn

              • Hình 2.1 Định dạng dữ liệu bảng

              • 2.2.1.1 Các giá trị chuẩn

              • 2.2.1.2 Các mục tiêu

                • Hình 2.2 Dạng chuẩn

                • 2.2.2 Biến đổi dữ liệu

                  • Hình 2.3 Quá trình chuyển đổi từ kho dữ liệu sang dạng chuẩn

                  • 2.2.2.1 Tiêu chuẩn hoá dữ liệu

                  • 2.2.2.2 Làm mịn dữ liệu

                    • Phương pháp làm tròn:

                    • 2.2.3 Dữ liệu thiếu

                    • 2.3 Rút gọn dữ liệu

                      • 2.3.1 Lựa chọn các thuộc tính

                      • 2.3.2 Lựa chọn các trường hợp

                        • 2.3.2.1 Mẫu tăng dần

                          • Hình 2.4 Lấy mẫu tăng dần và khai phá dữ liệu

                          • 2.3.2.2 Mẫu trung bình

                            • Hình 2.5 Kết hợp các kết quả từ các mẫu khác nhau

                            • 2.4 Xây dựng và đánh giá các mô hình khai phá dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan