Phương pháp khai phá dữ liệu bằng cây quyết định

Thông tin tài liệu

1 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Phạm Duy An PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Chuyên ngành : Truyền dữ liệu và Mạng máy tính Mã số : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 2 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS VŨ ĐỨC THI Phản biện 1: ………………………………………… Phản biện 2: ………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông. Vào lúc: giờ ngày tháng năm 2012 Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 26 KẾT LUẬN Luận văn “ Phương pháp khai phá dữ liệu bằng cây quyết định” đã trình bày một số kết quả sau đây: Những nghiên cứu về khai phá dữ liệu và ứng dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin. Khai phá dữ liệu cũng được áp dụng nhiều trong việc tư vấn, dự báo , đặc biệt là những ứng dụng cho tư vấn trong lĩnh vực giáo dục. Khai phá dữ liệu có rất nhiều hướng tiếp cận (nhiều nhiệm vụ, mục đích), nhưng có 3 nhiệm vụ phổ biến là: Luật kết hợp (Association rules), Phân cụm (Clustering) và Phân loại (Classification). Trong đó nhiệm vụ phát hiện và phân loại là một trong những nhiệm vụ được quan tâm, nghiên cứu nhiều nhất. Tìm hiểu được những ưu điểm cũng như những khó khăn trong việc đào tạo theo tín chỉ, sử dụng phần mềm mã nguồn mở Weka cho việc sinh ra các luật kết hợp nhằm phục vụ việc phân loại. Xây dựng một hệ thống tư vấn môn học cho sinh viên nhằm trợ giúp sinh viên định hướng được trong việc lựa chọn môn học,chuyên ngành học phù hợp. Hướng phát triển tiếp theo của luận văn: Để quá trình đào tạo theo tín chỉ hoạt động có hiệu quả, cần thiết phải xây dựng một hệ thống hoàn chỉnh hỗ trợ cả quá trình đào tạo (xây dựng thêm nhiều chức năng: sắp xếp lịch học, thời khóa biểu, đăng ký học trực tuyến,…) Hiện nay, dữ liệu được lưu trữ ngày một tăng, để ứng dụng khai phá dữ liệu vào các bài toán này cần tiếp tục nghiên cứu các phương pháp xử lý cho bài toán với dữ liệu lớn. xem xét nghiên cứu thêm một số ứng dụng khác của Khai phá dữ liệu. 3 MỞ ĐẦU Trong thời đại ngày nay, yếu tố quyết định thành công trong mọi lĩnh vực luôn gắn liền với việc nắm bắt, thống kê và khai thác thông tin hiệu quả. Dữ liệu ngày càng lớn nên việc tìm ra những thông tin tiềm ẩn trong chúng càng khó khăn hơn. Khám phá tri thức là một lĩnh vực nghiên cứu mới, mở ra một thời kỳ trong việc tìm ra thông tin hữu ích. Nhiệm vụ cơ bản của lĩnh vực này là khám phá tri thức trong cơ sở dữ liệu, khám phá dữ liệu trong cơ sở dữ liệu không phải là một hệ thống phân tích tự động mà là một quá trình tương tác thường xuyên giữa con người với cơ sở dữ liệu được sự trợ giúp của nhiều phương pháp và công cụ tin học. Nội dung luận văn tôi xin trình bày bao gồm ba chương: Chương một giới thiệu chung về công nghệ khám phá trí thức, các khái niệm cơ bản, ý nghĩa và tầm quan trọng của việc khám phá tri thức. Chương hai trình bày các phương pháp khai phá dữ liệu bằng cây quyết định, khái niệm cơ bản về cây quyết định, các thuật toán ID3, C4.5, và rút gọn các luật quyết định. Chương ba là xây dựng chương trình thử nghiệm cho bài toán Tư vấn chọn chuyên ngành phù hợp với khả năng sinh viên tại Đai học Phương Đông. Tôi xin bày tỏ sự biết ơn sâu sắc của mình tới PGS.TS Vũ Đức Thi người đã trực tiếp hướng dẫn, chỉ bảo tận tình, cung cấp tài liệu và phương pháp luận nghiên cứu khoa học để tôi hoàn thành bản luận văn này. Tôi xin gửi lời cảm ơn tới các thầy cô giáo đã dạy dỗ trong quá trình tôi theo học tại Học viện. Trong suốt quá trình nghiên cứu, mặc dù đã hết sức cố gắng nhưng chắc chắn luận văn không tránh khỏi những thiếu sót, rất mong quý thầy cô góp ý để luận văn được hoàn chỉnh hơn. 4 Chương 1- GIỚI THIỆU CHUNG VỀ CÔNG NGHỆ KHÁM PHÁ TRI THỨC 1.1. Phát hiện tri thức và khai phá dữ liệu. Trong thời đại bùng nổ công nghệ thông tin hiện nay, và các cộng nghệ lưu trữ dữ liệu ngày càng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu tốt hơn. Đặc biệt trong các lĩnh vực kinh doanh và quản lý, các doanh nghiệp, công ty đã nhận được tầm quan trọng của việc nắm bắt và xử lý thông tin, nhằm giúp các chủ công ty, doanh nghiệp trong việc vạch ra các chiến lược kinh doanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình. Tất cả lý do đó khiến cho các cơ quan, doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte. Nhiều người coi khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu là như nhau, tuy nhiên trong thực tế chúng có quan hệ mật thiết với nhau, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong cơ sở dữ liệu. 1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu. Quá trình phát hiện tri thức có thể chia thành các bước như sau: - Làm sạch dữ liệu (Data cleaning): Loại bỏ những dữ liệu nhiễu, không thích hợp, dư thừa hoặc không đầy đủ. - Tích hợp dữ liệu (Data intergration):Tích hợp dữ liệu từ nhiều nguồn khác nhau - Lựa chọn dữ liệu (Data selection): Chọn những dữ liệu có liên quan trực tiếp đến nhiệm vụ. - Chuyển đổi dữ liệu (Data transformation): Các dữ liệu sau khi được xử lý ở các giai đoạn trên được biến đổi về dạng phù hợp với việc khai phá. 25 Hình 3.8 : Giao diện truy cập demo 24 Phần 2: Tư vấn cho người dùng. Chương trình được viết trên giao diện Web, sử dụng ngôn ngữ lập trình ASP. NET. Đưa các luật được sinh ra từ phần 1 vào cơ sở dữ liệu SQL server của Website, ta có bảng luật lưu trữ các luật định hướng chuyên ngành. Ngoài ra có các bảng liên quan như bảng môn học, bảng sinh viên, bảng điểm của người dùng cập nhật. Xây dựng chương trình cho phép: - Người dùng cập nhật điểm các môn đại cương. - Yêu cầu hệ thống đưa ra các luật định hướng chuyên ngành Chương trình sẽ hiện thị ra các luật cùng với độ tin cậy của luật đó. Sau khi người dùng cập nhật điểm môn đại cương của mình, toàn bộ số điểm đó sẽ được lưu vào một bảng “bangdiem” trong cơ sở dữ liệu SQL, (bangdiem bao gồm các trường mammon, diem, loai). Với mỗi luật ta so sánh cặp giá trị mammon (mã môn) và loai (loại điểm) trong vế trái của luật đó với từng cặp giá trị mammon (mã môn) và loai (loại điểm) trong bangdiem (bảng điểm đại cương mà người dụng vừa cập nhật). Nếu tất cả các cặp mammon (mã môn) và loai (loại điểm) đều có mặt trong bảng điểm thì luật đó sẽ là luật được đưa ra tư vấn. Trong trường hợp có một cặp mã môn _ loại điểm không thuộc trong bảng điểm, thì luật đó sẽ không được tư vấn cho người dùng. 3.4. Xây dựng và thiết kế giao diện của chương trình. Sinh viên sử dụng mạng Internet để vào phần cổng thông tin Đại học Phương Đông: http://dhpd.edu.vn/ 5 - Lựa chọn thuật toán khai phá (Choosing the data mining algorithms): Lựa chọn các phương pháp phù hợp với dữ liệu hiện có và nhiệm vụ đề ra. - Khai phá dữ liệu (Data mining): Đây là bước quan trọng nhất của quá trình, ta sử dụng thuật toán đã chọn để trích xuất ra những thông tin hữu ích, có tiềm năng. - Đánh giá mẫu (Pattern evaluation): Các mẫu, tri thức được đánh giá dựa trên các tiêu chí sẵn có. - Trình diễn tri thức (Knowledge representation): Đây là bước cuối cùng, tại bước này dữ liệu được củng cố, biểu diễn và sử dụng. Hình 1.1. Quá trình khám phá tri thức từ cơ sở dữ liệu. 1.2.1. Xác định vấn đề. 1.2.2. Thu thập và xử lý dữ liệu. 1.2.3. Khai thác dữ liệu. 1.2.4. Minh họa, đánh giá và đưa kết quả vào thực tế. 1.3. Khai phá dữ liệu. 1. hi ểu v à xác đ ịnh v ấn đề 2. Thu th ập v à ti ền xử lý d ữ liệu 3. Khai thác dữ liệu – trích ra các m ẫu/mô h ình 4. Minh h ọa v à đánh giá tri thức 5. Đưa k ết quả v à o th ực tiễn 6 1.3.1. Các quan niệm về khai phá dữ liệu. Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ. Khai phá dữ liệu được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu, quá trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện thường hữu ích theo định nghĩa:các mẫu mang lại cho người sử dụng một lợi thế nào đó, thường là lợi ích về kinh tế. Khai phá dữ liệu giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một tập hợp các vật hay sự kiện, còn đầu ra của quá trình khai phá dữ liệu thường như là những dự báo của các vật hay các sự kiện mới. Khai phá dữ liệu được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu không gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web. Khám phá tri thức là quá trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và có thể hiểu được. Khai phá dữ liệu là một bước trong quá trình khám phá tri thức bao gồm các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu. Như vậy, mục đích của khám phá tri thức và khai phá dữ liệu là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ. 1.3.2. Nhiệm vụ của khai phá dữ liệu. * Phân cụm, phân nhóm, phân loại, phân lớp. Nhiệm vụ này trả lời câu hỏi: Một dữ liệu mới thu thập được sẽ thuộc về 23 Giai đoạn 1: Sử dụng dữ liệu sau khi đã xây dựng để tiến hành tập huấn. Tìm tất cả các tập mục thường xuyên. Giai đoạn 2: Khai phá luật kết hợp. 3.3.3. Thiết kế cơ sở dữ liệu. Tiến hành xây dựng cơ sở dữ liệu với các bảng sau: Bảng 3.1 : Lưu trữ danh sách sinh viên toàn trường Bảng 3.2: Lưu trữ danh sách các môn học trong trường Bảng 3.3: Lưu trữ danh sách sinh viên đã tốt nghiệp. 3.3.4. Tập huấn và xử lý dữ liệu. Phần 1: khai phá dữ liệu. Trong phần này, phần mềm Weka được sử dụng để sinh ra các luật kết hợp từ dữ liệu thu thập được. Trường Đại học Phương Đông cung cấp cho dữ liệu về cựu sinh viên, dữ liệu được cung cấp với các thông tin về điểm của sinh viên, các môn học, điểm tổng kết. Các bước chuẩn bị dữ liệu: Xóa bỏ và sửa chữa dữ liệu theo một định dạng cụ thể nhưng không làm mất đi tính chính xác của dữ liệu. Các môn học có điểm sẽ được sẽ được phân thành các loại điểm cụ thể như sau: Trung bình (TB): Nếu điểm môn học trong khoảng 4.5 đến 6.4; Khá (K): Nếu điểm môn học trong khoảng 6.5 đến 7.9; Giỏi (G): Nếu điểm môn học trong khoảng 8 đến 10; Ta cần dự đoán điểm của các ngành tốt nghiệp trên cơ sở các môn học đại cương, vì vậy sẽ giữ lại thông tin về điểm các môn học đại cương. 22 khoa nào đó, hay nói cách khác là các môn mà các chuyên ngành thuộc một khoa nào đó phải học Môn chuyên ngành: đây là những môn dạng chuyên ngành hẹp của riêng từng ngành. Một số đặc điểm cơ bản của đào tạo tín chỉ: Sinh viên chủ động đăng ký môn học theo một tiến trình được sắp xếp trước. Sinh viên sẽ tốt nghiệp sau khi hoàn thành khoảng 90 tín chỉ trình đại cương, và 120 tín chỉ trình chuyên ngành. Sinh viên dễ dàng chuyển đổi chuyên ngành mà vẫn được bao lưu điểm tương ứng và có thể đăng ký học thêm chuyên ngành hai. Sinh viên chủ động sắp xếp lịch học của mình sao cho phù hợp với sức học, và tài chính của mình. Sinh viên có thể học lại, thi lại các môn với các lớp sau mà không cần tổ chức thi lại. 3.3.2. Mô tả hệ thống dữ liệu của bài toán. Bài toán đặt ra: Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp. Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho đạt được kết quả tốt nhất. Nhằm mục đích này người ta mong muốn nhận được từ dữ liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, … Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở dữ liệu. Mặc dù hiện tại đã có nhiều thuật toán khai phá dữ liệu với luật kết hợp nhưng nhìn chung mỗi thuật toán đều qua hai giai đoạn. 7 nhóm nào? Qúa trình này thường được thực hiện một cách tự động. * Khai phá luật kết hợp. Nhiệm vụ là phát hiện ra những mối quan hệ giống nhau của các bản ghi giao dịch. Luật kết hợp X => Y có dạng tổng quát là: Nếu một giao dịch đã sở hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào đó. Khai phá luật kết hợp được hiểu theo nghĩa: Biết trước các tính chất X, vậy các tính chất Y là những tính chất nào? * Lập mô hình dự báo, bao gồm 2 nhiệm vụ: Hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác. * Phân tích đối tượng ngoài cuộc: Một cơ sở dữ liệu có thể chứa các đối tượng không tuân theo mô hình dữ liệu. Các đối tượng dữ liệu như vậy gọi là các đối tượng ngoài cuộc, hầu hết các phương pháp khai phá dữ liệu đều coi các đối tượng ngoài cuộc là nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng, chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi xảy ra lại được chú ý hơn những gì thường xuyên gặp phải. Sự phân tích dữ liệu ngoài cuộc được coi như là khai phá các đối tượng ngoài cuộc, một số phương pháp được ứng dụng để phát hiện đối tượng ngoài cuộc. 1.3.3. Một số ứng dụng khai phá dữ liệu Hiện nay, kỹ thuật khai phá dữ liệu đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và trong đời sống khác nhau như: - Thương mại: Phân tích dữ liệu bán hàng và thị trường, phân tích đầu tư, quyết định trong các lĩnh vực tài chính, ngân hàng, … 8 - Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích kết quả thử nghiệm, … - Thông tin khoa học: Dự báo thời tiết, khai phá cơ sở dữ liệu sinh học ngân hàng gen, … - Trong các lĩnh vực khác như Y tế, giáo dục, viễn thông, du lịch, … 1.3.4. Các kỹ thuật khai phá dữ liệu. Thường được chia thành hai nhóm chính: - Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu string hiện có. Các kỹ thuật này bao gồm: Phân cụm (Clustering), tóm tắt (Summerization), trực quan hóa (Visualization), phân tích sự phát triển và độ lệch (Evolution and Deviation analyst), phân tích luật kết hợp (Association rules), … - Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (Classifacation), hồi quy (regession), … Tuy nhiên, chỉ có một số phương pháp thông dụng nhất là: Phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy, và khai phá luật kết hợp. 1.3.5. Kiến trúc của hệ thống khai phá dữ liệu. Kiến trúc của hệ thống khai phá dữ liệu có các thành phần như sau: - Cơ sở dữ liệu, kho dữ liệu: Đó là một hoặc nhiều tập cơ sở dữ liệu, kho dữ liệu,… Các kỹ thuật làm sạch dữ liệu, tích hợp, lọc dữ liệu có thể thực hiện trên dữ liệu. - Cơ sở dữ liệu hoặc kho dữ liệu phục vụ: Là kết quả lấy dữ liệu có liên quan trên cơ sở khai phá dữ liệu của người dùng. 21 Server computer. Một RDBMS bao gồm databases, database engine và các ứng dụng dùng để quản lý dữ liệu và các bộ phận khác nhau trong RDBMS. SQL Server cung cấp các công cụ quản trị và phát triển để cho người sử dụng dễ dàng cài đặt, sử dụng và quản lý hệ thống. SQL Server được sử dụng trong luận văn với mục đích lưu trữ các dữ liệu liên quan đến luật để phục vụ cho quá trình truy vấn của sinh viên. 3.2.3. Ngôn ngữ lập trình ASP.NET ASP.NET 2.0 là công nghệ được sử dụng rộng rãi nhất hiện nay. Công nghệ này cho phép xây dựng những ứng dụng web hoàn chỉnh có qui mô lớn, độ phức tạp và yêu cầu bảo mật cao. ASP.NET 2.0 là một phần trong kiến trúc .NET Framework 2.0 được Microsoft thiết kế nhằm hướng tới những ứng dụng bảo mật, tin cậy và hiệu suất trên môi trường Internet. Áp dụng công nghệ ASP.NET cho việc xây dựng và thiết kế trang web, và sử dụng môi trường internet giao tiếp với người sử dụng. 3.3. Phân tích và thiết kế hệ thống. 3.3.1. Giới thiệu về mô hình đào tạo theo tín chỉ. Trường Đại học Phương Đông được thành lập từ năm 1994 và có 5 khoa với 15 chuyên ngành đào tạo, và từ năm 2005 Trường có chuyển từ hình thức đào tạo niên chế sang đào tạo tín chỉ theo quy định của Bộ giáo dục. Với hình thức đào tạo này sinh viên có thể chủ động về thời gian học tập, tài chính sao phù hợp nhất. Sau đây chúng ta xét một số đặc điểm cơ bản theo hình thức tín chỉ tại Trường Đại học Phương Đông. Giáo dục đại cương: bao gồm các môn theo khung của Bộ giáo dục và một số môn đặc thù của Trường. Giáo dục chuyên ngành gồm có 2 phần Môn cơ sở khối ngành: là môn cơ sở bắt buộc với một 20 Hình 3.1 Giao diện phần mềm Weka Trong phần Application có 4 mục lựa chọn:  Explorer: Sử dụng menu lựa chọn. Explorer sử dụng cho những bộ dữ liệu vừa và nhỏ.  Experimenter: Cho phép người dùng thực hiện những bài tập cơ bản khi ứng dụng phân lớp và kỹ thuật hồi quy, với những công việc có giá trị, phương pháp và tham số tốt nhất cho vấn đề đã cho. Cho phép bạn tự động hóa xử lý, làm cho nó phân lớp và lọc dễ dàng với những cách thiết lập tham số khác nhau trên toàn bảng dữ liệu.  KnowledgeFlow: Cho phép người dùng kéo thả những chiếc hộp tượng trưng cho các giải thuật và dữ liệu để kết nối chúng lại với nhau và đưa ra cấu trúc.  Simple CLI: Sử dụng câu lệnh thực thi. 3.2.2. Hệ quản trị cơ sở dữ liệu SQL 2000 server SQL Server 2000 là một hệ thống quản lý cơ sở dữ liệu (Relational Database Management System (RDBMS) ) sử dụng Transact-SQL để trao đổi dữ liệu giữa Client computer và SQL 9 - Cơ sở tri thức: Đó là lĩnh vực tri thức được sử dụng để hướng dẫn việc tìm hoặc đánh giá các mẫu kết quả thu được. - Mô tả khai phá dữ liệu: Bao gồm tập các modul chức năng để thực hiện các nhiệm vụ mô tả các đặc điểm, kết hợp, phân lớp, phân cụm dữ liệu,… - Đánh giá mẫu: Thành phần này sử dụng các độ đo và tương tác với modul khai phá dữ liệu để tập chung vào tìm các mẫu quan tâm. - Giao diện người dùng: Đây là modul giữa người dùng và hệ thống khai phá dữ liệu, cho phép người dùng tương tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp thông tin cho việc tìm kiếm. 1.3.6. Những khó khăn trong khai phá dữ liệu. - Dữ liệu lớn. - Kích thước lớn. - Dữ liệu động. - Các trường dữ liệu không phù hợp. - Các giá trị bị thiếu. - Các trường dữ liệu bị thiếu. 1.4. Một số phương pháp khai phá dữ liệu. 1.4.1. Cây quyết định. Để xây dựng cây quyết định có nhiều cách song tựu trung ta có một khung chung cho quá trình này như sau: - Lựa chọn thuộc tính “tốt nhất” nhờ một độ đo lựa chọn (thường là Entropy). - Mở rộng cây bằng cách thêm vào các nhánh mới với từng giá trị thuộc tính. - Sắp xếp các mẫu huấn luyện cho các nút lá. - Kiểm tra: nếu mẫu huấn luyện đã được phân loại thì dừng, ngược lại thì lặp lại quá trình trên cho mỗi nút lá. 10 - Tỉa bớt những nút lá không ổn định. 1.4.2. Luật kết hợp. Chẳng hạn như có luật: âm nhac, thể thao => thiếu nhi, nghĩa là những người mua sách âm nhạc và thể thao thì cũng mua sách thiếu nhi. Lúc đó ta sẽ quan tâm đến số lượng trường hợp khách hàng thỏa mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ (Support) cho luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc, thể thao và thiếu nhi hay tất cả những người thích cả ba loại sách nói trên. Tuy nhiên, giá trị độ hỗ trợ là không đủ, có thể có trường hợp ta có một nhóm tương đối những người đọc cả ba loại trên nhưng lại có một nhóm với lực lượng lớn hơn những người thích sách thể thao, âm nhạc mà không thích sách thiếu nhi. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao, như vậy chúng ta cần thêm một độ đo thứ hai đó là độ tin cậy (confidence). Độ tin cậy chính là phần trăm các bản ghi có sách thiếu nhi trong số các bản ghi có sách âm nhạc và thể thao. 1.4.3. Mạng Nơron. Có nhiều kiến trúc khác nhau cho mạng nơron và mỗi trong số chúng sử dụng các cách kết nối mạng khác nhau và chiến lược học khác nhau để thực hiện các nhiệm vụ. Khi sử dụng mạng nơron chúng ta phải phân biệt hai giai đoạn: giai đoạn mã hóa trong mạng nơron được học trên các mẫu dữ liệu huấn luyện, thực hiện một nhiệm vụ nào đó và giai đoạn giải mã trong đó mạng được sử dụng để phân lớp, làm dự báo hoặc thực hiện bất cứ nhiệm vụ học nào liên quan. Có nhiều dạng mạng nơron nhưng về cơ bản có các loại chính sau: - Perceptrons - Mạng lan truyền ngược (Back propagation networks) - Mạng tự tổ chức Konhonen (Kohonen self – organizedmap) 19 Chương 3- XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU “Tư vấn lựa chọn chuyên ngành tại trường đại học Phương Đông” 3.1. Giới thiệu khai phá dữ liệu trong giáo dục. Các nhà nghiên cứu về việc khai phá dữ liệu trong giáo dục tập chung vào nhiều vấn đề bao gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp với các sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập. Mỗi lĩnh vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình hướng đối tượng sinh viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc đẩy học tập, quan điểm nguyện vọng của sinh viên, … Việc ứng dụng khai phá dữ liệu trong giáo dục đóng vai trò rất quan trọng trong việc phát triển giáo dục cũng như trợ giúp đáng kể cho các hoạt động giáo dục. 3.2. Các công cụ sử dụng trong thiết kế chương trình. 3.2.1. Phần mềm mã nguồn mở Weka. Weka đã được phát triển ở trường Đại học Waikato và là tên viết tắt của Waikato Environment for Knowledge Analysis, hệ thống này được viết bằng ngôn ngữ Java, chạy trên bất kỳ flatform nào, đã được thử nghiệm với Linux và Windows, và hệ điều hành Macintosh. Nó cung cấp một giao diện thống nhất với nhiều thuật toán khác nhau, cùng với các phương pháp cho việc xử lý trước, xử lý sau và dành cho việc đánh giá kết quả của các sơ đồ học trên bất kỳ tập dữ liệu cho trước nào. Giao diện chính của phần mềm weak: [...]... 2- PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Cây quyết định 2.1.1 Giới thiệu Giả sử có một bài toán đặt ra là phải phân loại các căn bệnh và các triệu chứng bệnh, chúng ta có thể giải quyết vấn đề này bằng các cách truyền thống như thống kê (Statistics) hoặc máy học (Machine learning) Nhưng ngày nay, với lượng dữ liệu quá lớn thì các phương pháp cũ có nhiều hạn chế, khai phá 12 17 dữ liệu. .. Độ cao, mức: trong một cây, độ cao của một đỉnh a là độ dài của đường đi dài nhất từ a đến một lá Độ cao của gốc được gọi là độ cao của cây, mức của đỉnh a là độ dài của đường đi từ gốc đến a 2.1.3 Ưu điểm của cây quyết định So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm: Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải... các quyết định dựa trên thống kê, nên kết quả tìm kiếm của ID3 rất ít bị ảnh hưởng bởi một vài dữ liệu sai (hay dữ liệu nhiễu)  Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn cây quyết định ngắn hơn là những cây quyết định dài 2.2.6 Đánh giá hiệu suất của cây quyết định Để đánh giá hiệu suất của một cây quyết định người ta thường sử dụng một tập ví dụ tách rời, tập này khác với tập dữ liệu. .. (information gain), khả năng giảm sai số, Nếu kết quả đánh giá nhỏ hơn một ngưỡng cho trước thì dừng quá trình tách tập dữ liệu và cây cho tập dữ liệu này chỉ là một lá 2.4.2 Phương pháp tỉa cây sau Khác với phương pháp trên, quá trình tỉa cây sau chỉ được thực hiện khi đã có một cây quyết định hoàn chỉnh 16 13 c SplitInformation(S,A) = -  i 1 Si S log 2 Si S GainRatio: Sự đánh giá thay đổi các giá trị... bị thiếu không nhiều) 2.3.4 Thí dụ mô phỏng thuật toán C4.5 2.4 Cắt tỉa cây 2.4.1 Phương pháp tỉa cây trước Theo phương pháp này, quá trình tỉa cây được thực hiện ngay trong khi dựng cây Ta sẽ dừng việc chia nhỏ một tập dữ liệu nếu việc phân chia này không đem lại hiệu quả Ðể xác định được điểm dừng, cần đánh giá việc tách tập dữ liệu theo một tiêu chuẩn nào đó như giá trị thông tin (information gain),... Khi đó, việc chia một tập dữ liệu thành quá nhiều các tập con dẫn đến số lượng các lớp tại mỗi nút giảm và do đó Entropy trên thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến... thuyết các cây quyết định của ID3 là một không gian đầy đủ các cây quyết định trên các thuộc tính đã cho trong tập rèn luyện Điều này có nghĩa là không gian mà ID3 tìm kiếm chắc chắn có chứa cây quyết định cần tìm  Trong khi tìm kiếm, ID3 chỉ duy trì một giả thuyết hiện tại Vì vậy, giải thuật này không có khả năng biểu diễn được tất cả các cây quyết định khác nhau có khả năng phân loại đúng dữ liệu hiện...18 Phương pháp này sẽ loại bỏ một số phần trên cây nhằm tối thiểu hoá sai số dự đoán Tỉa cây sau tuy gây ra tốn kém về mặt thời gian và bộ nhớ do tạo ra các nút dư thừa nhưng cây thu được sau khi tỉa thường đạt được độ chính xác phân lớp cao Vì những lí do trên, quá trình thu gọn cây thường được thực hiện bằng phương pháp tỉa cây sau 2.5 Thuật toán rút gọn các luật quyết định Sau khi sinh... Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác Thuộc tính thiếu giá trị: Nếu giá trị của thuộc tính A bị mất trên một số bộ dữ liệu, hướng giải quyết sẽ thế nào ? Giả sử rằng (x, C(x)) là một trong những tập huấn luyện trong S và giá trị A(x) là không được biết đến Giải pháp: - Thay bằng giá trị xuất hiện nhiều nhất của thuộc tính A - Thay bằng giá trị... cũ có nhiều hạn chế, khai phá 12 17 dữ liệu có thể giải quyết vấn đề với lượng dữ liệu khổng lồ Một trong những kỹ thuật khai phá là phân loại (Classification), với kỹ thuật này chúng ta phân tích dữ liệu và sinh ra một tập các luật, các luật này được dùng để phân loại dữ liệu mới (Future data) Phân loại gồm tìm ra các luật hoặc tìm ra cây quyết định sẽ được trình bày trọng tâm trong luận văn này 2.1.2 . 2.1.3. Ưu điểm của cây quyết định. So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm: Cây quyết định dễ hiểu khai phá dữ liệu. Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ. Khai phá dữ liệu được định

Ngày đăng: 17/02/2014, 09:44

Xem thêm: Phương pháp khai phá dữ liệu bằng cây quyết định, Phương pháp khai phá dữ liệu bằng cây quyết định

Phương pháp khai phá dữ liệu bằng cây quyết định

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan