Phân cụm đa mức Web bằng thuật toán K-means dựa trên chủ đề ẩn và thực nghiệm đánh giá

46 538 1
Phân cụm đa mức Web bằng thuật toán K-means dựa trên chủ đề ẩn và thực nghiệm đánh giá

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Minh Tùng PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS DỰA TRÊN CHỦ ĐỀ ẨN VÀ THỰC NGHIỆM ĐÁNH GIÁ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Minh Tùng PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS DỰA TRÊN CHỦ ĐỀ ẨN VÀ THỰC NGHIỆM ĐÁNH GIÁ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Tiến sỹ Đoàn Sơn Hà Nội - 2011 i Lời cảm ơn Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Đoàn Sơn và Phó Giáo sư Tiến sĩ Hà Quang Thụy, người đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khóa luận. Tôi xin gửi lời cảm ơn chân thành và sâu sắc tới các thầy, cô tại trường Đại học Công Nghệ đã dạy dỗ và tận tình chỉ bảo cho tôi trong suốt quá trình học tập tại trường. Tôi xin cảm ơn tập thể sinh viên K52CHTTT Trường Đại học Công Nghệ cũng như các bạn trong phòng nghiên cứu KT-SISLAB đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứu và thực hiện khóa luận này. Tôi xin cám ơn sự hỗ trợ từ đề tài QG.10.38 của Đại học Quốc gia Hà Nội. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Tôi rất mong nhận được sự góp ý chân thành của thầy cô và các bạn để tôi hoàn thiện khóa luận của mình. Hà Nội, ngày 20 tháng 5 năm 2011 Sinh viên Đào Minh Tùng i Tóm tắt nội dung Trước sự bùng nổ của thông tin, phân cụm dữ liệu nói chung và phân cụm trang web nói riêng đã trở thành một lĩnh vực nghiên cứu quan trọng. Đặc biệt, hiện nay sự quan tâm cải tiến đối với chất lượng thuật toán phân cụm rất cao vì sự cần thiết của những ứng dụng có thể giúp người sử dụng Internet xử lý trạng thái quá tải thông tin, đưa ra cái nhìn tổng quan về thông tin tìm kiếm được trả về. Khóa luận đề xuất phương pháp phân cụm trang web đa mức dưới dạng cây bằng thuật toán K-means dựa trên chủ đề Nn. Thực nghiệm cho kết quả ban đầu khá tốt, có thể tiếp tục phát triển để ứng dụng trong máy tìm kiếm. ii Lời cam đoan Em xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ từ giáo viên hướng dẫn là TS. Đoàn Sơn. Các nội dung nghiên cứu và kết quả trong đề tài này là trung thực, không sao chép từ bất cứ nguồn nào có sẵn. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ nhiều nguồn khác nhau có ghi trong phần tài liệu tham khảo. Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình. Đào Minh Tùng iii Mục lục Lời cảm ơn i Tóm tắt nội dung i Lời cam đoan ii Mục lục iii Danh sách bảng v Danh sách hình vẽ vi Mở đầu 1 Chương 1. Giới thiệu về phân cụm web đa mức 3 1.1. Phân cụm dữ liệu 3 1.2. Yêu cầu đối với phân cụm dữ liệu 3 1.3. Phân cụm web đa mức 4 1.4. Các thuật toán phân cụm HAC và K-means 5 1.4.1. Thuật toán HAC (Hierarchical agglomerative clustering) 5 1.4.2. Thuật toán K-means 6 Chương 2. Phân phối Dirichlet n (LDA) và lấy mẫu Gibbs 10 2.1. Giới thiệu về phân phối Dirichlet Nn 10 2.2. Ước lượng LDA với lấy mẫu Gibbs 12 2.3. Phân định chủ đề theo mô hình LDA với lấy mẫu Gibbs 13 2.4. Mối quan hệ của LDA với các mô hình biến Nn khác 13 2.4.1. Mô hình unigram 13 2.4.2. Mô hình phức hợp các unigram 14 2.4.3. Chỉ mục ngữ nghĩa tiềm Nn 15 Chương 3. Mô hình hệ thống 18 3.1. Tổng quan 18 3.2. Tiền xử lý dữ liệu tiếng Việt 20 3.2.1. Phân đoạn câu (Sentence segmentation) 20 iv 3.2.2. Tách câu (Sentence Tokenization) 20 3.2.3. Tách từ 21 3.2.4. Lọc bỏ nhiễu 21 3.3. Phương pháp phân cụm 22 3.4. Đánh giá phân cụm 23 Chương 4. Thực nghiệm 25 4.1. Môi trường thực nghiệm 25 4.2. Công cụ thực nghiệm 25 4.3. ChuNn bị dữ liệu 25 4.3.1. Dữ liệu học 25 4.3.2. Dữ liệu kiểm tra 27 4.4. Quá trình thực nghiệm 28 4.4.1. Xây dựng mô hình chủ đề Nn 28 4.4.2. Phân cụm mức 1 30 4.4.3. Phân cụm mức 2 31 4.4.4. Thời gian xây dựng mô hình chủ đề Nn 2 32 Kết luận và định hướng 34 Tài liệu tham khảo 35 Tiếng Việt 35 Tiếng Anh 35 v Danh sách bảng Bảng 1: Một số từ nhiễu cần được loại bỏ 22 Bảng 2: Môi trường thực nghiệm 25 Bảng 3: Chi tiết số lượng trang web được trích rút với 10 chủ đề lớn 26 Bảng 4: Chi tiết số lượng trang web được trích rút với 5 chủ đề con thuộc lĩnh vực kinh tế 27 Bảng 5: Bảng các giá trị tham số cho JGibbsLDA để tạo chủ đề n gồm 20 từ 28 Bảng 6: Bảng tham số cho JGibbsLDA để tạo chủ đề n mức 1 gồm 40 từ 30 Bảng 7: Bảng tham số cho JGibbsLDA để tạo chủ đề n mức 2 gồm 20 từ 30 vi Danh sách hình vẽ Hình 1: Ví dụ phân cụm web đa mức 5 Hình 2: Thuật toán K-means 8 Hình 3: Quy trình sinh của LDA 11 Hình 4: Miêu tả sự khác nhau của các mô hình xác suất bằng đồ thị 14 Hình 5: Sự khác biệt giữa các mô hình xác suất mô tả bằng hình học 16 Hình 7: Các công đoạn xử lý trang web tiếng Việt 20 Hình 8: Giải thích về các đại lượng TP, FP, FN, TN 23 Hình 9: Minh họa về file dữ liệu học cho JGibbsLDA 26 Hình 10: Mô tả dữ liệu đánh giá phân cụm mức 1 28 Hình 11: Mô tả dữ liệu đánh giá phân cụm mức 2 28 Hinh 12: Ví dụ về kết quả tạo mô hình chủ đề n 29 Hình 13: F-Score của 10 chủ đề qua phân cụm 31 Hình 14: Đánh giá phân cụm mức 2 với số vòng lặp 1000, 1500, 2000 31 Hình 15: Ví dụ về chủ đề bất động sản với số vòng lặp là 1000 và 2000 32 Hình 16: Đánh giá thời gian xây dựng mô hình chủ đề n mức 2 33 1 Mở đầu Vấn đề mà người tìm kiếm thông tin trên web phải đối mặt hang ngày là lượng thông tin quá lớn trên Internet trong khi những trang web thật sự liên quan đến nhu cầu người dùng rất nhỏ. Những máy tìm kiếm cho phép người dùng thu được những trang web khớp với truy vấn, nhưng số lượng kết quả trả về thường rất lớn, trong đó có nhiều tài liệu không liên quan đến mục đích tìm kiếm. Các máy tìm kiếm cố gắng sắp xếp kết quả, đưa những trang web “liên quan nhất” lên cao hơn, nhưng người dùng vẫn thường xuyên phải thêm hoặc thay đổi câu truy vấn đề lọc bỏ những kết quả không liên quan. Một giải pháp để hỗ trợ người dùng tìm kiếm thông tin nhanh chóng là phân cụm web [2,9]. Do sự tăng lên nhanh chóng của số lượng các trang web, phân cụm web đang trở thành một phần quan trọng trong các máy tìm kiếm. Phân cụm web là một giải pháp sắp xếp lại kết quả tìm kiếm web theo cách thuận tiện hơn cho việc sử dụng.Với một cách thức phân cụm tốt, kết quả tìm kiếm có thể được tự động sắp xếp vào những cụm nhất định, điều này nâng cao tính sẵn sàng (availability) và truy cập được (accessibility) của dữ liệu. Việc biểu diễn dữ liệu văn bản hiệu quả để khai thác mối quan hệ giữa các thành phần đang nhận được nhiều nghiên cứu phát triển [18]. Trong đó có thể kể tới mô hình LSA [24], pLSI [21] và LDA [16]. LDA là mô hình sinh giải quyết được những tồn tại trong LSA và pLSI [16]. Mô hình LDA có nhiều ứng dụng, trong có ứng dụng khảo sát chủ đề Nn của các văn bản. Khóa luận này tập trung theo hướng phân cụm đa mức các bài báo dựa trên mô hình chủ đề Nn và thuật toán phân cụm K-means. Cách thức phân cụm được tiến hành trong khóa luận bao gồm các bước: Trích rút dữ liệu, tiền xử lý dữ liệu, xây dựng mô hình chủ đề Nn, biểu diễn văn bản cần phân cụm qua chủ đề Nn, phân cụm văn bản. Do trên thực tế, các trang web thường được phân cụm theo 2 mức (Ví dụ, trên trang http://www.dantri.com.vn, các trang web được phân vào “Kinh doanh”, “pháp luật”, “sức khỏe”… sau đó các trang web thuộc lĩnh vực “kinh doanh” lại được phân vào cụm nhỏ hơn như “bất động sản”, “chứng khoán” v v ) trong khuôn khổ khóa luận này, tôi chỉ tập trung phân cụm các trang web theo 2 mức. Phần còn lại của khóa luận được chia thành bốn chương: [...]... xây dựng mô hình chủ đề Nn Chương 3: Mô hình thực nghiệm: Trình bày mô hình xây dựng chủ đề Nn Chương 4: Thực nghiệm: Xây dựng, thử nghiệm và đánh giá phân cụm đa mức với chủ đề Nn Kết luận: Tổng kết những nội dung chính của khóa luận, những điều đã đạt được, các vấn đề còn tồn tại và hướng phát triển của hệ thống 2 Chương 1 Giới thiệu về phân cụm web đa mức 1.1 Phân cụm dữ liệu Phân cụm (Clustering)... Các trang web cần phân cụm Dữ liệu học Ước lượng mô hình Phân tích chủ đề Đặc trưng trang web biểu diễn qua các Phân cụm cấp I Cụm 1 Cụm k Phân cụm cấp II Phân cụm cấp II Cụm 1.1 … Cụm k.1 Cụm 1.m Hình 6: Mô hình phân cụm đa cấp ứng dụng chủ đề n Mô hình này bao gồm chủ yếu 5 bước như sau: (a) Chọn dữ liệu miền chuNn (b) Tiến hành phân tích chủ đề cho dữ liệu miền 18 … Cụm k.n (c) Tìm những cụm từ đi...Chương 1: Phân cụm web đa mức: Trình bày những nội dung cơ bản về phân cụm, phân cụm web, phân cụm web đa mức và hai thuật toán phân cụm được sử dụng phổ biến là HAC và K-means Chương 2: Giới thiệu về phân phối Dirichlet Nn và lấy mẫu Gibbs: Trình bày những nội dung cơ bản về phân phối Dirichlet Nn và lấy mẫu Gibbs, bao gồm những mô hình toán học và xác suất Đây là những kiến thức... trang web đa mức [9] tổ chức các trang web thành một cây thuận tiện cho tìm kiếm Mối quan hệ cha-con giữa các node trong cây có thể xem như mối quan hệ giữa chủ đề lớn và chủ đề con của chúng Hình dưới đây mô tả trực quan về phân cụm web: Web … Kinh tế Giáo dục Chứng khoán Bất động sản … Thể thao Thị trường Hình 1: Ví dụ phân cụm web đa mức 1.4 Các thuật toán phân cụm HAC và K-means 1.4.1 Thuật toán HAC... web nằm trong cụm đó Thuật toán thực hiện bằng cách tối thiểu hóa tổng bình phương khoảng cách từ dữ liệu đến tâm của cụm tương ứng Việc quyết định phân một trang web vào một cụm là dựa vào độ tương đồng của trang web đó với trọng tậm của các cụm Tồn tại hai dạng của thuật toán K-means là dạng cứng và dạng mềm 1.4.2.1 Thuật toán K-means với gán “cứng” Dạng “cứng” phân các trang web đến các cụm theo một... hạn chế được chi phí trong mức chấp nhận được Kết quả của pha (b), sử dụng mô hình LDA, là mô hình chủ đề đươc ước lượng, bao gồm thông tin về các chủ đề Nn và phân phối xác suất của các từ tương ứng với từng chủ đề Dựa vào mô hình trên và tập các trang web, ta có thể tiến hành phân tích chủ đề cho những trang web đó Chú ý rằng các trang web đó được phân tích chủ đề dựa trên mô hình được tạo bởi dữ... thể liên quan đến chủ đề “chính 19 trị” hoặc “kinh tế” Việc sử dụng thông tin chủ đề Nn như thế nào cho hiệu quả phụ thuộc vào cách biểu diễn trang web và các thuật toán phân cụm (e) Với mô hình này, ta có thể lựa chọn nhiều thuật toán phân cụm Trong thí nghiệm này, tôi sử dụng phân cụm K-means “cứng” Tuy nhiên, các thuật toán phân cụm khác, chẳng hạn HAC có thể được sử dụng Với K-means, ta có thể... Dừng thuật toán Bước 3: Tìm hai cụm có độ tương tự (khoảng cách) lớn nhất Bước 4: Nếu ‫݉݅ݏ‬൫ܵ௜ , ܵ௝ ൯ < ‫ ݍ‬thì dừng thuật toán Bước 5: Loại bỏ ܵ௜ , ܵ௝ khỏi G Bước 6: Tạo cụm ܹ = ܵ௜ ∪ ܵ௝ và ‫.ܹ ∪ ܩ = ܩ‬ Bước 7: Quay lại bước 2 1.4.2 Thuật toán K-means Thuật toán k-means [15] có thể xếp vào lớp thuật toán phân cụm phẳng, ý tưởng chính của thuật toán là biểu diễn một cụm bằng trọng tâm của các trang web. .. Những chủ đề này được dùng trong việc đối sánh với kết quả phân cụm để đánh giá kết quả việc phân cụm Đại lượng sử dụng để đánh gia là Độ chính xác (Precision), độ hồi tưởng (Recall) và độ đo F (F-Score)[9] Độ chính xác với một cụm được tính bằng số tài liệu phân cụm đúng trên tổng số tài liệu được phân vào cụm đó Độ hồi tưởng với một cụm được xác định bằng số tài liệu đúng trên tổng số tài liệu thực. .. thuộc vào dữ liệu chuNn có thể dẫn tới kết quả phân cụm tồi khi xử lý những dữ liệu này 5) Phân cụm tăng dần và khả năng độc lập với thứ tự dữ liệu đầu vào Nhiều thuật toán phân cụm không thể xử lý thêm những dữ liệu mới được thêm vào tới những cấu trúc cụm có sẵn mà phải phân cụm lại từ đầu Một vài thuật toán phụ thuộc vào thứ tự của dữ liệu đầu vào, nghĩa là, cho một tập các đối tượng dữ liệu, những thuật . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Minh Tùng PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS DỰA TRÊN CHỦ ĐỀ ẨN VÀ THỰC NGHIỆM ĐÁNH GIÁ . Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Minh Tùng PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS DỰA TRÊN CHỦ ĐỀ ẨN VÀ THỰC NGHIỆM ĐÁNH GIÁ. tình chỉ bảo cho tôi trong suốt quá trình học tập tại trường. Tôi xin cảm ơn tập thể sinh viên K52CHTTT Trường Đại học Công Nghệ cũng như các bạn trong phòng nghiên cứu KT-SISLAB đã ủng hộ và

Ngày đăng: 20/08/2014, 09:47

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan