báo cáo sử lý ngôn ngữ tự nhien đề tài phân loại website sử dụng lan truyền nhãn

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÀI TẬP LỚN Môn: Xử lý ngôn ngữ tự nhiên Đề tài : Phân loại website sử dụng lan truyền nhãn GV Hướng dẫn PGS.TS.Lê Thanh Hương PGS.TS Nguyễn Kim Anh KS Ngô Văn Linh SV thực hiện Nguyễn Hải An MSSV 20080006 Đoàn Đình Tỉnh MSSV 20082685 Đỗ Việt Thành MSSV 20082370 Hà nội, 05/2011 Giới thiệu Web ngày nay đã trở thành nơi chứa một lượng tài nguyên thông tin dồi dào và quan trọng nhất, là nguồn tri thức cho khoa học, giáo dục và các ứng dụng tìm kiếm. Với một lượng thông tin tăng lên một cách chóng mặt trên internet, người ta thường phải dành nhiều thời gian để tìm kiếm được thông tin mong muốn ngay cả với sự hỗ trợ của các công cụ tìm kiếm. Trong lúc ấy, tất cả các phương pháp học máy và khai phá dữ liệu (machine learning and data mining) đã đều đưa ra những cải tiến hiệu quả hơn để đáp ứng nhu cầu của người dùng. Một cách để tổ chức lượng lớn thông tin ngày càng tăng này là phân loại chúng bằng các mô tả và các chủ đề thích hợp. Phân loại web giúp chúng ta tăng chất lượng của tìm kiếm web ngay cả khi có rất nhiều những trang web không mong muốn. Ngoài ra, sự phân loại web còn đóng vai trò quan trọng trong việc quản lí nhiều thông tin và thu thập thông tin. Phân loại trang web là một bài toán học máy có giám sát (supervised machine learning) truyền thống, nhiệm vụ là huấn luyện một bộ phân loại với các ví dụ có nhãn, sau đó dự đoán gán nhãn cho bất kỳ trang mới nào. Nhưng trong phân loại các trang web, cũng như trong nhiều các ứng dụng thực hành học máy và khai phá dữ liệu, các ví dụ huấn luyện không có nhãn thì dễ đưa ra trong khi phải rất khó khăn đắt đỏ và mất thời gian để đưa ra các ví dụ có nhãn. Lý do là các ví dụ có nhãn thường đòi hỏi sự cố gắng và dộ chính xác cao của những người thí nghiệm. Học máy bán giám sát (semi-supervised machine learning ) giải quyết được vấn đề này bằng cách tận dụng một lượng lớn các dữ liệu không có nhãn, cùng với lượng nhỏ tập dữ liệu có nhãn để tạo một bộ phân loại tốt hơn. Dù vậy với kích thước giới hạn của tập dữ liệu có nhãn đã tạo ra một thách thức về việc chọn lựa một tập các đặc trưng tốt mà chỉ dựa trên dữ liệu có nhãn. Vấn đề (problem) trong thực hành này hướng đến sự cần thiết của trích chọn đặc trưng bán giám sát (semi-supervised feature selection) để chọn ra tập đặc trưng có lợi nhất để tạo ra bộ phân loại cho một thuật toán học với các ví dụ có nhãn và không có nhãn. Ngoài ra, sự tự nhiên không có kiểm soát trong nội dung các trang web lại đưa ra những thách thức giữa phân loại các trang web với cả phân loại văn bản truyền thống. Để giải quyết vấn đề này, chúng ta có thể dựa vào đặc trưng liên hệ lẫn nhau của các siêu văn bản vì thế điều quan trọng để đưa ra một phân loại trang web hiệu quả là tìm được bản chất của các mối liên hệ giữa các trang web. Để làm điều này chúng ta cần sử dụng cùng lúc thông tin ở nội dung trang web, các hyperlinks và usage data là những đặc trưng quan trọng cho hệ thống. Trong số đó, phân tích các hyperlinks có những lợi ích riêng của nó, thông thường các hyperlinks thường truyền đạt ngữ nghĩa trong nhiều trường hợp. Chúng tôi nhận thấy rằng các trang web của một chủ đề riêng thì thường có được liên kết (linked) với các trang khác trong cùng chủ đề. Thực tế, với một vài ngoại lệ, các tác giả của các trang web tạo những liên kết tới các trang khác thường có một ý tưởng rằng các trang được linked tới thì có những nội dung tương đồng với trang liên kết tới nó. Ngoài ra, các phân tích hyperlinks còn được chứng minh là thành công trong nhiều lĩnh vực khác của web, như là page ranking trong các máy tìm kiếm. Bài viết này sử dụng hệ thống phân loại bán giám sát dựa trên đồ thị sử dụng lan truyền nhãn (Label Propagation learning) và các liên kết để tăng độ chính xác trong phân loại web tiếng Anh. Trích chọn đặc trưng Document Frequency. Trích chọn đặc trưng là một bước xử lý dữ liệu quan trọng trong phân loại trang web bởi vì thể hiện của các trang web là tập dữ liệu rất nhiều chiều. Đối với nhiều thuật toán học thì việc xử lý quá nhiều chiều là không được phép. Hơn nữa, khá nhiều chiều không liên quan gì tới việc phân loại các trang web, nhiều nhiễu gây mất chính xác cho việc phân loại. Do đó, ta cần chọn một số đặc trưng thể hiện từ những không gian đặc trưng ban đầu để giảm số chiều không gian đặc trưng và làm tăng độ chính xác và hiệu quả của bộ phân loại. Theo cách truyền thống, trích chọn đặc trưng có giám sát sử dụng thông tin từ dữ liệu đã gán nhãn để tìm tập những đặc trưng mang nhiều thông tin nhất hoặc hữu ích nhất nhưng thông tin từ những dữ liệu chưa gán nhãn thì không được sử dụng. Hiện tại, trích chọn đặc trưng dựa trên thống kê và học máy. DF (Document Frequency) tính tần suất xuất hiện của từ trong các văn bản, nếu tần suất này ít quá thì khó mà mang thông tin đặc trưng cho một lớp, nếu tần suất này quá nhiều thì cũng không thể là thông tin đặc trưng của lớp. Do đó ta tính DF của mỗi một từ và loại bỏ theo ngưỡng trên và dưới. Xây dựng đồ thị Như nhiều phương pháp học máy bán giám sát dựa trên đồ thị khác, ta cho rằng thể hiện của đồ thị là homophilous, nghĩa là các thể hiện thuộc cùng về một lớp có xu hướng liên kết với nhau hoặc có trọng số cạnh giữa chúng lớn. Ta có thể tìm thấy trong nhiều mạng tự nhiên như là mạng các websites, blogs thường có những liên kết với nhau khi một mạng cá nhân tham gia vào các cộng đồng mạng chung. Một thể hiện (instance) đồ thị homophilous có thể xây dựng bởi những hàm tương đồng dựa trên đặc trưng của thể hiện. Hướng tiếp cận dựa trên đồ thị đặt ra câu hỏi rằng ta xây dựng đồ thị như thế nào. Khi một thể hiện không thật sự liên kết tới trang khác, thường thì hàm tương đồng được áp dụng cho các đặc trưng cục bộ của mỗi cặp của thể hiện dựa vào độ lớn trọng số cạnh giữa chúng. Khi các thể hiện có liên kết chính xác đến các trang khác, các cạnh đơn giản là thể hiện tương ứng với một liên kết (Nếu có nhiều liên kết giữa hai trang, trọng số của cạnh sẽ lớn). Với thể hiện là một trang web, cách tiếp cận lai được sử dụng vì ta có thể lấy được các đặc trưng cục bộ cũng như các link chính xác tồn tại giữa chúng. Ta hình thành đồ thị dựa trên kết hợp của nội dung và link của các trang web: • Pha đầu tiên, tạo hai đồ thị: đồ thị dựa trên nội dung và đồ thị dựa trên liên kết link. Cùng sử dụng tập đỉnh nhưng khác nhau cạnh và trọng số tương ứng. • Pha thứ hai, ta kết hợp tuyến tính hai đồ thị để tạo một đồ thị kết hợp. Xây dựng đồ thị dựa trên nội dung: Ta xây dựng đồ thị G 1 (V,E 1 ,W 1 ), mà trong đó V là tập các đỉnh, E 1 là tập các cạnh và W 1 là trọng số ma trận của E 1 . Mỗi đỉnh trong V thể hiện một trang web, Mối liên hệ giữa hai trang web được thể hiện bởi cạnh trong E 1 . Trọng số W 1 có thể để dưới dạng mà trận hoặc linked list. Trong bài này, W 1 là một ma trận có mỗi phần tử là một trọng số cạnh tương ứng trong tập E 1 . Ta thể hiện dữ liệu text đã xử lý của một trang web dưới dạng vector các đặc trưng - sau quá trình trích chọn đặc trưng, và dựa trên mô hình TF*IDF (Term Frequency – Inverse Document Frequency). Trong mô hình này, mọi vector có cùng số chiều và giá trị mỗi chiều được tính như sau: Trong biểu thức trên, thành phần thứ i của vector thứ j, d j là trang web thứ j, t i là từ (term) thứ i trong d j , tf ij thể hiện tần số của từ t i trong trang d j , df i đặc trưng cho số tài liệu trong tập dữ liệu chứa từ t i , và N là kích thước của tập dữ liệu. Có nhiều phương pháp để thể hiện sự tương đồng nhau giữa hai trang web. Bài này sẽ chọn độ tương đồng cosine để tính sự tương đồng về nội dung giữa hai trang web. Ta tính w 1 như sau: W 1 thể hiện sự tương đồng nội dung giữa hai trang web, nếu giá trị w lớn thì chúng cùng nói về một chủ đề và ngược lại. Đồ thị này là đầy đủ, trong trường hợp tập dữ liệu quá lớn ta có thể giảm bớt bởi một đồ thị , cắt những cạnh có trọng số thấp theo ngưỡng . Đồ thị dựa trên liên kết: Đồ thị dựa trên liên kết G 2 (V,E 2 ,W 2 ) cùng chung tập đỉnh với đồ thị G 1 , và số cạnh phụ thuộc vào số liên kết giữa hai trang. Lý do sử dụng hyperlink là vì hai trang web dường như sẽ cùng nói về cùng một chủ đề nếu như có link đến nhau. Không may là có nhiều trang phổ biến có những link nhiễu lớn ví dụ như quảng cáo, điều hướng. Để loại bỏ link nhiễu, ta sử dụng ngưỡng với w 1 , nếu độ tương đồng nội dung nhỏ hơn một ngưỡng nào đó, ta sẽ coi đó là link nhiễu. Điều này là có thể thực hiện được. Đồ thị liên kết: Sau khi xây dựng được hai đồ thị tương đồng dựa trên nội dung và đồ thị tương đồng dựa trên liên kết, ta tổ hợp lại thành một đồ thị G(V,E,W) như sau: Ta tinh chỉnh giá trị để có được W tốt nhất. Lan truyền nhãn trong đồ thị Lan truyền nhãn là một thuật toán phân loại bán giám sát, nó gán nhãn cho những ví dụ chưa có nhãn dựa trên những ví dụ đã có nhãn. Ý tưởng chính của lan truyền nhãn là nhãn của một đỉnh sẽ được lan ra các đỉnh khác thông qua các cạnh. Thuật toán vẫn có thể cho kết quả tốt khi tập huấn luyện nhỏ. Trong thực tế, cái giá phải trả cho việc gán nhãn rất nhiều các tài liệu là một việc khó. Nhưng đặc điểm nổi bật của lan truyền nhãn là có thể hội tụ một cách chắc chắn. Dù sao, độ chính xác của thuật toán thì phụ thuộc nhiều vào độ tương đồng của ma trận mà ta xây dựng cho các trang web. Bài toán: Cho một đồ thị G(V,E,W) và tập nhãn C kích thước m. Đặt V l là tập có nhãn và V u là tập chưa có nhãn. Vấn đề là gán nhãn cho các dữ liệu không có nhãn dựa vào đồ thị G và tập dữ liệu có nhãn. Ta chuyển bài toán thành tìm một ma trận xác suất Y kích thước nxm với n là số đỉnh và m là số nhãn. Hàng thứ i của ma trận Y thể hiện sự phân bố xác suất của đỉnh i vào tập nhãn C. Đặc biệt, giá trị Y ic thì tương ứng là xác suất của đỉnh i được gán nhãn c. Ta có thể chỉ ra nhãn Y i được gán cho đỉnh i được tính như sau: Ta khởi tạo ma trận Y 0 . Gọi P nxn là một ma trận xác suất, giá trị hàng i và cột j - P ij của P thì tương ứng với khả năng đi từ j đến i. Ta có tính chất của P như sau: Ma trận P được xây dựng dựa trên ma trận trọng số W: . D là ma trận chéo có Bằng các chứng minh toán học ta có thể thấy thuật toán Lan truyền nhãn sau là hội tụ: Cài đặt Cài đặt bài toán sử dụng tập học là webKB. Có hơn 7000 trang web được chia làm 7 nhãn. Với tập này ta lấy ngẫu nhiên số lượng web trong các nhãn và cho làm tập học đi phân loại số các trang còn lại, so sánh kết quả phân loại với nhãn ban đầu và đưa ra độ chính xác của phép phân loại. Chương trình được xây dựng bằng ngôn ngữ java, giao diện console. Các lớp bao gồm: • BuildWebDB • Stemmer • StopWords • TermDict • Utils • WebDB • WebReader • Test. Điều khiển chương trình trong hàm main. Kết quả trả về sau hàm report. Kết Quả Chương trình chạy cho kết quả chính xác đạt Tài liệu tham khảo . BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÀI TẬP LỚN Môn: Xử lý ngôn ngữ tự nhiên Đề tài : Phân loại website sử dụng lan truyền nhãn GV Hướng dẫn PGS.TS.Lê Thanh Hương PGS.TS. nhất. Lan truyền nhãn trong đồ thị Lan truyền nhãn là một thuật toán phân loại bán giám sát, nó gán nhãn cho những ví dụ chưa có nhãn dựa trên những ví dụ đã có nhãn. Ý tưởng chính của lan truyền nhãn. cho làm tập học đi phân loại số các trang còn lại, so sánh kết quả phân loại với nhãn ban đầu và đưa ra độ chính xác của phép phân loại. Chương trình được xây dựng bằng ngôn ngữ java, giao diện

báo cáo sử lý ngôn ngữ tự nhien đề tài phân loại website sử dụng lan truyền nhãn

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Giới thiệu

Trích chọn đặc trưng Document Frequency.

Xây dựng đồ thị

Lan truyền nhãn trong đồ thị

Cài đặt

Kết Quả

Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan