Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá quan điểm

16 450 0
Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá quan điểm

Nghiên cứu giải thuật học cộng tác (Co- training) ứng dụng vào bài toán khai phá quan điểm Võ Văn Thưởng Trường Đại học Công nghệ Luận văn ThS. ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: TS. Nguyễn Trí Thành Năm bảo vệ: 2012 Abstract. Trình bày các kiến thức cơ sở liên quan đến nghiên cứu giải thuật học công tác ứng dụng vào bài toán khai phá quan điểm. Nghiên cứu khai phá quan điểm ứng dụng: Khai phá quan điểm (Opinion mining); các thuật toán học có giám sát phương pháp đánh giá bộ phân lớp. Trình bày ứng dụng học bán giám sát vào bài toán khai phá quan điểm: Cách tiếp cận giải quyết bài toán; lựa chọn dữ liệu; trích chọn đặc trưng xác định nhãn; tiền xử lý dữ liệu cũng như chuẩn bị dữ liệu. Đưa ra kết quả thực nghiệm. Keywords. Hệ thống thông tin; Bài toán; Khai phá dữ liệu; Giải thuật học Content MỞ ĐẦU Ý kiến đánh giá của khách hàng, người dùng, cá nhân về một sản phẩm, dịch vụ, chính sách hay một vấn đề nào đó tồn tại với số lượng lớn trong kho lưu trữ của các công ty, trên mạng internet. Đối với các công ty, việc khai thác lượng thông tin này giúp họ hiểu rõ hơn về khách hàng, sản phẩm, dịch vụ của mình. Với các tổ chức, chính phủ thì đây cũng là một nguồn cung cấp thông tin hữu ích hỗ trợ cho việc ra quyết định, điều chỉnh chính sách. Bên cạnh các thuật toán học có giám sát, thì các thuật toán học bán giám sát cũng là một hướng nghiên cứu có nhiều ứng dụng trong thực tế. Đề tài này hướng tới tìm hiểu một thuật toán học cộng tác - một trong các thuật toán học bán giám sát - ứng dụng vào bài toán khai phá quan điểm. Do đặc điểm chỉ cần lượng nhỏ dữ liệu đã được gắn nhãn cùng với lượng lớn dữ liệu chưa được gắn nhãn làm dữ liệu huấn luyện. Điều này giúp cho việc thu thập, gắn nhãn cho tập dữ liệu huấn luyện ít tốn kém hơn. Những nghiên cứu, luận văn liên quan đến phân tích tính chủ quan phân tích cảm nghĩ ở nhiều các mức khác nhau cũng như liên quan đến kỹ thuật Co-training cũng đã xuất hiện nhiều. Tuy nhiên việc kết hợp chúng lại với nhau, dùng kỹ thuật Co-training vào phân tích tính chủ quan phân tích cảm nghĩ, thì chưa được phổ biến nhiều qua các bài báo, bằng cả tiếng Việt tiếng Anh, được công khai trên mạng. Ngoài ra việc phân tích ở mức câu cũng là một trở ngại so với ở mức tài liệu [5]. Đề tài luận văn này định hướng giải quyết bài toán phân lớp các câu cảm nghĩ như sau: Cho một tập văn bản gồm nhiều câu văn tiếng Anh. Phân lớp xem câu nào là câu mô tả cảm nghĩ, câu nào không. Đối với những câu mô tả cảm nghĩ, dùng bộ phân lớp phân cực để xác định đó là câu mô tả cảm nghĩ tích cực, tiêu cực hay trung lập. Trong đó, các bộ phân lớp được xây dựng dựa trên kỹ thuật Co-training. Trên cơ sở định hướng đó, nội dung trình bày báo cáo luận văn bao gồm: (1) lý do, mục tiêu của đề tài các đề tài nghiên cứu liên quan – Chương 1; (2) trình bày các kiến thức cơ sở liên quan – Chương 2; (3) cách tiếp cận giải quyết bài toán – Chương 3; (4) thực nghiệm các kết quả - Chương 4; (5) kết luận hướng phát triển của đề tài. CHƢƠNG 1 – GIỚI THIỆU 1.1. Lý do chọn đề tài Khai phá dữ liệu (KPDL) là một chuyên ngành mới, thu hút được nhiều nghiên cứu trong thời gian gần đây. Hướng tiếp cận giải quyết vấn đề dựa trên KPDL là hoàn toàn khác so với cách xử lý Cơ sở dữ liệu (CSDL) truyền thống. KPDL có thể đưa ra kết quả là những tri thức tiềm ẩn trong tập dữ liệu mà các xử lý truyền thống như trước đây không thể truy vấn được. Dữ liệu dạng text là dạng dữ liệu tự nhiên chiếm tỉ lệ nhiều nhất trong các dạng dữ liệu mà con người tạo ra. Dữ liệu text thường ẩn chứa rất nhiều tri thức có giá trị mà con người tạo ra nhằm chia sẻ với mọi người về các kinh nghiệm đã trãi qua. Do đó, mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham khảo đến những kinh nghiệm của người đi trước bằng cách tìm kiếm trên Internet. Với các công cụ Khai phá quan điểm, thì việc trích xuất những tri thức này sẽ được thực hiện một cách tự động có hệ thống. Giúp chúng ta nắm bắt được các khía cạnh liên quan đến quan điểm của công chúng về một vấn đề nào đó cần quan tâm. Từ đó giúp cho việc ra quyết định có cơ sở vững chắc. 1.2. Mục tiêu, phạm vi nghiên cứu của đề tài Đề tài luận văn thạc sỹ này được định hướng giải bài toán khai phá quan điểm mức câu (tiếng Anh) bằng một thuật toán học bán giám sát (Co-training). Bài toán khai phá quan điểm trong phạm vi luận văn này gồm hai bài toán phân lớp con: (1) phân lớp sự tồn tại của cảm nghĩ trong câu; (2) phân lớp tính phân cực của cảm nghĩ trong câu. Dữ liệu được sử dụng làm dữ liệu huấn luyện, đánh giá được trích chọn từ kho dữ liệu MPQA2.0. Thuật toán phân lớp cơ sở được chọn là thuật toán SVM. Để đạt được mục tiêu trên, nghiên cứu sẽ được tiến hành qua các bước: tìm hiểu về kho dữ liệu MPQA2.0; nghiên cứu các đặc trưng câu cách trích xuất; các bước tiền xử lý chuẩn bị dữ liệu cho phân lớp, cài đặc hai bộ phân lớp con riêng lẻ, hai bộ phân lớp con dựa trên Co-training với các nhãn phân lớp tương ứng là nhãn về sự tồn tại cảm nghĩ nhãn về tính phân cực cảm nghĩ ở mức câu; cuối cùng thực hiện huấn luyện đánh giá trên cùng các tập huấn luyện đánh giá; tổng hợp các kết quả đánh giá. Những nội dung này được cấu trúc trong các chương kế tiếp như sau: (1) Chương 2 trình bày các kiến thức cơ sở liên quan đến khai phá quan điểm; (2) cách tiếp cận giải quyết bài toán – Chương 3; (4) thực nghiệm các kết quả - Chương 4; (5) kết luận hướng phát triển của đề tài được nêu trong Chương 5. CHƢƠNG 2 – KHAI PHÁ QUAN ĐIỂM ỨNG DỤNG 2.1. Khai phá quan điểm – Opinion mining 2.1.1. Các khái niệm liên quan “Quan điểm” có nhiều định nghĩa trong các từ điển khác nhau. Tuy nhiên, chung lại có thể hiểu là cảm nhận/suy nghĩ của con người về một đối tượng/sự vật nào đó nào đó. cần phân biệt quan điểm với sự thật vì hai khái niệm này trái ngược nhau. Trong lĩnh vực Khai phá quan điểm, quan điểm có thể được định nghĩa là: một cách nhìn nhận, thái độ, sự đánh giá về một đối tượng từ một chủ thể giữ quan điểm. Trong đó: chủ thể giữ quan điểm (Opinion Holder) có thể là người hoặc tổ chức đưa ra quan điểm; đối tượng (Object/Target) hay mục tiêu của quan điểm là đối tượng mà quan điểm nhắm tới có thể là một sản phẩm, chủ đề, người, sự kiện hoặc tổ chức. Dựa trên sự tồn tại cảm nghĩ mà một quan điểm có thể được chia làm 2 loại là khách quan chủ quan. Nếu dựa trên tính phân cực thì có 3 loại chính là tích cực, tiêu cực hay trung lập. Trên thực tế thì tùy theo từng trường hợp cụ thể mà có thể chia làm nhiều mức hơn. 2.1.2. Khai phá quan điểm Khai phá quan điểm, một dạng của xử lý ngôn ngữ tự nhiên, là một lĩnh vực nghiên cứu mới nhằm trích rút thông tin về cảm nghĩ từ các nguồn dữ liệu text. Cụ thể, Khai phá quan điểm bao gồm phân tích tính chủ quan tính cảm nghĩ trong văn bản (Subjectivity and Sentiment Analysis). Trong đó, phân tích tính chủ quan hướng đến việc tự động nhận ra nội dung nào là chủ quan, nội dung nào là khách quan. Phân tích cảm nghĩ liên quan đến một số xử lý chính như: (1) xác định tính phân cực (polarity) của nội dung cảm nghĩ, (2) xác định đối tượng của cảm nghĩ, (3) xác định chủ thể đưa ra cảm nghĩ. [3] 2.1.3. Động lực Ứng dụng của Khai phá quan điểm Quan điểm đóng một vai trò rất quan trọng trong các tiến trình ra quyết định. Khi cần đưa ra một lựa chọn, con người thường có xu hướng lắng nghe các ý kiến của người khác trước tiên. Đặc biệt hơn, khi các quyết định có liên quan đến những tài nguyên có giá trị, như là thời gian hay tiền của, chúng ta rất coi trọng việc dựa vào những kinh nghiệm của người khác. Những năm trước đây, nguồn tham khảo kinh nghiệm chủ yếu của chúng ta là từ bạn bè, người thân và, trong một số trường hợp, là các tạp chí hay website chuyên ngành. 2.1.4. Thách thức của Khai phá quan điểm Mặc dù việc nghiên lĩnh vực này là cần thiết, nhưng do là lĩnh vực mới nên nó có nhiều thách thức. Hầu hết những khó khăn này bắt nguồn từ sự giàu đẹp của ngôn ngữ mà con người sử dụng. Hơn nữa, tùy thuộc vào trình độ kiến thức, nghề nghiệp, tuổi tác… mà con người có cách hành văn khác nhau. Một từ có thể được xem là mang cảm nghĩ tích cực trong một tình huống này có thể được xem là tiêu cực trong một tình huống khác. Lấy ví dụ như từ "long" trong tiếng Anh, có nghĩa là “dài” hoặc “lâu”. Nếu một khác hàng nhận xét rằng thời gian sử dụng pin là “long”, thì đây là một ý kiến tích cực. Ngược lại, nếu khách hàng cho rằng thời gian khởi động của máy là “long”, thì ý kiến này là tiêu cực. Sự khác biệt trong ngữ cảnh này dẫn đến hệ thống khai phá quan điểm cần phải được chuyên biệt hóa. Một khó khăn nữa là, trong khai phá quan điểm sự khác biệt nhỏ nhất về từ ngữ giữa hai mẫu văn bản cũng có thể dẫn đến khác biệt lớn về ngữ nghĩa. Ví dụ, giữa hai câu khác nhau ở một từ “not”, nghĩa là “không”, sẽ có ý nghĩa hoàn toàn trái ngược nhau. Cuối cùng, trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau. Hầu hết các đánh giá bao gồm cả ý kiến tích cực lẫn ý kiến tiêu cực, điều này có thể xử lý được bằng cách phân tích từng câu một. Tuy nhiên, đối với những câu dạng văn nói ngắn gọn hoặc không theo quy phạm, thì người nói thường lồng nhiều ý kiến vào trong một câu. 2.1.5. Các mức văn bản trong bài toán khai phá quan điểm Khai phá quan điểm liên quan đến thái độ, ý kiến trạng thái cảm xúc của người nói hoặc người viết nên các phương thức phân tích cũng khá phứt tạp. Định lượng cảm nghĩ là một việc khó. Nội dung ở tất cả các mức text đều có thể chứa một mức độ cảm xúc nào đó. Nên Khai phá quan điểm cũng có thể thực hiện ở các mức nội dung khác nhau. Có thể thực hiện phân tích cảm nghĩ ở mức tài liệu, mức đoạn văn, mức câu, mức cụm từ hoặc kết hợp những mức này với nhau. 2.2. Các thuật toán học có giám sát 2.2.1. Học máy - Machine Learning Trong [6], Tom Mitchell có định nghĩa về “Learning” “Machine Learning” như sau: Machine Learning – Học máy: “Machine Learning = Study of algorithms that improve their performance P at some task T with experience E”. Nghĩa là, “Học máy = Nghiên cứu các thuật toán nâng cao hiệu năng P của chúng khi thực hiện nhiệm vụ T bằng kinh nghiệm E”. Hay nói cách khác là, “Một chương trình máy tính được cho là học từ kinh nghiệm E đối với một lớp các tác vụ T phép đo hiệu năng P, nếu hiệu năng của nó trên các tác vụ trong T, khi đo bằng P, được nâng cao nhờ vào kinh nghiệm E”. Hình 2.1. Minh họa về “Máy học” Đến nay, học máy đã được nghiên cứu theo các hướng: học không giám sát (unsupervised learning), ví dụ như gom cụm, phát hiện biên, trong đó tất cả mẫu huấn luyện không được gắn nhãn; học có giám sát (supervised learning), như là phân lớp, hồi quy, trong đó tất cả dữ liệu đều có nhãn. Học bán giám sát (Semi-supervised learning - SSL) nằm giữa hai loại trên. Hình 2.2. Minh họa các hướng nghiên cứu học máy. 2.2.2. Học có giám sát - Supervised Learning Học có giám sát hay còn được gọi là Phân lớp, như đã nêu trong phần 2.1.4, là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Mục tiêu là xây dựng được mô hình trong đó giá trị của một biến có thể dự đoán từ các giá trị của các biến khác từ một tập dữ liệu đã biết tất cả biến. 2.2.3. Thuật toán học có giám sát Support Vector Machines (SVM) Thuật toán Support Vector Machines (máy vector hỗ trợ) được Corters Vapnik giới thiệu vào năm 1995. SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như dữ liệu vector biểu diễn văn bản. Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị phân tức là số lớp hạn chế ở mức hai lớp. SVM được đánh giá là bộ phân lớp chính xác nhất cho bài toán phân lớp văn bản [7]. Ngoài ra SVM giải quyết vấn đề overfitting (dữ liệu có nhiễu tách rời nhóm hoặc dữ liệu huấn luyện quá ít) rất tốt. 2.2.4. Các thuật toán học có giám sát khác Bên cạnh SVM, còn một số phương pháp khác như: Thuật toán Naïve Bayes, thuật toán cây quyết định, thuật toán K người láng giềng gần nhất. 2.3. Các thuật toán học bán giám sát Thuật toán học bán giám sát đầu tiên, Co-training, được Tom Mitchell đưa ra vào năm 1998 trong [4]. Trong đó, tác giả đã chứng minh tính hiệu quả của nó bằng thực nghiệm trên bài toán phân lớp trang Web của trường đại học dựa trên hai khung nhìn là từ vựng trên bản thân trang từ vựng trên các trang có liên kết chỉ đến nó. Trong [4], ở mỗi lần lặp huấn luyện - dự đoán – điều chỉnh tập huấn luyện, thì những mẫu được dự đoán tốt nhất của cả hai bộ phân lớp cơ sở đều được loại khỏi tập không nhãn thêm vào tập có nhãn rồi quay lại bước lặp tiếp theo cho đến khi tập không nhãn rỗng. Từ đó đến nay, đã có nhiều thuật toán dẫn xuất từ thuật toán của Tom Mitchell. Nếu phân loại dựa trên số lượng khung nhìn số lượng thuật toán cơ sở cộng tác với nhau trong Co- training thì có các tên gọi như: thuật toán học cộng tác dựa trên sự phân chi khung nhìn [1]; thuật toán học cộng tác dựa trên sự cộng tác của các giải thuật phân lớp khác nhau [1]. Khi căn cứ vào sự cộng tác giữa hai thuật toán cơ sở để phân biệt thì ta có các tên gọi như: học bán giám sát dựa trên sự đồng thuận (agreement-based semi-supervised learning); học bán giám sát dựa trên sự không đồng thuận (disagreement-based semi-supervised learning). 2.3.1. Thuật toán Co-training Một trong những kỹ thuật học bán giám sát tiêu biểu là Co-training, trong đó hai (hoặc nhiều hơn) bộ học được huấn luyện trên một tập dữ liệu mẫu, nhưng các bộ học được huấn luyện trên các tập thuộc tính độc lập nhau. Cho là hai “khung nhìn” trên mỗi mẫu. Gọi là phân bố trên , là các lớp khái niệm được định nghĩa trên tương ứng. Giả sử tất cả nhãn của tập mẫu có xác suất khác không trên đều tuân theo hàm mục tiêu , cũng đúng với hàm . Gọi là không gian nhãn. Có tập dữ liệu mẫu huấn luyện là , với là tập mẫu có nhãn là tập không nhãn. Thông thường thì . Mục tiêu của Co-training là từ tập có nhãn ban đầu, từng bước học gán nhãn cho các mẫu trong , cuối cùng thu được các hàm mục tiêu trên trên . Chi tiết thuật toán với phân lớp nhị phân như sau: 2.3.2. Thuật toán bán giám sát cực đại EM đại phương Thuật toán học bán giám sát cực đại kỳ vọng địa phương thuộc loại thuật toán trong mô hình sinh. Mô hình hoạt động dựa trên giả thiết Bayes P(x, y) = P(y) * P(x|y). Với số lượng nhiều dữ liệu chưa nhãn cho P(x|y) mô hình đồng nhất, tài liệu được phân thành các thành phần mà trong trường hợp lý tưởng (trong mô hình “đồng nhất”) mọi đối tượng trong một thành phần có cùng nhãn, vì vậy, chỉ cần biết nhãn của một đối tượng nào đó trong thành phần là kết luận được nhãn cho toàn bộ các đối tượng khác trong thành phần đó. 2.3.3. Thuật toán Self-training Là kỹ thuật phổ biến trong học bán giám sát thường được áp dụng cho các bài toán xử lý ngôn ngữ tự nhiên. 2.4. Phƣơng pháp đánh giá bộ phân lớp Hai độ đo được dùng phổ biến để đánh giá bộ phân lớp là độ hồi tưởng (recall) ρ độ chính xác (precision) π. Ngoài ra, có một phương pháp đánh giá đơn giản hơn thông qua hai thông số độ chính xác (Accuracy) tỉ lệ lỗi (Error rate) như sau: 2.5. Kết luận Chương 2 đã trình bày các kiến thức liên quan đến khai phá quan điểm, làm nền tảng cho việc xây dựng hệ thống khai phá quan điểm sẽ được trình bày trong Chương 3. Mô hình hệ thống bước xử lý trong hệ thống khai phá quan điểm sẽ được xây dựng tuân thủ theo quy trình Phát hiện tri thức trong CSDL tổng quát. Về thuật toán phân lớp, mục 2.2. đã trình bày chi tiết các thuật toán. Trong đó nổi lên là thuật toán SVM có những ưu điểm vượt trội khi áp dụng vào khai phá quan điểm. Do đó thuật toán SVM sẽ được chọn để cài đặt cho các bộ phân lớp dựa trên học có giám sát cũng như bán giám sát. Cho trước: * tham số p, n * tập L gồm lượng nhỏ các mẫu huấn luyện có nhãn * tập U gồm lượng lớn các mẫu huấn luyện chưa có nhãn Thuật toán: 1. while U is not empty do 2. Dùng L để huấn luyện bộ phân lớp C 1 theo đặc trưng X 1 3. Dùng L để huấn luyện bộ phân lớp C 2 theo đặc trưng X 2 4. for each C i do 5. C i dự đoán nhãn cho tập U dựa trên X i 6. Chọn (p,n) mẫu được dự đoán tin cậy nhất từ U cho vào E 7. E được loại khỏi U bổ sung vào L 8. end for 9. end while Ngoài ra, có hai hướng tiếp cận Co-training như trình bày trong mục 2.3.1. Việc lựa chọn hướng tiếp cận nào là tùy thuộc vào việc phân chia tập thuộc tính. Sau khi lựa chọn phân tích các thuộc tính (sẽ nêu trong mục 3.4), hướng tiếp cận cụ thể sẽ được lựa chọn. CHƢƠNG 3 – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM 3.1. Tổng quát về hƣớng tiếp cận giải quyết bài toán Mục tiêu của đề tài là xây dựng được hai bộ phân lớp Co-training trên nhãn về tính chủ quan (bộ phân lớp nhị phân) nhãn về tính phân cực cảm nghĩ (bộ phân lớp đa lớp) sao cho chất lượng của chúng tốt hơn so với cách tiếp cận học có giám sát. Mô hình tổng quát để giải quyết bài toán như Hình 3.1. Hình 3.1. Mô hình minh họa các bước giải quyết bài toán 3.2. Lựa chọn dữ liệu Kập MPQA2.0 được chọn làm nguồn cho các tập D Train D Test . Việc chọn MPQA2.0 là căn cứ trên lượng dữ liệu lớn (gồm 692 tài liệu, 15.802 câu, 21 chủ đề được bố trí vào 5 tập con khác nhau) sơ đồ đánh dấu (Annotation Scheme, như là agent, expressive-subjectivity, direct-subjective, objective-speech-event, attitude, target, inside) cho phép xác định nhãn chủ quan nhãn phân cực cảm nghĩ ở mức câu một cách dễ dàng. 3.2.1. Kho tài liệu MPQA2.0(Multi-Perspective Question Answering) Kho tài liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu, 21 chủ đề được bố trí vào 5 tập con khác nhau. Chúng được thu thập từ các bài báo các tài liệu text khác nhau, được đánh dấu thủ công ở mức câu thành phần của câu về các ý kiến trạng thái cá nhân (như niềm tin, cảm xúc, cảm nghĩ, …). Wiebe các cộng sự có mô tả một chiến lược đánh dấu tổng quát; Wilson các cộng sự có mô tả các đánh dấu hướng cảm nghĩ theo ngữ cảnh trong các nghiên cứu [8] [9]. 3.2.2. SentiWordNet SentiWordNet là nguồn từ vựng được sử dụng nhiều trong khai phá quan điểm. Trong đó, mỗi tập đồng nghĩa (synset) trong WordNet được gán ba số đo cảm nghĩ, có giá trị từ 0 đến 1: số đo tích cực (Positive Score – Pos.Score), số đo tiêu cực (Negative Score – Neg.Score), số đo khách quan (Objective Score – Obj.Score). Các chỉ số này phản ảnh mức độ đồng ý giữa các bộ phân lớp thành viên về nhãn phân cực cảm nghĩ (tích cực, tiêu cực) đối với một từ (term), vì vậy một từ (term) có thể có Pos.Score Neg.Score khác không, miễn là phù hợp với công thức: Pos.Score(term) + Neg.Score(term) + Obj.Score(term) = 1. Hình 3.3. Minh họa vị trí của một từ có tính cảm nghĩ tiêu cực trong SentiWordNet. 3.3. Trích chọn đặc trƣng xác định nhãn 3.3.1. Đặc trưng SentiWordNet Score (SS) Trong cách biểu diễn câu dưới dạng vector đặc trưng SS, mỗi câu sẽ được biểu diễn dưới dạng 1 vector có các thành phần là các bộ 3 giá trị SentiWordNet của từng từ có độ dài lớn hơn 1 ký tự trong câu. Tùy thuộc vào việc sắp xếp thứ tự các bộ 3 (hay thứ tự các từ trong câu) này trong vector mà ta có 2 vector SS như sau: - Cách 1 (SS2): sắp xếp theo thứ tự xuất hiện của các từ trong câu. - Cách 2 (SS3): sắp xếp các từ trong câu theo thứ tự từ điển. 3.3.2. Đặc trưng POS Statistics (PS) Thống kê từ loại xuất hiện trong câu, mỗi câu sẽ được biểu diễn dưới dạng 1 vector gồm các thành phần là tần số xuất hiện của từng từ loại theo thứ tự liệt kê trong Vector_PS. Vector_PS = ('NN', 'DT‟, „NNP‟, „IN‟, „JJ‟, „NNS‟, „,‟, „.‟, „VB‟, „VBD‟, „VBN‟, „RB‟, „CC‟, „TO‟, „PRP‟, „VBZ‟, „VBG‟, „CD‟, „VBP‟, „MD‟, „PRP$‟, „WDT‟, „:‟, „NNPS‟, „(„, „)‟, „WP‟, „WRB‟, „JJR‟, „EX‟, „JJS‟, „RBR‟, „RBS‟, „FW‟, „WP$‟, „UH') 3.3.3. Đặc trưng Word Count (WC) Vector đặc trưng WC được tạo thành bằng cách thống kê số lần xuất hiện của từng từ trong câu sau khi loại bỏ từ dừng. Thứ tự sắp xếp các thành phần của vector theo thứ tự từ điển – gọi là vector WC2. Cách trích xuất vector đặc trưng WC2 của câu s như sau: Bước 1- Loại bỏ tất cả các từ dừng khỏi s; Bước 2 - Sắp xếp các từ trong s theo thứ tự từ điển; Bước 3 - Các thành phần của vector cần xác định là thống kê số lần xuất hiện của từng từ trong s theo thứ tự đã được sắp xếp. 3.3.4. Đặc trưng TFIDF Đặc trưng TFIDF liên quan đến việc đếm số từ trong một câu cũng như trong tất cả các câu trong tập câu đang xét (tập huấn luyện hoặc tập đánh giá) thống kê số lần xuất hiện của một từ trong một câu cũng như trong tất cả các câu. Công thức tính TFIDF của một từ term trong câu sentence như sau: TFIDF(term, sentence) = TF(term, sentence) * IDF(term) TF = Số lần xuất hiện của một từ trong một câu / Tổng số từ của một câu. IDF = Tổng số câu / Số câu chứa một từ. 3.3.5. Xác định nhãn về tính chủ quan (sự tồn tại cảm nghĩ) Để xác định tính chủ quan của một câu, ta xác định tất cả các đánh dấu nằm trong phạm vi câu đó. Các đánh dấu trong phạm vi một câu có thể khác nhau về tính chủ quan giữa các cụm từ. Số lượng cụm từ được đánh dấu chủ quan có thể khác nhau giữa các câu. Tuy nhiên, theo Wiebe, Wilson, Cardie (2005) thì việc xác định tính chủ quan của câu dựa trên sơ đồ đánh dấu này được thực hiện khá chính xác nếu theo định nghĩa sau. Một câu được gọi là chủ quan (câu có chứa cảm nghĩ) nếu thỏa mãn i HOẶC ii: i. Câu chứa một đánh dấu "GATE_direct-subjective" CÓ thuộc tính intensity KHÔNG THUỘC ['low', 'neutral'] KHÔNG CÓ thuộc tính insubstantial. ii. Câu chứa một đánh dấu "GATE_expressive-subjectivity" CÓ thuộc tính intensity KHÔNG THUỘC ['low']. Ngược lại, câu được xem là câu khách quan. 3.3.6. Xác định nhãn về tính phân cực cảm nghĩ Việc xác định tính phân cực cảm nghĩ của một câu là phân loại câu thuộc 1 trong 3 loại: Tích cực (POS), Tiêu cực (NEG) Trung lập (NEU). Tính phân cực cảm nghĩ của một câu được xác định dựa trên tập đánh dấu của câu theo luật sau [3]: là tập đánh dấu của tất cả các cụm từ trong phạm vi câu s. Hàm đếm số lần xuất hiện của nhãn l trong tập nhãn L. Tham số được thiết lập giá trị 0,5 vì giả định rằng tất cả các câu được đưa vào bộ phân lớp phân cực cảm nghĩ đều là câu chứa cảm nghĩ (chủ quan). 3.4. Tiền xử lý dữ liệu Tiền xử lý là bước xử lý đầu tiên làm tiền đề cho các bước xử lý kế tiếp. Ở bước này, dữ liệu từ kho MPQA2.0 được truy xuất xử lý theo từng tập con tương ứng. Kết quả của bước này là các file câu/đặc trưng/nhãn theo từng tập con. Mô hình xử lý của bước tiền xử lý được mô tả trong Hình 3.4. Hình 3.4. Tiền xử lý dữ liệu 3.5. Chuẩn bị dữ liệu Chuẩn bị dữ liệu là tổ chức dữ liệu dùng cho từng thực nghiệm theo định dạng của thư viện LibSVM (nêu trong mục 3.6.1). Hình 3.5. Chuẩn bị dữ liệu 3.5.1. Các tiêu chí chuẩn bị dữ liệu Tùy vào từng mục tiêu con của bài toán mà cần đưa ra các kịch bản thực nghiệm cụ thể. Các tiêu chí khi chuẩn bị dữ liệu cho thực nghiệm bao gồm: tương quan số lượng câu của tập huấn luyện tập đánh giá; sự độc lập về chủ đề độc lập về tài liệu giữa tập huấn luyện tập đánh giá; ảnh hưởng của số lượng từ khóa trong câu thuộc tập huấn luyện có nhãn lên chất lượng phân lớp; ảnh hưởng của tỉ lệ tập huấn luyện có nhãn/không nhãn lên chất lượng phân lớp. 3.5.2. Các cách chọn dữ liệu i. Thực nghiệm 1 (chỉ học có giám sát): đánh giá đặc trưng, tham số phân lớp SVM Cố định tập dữ liệu huấn luyện/đánh giá, thay đổi các tham số phân lớp SVM. Thực nghiệm trên từng đặc trưng nêu trong các mục 3.3.1 đến 3.3.3. Đặc trưng TFIDF không được chọn vì với lượng câu huấn luyện/đánh giá lớn, thì vector đặc trưng có số chiều lớn, làm cho kích thước file huấn luyện/đánh giá rất lớn. Tập ORI được chọn làm dữ liệu huấn luyện do kích thước lớn (11.111 câu), tập ULA có kích thước nhỏ hơn (2.292 câu) nên được chọn làm tập đánh giá. Hơn nữa 2 tập này hoàn toàn độc lập nhau về chủ đề cũng như tài liệu. Mục đích của thực nghiệm này là nhằm tìm ra 2 đặc trưng các tham số phân lớp SVM tốt nhất cho phân lớp tính chủ quan/tính phân cực cảm nghĩ. Hai đặc trưng cho độ chính xác cao nhất sẽ được chọn làm 2 khung nhìn cố định, các tham số phân lớp SVM cho độ chính xác cao nhất cũng sẽ được thiết lập cho các bộ phân lớp sau này. ii. Thực nghiệm 2 (học có giám sát/bán giám sát): xem xét ảnh hưởng của số lượng từ khóa tối thiểu của câu trong tập huấn luyện có nhãn đến chất lượng học bán giám sát. Cố định các tham số phân lớp SVM, tham số Co-training, hai khung nhìn tập đánh giá, thay đổi số lượng từ khóa câu được chọn vào tập huấn luyện có nhãn. iii. Thực nghiệm 3 (học có giám sát/bán giám sát): xem xét ảnh hưởng của tỉ lệ chọn tập huấn luyện có nhãn/không nhãn đến chất lượng học bán giám sát. Cố định các tham số phân lớp SVM, tham số Co-training, hai khung nhìn. thay đổi tỉ lệ chọn tập huấn luyện có nhãn/không nhãn. Để thực nghiệm cho kết quả khách quan nhất, với mỗi tỉ lệ như trong Bảng 3.12, sẽ được tiến hành thực nghiệm 5 lần. Kết quả cuối cùng cho một tỉ lệ là kết quả trung bình của 5 lần chạy đó. 3.6. Huấn luyện, đánh giá Tùy theo thực nghiệm mà việc huấn luyện/đánh giá dựa trên học có giám sát học bán giám sát được thực hiện đơn lẻ (chỉ học có giám sát trong Thực nghiệm 1) hoặc song song (cả học có giám sát lẫn học bán giám sát trong Thực nghiệm 2 3). Hình 3.6 sẽ cho cài nhìn tổng quan về bước huấn luyện, đánh giá. Hình 3.6. Huấn luyện, đánh giá 3.7. Kết luận Chương 3 đã trình bày từ mô hình tổng quát giải quyết bài toán. Trong đó, mỗi bước có mục tiêu riêng, nên cũng cần các thực nghiệm riêng. Các mục từ 3.2 đến 3.6 trình bày chi tiết các bước khai phá dữ liệu đối với mỗi mục tiêu (thực nghiệm) cùng với đó là cách trích chọn đặc trưng, cách xác định nhãn từ sơ đồ đánh dấu (annotation scheme) của kho dữ liệu MPQA2.0. Ngoài ra, thư viện LibSVM được dùng như là bộ phân lớp cơ sở cho hai cách tiếp

Ngày đăng: 26/11/2013, 20:25

Hình ảnh liên quan

Hình 2.1. Minh họa về “Máy học” - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Hình 2.1..

Minh họa về “Máy học” Xem tại trang 4 của tài liệu.
Hình 2.2. Minh họa các hướng nghiên cứu học máy. 2.2.2. Học cĩ giám sát - Supervised Learning  - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Hình 2.2..

Minh họa các hướng nghiên cứu học máy. 2.2.2. Học cĩ giám sát - Supervised Learning Xem tại trang 4 của tài liệu.
Mơ hình hệ thống và bước xử lý trong hệ thống khai phá quan điểm sẽ được xây dựng tuân thủ theo quy trình Phát hiện tri thức trong CSDL tổng quát - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

h.

ình hệ thống và bước xử lý trong hệ thống khai phá quan điểm sẽ được xây dựng tuân thủ theo quy trình Phát hiện tri thức trong CSDL tổng quát Xem tại trang 6 của tài liệu.
Mơ hình tổng quát để giải quyết bài tốn như Hình 3.1. - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

h.

ình tổng quát để giải quyết bài tốn như Hình 3.1 Xem tại trang 7 của tài liệu.
Hình 3.1. Mơ hình minh họa các bước giải quyết bài tốn - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Hình 3.1..

Mơ hình minh họa các bước giải quyết bài tốn Xem tại trang 7 của tài liệu.
Hình 3.5. Chuẩn bị dữ liệu 3.5.1. Các tiêu chí chuẩn bị dữ liệu  - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Hình 3.5..

Chuẩn bị dữ liệu 3.5.1. Các tiêu chí chuẩn bị dữ liệu Xem tại trang 9 của tài liệu.
Hình 3.4. Tiền xử lý dữ liệu - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Hình 3.4..

Tiền xử lý dữ liệu Xem tại trang 9 của tài liệu.
Để thực nghiệm cho kết quả khách quan nhất, với mỗi tỉ lệ như trong Bảng 3.12, sẽ được tiến hành thực nghiệm 5 lần - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

th.

ực nghiệm cho kết quả khách quan nhất, với mỗi tỉ lệ như trong Bảng 3.12, sẽ được tiến hành thực nghiệm 5 lần Xem tại trang 10 của tài liệu.
Theo cách chọn dữ liệu cho Thực nghiệm 1 (Bảng 3.10), sau khi tiến hành huấn luyện và dự đốn, ta cĩ các kết quả về độ chính xác cho phân lớp tính chủ quan và phân lớp tính phân  cực cảm nghĩ lần lượt như trong Bảng 4.1 và Bảng 4.2 - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

heo.

cách chọn dữ liệu cho Thực nghiệm 1 (Bảng 3.10), sau khi tiến hành huấn luyện và dự đốn, ta cĩ các kết quả về độ chính xác cho phân lớp tính chủ quan và phân lớp tính phân cực cảm nghĩ lần lượt như trong Bảng 4.1 và Bảng 4.2 Xem tại trang 11 của tài liệu.
Bảng 4.2. Kết quả của Thực nghiệm 1 theo nhãn tính phân cực cảm nghĩ - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Bảng 4.2..

Kết quả của Thực nghiệm 1 theo nhãn tính phân cực cảm nghĩ Xem tại trang 12 của tài liệu.
Bảng 4.5. Kết quả của Thực nghiệm 2 theo nhãn tính chủ quan. - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Bảng 4.5..

Kết quả của Thực nghiệm 2 theo nhãn tính chủ quan Xem tại trang 13 của tài liệu.
Bảng 4.6. Kết quả của Thực nghiệm 2 theo nhãn tính phân cực cảm nghĩ. - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Bảng 4.6..

Kết quả của Thực nghiệm 2 theo nhãn tính phân cực cảm nghĩ Xem tại trang 13 của tài liệu.
Kết quả trung bình của 5 lần chạy theo từng tỉ lệ như trong các Bảng 4.7 đến 4.12. - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

t.

quả trung bình của 5 lần chạy theo từng tỉ lệ như trong các Bảng 4.7 đến 4.12 Xem tại trang 14 của tài liệu.
Bảng 4.11. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 50%, 30% - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Bảng 4.11..

Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 50%, 30% Xem tại trang 15 của tài liệu.
Bảng 4.12. Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 60%, 20% - Nghiên cứu giải thuật học cộng tác (Co- training) và ứng dụng vào bài toán khai phá  quan điểm

Bảng 4.12..

Kết quả Thực nghiệm 3 khi chọn L, U theo tỉ lệ 60%, 20% Xem tại trang 15 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan