mô hình chủ đề hướng yêu cầu người sử dụng và áp dụng vào phân lớp đa nhãn tiếng việt

Wang và cộng sự 2016 vàsử dụng mô hình chủ đề đích vào một mô hình phân lớp đa nhãn khai phá quan điểm mức khía cạnh đối với các văn bản đánh giá tiếng Việt.. Mô hình đề xuất bao gồm hai

Trang 1

PHÂN LỚP ĐA NHÃN TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin

HÀ NỘI - 2019

Trang 2

PHÂN LỚP ĐA NHÃN TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

HÀ NỘI - 2019

Trang 3

hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày tháng năm 2019

Người cam đoan

Nguyễn Thị Thu Trang

Trang 4

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài

Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua

Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Lab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận

Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con

Cuối cùng, xin chân thành cảm ơn các Anh Chị và bạn bè, đặc biệt là các thành viên lớp K60T đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài

Hà Nội, ngày tháng năm 2019

Sinh viên

Nguyễn Thị Thu Trang

Trang 5

TÓM TẮT

Tóm tắt: Một trong những nhiệm vụ bao quát của phân tích tài liệu là tìm hiểu về những chủ

đề được đề cập trong tài liệu và mô hình chủ đề là một kỹ thuật rất phổ biến Nhiều mô hình chủ đề đã được đề xuất và sử dụng, tuy nhiên, các mô hình đó thường thực hiện tìm ra mọi chủ đề có thể Trong nhiều trường hợp, người dùng thường quan tâm chi tiết hơn về các chủ đề liên quan tới một khía cạnh cụ thể nào đó Mục đích chính của khóa luận này là nghiên cứu mô hình chủ đề đích TTM của S Wang và cộng sự (2016) vàsử dụng mô hình chủ đề đích vào một mô hình phân lớp đa nhãn khai phá quan điểm mức khía cạnh đối với các văn bản đánh giá tiếng Việt

Mô hình đề xuất bao gồm hai pha chính: (1) xử lý dữ liệu và tìm ra tập các chủ đề ẩn bằng mô hình chủ đề đích và (2) phân lớp đa nhãn khai phá quan điểm tiếng Việt mức khía cạnh Tại pha thứ nhất, dữ liệu được hiệu chỉnh sao cho phù hợp với yêu cầu đầu vào của mô hình TTM để tìm ra các chủ đề ẩn về khía cạnh người dùng quan tâm trong các đánh giá Tiếng Việt Từ đó sinh ra được tập các chủ đề về khía cạnh mà người đùng quan tâm Tại pha thứ hai, sau khi tìm được các chủ đề liên quan đến khía cạnh mà người dùng quan tâm và tập các từ trong mỗi chủ đề từ pha 1 Thực hiện biểu diễn dữ liệu theo vector và đưa vào mô hình phân lớp

Khóa luận đã tiến hành thực nghiệm trên miền dữ liệu tiếng Việt đánh giá khách sạn Dữ liệu thực nghiệm sẽ được đưa qua các mô hình phân lớp khác nhau với tập chủ đề ẩn 6, 10, 15 để cho thấy ảnh hưởng của tập chủ đề ẩn lên kết quả của quá trình phân lớp

Từ khóa: mô hình chủ đề đích, khía cạnh quan tâm, khai phá quan điểm mức khía cạnh, phân

lớp đa nhãn, phân tích khía cạnh đích, phân tích tập trung, khía cạnh đích,

Trang 6

CHƯƠNG 1 BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TOÁN KHÓA LUẬN 2

1.1 Biểu diễn dữ liệu văn bản 2

1.1.1 Một số phương pháp đánh trọng số 3

1.1.1.1 Phương pháp boolean 3

1.1.1.2 Phương pháp dựa trên tần số 3

1.1.2 Một số mô hình biểu diễn văn bản phổ biến 5

1.1.2.1 Mô hình boolean 5

1.1.2.2 Mô hình xác suất 5

1.1.2.3 Mô hình không gian vecter 5

1.2 Khái quát về khai phá quan điểm và phân lớp dữ liệu 6

1.2.1 Khái quát về khai phá quan điểm 6

1.2.2 Phân lớp dữ liệu 7

1.2.2.1 Quá trình phân lớp dữ liệu 9

1.2.2.2 Một số thuật toán dùng trong mô hình phân lớp phổ biến 10

1.3 Khai phá quan điểm 21

1.3.1 Khái niệm khai phá quan điểm 21

1.3.2 Các bài toán khai phá quan điểm chính 24

1.4 Sơ bộ về bài toán trong khóa luận 26

1.4.1 Về bài toán chung 26

1.4.2 Bài toán khóa luận 26

Trang 7

CHƯƠNG 2 MỘT SỐ CÁCH TIẾP CẬN GIẢI QUYẾT BÀI TOÁN 28

2.1 Cách 1: Sử dụng mô hình phân tích chủ đề LDA trên toàn bộ tập dữ liệu 28

2.2 Cách 2 : Xử lý kho dữ liệu theo mong muốn rồi mới áp dụng mô hình LDA 28

2.2.1 Tìm ra tho dữ liệu C1 từ dữ liệu ban đầu C 29

2.3 So sánh hai cách tiếp cận trên 30

2.4 Các kỹ thuật để giải quyết bài toán 30

2.4.1 Mô hình chủ đề đích 30

2.4.2 Giải thích các thành phần 31

2.4.3 Mô tả thuật toán 32

2.4.4 Các phân phối được sử dụng trong thuật toán 34

2.4.4.1 Phân phối Beta 34

2.4.4.2 Phân phối Dirichlet 35

2.4.4.3 Phân phối Bernoulli 35

2.4.4.4 Phân phối đa thức 36

2.4.5 Gibbs Sampling cho mô hình suy luận 36

Tóm tắt chương 37

CHƯƠNG 3 MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRONG KHÓA LUẬN 38

3.1 Giới thiệu 38

3.2 Quy trình giải quyết bài toán 39

3.2.1 Pha 1 – Áp dụng mô hình chủ đề đích và huấn luyện mô hình 40

3.2.1.1 Quá trình tiền xử lý dữ liệu 40

Trang 8

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ 46

4.1 Tập dữ liệu, định hướng thực nghiệm 46

Các công việc trong tương lai 58

TÀI LIỆU THAM KHẢO 59

Trang 9

DANH SÁCH THUẬT NGỮ

Latent Dirichlet Allocation - Partial Data LDA-PD

Trang 10

DANH SÁCH HÌNH ẢNH

Hình 1.1 Ảnh minh họa học đa nhãn[19] 9

Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19] 9

Hình 1.3 Minh họa kết quả thuật toán KNN vào phân lớp 11

Hình 1.4 Hình ảnh mô tả cây quyết định 15

Hình 1.5 Hình mô tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm) 19

Hình 1.6 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ 20

Hình 1.7 Hình ảnh ví dụ về một siêu phẳng trong không gian nhiều chiều 21

Hình 2.1 Mô hình TTM 31

Hình 2.2 Thuật toán sinh trong mô hình 33

Hình 3.1 Mô hình tổng quan của bài toán 38

Hình 3.2 Quy trình giải quyết bài toán 39

Hình 3.3 Biểu diễn dữ liệu(Y) trong phân lớp 44

Hình 4.1 Hình ảnh mô tả tập dữ liệu khách sạn sau khi đã xử lý 51

Hình 4.2 Mô tả tập dữ liệu đầu vào của mô hình chủ đề đích TTM 51

Hình 4.3 Hình ảnh mô tả dữ liệu đầu ra của mô hình chủ đề đích TTM 52

Trang 11

DANH SÁCH BẢNG

Bảng 3.1 Ví dụ về kết quả của mô hình TTM 42

Bảng 3.2 Ví dụ về dữ liệu đa nhãn 42

Bảng 4.1 Cấu hình hệ thống thi hành thực nghiệm 47

Bảng 4.2 Danh sách các phần mềm sử dụng trong thực nghiệm 47

Bảng 4.3 Danh sách một số từ dừng 49

Bảng 4.4 Dữ liệu đầu vào của TTM 49

Bảng 4.5 Tập dữ liệu thực nghiệm 50

Bảng 4.6 Tập dữ liệu huấn luyện 50

Bảng 4.7 Kết quả thực nghiệm sử dụng các bộ phân lớp Cây quyết định 53

Bảng 4.8 Kết quả thực nghiệm sử dụng các bộ phân lớp KNN 54

Bảng 4.9 Kết quả thực nghiệm sử dụng các bộ phân lớp Rừng ngẫu nhiên 55

Bảng 4.10 Kết quả thực nghiệm sử dụng các bộ phân lớp SVM 56

Trang 12

nay, việc đưa ra ý kiến riêng của mỗi cá nhân về một chủ đề, một đối tượng nào đó diễn ra rất sôi nổi Các diễn đàn và phương tiện xã hội trở thành nguồn cung cấp thông tin dồi dào cho việc nghiên cứu về lĩnh vực khai phá quan điểm

Tuy nhiên, dữ liệu lấy được từ các diễn đàn, phương tiện xã hội thuộc nhiều dạng khác nhau như âm thanh, hình ảnh, văn bản, Việc tìm hiểu chi tiết hơn về vấn đề mà người dùng muốn trình bày, nhận định trong một bài viết hay một cuộc thảo luận hoặc trong các đánh giá về sản phẩm thu hút sự quan tâm của người dùng nói chung và các nhà nghiên cứu về khai phá dữ liệu nói riêng Song, việc tìm ra những thông tin chi tiết và đáng giá chỉ liên quan đến vấn đề mà một người dùng cụ thể quan tâm trong một bộ dữ liệu lớn về các ý kiến đánh giá khác là điều không hề dễ ràng

Mô hình chủ đề hiện tại thường làm việc trên toàn bộ tập dữ liệu và đưa ra tất cả các chủ đề được đề cập đến miền ứng dụng Các chủ đề tạo ra có thể là quá thô, thậm chí có những chủ đề mà người dùng không quan tâm Do vậy, mô hình chủ đề là một phương pháp biểu diễn tốt, nhưng trong một số tình huống, nó có thể không hiệu quả theo yêu cầu của người dùng Mô hình chủ đề hướng người sử dụng (Targeted Topic Model: TTM) là một mô hình chủ đề có thể đưa ra được chỉ các chủ đề cụ thể về khía cạnh đích (khía cạnh mà người dùng quan tâm) Khóa luận này sẽ trình bày về mô hình chủ đề hướng yêu cầu người sử dụng (TTM) và áp dụng vào phân lớp đa nhãn văn bản tiếng Việt

Khóa luận này được tổ chức thành bốn chương như sau:

 Chương 1: Biểu diễn dữ liệu văn bản, khai phá quan điểm và sơ bộ bài toán khóa luận Chương này sẽ trình bày các nội dung về biểu diễn dữ liệu văn bản, phân lớp dữ liệu, khai phá quan điểm và sơ bộ bài toán trong khóa luận

 Chương 2: Mô hình chủ đề khía cạnh đích và các nội dung liên quan Chương này  Chương 3: Mô hình giải quyết bài toán

 Chương 4: Thực nghiệm và kết quả

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển trong tương lai

Trang 13

CHƯƠNG 1 BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TOÁN KHÓA LUẬN

1.1 Biểu diễn dữ liệu văn bản

Như chúng ta đã biết, dữ liệu văn bản là một dạng dữ liệu phổ biến được dùng để lưu trữ thông tin kể từ khi máy in ra đời cho đến nay Khi lượng thông tin ngày càng lớn dần theo thời gian và theo đó là sự thay đổi của môi trường, việc lưu trữ dữ liệu trên giấy gặp nhiều khó khăn Máy tính xuất hiện đã mở ra một cách thức mới cho việc lưu trữ và sử dụng dữ liệu Vấn đề khó khăn nhất ở đây là làm thế nào để máy tính thể hiện đúng nội dung của dữ liệu Công việc này được gọi là đánh chỉ số văn bản Ban đầu với lượng dữ liệu nhỏ con người có thể sử dụng phương pháp thủ công để đánh chỉ số nhưng khi dữ liệu ngày càng lớn thì việc đánh chỉ số tự động là vô cùng cần thiết

Có rất nhiều cách đánh chỉ số khác nhau tùy theo mục đích của người dùng Song nó đều thỏa mãn ba mục đích sau [1]:

 Cho phép vị trí của từ đó liên quan tới chủ đề người dùng quan tâm

 Gắn kết các từ và các chủ đề liên quan với nhau bằng cách phân biệt được các từ riêng biệt (cụ thể) đối với các lĩnh vực/miền

 Dự đoán được mức độ liên quan của từ đó tới thông tin yêu cầu của người dùng, với lĩnh vực và chuyên ngành cụ thể

Vậy các từ trong văn bản được phân bố như thế nàovà chúng ta có cần đánh chỉ số tất cả các từ trong văn bản hay không? hầu hết các phương pháp đánh chỉ số đều bắt đầu bằng lập luận rằng, tần số xuất hiện của các từ đóng vai trò quan trọng trong biểu diễn văn bản Chúng ta có thể dễ dàng thấy rằng, trong văn bản tiếng Anh các giới từ như “a” “the” “and” có tần suất xuất hiện rất cao nhưng lại không thể hiện được các đặc trưng nội dung văn bản, đồng thời những từ chỉ xuất hiện một, hai lần thì mức độ ảnh hưởng của từ đó tới văn bản cũng không nhiều Vậy có thể đi đến kết

Trang 14

luận rằng những từ có tần số xuất hiện trung bình là những từ quan trọng trong văn bản

Trong những nghiên cứu của mình, Luhn đưa ra một phương pháp đánh trọng số cho các từ trong văn bản như sau [1]:

 Đầu vào là một tập n văn bản, tính tần số của mỗi từ trong một văn bản  Tính tần số xuất hiện của mỗi từ trong toàn bộ n văn bản

 Sắp xếp từ theo tần số giảm dần

 Chọn một ngưỡng trên để loại bỏ các từ có tần số cao và một ngưỡng dưới để loại bỏ những từ không quan trọng

 Các từ còn lại là những từ được dùng để đánh chỉ số văn bản được tập hợp trong tập từ vựng V

1.1.1 Một số phương pháp đánh trọng số

Input: cho một từ ∈ V và một văn bản thuộc miền ứng dụng Output: giá trị là trọng số của từ trong văn bản

1.1.1.1 Phương pháp boolean

Giả sử, một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số

Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất với giá trị trọng số của từ khóa trong văn bản được xác định như sau:

= 1 với ∈ = 0 với ∉

1.1.1.2 Phương pháp dựa trên tần số

Phương pháp này xác định các số trong ma trận W=( ) dựa vào tần số xuất hiện của các từ khóa trong văn bản và tần số xuất hiện của văn bản trong tập D gồm m

Trang 15

1.1.1.2.1 Phương pháp dựa trên tần số từ khóa (TF - Term Frequency)

Phương pháp dựa trên tần số từ khóa (Term Frequency: TF) cho thấy rằng nếu một từ xuất hiện nhiều lần trong một văn bản thì thường quan trọng hơn những từ xuất hiện ít

Giá trị của một từ khóa được tính dựa trên số lần xuất hiện của từ khóa đó trong văn bản Gọi vf là số lần xuất hiện của từ khóa trong văn bản , khi đó có thể chọn cách tính theo một trong các công thức :

1.1.1.2.2 Phương pháp dựa trên nghịch đảo tần số văn bản

Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) được giải thích như sau, một từ xuất hiện nhiều trong văn bản D (từ phổ biến) sẽ không quan trọng bằng những từ xuất hiện ít hoặc xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản trong D

Gọi df là số lượng văn bản có chứa từ khóa trong tập m văn bản đang xét

Trang 16

1.1.2 Một số mô hình biểu diễn văn bản phổ biến

1.1.2.1 Mô hình boolean

Giả sử, cho một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số, trong đó là trọng số của từ khóa trong văn bản

Trọng số các từ trong văn bản sẽ là 0 hoặc 1 Mỗi văn bản sẽ được biểu diễn dưới dạng tập hợp như sau:

= { }, trong đó là từ có trọng số trong văn bản là 1

1.1.2.2 Mô hình xác suất

Văn bản trong mô hình xác suất được coi như một quan sát trong tập Y, trong đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vị trí và ngữ pháp Văn bản sẽ bao gồm các từ chứa trong đó, vì vậy đây còn gọi là phương pháp biểu diễn túi-các-từ (hay túi từ)

Theo thuật ngữ toán học, một mô hình xác suất được coi như một cặp (Y, P) Trong đó Y là tập quan sát được, P là mô hình xác suất trên Y Sử dụng các phương pháp hồi quy hoặc Bayes để đưa ra kết luận về các phần tử của tập Y

1.1.2.3 Mô hình không gian vecter

Đây là mô hình được sử dụng rộng rãi nhất trong biểu diễn văn bản Mỗi văn bản được biểu diễn trong một không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ của văn bản Độ quan trọng của từ được xác định bằng phương pháp đánh chỉ số trong văn bản và giá trị trọng số được chuẩn hóa trong đoạn [0,1]

Tổng quát, một văn bản d trong không gian vecter, ký hiệu là sẽ được biểu diễn trong không gian vecter gồm N chiều, trong đó N là số lượng từ có trong tập văn bản

= [ , , , , … , , ]T

Trang 17

Độ giống nhau giữa hai văn bản được tính bằng công thức:

= ( ) | || |

1.2 Khái quát về khai phá quan điểm và phân lớp dữ liệu 1.2.1 Khái quát về khai phá quan điểm

Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16] Thông tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện

và quan điểm Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con người, miêu

tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng

Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau

Bo Pang and Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm

 Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng Người dùng có thể đánh giá không chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đôi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vô tình chọn sếp hạng thấp Một số trường

Trang 18

hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này

 Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thông phân tích quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử lý

 Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ còn có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3]

 Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số công việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những công việc khác có mục tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lòng công chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thông tin mà có có thể truy cập[4]

1.2.2 Phân lớp dữ liệu

Bài toán phân lớp là một trong những bài toán quan trọng trong lĩnh vực phân tích dữ liệu Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu vào vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào lớp nào

Trang 19

Các bài toán phân lớp cơ bản: phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị

Bài toán phân lớp nhị phân là bài toán gắn nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa vào dữ liệu đó có hay không có các đặc trưng (feature) của bộ phân lớp

Bài toán phân lớp đa lớp là quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai Như vậy với từng dữ liệu chúng ta phải xem xét và phân lớp chúng vào những lớp khác nhau chứ không phải là hai lớp như bài toán phân lớp nhị phân Và thực chất bài toán phân lớp nhị phân là một bài toán đặt biệt của phân lớp đa lớp khi số lớp bằng hai

Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví dụ như bài toán nhận dạng khuôn mặt, nhận diện giọng nói, phát hiện email spam…

Phân lớp dữ liệu có thể có phân lớp đơn nhãn hoặc phân lớp đa nhãn Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như phân lớp văn bản, phân lớp hình ảnh, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein, phân lớp âm nhạc [19] … Trong phân lớp đơn nhãn mỗi đối tượng chỉ được gắn vào một nhãn, phân lớp đa nhãn là bài toán cải tiến của phân lớp đơn nhãn, ở đây mỗi tài liệu được gắn nhiều nhãn khác nhau (Hình 1.1) Khóa luận này thực hiện tìm hiểu và áp dụng phân lớp đa nhãn

Theo Zhi-Hua Zhou và cộng sự [19], phân lớp đa nhãn được phát biểu như sau: Cho X ϵ ℝ biểu thị một không gian phần tử n chiều và Y = { , , … , } biểu thị không gian nhãn gồm q nhãn lớp Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2 từ dữ liệu huấn luyện đa nhãn D = {( , |1 ≤ ≤ ), trong đó với mỗi phần tử ( , ), ∈ X là một véc tơ đặc trưng n chiều = ( , , … , ) và ⊆ Y là tập các nhãn của Với một phần tử (thể hiện) mới x ∈ X, hàm số f(x) trả về y là một tập các nhãn dự đoán cho x

Trang 20

Hình 1.1 Ảnh minh họa học đa nhãn[19]

Mức cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể hiện (Hình 1.2)

được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [19] và được khái quát hóa trong [20] Khái quát bài toán phân lớp đa nhãn đa thể hiện như sau: Cho một tập nhãn lớp trước tiên, mỗi phần tử dữ liệu được phân lớp có thể cùng lúc thuộc nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn qua nhiều thể hiện Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một khung nhìn mang tính tự nhiên và gần với thực tế hơn

Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19] 1.2.2.1 Quá trình phân lớp dữ liệu

Quá trình giải bài toán phân lớp dữ liệu bao gồm hai pha: xây dựng mô hình (bộ) phân lớp và sử dụng bộ phân lớp đã được xây dựng

Pha 1 Xây dựng mô hình

Pha xây dựng mô hình gồm hai bước chính là học (huấn luyện) mô hình và đánh giá mô hình Tập dữ liệu mẫu (tập dữ liệu có nhãn ) được chia một cách ngẫu nhiên thành tập dữ liệu học và tập dữ liệu kiểm thử

Trang 21

 Bước1: Xây dựng mô hình phân lớp

Sử dụng tập dữ liệu học để xây dựng mô hình phân lớp Mục đích của xây dựng mô hình phân lớp là tìm ra hàm f(x) sao cho f(x) = y Những thuật toán học giám sát thường được dùng cho quá trình training để xây dựng mô hình phân lớp là: KNN, SVM, Cây quyết định (Decision Trees), Phân lớp Bay-et (Navie Bayers), Rừng ngẫu nhiên (Random Forest)

 Bước 2: Đánh giá mô hình phân lớp và chọn ra mô hình tốt nhất

Bước thứ hai thực hiện đánh giá mô hình bằng cách đánh giá mức độ lỗi khi áp dụng mô hình đã xây dựng được tới dữ liệu kiểm thử Tùy thuộc vào kết quả đánh giá tốt hay xấu để thực hiện thay đổi các tham số của thuật toán cho phù hợp Cuối cùng, chọn ra mô hình phân lớp tốt nhất cho bài toán

Mô hình thực nghiệm trong Chương 3 mô tả pha xây dựng mô hình phân lớp

Pha 2 Sử dụng mô hình phân lớp

Mô hình phân lớp xây dựng được có hiệu năng hoạt động tốt được áp dụng cho toàn bộ dữ liệu trong miền ứng dụng Đây là các dữ liệu chưa có nhãn hiện có và sẽ có trong tương lai

1.2.2.2 Một số mô hình phân lớp phổ biến

- Mô hình cây quyết định (Decision tree classification) - Phân lớp Bayesian (Bayesian classifier)

- Mô hình K-láng giềng gần nhất (K-nearest neighbor classifier) - Mô hình phân lớp SVM (Support Vector Machine)

- Mô hình Random Forest

- Phương pháp tập thô (Rough set Approach)

1.2.2.2.1 Thuật toán K láng giềng gần nhất - KNN

Trang 22

Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất để

xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa ra tập nhãn

dự đoán Trong đó, k là số nguyên dương và được xác định trước

Thuật toán được mô tả như sau:

Bước 1: Xác định tham số k (số láng giềng gần nhất)

Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng khác trong tập dữ liệu training

Bước 3: Sắp xếp khoảng cách thăng dần và xác định k láng giêng gần nhất với điểm phân lớp

Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

Bước 5: Dựa vào phân lớp của k láng giềng gần nhất dự đoán lớp cho điểm phân lớp

Để hiểu rõ hơn ta nhìn vào hình minh họa sau:

Hình 1.2 Minh họa kết quả thuật toán KNN vào phân lớp

Trên Hình 1.3, các chấm tròn thể hiện cho dữ liệu training, màu vàng thể hiện tài liệu

thuộc lớp A, màu tím thể hiện tài liệu thuộc lớp B

Trang 23

nhất của điểm sao

Với k = 3 xác định được 3 điểm gần nhất trong đó có 2 điểm thuộc lớp B 1 điểm thuộc lớp A, vậy đối tượng sẽ được dự đoán là mang nhãn lớp B

Với k = 6 xác định được 6 điểm gần nhất trong đó có 4 điểm thuộc lớp A và 2 điểm thuộc lớp B, vậy đối tượng sẽ được dự đoán là mang nhãn lớp A

1.2.2.2.2 Thuật toán cây quyết định

Khái niệm cây quyết định:

 Gốc: tên thuộc tính không có cung vào và không/một cung ra

 Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút)

 Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào và không có cung ra

Thuật toán phân lớp cây quyết định (Decision Tree: ML-DT) là thuật toán phổ

biến được sử dụng trong cả phân lớp và hồi quy Cây quyết định là cây mà mỗi nút thể hiện một đặc trưng mỗi nhãn thể hiện một quy luật và mỗi lá biểu diễn một kết quả, kết quả có thể là giá trị chụ thể có thể là một nhánh tiếp tục Có một vài thuật toán để tạo ra cây quyết định như CART(Classification and Regression Trees) dùng Gini index để kiểm tra và ID3 (Interative Dichotomiser 3) dùng Entropy funtion và Information

gain để kiểm tra

Thuật toán cây quyết định ID3:

Trang 24

Độ đo GINI:

 Đo tính phức tạp của một tập ví dụ mẫu theo “lớp”  Công thức tính độ đo Gini cho lớp T:

Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t

 Gini (t) lớn nhất = 1-1/nc (với nc là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho nc lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp  Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất

Chia tập theo độ đo GINI:

 Dùng trong các thuật toán CART, SLIQ, SPRINT

Trang 25

 Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất lượng của việc chia tính bằng

 n là số bản ghi của tập bản ghi tại nút t,  ni là số lượng bản ghi tại nút con I (của nút t)

Chọn thuộc tính IG:

 Độ đo Information Gain:

 Thông tin thu được sau khi phân hoạch tập ví dụ  Dùng cho các thuật toán ID3, họ C4.5

 Entropy (t) lớn nhất = log (nc) (với nc là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho nc lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp

 Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất  Lấy loga cơ số 2 thay cho loga tự nhiên

 Tính toán entropy (t) cho một nút tương tự như Gini (t)

Hình 1.4 minh họa một ví dụ về cây quyết định

Trang 26

Hình 1.3 Hình ảnh mô tả cây quyết định

Chúng ta có một tập giá trị X và giá trị Y (yes hay no) Chúng ta cần tìm sự ánh xạ của X và Y Chọn ID3 cho phân lớp nhị phân Trước tiên cần chọn IG cao nhất trong ID3,

để xác định chính xác IG cần sử dụng thước đo entropy

Tiếp theo ứng dụng IG cho việc tìm gốc:

Bước 1: Tính toán entropy cho tập dữ liệu

Bước 2: Trong toàn bộ đặc trưng:

Tính toán entropy của tất cả các giá trị

Tính entropy trung bình cho thuộc tính đang thực hiện

Bước 3: Chọn đặc trưng có IG cao nhất

Bước 4: Lặp lại cho đến khi thu được cây như mong muốn

1.2.2.2.3 Thuật toán máy vector hỗ trợ - SVM

SVM là phương pháp học có giám sát liên quan đến phân loại và phân tích hồi quy SVM giải quyết vấn đề overfitting (dữ liệu bị nhiễu và tách rời nhóm hoặc dữ liệu training nhỏ) rất tốt Thuật toán SVM giải quyết vấn đề là tìm ra một siêu phẳng (đường thẳng, mặt phẳng, mặt cong, ) có thể thực hiện phân chia dữ liệu thành 2 nửa Trong trường hợp nếu dữ liệu là không tuyến tính thì nó sẽ sử dụng một hàm nhân để

Trang 27

Ý tưởng của thuật toán SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang không gian Rd có số chiều lớn hơn Trong không gian Rd, tìm một siêu phẳng tối ưu để phân hoạch tập mẫu này dựa trên phân lớp của chúng, đồng nghĩa với việc tìm ra miền phân bố của từng lớp trong không gian Rn để từ đó xác định được phân lớp của 1 mẫu cụ thể

Đầu vào:

 Tập dữ liệu D = { }

 Tập các lớp , , , mỗi dữ liệu d thuộc một lớp

 Tập ví dụ = + + + với = {d thuộc : d thuộc }  Tập ví dụ đại diện cho tập D

 D gồm m dữ liệu thuộc không gian n chiều Đầu ra:

 Mô hình phân lớp : ánh xạ từ D sang C Sử dụng mô hình:

 d thuộc : xác định lớp của đối tượng d

Mục đích của thuật toán SVM là tìm ra hàm phân lớp hiệu quả nhất để phân biệt thành phần của các lớp trong việc huấn luyện dữ liệu Xét bài toán phân lớp văn

bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (xi, yi), i = 1, …, l; trong đó xi Rn là không gian vector đặc trưng n chiều; yi {-1, 1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1 và các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1 Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả năng lỗi xảy

ra là tối thiểu

Trường hợp khả tách tuyến tính[2]:

Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các

Trang 28

phẳng trong không gian đối tượng có phương trình là wTx + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và

khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi

Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(wTx + b)(1.1), trong

đó:

sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0

Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x

thuộc về lớp âm

Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các

lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm

Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:

- Tham số b được xác định sử dụng điều kiện Karush–Kuhn–

Tucker(KKT) như sau:

i [ yi (wT xi + b) – 1] = 0

Các mẫu xi tương ứng với αi> 0 là những mẫu nằm gần mặt siêu phẳng quyết định nhất và được gọi là các vector hỗ trợ Những vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện Bởi vì nếu chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một tập dữ liệu huấn luyện đầy đủ

Trang 29

Trường hợp không khả tách tuyến tính[2]:

Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách

Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số

mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai

Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu

vào sang một không gian mới có số chiều cao hơn

Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu

Với k là một hàm nhân thoản mãn:

k(xi, xj) = Φ(xi)T Φ(xj)

Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác nhau Có một số hàm nhân cơ bản sau đây:

- Hàm nhân đa thức:

k(xi, xj) = ( amma.xgTixjcoef0)degree

- Hàm vòng RBF (Radial Basic Function):

k(xi, xj) = tan(gamma x x .iTjcoef 0)

trong đó gamma, coef0 và degree là các tham số nhân

Trang 30

Tính chất nổi trội của SVM là đồng thời cực tiểu lỗi phân lớp và cực đại khoảng cách lề giữa các lớp

Giả sử có 1 số điểm dữ liệu thuộc một trong hai lớp và mục tiêu của ta là xác định xem dữ liệu mới thêm vào sẽ thuộc lớp nào Ta coi mỗi điểm dữ liệu như một vector p chiều và chúng ta muốn biết là liệu có tách được những điểm đó bằng một siêu phẳng p-1 chiều hay không (được gọi là phân loại tuyến tính)

Xem dữ liệu đầu vào như 2 tập vector n chiều, một SVM sẽ xây dựng một siêu phẳng riêng biệt trong không gian đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu Để tính lề, hai siêu phẳng song song được xây dựng, mỗi cái nằm ở một phía của siêu phẳng phân biệt và chúng được đẩy về phía hai tập dữ liệu Một cách trực quan, một phân biệt tốt sẽ thu được bởi siêu phẳng có khoảng cách lớn nhất đến các điểm lân cận của hai lớp, vì lề càng lớn thì sai số tổng quát hóa của bộ phân lớp càng tốt hơn

Hình 1.5 cho một ví dụ trong không gian 2 chiều như sau:

Hình 1.4 Hình mô tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm)

Trang 31

Như hình trên ta thấy rằng có nhiều đường có thể chia dữ liệu thành 2 miền nhưng câu hỏi đặt ra là đường nào mới là đường tối ưu nhất ? ta cần tìm tiêu chuẩn cho đường đó Với bộ phân lớp nhị phận: Cho tâp dữ liêu hoc gồm n dữ liệu gắn nhãn D = {(x1, y1), (x1, y1), , (xn, yn)} với yi ∈ {-1,1} là môt số nguyên xác định lớp của xi Môi xi là một văn bản được biểu diễn dưới dạng 1 vector thực d chiều Bộ phân lớp tuyên tinh (mô hình phân lớp) được xác định thông qua một siêu phẳng có dạng: f(x) = w.x – b = 0 trong đó: w là vector pháp tuyến của siêu phẳng và b đóng vai trò là tham số mô hình - Bộ phân lớp nhị phân được xác định thông qua dấu của f(x):

Để tìm được siêu phẳng phân cách có lề cực đại, xây dựng các vector hỗ trợ và các siêu phẳng song song với siêu phẳng phân cách và gần vector hỗ trợ nhất, đó là các hàm: w.x – b = 1 w.x – b = -1 Khoảng cách giữa 2 siêu phẳng là w do đó cần phải cực tiểu hóa w để đảm bảo với mọi i ta có: w.x – b > 1 cho lớp thứ nhất

Hình 1.5 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ

Chúng ta cần tìm một lề bằng nhau và lớn nhất có thể Trong trường hợp tập dữ liệu không khả tách tuyến tính cần sử dụng các hàm nhân để chuyển đổi không gian biểu diễn dữ liệu nhiều chiều hơn để tập dữ liệu khả tách tuyến tính (Hình 1.7)

Trang 32

Hình 1.6 Hình ảnh ví dụ về một siêu phẳng trong không gian nhiều chiều

1.3 Khai phá quan điểm

1.3.1 Khái niệm khai phá quan điểm

Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16] Thông tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện

và quan điểm Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con người, miêu

tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng

Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau

Trang 33

Các khái niệm sử dụng trong khai phá quan điểm:

Đối tượng(object): một đối tượng là một thực thể (người, sự kiện, sản phẩm,

chủ đề, )

Đặc trưng(feature): mỗi đối tượng có một tập các thành phần (component)

hoặc thuộc tính (attributes), mỗi thành phần lại bao gồm một tập các thành phần con

và thuộc tính con Các thành phần hoặc thuộc tính này được gọi là đặc trưng

Thực thể: Một thực thể e là một sản phẩm, dịch vụ, chủ đề, vấn đề, người, tổ

chức, hoặc sự kiện Nó được mô tả bằng cặp e: (T, W), trong đó T là một hệ phân cấp của các thành phần, thành phần con v.v., và W là một tập các thuộc tính của e

Quan điểm: Một quan điểm là một bộ năm p = (ei, aij, sijkl, hk, tl), trong đó ei là tên một thực thể, aij là một khía cạnh của ei, sijkl là quan điểm trên khía cạnh aij của thực thể ei, hk là người chủ quan điểm, và tl là thời gian khi quan điểm được hk bày tỏ sijkl quan điểm tích cực, tiêu cực hoặc trung tính, hoặc thể hiện với mức độ sức mạnh / cường độ khác nhau

Lớp thực thể và thể hiện thực thể: Một lớp thực thể biểu diễn cho một thực

thể duy nhất, trong khi một thể hiện thực thể là một từ hoặc cụm từ thực tế xuất hiện trong văn bản chỉ dẫn một lớp thực thể

Lớp khía cạnh và thể hiện khía cạnh: Một lớp khía cạnh của một thực thể

biểu diễn cho một khía cạnh duy nhất của thực thể, trong khi một thể hiện khía cạnh là một từ hoặc cụm từ thực tế xuất hiện trong văn bản cho thấy một lớp khía cạnh

Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ

được gọi là thể hiện khía cạnh hiện

Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ

được gọi là thể hiện khía cạnh hiện

Thể hiện khía cạnh ẩn: Thể hiện khía cạnh không là danh từ hoặc cụm danh từ

được gọi là thể hiện khía cạnh ẩn

Trang 34

Bo Pang và Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm

 Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng Người dùng có thể đánh giá không chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đôi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vô tình chọn sếp hạng thấp Một số trường hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này  Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thông phân tích

quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử lý

 Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ còn có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3]

 Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số công việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những công việc khác có mục

Trang 35

tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lòng công chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thông tin mà có có thể truy cập[4]

1.3.2 Các bài toán khai phá quan điểm chính

Mục tiêu ứng dụng của khai phá quan điểm là cho một tập các tài liệu đánh

giá về một đối tượng, cần chỉ ra một bản tổng hợp khai phá quan điểm từ mỗi đánh giá trong tập các đánh giá đó

Như vậy, bài toán khai phá quan điểm cơ bản liên quan từ một tài liệu Cụ thể là: Cho một tài liệu quan điểm d, phát hiện tất cả các bộ năm quan điểm (ei, aij, sijkl, hk, tl) trong d lần lượt là thực thể, khía cạnh của thực thể, quan điểm về khía cạnh của thực thể, chủ quan điểm, thời gian đánh giá

Cho một tập các tài liệu quan điểm D, khai phá quan điểm bao gồm 6 bài toán chủ yếu sau đây[1]:

Bài toán 1 (trích xuất và phân lớp thực thể): Trích xuất tất cả các thể hiện thực thể

trong D, và phân lớp hoặc nhóm các thể hiện thực thể đồng nghĩa thành các nhóm (hoặc loại) thực thể Mỗi cụm thể hiện thực thể cho thấy một thực thể ei duy nhất

Bài toán 2 (trích xuất và phân lớp khía cạnh): Trích xuất tất cả các thể hiện khía

cạnh của các thực thể, và phân lớp các thể hiện khía cạnh thành các cụm Mỗi cụm thể hiện khía cạnh của thực thể ei trình bày một khía cạnh cụ thể aij

Bài toán 3 (trích xuất và phân lớp chủ quan điểm): Trich xuất người cho quan điểm

đối với quan điểm từ văn bản hoặc dữ liệu có cấu trúc và phân lớp chúng Bài toán là tương tự với hai bài toán trên

Bài toán 4 (trích xuất và chuẩn hóa thời gian): Trích xuất thời gian khi các quan

điểm được đưa ra và chuẩn hóa các định dạng thời gian khác nhau Bài toán này cũng tương tự với các bài toán trên

Bài toán 5 (phân lớp khía cạnh quan điểm): Xác định quan điểm về khía cạnh aij là khía cạnh tích cực, tiêu cực hoặc trung tính, hoặc gán một đánh giá tâm lý bằng số cho khía cạnh

Bài toán 6 (sinh bộ năm quan điểm): Đưa ra tất cả các bộ năm quan điểm (ei, aij,