Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng (tóm tắt)

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊN CỨU MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊN CỨU MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – 2016 MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC BẢNG Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Error! Bookmark not defined MỞ ĐẦU Chương 1: Giới thiệu phân lớp câu hỏi 1.1 Giới thiệu 1.2 Tìm hiểu loại câu hỏi 1.3 Taxonomy câu hỏi 1.4 Mục tiêu luận văn Chương 2: Các phương pháp tiếp cận toán phân lớp câu hỏi 11 2.1 Mô hình phân lớp câu hỏi 11 2.1.1 Mô hình phân lớp phẳng 11 2.1.2 Mô hình phân lớp phân cấp .12 2.2 Giải thuật phân lớp câu hỏi 13 2.2.1 Giải thuật học máy có giám sát 14 2.2.2 Giải thuật học máy bán giám sát .15 Chương 3: Đề xuất cải tiến mô hình phân lớp Error! Bookmark not defined 3.1 Thực trạng Error! Bookmark not defined 3.2 Mô hình đề xuất .Error! Bookmark not defined 3.3 Mô hình xử lý liệu Error! Bookmark not defined 3.3.1 Thu thập liệu Error! Bookmark not defined 3.3.2 Xử lý liệu Error! Bookmark not defined Chương 4: Ứng dụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo ELearning Error! Bookmark not defined 4.1 Giới thiệu trung tâm E-Learning Error! Bookmark not defined 4.2 Tình trạng hệ thống hỏi đáp .Error! Bookmark not defined 4.3 Chuẩn bị liệu thực nghiệm Error! Bookmark not defined 4.3.1 Thu thập liệu Error! Bookmark not defined 4.3.2 Xử lý liệu Error! Bookmark not defined 4.3.3 Áp dụng mô hình đề xuất Error! Bookmark not defined 2 4.4 Kết thực nghiệm Error! Bookmark not defined 4.4.1 Cài đặt môi trường thực nghiệm .Error! Bookmark not defined 4.4.2 Thực nghiệm với liệu Li Roth Error! Bookmark not defined 4.4.3 Thực nghiệm với liệu Trung tâm E-LearningError! Bookmark not defined 4.5 Kết luận Error! Bookmark not defined Kết luận hướng phát triển tương lai Error! Bookmark not defined TÀI LIỆU THAM KHẢO 20 MỞ ĐẦU Sự phát triển sở hạ tầng công nghệ đặc biệt công nghệ mạng thúc đẩy nhu cầu trao đổi, chia sẻ liệu người, đưa Internet trở thành kho liệu khổng lồ Những tri thức kho liệu lại cung cấp sở để giải đáp vấn đề, thắc mắc hàng ngày người Với mục đích phục vụ nhiều nhu cầu người, hệ thống hỏi đáp tự động đời Kiến trúc bên hệ thống hỏi đáp phức tạp Những câu hỏi người dùng hệ thống phân tích, xử lý Dựa vào thông tin phân tích, hệ thống hỏi đáp tìm kiếm câu trả lời tiềm Cuối cùng, hệ thống trả cho người dùng kết ngắn gọn, súc tích xác Để tìm kiếm câu trả lời tiềm giai đoạn xử lý câu hỏi, hệ thống phải phân lớp xác câu hỏi Khi đó, không gian tìm kiếm câu trả lời giới hạn rõ ràng Vì vậy, giai đoạn xử lý câu hỏi hệ thống hỏi đáp, phân lớp câu hỏi nhiệm vụ quan trọng Tuy nhiên, việc nghiên cứu giải pháp cho nhiệm vụ phân lớp gặp không khó khăn Các mô hình phân lớp, giải thuật phân lớp áp dụng có ưu điểm nhược điểm định Bên cạnh đó, vấn đề khác việc xử lý ngôn ngữ tự nhiên Trên giới, số ngôn ngữ có cấu tạo từ loại, ngữ nghĩa đa dạng phức tạp Hệ thống phải xác định đặc trưng đưa chiến lược xử lý phù hợp Do đó, vấn đề cần nhận quan tâm nghiên cứu nhiều Trong luận văn nghiên cứu này, tác giả trình bày chương với nội dung tóm tắt sau: Chương Giới thiệu phân lớp câu hỏi trình bày định nghĩa, mục tiêu nhiệm vụ phân lớp câu hỏi đôi nét khái niệm taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mô hình phân lớp câu hỏi sử dụng phổ biến mô hình phân lớp phẳng, mô hình phân lớp cấp bậc Chương trình bày số giải thuật phân lớp học máy có giám sát bán giám sát Chương Đề xuất cải tiến mô hình phân lớp nêu lên vấn đề thực tế ảnh hướng đến kết phân lớp Dựa vào số nghiên cứu, tác giả đề xuất mô hình phân lớp cải tiến trình bày bước xử lý liệu mô hình Chương Ứng dụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo E-Learning giới thiệu Trung tâm đào tạo E-Learning thực trạng hệ thống hỏi đáp thắc mắc Sau đó, trình bày kết thực nghiệm áp dụng mô hình đề xuất với liệu câu hỏi trung tâm Cuối nhận xét, đánh giá mô hình đề xuất 4 Phần Kết luận hướng phát triển tương lai trình bày kết đạt hạn chế luận văn Các vấn đề hạn chế giải hướng phát triển tương lai luận văn 5 Chương 1: Giới thiệu phân lớp câu hỏi 1.1 Giới thiệu Phân lớp câu hỏi [6, tr.9-10] nhiệm vụ gán giá trị sai tới cặp 𝑞𝑗 , 𝑐𝑖 ∈ 𝑄 × 𝐶, Q miền câu hỏi 𝐶 = 𝐶1 , 𝐶2 , … , 𝐶 𝐶 tập lớp định nghĩa trước Các lớp mang nghĩa khác ràng buộc với câu trả lời tiềm Phân lớp câu hỏi bước xử lý quan trọng hệ thống hỏi đáp Mục đích hệ thống hỏi đáp đưa câu trả lời ngắn gọn, súc tích tài liệu liên quan chứa câu trả lời Trong ngôn ngữ tự nhiên, câu hỏi liên quan ảnh hưởng nhiều lĩnh vực khác nên lượng câu trả lời liên quan lớn Việc phân lớp câu hỏi cung cấp thông tin ràng buộc loại câu trả lời Nhờ đó, hệ thống đưa nhiều chiến lược làm giảm không gian tìm kiếm câu trả lời tiềm kho ngữ liệu khổng lồ Ví dụ, với câu hỏi “Điều kiện công nhận tốt nghiệp cho sinh viên Elearning?”, từ khóa “điều kiện”, “tốt nghiệp”, “sinh viên Elearning” sở để tìm câu trả lời phù hợp Mục đích câu hỏi tìm điều kiện để công nhận tốt nghiệp cho sinh viên điều kiện vượt qua môn học hay điều kiện để đạt học bổng học tập dành cho sinh viên Elearning Một câu hỏi khác “Xem thông tin tuyển sinh đào tạo Elearning đâu?” câu trả lời tiềm phải nơi công bố thức thông tin tuyển sinh Địa điểm vị trí quan, tổ chức làm việc qua vị trí ảo mạng Internet - website điện tử Câu trả lời cho câu hỏi địa Tầng Nhà A - B101 Đường Nguyễn Hiền - Quận Hai Bà Trưng - Hà Nội địa website http://tuyensinh.ehou.edu.vn Trong phân lớp câu hỏi, việc xác định ngữ nghĩa rõ ràng câu hỏi mang lại lợi ích to lớn Tuy nhiên, câu hỏi lúc đơn giản mà thường chúng phức tạp có nhiều ngữ nghĩa mập mờ, không xác định Nếu biết ngữ nghĩa câu hỏi phân loại vào lớp chi tiết Nhưng công việc xác định xác ngữ nghĩa cho câu hỏi thách thức không nhỏ Chẳng hạn câu hỏi “Chương trình đào tạo Elearning hoạt động theo quy chế nào?”, câu trả lời liên quan tới lớp “quy chế đào tạo” có ích biết câu hỏi thuộc lớp quy chế Quy chế bao gồm nhiều loại quy chế đào tạo, quy chế tuyển sinh, quy chế học tập xử lý vi phạm, quy chế thi quy chế khác Nếu hệ thống xác định mục đích câu hỏi quy chế đào tạo không gian tìm kiếm câu trả lời giảm nhiều Trong trình phân lớp câu hỏi, hạn chế làm ảnh hưởng tới hiệu suất phân lớp hệ thống phải dự đoán nhiều lớp cho câu hỏi thời điểm Nếu hệ thống hạn chế số lượng lớp phải dự đoán hiệu suất phân lớp tăng lên Vì vậy, việc xác định ngữ nghĩa câu hỏi, việc lựa chọn sử dụng mô hình phân lớp quan trọng Đó bước đầu thực cần nhiệm vụ phân lớp 1.2 Tìm hiểu loại câu hỏi Xác định loại câu hỏi mang ý nghĩa to lớn việc phân tích câu hỏi loại câu hỏi có đặc trưng cách tiếp cận khác Có nhiều loại câu hỏi như: câu hỏi định nghĩa, liệt kê, mô tả, kiện, tổng hợp, đánh giá, … Ví dụ câu hỏi định nghĩa “Học trực tuyến gì”, câu hỏi liệt kê “Những thuận lợi học trực tuyến gì” Trong câu hỏi, người ta sử dụng từ ngữ phức tạp đa dạng để diễn đạt nội dung làm cho việc xác định lớp câu hỏi phù hợp trở lên khó khăn Các loại câu hỏi cần đưa thành hai dạng chung loại câu hỏi đơn giản loại câu hỏi phức tạp Mỗi loại câu hỏi cần có chiến lược phân lớp phù hợp Hệ thống không cần xử lý thêm loại câu hỏi đơn giản lại yêu cầu xử lý tinh vi loại câu hỏi phức tạp Việc đơn giản hóa câu hỏi phức tạp chiến lược đáng xem xét Câu hỏi phức tạp định nghĩa tập câu hỏi đơn giản Câu trả lời câu trả lời tiềm đáp ứng cho tập câu hỏi đơn giản câu trả lời phù hợp Vì vậy, việc xác định loại câu hỏi có ý nghĩa việc lựa chọn đặc trưng phân lớp 1.3 Taxonomy câu hỏi Trong nhiều lĩnh vực khoa học thực tiễn, khái niệm taxonomy mang nhiều ý nghĩa khác Nhưng chất, taxonomy định danh, phân loại số tính chất, đặc điểm Taxonomy xem hình thức hệ phân cấp có chứa phần tử gọi nút Mối quan hệ chủ yếu nút quan hệ cha – nút đồng cấp với không tồn mối quan hệ Taxonomy phân cấp khái niệm, nút (trừ nút gốc) biểu diễn khái niệm nút có quan hệ is-a-kind-of (là kiểu/loại nút cha) với nút cha Ví dụ, nút khái niệm “number” có nút chứa khái niệm “code”, “count”, “date”, “distance”, “money”, “order” Một taxonomy mô tả theo cấu trúc hình cây, đỉnh cấu trúc nút gốc nút con, tập nút nút cha không giao Khi duyệt từ nút cha đến nút con, thông tin nút chi tiết rõ ràng nút cha Khi xác định nút cha, nút xác định Điều mang lại hiệu tìm kiếm, truy vấn liệu dựa vào nút cha, việc xác định miền thông tin cần tìm rõ ràng giới hạn Cùng nghiên cứu vấn đề này, hai nhà nghiên cứu Li Roth [14, tr.5] đưa taxonomy câu hỏi phân cấp hội nghị TREC Taxonomy câu hỏi liệu gán nhãn gồm 5000 câu hỏi có độ phủ lớn vấn đề thực tế Chi tiết thể Bảng 1.1 Bảng 1.1 Taxonomy câu hỏi Li Roth Số lượng câu hỏi Số lượng kiểm tra Nhãn lớp Ý Nghĩa ABBREV Sự tóm tắt abbreviation Tóm tắt 16 expansion ý nghĩa viết tắt 70 ENTITY Thực thể animal Động vật 112 16 body Cơ thể 16 color Màu sắc 40 10 creative Sự sáng tạo 207 currency Tiền tệ disease/ medical Bệnh tật y học 103 event Sự kiện 56 food Thực phẩm 103 instrument Dụng cụ chơi nhạc 10 language Ngôn ngữ 16 letter Ký tự other Thực thể khác 217 12 plant Thực vật 13 product Sản phẩm 42 religion Tín ngưỡng sport Thể thao 62 substance Nguyên tố 41 15 symbol Ký hiệu 11 technique Kỹ thuật 38 term Thuật ngữ 93 vehicle Phương tiện giao thông 27 word Từ ngữ 26 DESCRIPTION Mô tả definition Định nghĩa 421 123 description Mô tả 274 manner Bộ dạng cử 276 reason Lý 191 HUMAN Con người group Nhóm 189 individual Cá nhân, cá thể 962 55 title Danh nghĩa 25 description Mô tả 47 LOCATION Địa điểm city Thành phố 129 18 country Đất nước 155 mountain Ngọn núi 21 other Địa điểm khác 464 50 state Bang, tỉnh thành 66 NUMERIC Số học code Mã count Số lượng 363 date Ngày tháng 218 47 distance Khoảng cách 34 16 money Giá 71 order Thứ hạng other Khác 52 12 period Giai đoạn 75 percent Phần trăm 27 speed Tốc độ temperature Nhiệt độ size Kích thước 13 weight Cân nặng 11 1.4 Mục tiêu luận văn Trong nhiều nghiên cứu phân lớp câu hỏi, nhà khoa học đề xuất áp dụng nhiều mô hình phân lớp miền liệu khác Ban đầu, phân lớp câu hỏi tập trung vào phân lớp phẳng sau có nhiều vấn đề nảy sinh cần phải giải nên phân lớp phẳng trở lên không phù hợp mà thay vào mô hình phân lớp khác phân lớp cục (Local Classifier), phân lớp toàn cục (Global Classifier hay Big-Bang), phân lớp phân cấp (Hierarchical Classifier), … Mỗi hướng tiếp cận có tính chất đặc điểm khác Hướng tiếp cận phân lớp phẳng đơn giản dễ hiểu có nhược điểm lớn việc phải xây dựng phân lớp để phân biệt với số lượng lớp lớn Phân lớp phẳng sử dụng toàn lớp lần dự đoán nhãn lớp câu hỏi Hướng tiếp cận phân lớp cấp bậc phương pháp tốt giúp tổ chức lượng lớn thông tin Trong năm gần đây, hướng tiếp cận nhận ngày nhiều quan tâm đặc biệt nhà nghiên cứu giới Trong hướng tiếp cận phân lớp cục bộ, thông tin coi trung tâm sử dụng để xây dựng phân lớp cục theo phương cách khác Để phân loại phân lớp cục bộ, nhà nghiên cứu dựa vào cách sử dụng thông tin cục phân lớp cục cho nút, phân lớp cục cho nút cha, phân lớp cục cho cấp Phân lớp cục sử dụng vòng lặp đệ quy để dự đoán cấp độ Việc phân lớp dừng lại dự đoán đặc biệt thực Nhưng vấn đề nút lá, việc dự đoán không xảy Điều gây lỗi ảnh hưởng xuống cấp nhỏ không xử lý ngăn chặn điều Với hướng tiếp cận phân lớp toàn cục, có hai vấn đề cần xem toàn lớp phân cấp thời điểm thiếu module huấn luyện cục Sau số tìm hiểu, nghiên cứu miền câu hỏi cụ thể, tác giả thấy kết phân lớp số lớp đạt tỉ lệ xác cao số khác lại thấp Giả sử rằng, ta tính toán, dự đoán lớp có độ xác cao loại bỏ liệu gán nhãn đó, ta tiến hành phân lớp với lớp có độ xác thấp Phân lớp sử dụng phân lớp chứa lớp có độ xác làm tăng độ xác chung nhiệm vụ phân lớp 10 Trong luận văn “Nghiên cứu mô hình phân lớp câu hỏi ứng dụng” tác giả trình bày số nghiên cứu mô hình phân lớp câu hỏi, đề xuất mô hình phân lớp cải tiến ứng dụng với liệu cụ thể thực nghiệm để kiểm chứng mô hình 11 Chương 2: Các phương pháp tiếp cận toán phân lớp câu hỏi 2.1 Mô hình phân lớp câu hỏi 2.1.1 Mô hình phân lớp phẳng Mô hình phân lớp phẳng biết đến hướng tiếp cận đơn giản mô hình phân lớp Với việc sử dụng phân lớp phẳng, mối quan hệ bên nhãn lớp bị bỏ qua phân lớp, toàn nhãn lớp sử dụng thời điểm để dự đoán cho liệu câu hỏi Ví dụ, Dragomir Radev [5, tr.575] đưa phân lớp phẳng gồm 17 lớp để áp dụng trình phân lớp Với câu hỏi, Dragomir Radev phải sử dụng tới 17 lớp lần dự đoán nhãn lớp cho câu hỏi Bộ phân lớp trình bày Bảng 2.1 Bảng 2.1 Bộ phân lớp câu hỏi Radev STT Nhãn lớp Ý nghĩa PERSON Người PLACE Địa điểm DATE Ngày tháng NUMBER Số học DEFINITION Định nghĩa ORGANIZATION Tổ chức DESCRIPTION Mô tả ABBREVIATION Viết tắt KNOWNFOR Nổi tiếng 10 RATE Tỉ lệ 11 LENGTH Chiều dài 12 MONEY Tiền tệ 13 REASON Lý 14 PURPOSE Mục đích 15 DURATION Thời gian 16 NOMINAL Quy định 12 17 OTHER Khác Việc sử dụng mô hình phân lớp phẳng gây khó khăn trình lựa chọn đặc trưng cho nhãn lớp Tập thuộc tính lựa chọn phải chứa đặc điểm xác định, phân biệt nhãn lớp với nhãn lớp xây dựng Đôi khi, số trường hợp đặc biệt xảy ảnh hưởng nhiều đến trình phân lớp Đó thuộc tính phân biệt tốt lại ích, không mang lại hiệu việc phân lớp 2.1.2 Mô hình phân lớp phân cấp Mô hình phân lớp phân cấp có nhiều ưu điểm độ xác, cách tổ chức thông tin mô hình xem bổ sung cải tiến số mô hình phân lớp khác Ý tưởng mô hình giảm số lượng nhãn lớp phải dự đoán cho câu hỏi cấp Đầu phân lớp cấp một tập nhãn lớp sử dụng làm phân lớp Phân lớp cấp dự đoán câu hỏi vào nhãn lớp tổng thể, nhãn lớp có độ bao quát lớn nên gặp rủi ro có nhiều đặc trưng Li Roth[14, tr.8] đề xuất áp dụng mô hình phân lớp hai cấp với phân lớp Mô hình kết hợp hai phân lớp liên tiếp, theo thứ tự Đầu tiên, câu hỏi đưa vào phân lớp cấp - phân lớp thô, phân lớp gồm lớp ABBREVIATION, ENTITY, DESCRIPTION, HUMAN, LOCATION, NUMBERIC VALUE Mỗi lớp thô lại chứa số lớp chi tiết bên Các lớp mịn thuộc vào lớp thô Tổng số lượng lớp mịn mô hình phân lớp phân cấp 50 lớp trình bày Bảng 1.1 Phân lớp cấp hai - phân lớp mịn phải dựa vào phân lớp cấp để câu hỏi qua phân lớp cấp hai, vấn đề không rõ ràng câu hỏi giải Chi tiết mô hình xử lý phân lớp trình bày sau: Ban đầu, định nghĩa tập tất lớp thô 𝐶0 = 𝑐1 , 𝑐2 , 𝑐3 , … , 𝑐𝑛 cho câu hỏi q Phân lớp thô xác định tập nhãn 𝐶1 𝐶1 = 𝐶𝑜𝑎𝑟𝑠𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟(𝐶0 , 𝑞), 𝐶1 ⊂ 𝐶0 𝐶1 ≤ Sau đó, lớp thô 𝐶1 mở rộng thành tập hợp lớp mịn định nghĩa trước phân lớp cấp bậc Giả sử, lớp thô 𝑐𝑖 ánh xạ thành tập 𝑐′𝑖 = 𝑓𝑖1 , 𝑓𝑖2 , 𝑓𝑖3 , … , 𝑓𝑖𝑚 lớp mịn, tập 𝐶2 tập hợp tất lớp mịn xác định lớp thô 𝐶1 Phân lớp mịn xác định tập hợp nhãn 𝐶3 dựa vào 𝐶2 𝐶3 = 𝐹𝑖𝑛𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟(𝐶2 , 𝑞), 𝐶3 ⊂ 𝐶2 𝐶3 ≤ 13 Kết thúc trình, ta có tập 𝐶1 𝐶3 tập nhãn lớp dự đoán qua hai lần phân lớp Các nhãn lớp sử dụng để đánh giá hiệu Hình 2.1 Mô hình phân lớp Li Roth 2.2 Giải thuật phân lớp câu hỏi Về bản, phân lớp câu hỏi thường sử dụng hai hướng tiếp cận hướng tiếp cận dựa luật hướng tiếp cận dựa học máy Bên cạnh đó, kết hợp hướng tiếp cận dựa luật học máy đưa đến hướng tiếp cận Trong hướng tiếp cận dựa luật, luật xây dựng cách thủ công cần nhiều thời gian để tạo luật áp dụng cho liệu thực tế Việc phân lớp đạt hiệu tốt số miền đặc biệt với liệu chuẩn, liệu kết đạt lại không khả quan Vì vậy, mô hình hóa luật việc làm cần thiết áp dụng hướng tiếp cận dựa luật vô khó khăn Hướng tiếp cận dựa học máy gần đối lập với hướng tiếp cận dựa luật việc lựa chọn đặc trưng để xây dựng phân lớp Các đặc trưng câu hỏi trích xuất để huấn luyện phân lớp Công việc thực cách thủ công hoàn toàn nên không nhiều thời gian Ví dụ, nội dung câu hỏi biểu diễn thành câu hỏi có cú pháp khác Các câu hỏi gán nhãn lớp đặc trưng trích xuất từ câu hỏi có số khác Do vậy, điều gây khó khăn hướng tiếp cận dựa 14 luật lại đơn giản hướng tiếp cận học máy Các thực nghiệm áp dụng hướng tiếp cận dựa học máy thành công công bố nhiều báo Trong luận văn này, tác giả xin trình bày chủ yếu hướng tiếp cận dựa học máy 2.2.1 Giải thuật học máy có giám sát Trong học máy có giám sát, chương trình học cung cấp hai tập liệu, tập liệu huấn luyện tập liệu kiểm tra Ý tưởng phương pháp chương trình học “học” từ liệu gán nhãn lớp tập liệu huấn luyện để phát quy luật, chương trình hay thủ tục phân loại liệu Ban đầu, tập liệu huấn luyện chứa n cặp 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … 𝑥𝑛 , 𝑦𝑛 , 𝑥𝑖 tập đặc trưng cho liệu huấn luyện riêng, 𝑦𝑖 nhãn lớp gắn cho liệu 𝑥𝑖 Ví dụ, 𝑥𝑖 có số đặc trưng sinh viên tham gia trình học tập điểm tổng kết, tín tích lũy, bị kỷ luật, khen thường, hạnh kiểm yi nhãn lớp tương ứng cho sinh viên tốt nghiệp hay không tốt nghiệp Tập liệu kiểm tra tập khác với m đặc trưng mà chưa gán nhãn Mục đích gán nhãn cho tập liệu kiểm tra tốt nghiệp không tốt nghiệp cách suy diễn dựa vào đặc trưng học tập liệu huấn luyện Để làm vậy, ta cần sử dụng giải thuật kết hợp với mô hình phân lớp cụ thể Mỗi toán lựa chọn áp dụng giải thuật khác Hiện nay, số giải thuật phân lớp phổ biến sử dụng hướng tiếp cận học máy có giám sát kể tới Support Vector Machines (SVM), Maximum Entropy Model (MEM), Spare Network of Winnows (SNoW), Trong chương này, tác giả xin trình bày giải thuật SVM sử dụng thực nghiệm Giải thuật SVM Support Vector Machines (SVM) Cortes Vapnik giới thiệu lần đầu vào năm 1995, giải thuật mạnh mẽ việc giải toán có số chiều lớn SVM phương pháp phân lớp nhanh, có hiệu suất cao giải vấn đề overfitting tốt Ý tưởng SVM tìm siêu phẳng với biên độ cao nhất, tức siêu phẳng phải tối ưu, có khoảng cách tới điểm gần lớn Cho tập liệu D= 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, … , 𝑛 với 𝑥𝑖 = (𝑥𝑖1 , … , 𝑥𝑖ℎ ) mẫu có h chiều 𝑦𝑖 ∈ −1, +1 nhãn tương ứng xác định cho 𝑥𝑖 , nhận giá trị liệu dương hay âm Bộ phân lớp tuyến tính xác định siêu phẳng: 𝑥: 𝑓 𝑥 = 𝑤 𝑇 𝑥 + 𝑤0 15 Một liệu thuộc lớp dương 𝑦𝑖 = +1 𝑓 𝑥 ≥ +1 𝑓 𝑥 ≤ −1 liệu thuộc lớp âm 𝑦𝑖 = −1 Đây điều kiện cần đủ để tìm siêu phẳng tối ưu Để xác định 𝑤 𝑇 𝑤0 ta dùng bất đẳng thức sau đây: 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑤0 ≥ 1, ∀𝑖 = 1, 2, … , 𝑛 Hàm tuyến tính tối ưu đạt cách tối thiểu hóa phương trình sau: 𝑤 𝑇 𝑤 − 𝑛 𝑛 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑤0 − 𝑣ớ𝑖 𝑤 = 𝑖=1 𝛼𝑖 𝑦𝑖 𝑥𝑖 𝑖=1 Và 𝛼𝑖 ≥ 𝑣ớ𝑖 𝑖 = 1, 2, … , 𝑛 hệ số Lagrange Đây chiến lược để tìm giá trị cực đại cực tiểu cục theo số ràng buộc Trong việc phân lớp, không gian đặc trưng nên ánh xạ sang không gian có số chiều lớn điều làm SVM đạt hiệu suất cao Việc ánh xạ không gian đặc trưng có tên gọi khác hàm nhân Các hàm nhân sử dụng nghiên cứu phân lớp câu hỏi đa dạng Mỗi hàm nhân có hiệu suất phân lớp khác tùy thuộc vào nghiên cứu Ba hàm nhân phổ biến nhân tuyến tính, nhân đa thức nhân xích ma Nhân tuyến tính thường sử dụng trường hợp có vector liệu lớn thưa thớt phân loại văn Nhân đa thức phổ biến phân tích xử lý ảnh nhân xích ma chủ yếu sử dụng cho mạng nơ-ron Nhân tuyến tính hàm đơn giản loại hàm nhân nên nhiều thực nghiệm, lựa chọn sử dụng nhiều 2.2.2 Giải thuật học máy bán giám sát Trong học máy bán giám sát, ý tưởng việc tận dụng đặc trưng có liệu chưa gán nhãn việc tự học tự huấn luyện Chương trình học sử dụng liệu gán nhãn có độ tin cậy xác cao Sau chương trình tự động thu nhận liệu khác trình kiểm tra liệu chưa gán nhãn Việc sử dụng liệu chưa gán nhãn kết hợp với liệu gán nhãn học máy bán giám sát giúp hạn chế lỗi chủ quan người xây dựng tập liệu huấn luyện ban đầu Giả sử ta có tập liệu sau 𝑋1 = (𝑥1 , 𝑥2 , … , 𝑥𝑙 ) tương ứng với nhãn 𝑌1 = (𝑦1 , 𝑦2 , … , 𝑦𝑙 ) tập 𝑋𝑢 = 𝑥𝑙+1 , 𝑥𝑙+2 , … , 𝑥𝑙+𝑢 chưa gán nhãn Bước đầu tiên, ta tiến hành huấn luyện với liệu gán nhãn có phân lớp sau 𝑥 ′ , 𝑦1 , 𝑥 ′ , 𝑦2 , … , (𝑥 ′ 𝑛 , 𝑦𝑛 ) 𝑥′𝑖 tập đặc trưng dùng để xác định nhãn lớp 𝑦𝑖 Ta dùng phân lớp để tiến hành gán nhãn cho phần tử 𝑥′𝑢 tập liệu chưa gán nhãn 𝑋𝑢 Với liệu vừa gán nhãn, ta lại 16 sử dụng học máy có giám sát để huấn luyện lại phân lớp tiếp tục dùng phân lớp dự đoán nhãn cho phần tử tập liệu 𝑋𝑢 Quá trình lặp lặp lại đến duyệt hết liệu tập liệu chưa gán nhãn 𝑋𝑢 Các giải thuật điển hình hướng tiếp cận học máy bán giám sát kể đến Self-training, Co-training, Tri-training, … Giải thuật Self-training Self-training giải thuật học máy bán giám sát sử dụng phổ biến Nó bắt đầu cách huấn luyện liệu gán nhãn Trong bước tiếp theo, liệu chưa gán nhãn dự đoán, gán nhãn xác có độ tin cậy cao theo huấn luyện liệu thêm vào tập liệu gán nhãn để xây dựng phân lớp Sau phương pháp học có giám sát huấn luyện lại phân lớp với liệu gán nhãn ban đầu liệu bổ sung thêm Giải thuật mô tả Hình 2.2 Đầu vào: L tập liệu gán nhãn, U tập liệu chưa gán nhãn Đầu ra: Bộ phân lớp huấn luyện Lặp 𝑈 = ∅ Huấn luyện phân lớp giám sát tập L Sử dụng phân lớp vừa huấn luyện để phân lớp liệu U Tìm tập 𝑈 ′ ∈ 𝑈 có độ tin cậy cao 𝑳 + 𝑼′ ⇒ 𝑳 , 𝑼′ − 𝑼 ⇒ 𝑼 Hình 2.2 Sơ đồ thực giải thuật Self-training Giải thuật Co-traning Co-training giải thuật áp dụng rộng rãi lĩnh vực xử lý ngôn ngữ tự nhiên Ý tưởng giải thuật sử dụng hai tập chứa đặc trưng riêng biệt, không trùng lặp với liệu gán nhãn tập 𝑥 𝑖 𝑥 𝑖 Hai tập đặc trưng sử 17 dụng để tạo hai phân lớp khác Các phân lớp dự đoán liệu chưa gán nhãn tìm liệu vừa gán nhãn tin cậy để thêm vào tập liệu gán nhãn Để nâng cao độ xác, việc thêm liệu vào tập liệu gán nhãn tiến hành với liệu chưa gán nhãn mà hai phân lớp cho kết Bước tiếp theo, phân lớp huấn luyện lại với liệu vừa thêm vào tập liệu gán nhãn Quá trình lặp diễn đến liệu tập chưa gán nhãn sử dụng hết Giải thuật Hình 2.3 Đầu vào: Tập liệu gán nhãn 𝐿 = 𝑥𝑖 , 𝑦𝑖 với 𝑖 = 1, 2, … , 𝑛 Tập liệu chưa gán nhãn 𝑈 = 𝐿1 = 𝐿2 = 𝑥𝑗 với 𝑗 = 1, 2, … , 𝑛 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , (𝑥𝑙 , 𝑦𝑙 ) Đầu ra: phân lớp huấn luyện Lặp 𝑈 = ∅ Huấn luyện phân lớp giám sát 𝑓 tập 𝐿1 𝑓 tập 𝐿2 Sử dụng riêng phân lớp với liệu chưa gán nhãn Thêm liệu (𝑥, 𝑓 1,2 (𝑥)) có độ tin cậy cao vào tập 𝐿1 , 𝐿2 Loại bỏ liệu sử dụng từ tập liệu chưa gán nhãn Hình 2.3 Sơ đồ giải thuật Co-training Vấn đề giải thuật Co-training sử dụng hai tập đặc trưng riêng biệt gây hạn chế đặc trưng tập biểu diễn đầy đủ thông tin liệu Do vậy, để hai phân lớp dự đoán kết điều khó khăn Giải thuật Tri-training Được coi phiên giải thuật Co-training, thay sử dụng hai tập đặc trưng Tri-training sử dụng ba tập đặc trưng Giải thuật đề xuất đặt tên Zhi-Hua Zhou đồng nghiệp Khởi tạo ban đầu, ba tập liệu tạo cách sử dụng BootstrapSample - phương pháp lấy mẫu từ tập liệu 18 gán nhãn huấn luyện thành ba phân lớp Việc lựa chọn sử dụng ba tập để áp dụng dựa theo nguyên tắc đa số thắng thiểu số, hai ba phân lớp độc lập có chung dự đoán với liệu chưa gán nhãn phân lớp lại ba phân lớp bị áp đặt việc huấn luyện theo liệu Giải thuật mô tả Hình 2.4 Đầu vào: L tập liệu gán nhãn, U tập liệu chưa gán nhãn Đầu ra: Các phân lớp huấn luyện Xây dựng tập liệu huấn luyện BootstrapSample Huấn luyện thành phân lớp 𝑓𝑖 Lặp đến không 𝑓𝑖 thay đổi Khởi tạo tập 𝐿𝑖 = ∅ lưu liệu gán nhãn từ tập chưa gán nhãn Lặp đến liệu chưa gán nhãn sử dụng hết Sai 𝑓𝑖 𝑥 = 𝑓𝑗 (𝑥) 𝑳𝒊 = 𝑳𝒊 + (𝒙, 𝒇𝒊 (𝒙)) Huấn luyện lại 𝑓𝑖 với tập 𝐿𝑖 Hình 2.4 Sơ đồ giải thuật Tri-training Đúng 19 Giải thuật Tri-training thể tính hiệu so với giải thuật khác Tuy nhiên, vấn đề cố hữu xảy việc không sử dụng hết toàn thông tin liệu gán nhãn trình tạo thành tập đặc trưng Việc sử dụng phương pháp lấy mẫu BootstrapSample bỏ qua đặc trưng số lớp dẫn đến việc làm cho phân lớp có kết Vấn đề gặp số miền liệu đặc biệt Để giải vấn đề này, PGS.TS Nguyễn Trí Thành đồng nghiệp[11] đề xuất cải tiến giải thuật cách xây dựng ba tập huấn luyện lấy toàn liệu từ tập liệu gán nhãn khác mô hình trích xuất đặc trưng Tập đặc trưng thứ xây dựng dựa theo mô hình bag-of-word Tập thứ hai xây dựng theo mô hình bag-of-POS tập đặc trưng thứ ba kết hợp hai mô hình bagof-word bag-of-POS Để huấn luyện, tập đặc trưng thứ thứ hai sử dụng SVM Tập đặc trưng thứ ba sử dụng MEM Kết thực nghiệm nhà nghiên cứu cho thấy độ xác phân lớp tăng tận dụng tốt liệu chưa gán nhãn 20 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Anders Søgaard (2010), Simple semi-supervised training of part-of-speech taggers, The 48th Annual Meeting of the Association for Computational Linguistics (ACL) Uppsala, Sweden Chih-Chung Chang and Chih-jen Lin (2013), LibSVM: A library for Support Vector Machine, Department of Computer Science National Taiwan University, Taipei, Taiwan David Tom, Claudio Giuliano (2009), A semi-supervised approach to question classification, European Symposium on Artificial Neural Networks - Advances in Computational Intelligence and Learning Dragomir Radev, Weiguo Fan, Hong Qi, Harris Wu, Amardeep Grewal (2002), Probabilistic question answering on the web, Journal of the American society for Information Science and Technology 2005 Hakan Sundblad (2007), Question Classification in Question Answering systems, Submitted to Linköping Institute of Technology at Linköping University John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden,John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel (2002), Issues, Tasks and Program Structures to Roadmap Research in Question & Answering Q&A Roadmap Paper Oliver Chapelle, Bernhard Scholkopf, Alexander Zien (2006), Semi supervised learning, The MIT Press Cambridge, Massachusetts, London, England Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 10 Le Hong Phuong (2010), An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010), Montreal, Canada 11 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2008) Using Semisupervised Learning for Question Classification, Journal of Natural Language Processing (15) 21 12 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2007), Improving the Accuracy of Question Classification with Machine Learning, Institute of Electrical and Electronics Engineers(IEEE) 13 Xin Li, Dan Roth (2002), Learning question classifiers, In Proceedings of the 19th International Conference on Compuatational Linguistics (COLING), pp.556–562 14 Xin Li, Dan Roth (2004) Learning question classifiers: the role of semantic information, Cambridge University Press ... Nghiên cứu mô hình phân lớp câu hỏi ứng dụng tác giả trình bày số nghiên cứu mô hình phân lớp câu hỏi, đề xuất mô hình phân lớp cải tiến ứng dụng với liệu cụ thể thực nghiệm để kiểm chứng mô. .. cận toán phân lớp câu hỏi 11 2.1 Mô hình phân lớp câu hỏi 11 2.1.1 Mô hình phân lớp phẳng 11 2.1.2 Mô hình phân lớp phân cấp .12 2.2 Giải thuật phân lớp câu hỏi ... taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mô hình phân lớp câu hỏi sử dụng phổ biến mô hình phân lớp phẳng, mô hình phân

Ngày đăng: 24/08/2017, 12:31

Xem thêm: Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng (tóm tắt) , Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng (tóm tắt)

Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng (tóm tắt)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan