Đề Tài Các Phương Pháp Xác Định Mối Quan Hệ Đa Nhãn Và Ứng Dụng Trong Phân Lớp Đa Nhãn Tiếng Việt

14 386 0
Đề Tài Các Phương Pháp Xác Định Mối Quan Hệ Đa Nhãn Và Ứng Dụng Trong Phân Lớp Đa Nhãn Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN Giáo viên HD : TS Nguyễn Cẩm Tú Học viên : Đỗ Thị Nương Nội dung      Giới thiệu đề tài Phân lớp đa nhãn Các thuật toán học đa nhãn Mối quan hệ phân lớp đa nhãn Định hướng nghiên cứu 26/10/2013 Giới thiệu đề tài  Tên đề tài: ◦ “Các phương pháp xác định mối quan hệ đa nhãn ứng dụng phân lớp đa nhãn tiếng Việt”  Cơ sở thực tiễn: ◦ Phân lớp đa nhãn có ứng dụng nhiều lĩnh vực như: Phân loại văn tự động chuẩn đoán y học… ◦ Việc xác định mối quan hệ nhãn giữ vai trò quan trọng nâng cao chất lượng gán nhãn  Ví dụ: ảnh gán nhãn “bãi biển” loại trừ nhãn "sa mạc";  Các nhãn "bóng đá, câu lạc bộ, đội bóng" thường đồng xuất với trình gán nhãn văn 26/10/2013 Phân lớp đa nhãn  Bài toán phân lớp tổng quát: ◦ C = {c1, c2, …, cK}: tập K lớp ◦ X = {xi} (i=1,2,…) không gian đối tượng cần phân lớp ◦ Xây dựng ánh xạ f : X → C ◦ Ánh xạ f gọi mô hình phân lớp (classification model, classifier) ◦ Xây dựng mô hình f học giám sát (supervised learning)  D = {(x1, c1), (x2, c2), …, (xN, cN)} xn ∈ X, cn ∈ C tập liệu huấn luyện (training data)  Huấn luyện mô hình f dựa tập huấn luyện D cho f phân lớp xác  Phân lớp đơn nhãn ◦ ci bao gồm phần tử  Phân lớp đa nhãn ◦ ci > phần tử 26/10/2013 Các giải thuật học đa nhãn Binary Relevance(BR) Label Powerset (LP) Classifier Chain Multi-label k-Nearest Neighbors (MLkNN) 26/10/2013 Các giải thuật học đa nhãn(tt) Không xét đến đặc trưng thể  Xét tập liệu huấn luyện:   Tập thể X = {1, 2, 3, 4}  Xét tập lớp Y = {y1, y2, y3, y4} Instance Label {y2, y3} {y1} {y1, y2, y3} {y2, y4} 26/10/2013 Binary Relevance(BR)  Ý tưởng : Sử dụng phương pháp chuyển đổi nhị phân, xây dựng nhị phân cho nhãn tập nhãn ◦ Tạo k tập liệu ( k = số lượng nhãn) cho nhãn ◦ Mỗi tập có số thể tập liệu nguồn ◦ Trong tập gán nhãn cho thể thuộc không thuộc lớp Yj ( Bộ phân lớp nhị phân) Ex Label ¬y1 y1 y1 y1 Ex Label y2 ¬y2 y2 y2 Ex Label y3 ¬y3 y3 ¬y3 26/10/2013 Ex Label ¬y4 ¬y4 ¬y4 y4 Label Powerset (LP)  Ý tưởng: Xem tập nhãn tập liệu nhãn đơn ◦ Tiến hành việc phân lớp đơn nhãn ◦ Tập nhãn tạo lớn Instance Label {y2, y3} {y1} {y1, y2, y3} {y2, y4} Instance Label y2,3 y1 y1,2,3 y2,4 26/10/2013 Các giải thuật học đa nhãn(tt) Binary Relevance(BR): Coi nhãn độc lập quan hệ với  Label Powerset (LP): Có xét đến quan hệ nhãn  ⇒ Vấn đề nhãn có quan hệ với nhau, số lượng nhãn lớn ⇒ Với liệu văn có kích thước lớn, chứa đựng nhiều thông tin chủ chốt, thông tin nhiễu Vì vậy, cần có phương pháp cho việc lựa chọn đặc trưng để tối giản toán phân lớp 26/10/2013 Mối quan hệ phân lớp đa nhãn Kiểu quan hệ bậc nhất: nhãn giả thiết độc lập Nói cách khác, mối quan hệ đa nhãn không tận dụng phân lớp đa nhãn  Kiểu quan hệ bậc hai: mối quan hệ theo cặp, ví như: mối quan hệ “nhãn phù hợp” “nhãn không phù hợp” trình xếp hạng nhãn  Kiểu quan hệ bậc cao: ví quan hệ toàn theo toàn nhãn có ảnh hưởng tới việc phân lớp nhãn; quan hệ phận với nhãn định, tồn nhóm số toàn nhãn có ảnh hưởng tới việc phân lớp nhãn xét  26/10/2013 10 Mối quan hệ phân lớp đa nhãn(tt) Bayesian network  Maximum Entropy  26/10/2013 11 Định hướng nghiên cứu  Tìm hiểu giả thuật học đa nhãn: ◦ Bayesian network ◦ Maximum Entropy  Tìm hiểu phương pháp lựa chọn đặc trưng ◦ LDA… Khảo sát công cụ WEKA thư viện MULAN  Khảo sát việc ứng dụng phân lớp đa nhãn tiếng Việt  26/10/2013 12 Tài liệu tham khảo [1] Sorower, Mohammad S "A literature survey on algorithms for multi-label learning." Preprint 63 (2010) [2] Zhang, Min-Ling, and Kun Zhang "Multi-label learning by exploiting label dependency." Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining ACM, 2010 [3] Min-LingZhangandKunZhang Multi-label learning by exploiting label dependency In Proceedings of the 16th ACMSIGKDD international conference on Knowledge discovery and data mining, KDD’10, pages 999–1008, NewYork, NY, USA, 2010 ACM 26/10/2013 13 Cảm ơn thầy cô bạn lắng nghe! 26/10/2013 14

Ngày đăng: 21/05/2017, 00:26

Từ khóa liên quan

Mục lục

  • BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

  • Nội dung

  • Giới thiệu đề tài

  • Phân lớp đa nhãn

  • Các giải thuật học đa nhãn

  • Các giải thuật học đa nhãn(tt)

  • Binary Relevance(BR)

  • Label Powerset (LP)

  • Các giải thuật học đa nhãn(tt)

  • Mối quan hệ trong phân lớp đa nhãn

  • Mối quan hệ trong phân lớp đa nhãn(tt)

  • Định hướng nghiên cứu tiếp theo

  • Tài liệu tham khảo

  • Slide 14

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan