Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web

67 10 0
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giới thiệu về phân lớp, phân lớp học giám sát, phân lớp học giám sát đến với chương này các bạn có thể nắm rõ các vấn đề mắc thắc cần giải quyết, một số bài tập ví dụ giúp các bạn thành thạo hơn với nội dung chương này. Mời các bạn tham khảo nhé!

BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG PHÂN LỚP WEB PGS TS HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu phân lớp Web Phân lớp học giám sát Phân lớp học bán giám sát Giới thiệu: Sơ đồ khai phá Web    Thuật tốn KPDL: phân lớp, phân cụm, tóm tắt… Sử dụng thuật toán KPDL chung (phân lớp, phân cụm…) Chọn đặc trưng, chọn cách biểu diễn Web đóng vai trị quan trọng KPDL Web: Chương Chương Các chương: phát biểu toán số thuật tốn KPDL điển hình Bài tốn phân lớp Web   Đầu vào  Tập tài liệu web D = {di}  Tập lớp C1, C2, …, Ck tài liệu d thuộc lớp Ci  Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={dDexam: d thuộc Ci}  Tập ví dụ Dexam đại diện cho tập D Đầu   Sử dụng mơ hình   Mơ hình phân lớp: ánh xạ từ D sang C d  D \ Dexam : xác định lớp tài liệu d Ví dụ   Crawler hướng chủ đề: Chủ đề  Lớp Phân lớp/phân cụm tập trang Web trả “chủ đề/lớp Phân lớp: Quá trình hai pha  Xây dựng mơ hình: Tìm mơ tả cho tập lớp có       Pha 1: Dạy phân lớp      Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={dDexam: dCi} Dexam gọi tập ví dụ mẫu Xây dựng ánh xạ (mơ hình) phân lớp trên: Dạy phân lớp Mơ hình: Luật phân lớp, định, cơng thức toán học… Tách Dexam thành Dtrain (2/3) + Dtest (1/3) Dtrain Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mơ hình phân lớp (xác định tham số mơ hình) Dtest : đánh giá mơ hình phân lớp (các độ đo hiệu quả) Chọn mơ hình có chất lượng Pha 2: Sử dụng phân lớp  dD\D : xác định lớp d Ví dụ phân lớp: Bài tốn cho vay B Tid Refund Marital Status Taxable Income Cheat No Single 75K No Yes Married 50K No No Single 75K No No Married 150K Yes No Single 40K No No Married 80K Yes No Single 75K No Yes Married 50K No Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes Phân lớp: Quá trình hai pha Phân lớp: Quá trình hai pha Các loại phân lớp  Phân   |C|=2: phân lớp nhị phân |C|>2: phân lớp đa lớp  Phân    lớp nhị phân/ đa lớp: lớp đơn nhãn/ đa nhãn: Đơn nhãn: tài liệu gán vào xác lớp Đa nhãn: tài liệu gán nhiều lớp Phân cấp: lớp cha/con lớp Các vấn đề đánh giá mô hình – – – Các phương pháp đánh giá hiệu Câu hỏi: Làm để đánh giá hiệu mơ hình? Độ đo để đánh giá hiệu Câu hỏi: Làm để có ước tính đáng tin cậy? Phương pháp so sánh mơ hình Câu hỏi: Làm để so sánh hiệu tương đối mơ hình có tính cạnh tranh? 10 Phương pháp học bán giám sát  Các       EM với mô hình trộn sinh Self-training Co-training TSVM Dựa đồ thị  So   phương pháp học bán giám sát điển hình sánh phương pháp Địi hỏi giả thiết mơ hình mạnh Giả thiết mơ hình phù hợp cấu trúc liệu: khó kiểm nghiệm Một số định hướng lựa chọn  Lớp  phân cụm tốt: dùng EM với mơ hình sinh trộn  Đặc trưng phân thành hai phần riêng rẽ: co-training Nếu hai điểm tương tự hướng tới lớp: dựa đồ thị Đã sử dụng SVM mở rộng TSVM Khó nâng cấp học giám sát có: dùng self-traning …     Phương pháp học bán giám sát  Dùng liệu chưa gán nhãn   Hoặc biến dạng thay đổi thứ tự giả thiết thu nhờ liệu có nhãn Mơ tả chung       Giả thiết dạng p(y|x) liệu chưa có nhãn p(x) Mơ hình sinh có tham số chung phân bố kết nối p(x, y) Mô hình trộn với EM mở rộng thêm self-training Nhiều phương pháp phân biệt: TSVM, quy tắc hóa thơng tin, q trình Gauxơ, dựa theo đồ thị Có liệu không nhãn: nhận xác suất p(x) Phân biệt “học lan truyền” với “học bán giám sát”   Đa dạng cách gọi Hạn chế toán phân lớp “Bán giám sát”      dùng ví dụ có / khơng có nhãn, “học liệu nhãn/khơng nhãn, “học liệu phân lớp/có nhãn phận” Có lan truyền quy nạp Lan truyền để thu hẹp lại cho quy nạp: học liệu sẵn Quy nạp: liên quan tới liệu chưa có Mơ hình sinh: Thuật tốn EM  Sơ     Mơ hình sớm nhất, phát triển lâu Mơ hình có dạng p(x,y) = p(y)*p(x|y) Với số lượng nhiều liệu chưa nhãn cho P(x|y) mơ hình trộn đồng Miền tài liệu phân thành thành phần, Lý tưởng hóa tính "Đồng nhất": cần đối tượng có nhãn cho thành phần  Tính   đồng Là tính chất cần có mơ hình Cho họ phân bố {p} đồng 1  2 p1 p2 hốn đối vị trí thành phần  tính khả tách phân bố tới thành phần Mơ hình sinh: Thuật tốn EM  Tính xác thực mơ hình    Giả thiết mơ hình trộn xác  liệu khơng nhãn làm tăng độ xác phân lớp Chú ý cấu trúc tốt mơ hình trộn: tiêu đề chia thành tiêu đề nên mơ hình hóa thành đa chiều thay cho đơn chiều Cực đại EM địa phương  Miền áp dụng   Khi mơ hình trộn xác Ký hiệu   D: tập ví dụ có (có nhẵn /chưa có nhãn) DK: tập ví dụ có nhãn D (|DK|

Ngày đăng: 08/05/2021, 19:46

Mục lục

  • Giới thiệu: Sơ đồ khai phá Web

  • Bài toán phân lớp Web

  • Phân lớp: Quá trình hai pha

  • Ví dụ phân lớp: Bài toán cho vay

  • Các loại phân lớp

  • Các vấn đề đánh giá mô hình

  • Đánh giá phân lớp nhị phân

  • So sánh hai phương án

  • Đánh giá phân lớp đa lớp

  • Các kỹ thuật phân lớp

  • Phân lớp cây quyết định

  • Ví dụ cây quyết định và sử dụng

  • Ví dụ cây quyết định phân lớp văn bản

  • Dựng cây quyết định: thuật toán Hunt

  • Ví dụ: thuật toán Hunt

  • Thuật toán cây quyết định ID3

  • Thuộc tính tốt nhất: Độ đo Gini

  • Chia tập theo độ đo Gini

  • Chia tập theo độ đo Gini: Ví dụ

  • Chọn thuộc tính: Information Gain

Tài liệu cùng người dùng

Tài liệu liên quan