Ứng dụng NLP vào bài toán phân loại comment

43 155 0
Ứng dụng NLP vào bài toán phân loại comment

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng NLP vào tốn phân loại comment Trình bày: Hiếu Nguyễn Giới thiệu thân Nội dung trình bày  Tổng quan tốn phân loại comment  Cách xây dựng từ điển xấu tiếng Việt  Phân loại comment sử dụng học máy  Q&A Nội dung trình bày  Tổng quan toán phân loại comment  Cách xây dựng từ điển xấu tiếng Việt  Phân loại comment sử dụng học máy  Q&A Bài toán phân loại comment Bài toán phân loại comment Phase Check theo bad-words • Xây dựng từ điển bad-words tiếng Việt • Bất kỳ comment chứa bad-words cảnh báo Phase Check theo ngữ nghĩa • Xây dựng mơ hình học máy phân loại comment • Dự đốn comment tích cực hay tiêu cực theo kết huấn luyện Phase Khớp theo báo • Tính tương lai ^^ Nội dung trình bày  Tổng quan toán phân loại comment  Cách xây dựng từ điển xấu tiếng Việt  Phân loại comment sử dụng học máy  Q&A Ý tưởng  B1: Xây dựng từ tiếng Việt xấu  Lặp lại:    B2: Xây dựng liệu huấn luyện B3: Huấn luyện mơ hình biểu diễn văn bản(word representations) B4: Sử dụng “word similarity” để bổ sung từ điển Word vector Tại cần chuyển văn sang vector? Có kỹ thuật để làm việc này?  One-hot vecter Word2vec  Fasttext  …  One-hot vector Biểu diễn từ Queen 10 Tốc độ huấn luyện 29 Fasttext Train model label bad Con chó mày sủa … Predict label Input(s) … Inputs, targets Bài báo hay Bài báo hay quá, label good … Output(s) Predicts label good Ơi bơng hoa đẹp … Evaluate model label good label good, … Sử dụng precision & recall Model training: Linear classifier     Comment nhãn đưa vector Tìm biểu diễn vector comment xác định nhãn gần Mỗi nhãn đưa kèm xác suất xác Nhãn xác nhãn có xác suất cao 31 Model training: Hierarchical softmax   Áp dụng train nhiều nhãn Tăng tốc độ huấn luyện dự đoán nhãn 32 N-grams features  Bag of words • Tập đặc trưng từ đơn lẻ, khơng phân định thứ tự • Ex: “Hơm học” => “hôm, nay, tôi, đi, học”  Bag of n-grams • Tương tự bag of words lưu giữ thêm thứ tự cục • Ex(n=2): “Hơm học” => “hôm nay, tôi, đi, học” 33 Đánh giá mơ hình • Accuracy • Precision & Recall 34 Accuracy Tỉ lệ số item dự đoán tổng số item tập liệu kiểm thử Ưu điểm: Đơn giản tính tốn Nhược điểm:   Khó đánh giá xác liệu có chênh lệch 35 Precision & Recall 36 Precision & Recall  Precision cao đồng nghĩa với việc độ xác điểm tìm cao  Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực positive thấp  Thường dùng liệu có chênh lệch lớn 37 Kết  Trainning   30961 label bad 897782 label good  Testing   13127 label bad 58144 label good 38 Kết Mơ hình Precision Recall Naive Bayes P@0 = 99.62 P@1 = 89.16 R@0 = 46.45 R@1 = 99.96 Linear SVC P@0 = 91.09 P@1 = 94.71 R@0 = 75.80 R@1 = 98.32 SGD Classifier P@0 = 91.99 P@1 = 91.09 R@0 = 57.37 R@1 = 98.87 Fasttext P@0 = 87.61 P@1 = 94.52 R@0 = 75.10 R@1 = 97.59 Chú ý: @0: label bad @1: label good 39 Demo 40 41 Tài liệu tham khảo [1] scikit-learn 0.19.1 documentation http://scikit-learn.org [2] Gensim similar https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.Doc 2VecKeyedVectors.most_similar [3] Phương pháp xây dựng tập từ quan điểm có trọng số dựa tập ngữ liệu mạng xã hội Đỗ Đức Cường, Bùi Khánh Linh, Nguyễn Thị Thu Hà, Dương Trung Kiên - Trường Đại học điện lực 235 Hoàng Quốc Việt – Hà Nội, Nguyễn Ngọc Cương - Bộ Công An [4] Fasttext Facebook https://fasttext.cc/; https://arxiv.org/pdf/1607.01759.pdf; https://arxiv.org/pdf/1607.04606.pdf [5] https://stats.stackexchange.com/questions/280222/why-the-skip-gram-model-is-called-aspredicting-source-context-words-from-the-ta [6] https://www.quora.com/What-are-the-semantic-models-except-word2vec-and-what-aretheir-benefits/answer/Ajit-Rajasekharan [7] https://www.quora.com/What-are-the-continuous-bag-of-words-and-skip-gram-architectures 42 43 ... tiếng Việt  Phân loại comment sử dụng học máy  Q&A Bài toán phân loại comment Bài tốn phân loại comment Phase Check theo bad-words • Xây dựng từ điển bad-words tiếng Việt • Bất kỳ comment chứa... trình bày  Tổng quan toán phân loại comment  Cách xây dựng từ điển xấu tiếng Việt  Phân loại comment sử dụng học máy  Q&A Nội dung trình bày  Tổng quan tốn phân loại comment  Cách xây dựng... mơ hình học máy phân loại comment • Dự đốn comment tích cực hay tiêu cực theo kết huấn luyện Phase Khớp theo báo • Tính tương lai ^^ Nội dung trình bày  Tổng quan toán phân loại comment  Cách

Ngày đăng: 14/06/2019, 22:05

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan