Detecting comments spam youtube

41 82 0
Detecting comments spam youtube

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

xây dựng mô hình học máy để phân loại bình luận spam sử dụng thuật toán randomforest

MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG TÓM TẮT CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI .6 1.1 Hiện trạng đặt vấn đề .6 1.1.1 “spam” ? 1.1.2 Vấn đề “spam” Youtube 1.2 Mục tiêu đề tài 1.3 Phạm vi nghiên cứu 1.4 Bố cục báo cáo CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .8 2.1 Machine learning gì? 2.2 Giới thiệu thuật toán Random Forest .8 2.2.1 Random Forest gì? 2.2.2 Mơ hình thuật toán 10 2.2.3 Đặc điểm Random Forest? 14 2.2.4 Mô tả hoạt động Random Forest 15 2.2.5 Ví dụ Random Forest .16 2.2.6 Phương pháp lấy mẫu Bootstrap 17 2.3 Giới thiệu thuật toán Bag of Words(Bow) 19 2.4 Tổng quát TF-IDF .21 CHƯƠNG 3: XÂY DỰNG VÀ ĐÁNH GIÁ MƠ HÌNH 23 3.1 Tổng quan 23 3.2 Tiền xử lý 24 3.3 Rút trích đặc trưng 31 3.4 Đánh giá mơ hình .32 3.5 Chọn tham số tối ưu cho mơ hình .33 3.6 Dự đoán 35 3.7 Kết đạt 35 CHƯƠNG 4: TỔNG KẾT 36 4.1 Kết luận 36 4.2 Hướng phát triển 36 TÀI LIỆU THAM KHẢO .38 DANH MỤC CÁC HÌNH Hình 2-1 Mơ hình giản thể thuật toán Random Forest 11 Hình 2-2 Mơ hình thuật tốn Random Forest 12 Hình 2-3 Hình ảnh Cây định 13 Hình 2-4 Hình Cây phân lớp rừng .18 Hình 2-5 Bootstrap Random Forest 20 Hình 3-1.Mơ tả q trình xây dựng mơ hình dự đốn bình luận “spam” 24 Hình 3-2 Các bước trình tiền xử lý 25 Hình 3-3 Lọc nhiễu tiền xử lý .26 Hình 3-4 Ví dụ tách từ 27 Hình 3-5 Ví dụ lọc stopwords 28 Hình 3-6 Biểu đồ phân bố từ thường gặp 29 Hình 3-7 Ví dụ vector hóa từ .30 Hình 3-8 Tích vô hướng từ 31 Hình 3-9 Sự phân bố từ .31 Hình 3-10 Mơ tả q trình thực 5-fold Cross-Validation 33 Hình 3-11 Mơ tả phương pháp Grid Search 35 DANH MỤC CÁC BẢNG Bảng 2-1 Bảng liệu cho định .14 Bảng 2-2 Tập liệu minh họa thuật toán Random Forest .17 Bảng 3-1 Bảng so sánh độ xác mơ hình 33 TÓM TẮT Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), cụ thể Machine Learning (Học Máy Máy Học) lên chứng cách mạng công nghiệp lần thứ tư (1 - động nước, - lượng điện, - công nghệ thơng tin) Trí Tuệ Nhân Tạo len lỏi vào lĩnh vực đời sống mà không nhận Xe tự hành Google Tesla, hệ thống tự tag khuôn mặt ảnh Facebook, trợ lý ảo Siri Apple, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix, máy chơi cờ vây AlphaGo Google DeepMind, …, vài ứng dụng AI/Machine Learning Đề tài Kỹ thuật phát bình luận “spam” Youtube dùng thuật tốn Random Forest mơ tả q trình xây dựng đánh giá mơ hình Machine Learning để dự đốn bình luận “spam” hay khơng “spam” video Youtube Mơ hình viết ngôn ngữ Python sử dụng công cụ Jupyter Notebook Mơ hình có độ tin cậy cao nhờ kết hợp thuật toán phân lớp, thuật tốn xử lí liệu thuật tốn đánh giá phức tạp Sau mơ hình xây dựng, dự đốn bình luận có phải “spam” hay khơng với độ xác cao, đáng tin cậy Tuy cố gắng đề tài có sai sót chưa hồn thiện hồn tồn, kính mong thầy xem xét góp ý, em cảm ơn CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Hiện trạng đặt vấn đề 1.1.1 “spam” ? Với phát triển Internet ngày nay, người dùng dễ dàng tìm kiếm thông tin, trao đổi thảo luận diễn đàn, mạng xã hội Bên cạnh thông tin hữu ích, người dùng cịn gặp dạng thơng tin vô nghĩa, làm phiền Những dạng thông tin gọi chung “spam” “spam” từ viết tắt từ cụm từ Stupid Pointless Annoying Messages, nghĩa thơng điệp ngu ngốc, vơ nghĩa phiền tối Có thể hiểu “spam” thơng tin rác, khơng mang lại giá trị cho người đọc “spam” xuất nhiều hình thức “spam” email, “spam” chat tin nhắn, “spam” bình luận mạng xã hội, “spam” viết diễn đàn,… Trong đề tài này, tác giả tập trung vào “spam” bình luận Youtube 1.1.2 Vấn đề “spam” Youtube Youtube website xem video lớn giới với nội dung phong phú số lượng video khổng lồ Do có lượng người truy cập tương tác lớn, vấn nạn bình luận “spam” khơng tránh khỏi Các bình luận “spam” gây nhiều tác hại phát tán thơng tin rác, làm lỗng nội dung thảo luận, gây phiền toái cho người dùng Nguy hiểm hơn, bình luận “spam” cịn mang tính lừa đảo nguy bảo mật chẳng hạn đánh cắp thơng tin nhạy cảm, mã độc,… Vì vậy, việc phát bình luận “spam” cần thiết nhằm giúp người dùng tránh tác hại chúng 1.2 Mục tiêu đề tài Đề tài với mục đích xây dựng mơ hình học máy phát bình luận “spam” Youtube với mục tiêu: -Tìm hiểu thuật tốn Random Forest để phân loại bình luận “spam” -Xây dựng đánh giá mơ hình dự đốn bình luận “spam” -Xây dựng hướng phát triển cho mơ hình, ứng dụng phân loại “spam” khác 1.3 Phạm vi nghiên cứu Đề tài tập trung nghiên cứu số nội dung sau: - Nghiên cứu thuật toán phân lớp ( RandomForest), thuật toán xử lí ngơn ngữ tự nhiên (Bag of Word, TF-IDF,…) - Xây dựng đánh giá mơ hình học máy ngôn ngữ Python sử dụng công cụ Jupyter Notebook 1.4 Bố cục báo cáo Bài báo cáo gồm có chương: Chương 1: Tổng quan đề tài Giới thiệu tổng quan nội dung đề tài: trạng đặt vấn đề, mục tiêu đề tài, phạm vi nghiên cứu bố cục báo cáo Chương 2: Cơ sở lý thuyết Giới thiệu thuật toán sử dụng đề tài, phương pháp xử lí ngơn ngữ tự nhiên Chương 3: Xây dựng đánh giá mơ hình Mơ tả q trình xây dựng đánh giá mơ hình, phương pháp tối ưu mơ hình để q trình phân loại có độ xác cao Chương 4: Tổng kết Kết luận mơ hình, độ hữu dụng, khả làm việc phương hướng phát triển tương lai CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Machine learning gì? Học máy (tiếng Anh: machine learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Ví dụ máy "học" cách phân loại thư điện tử xem có phải thư rác (“spam”) hay không tự động xếp thư vào thư mục tương ứng Học máy gần với suy diễn thống kê (statistical inference) có khác thuật ngữ 2.2 Giới thiệu thuật toán Random Forest 2.2.1 Random Forest gì? Như tên gọi (Random Forest) – rừng ngẫu nhiên, phương pháp xây dựng tập hợp nhiều định sử dụng phương pháp bầu chọn để đưa định biến mục tiêu cần dự báo Giả sử bạn dự định du lịch bạn muốn đến nơi mà bạn thích.Vậy bạn làm để tìm nơi mà bạn thích? Bạn tìm kiếm trực tuyến, đọc đánh giá blog cổng thông tin du lịch bạn hỏi bạn bè Giả sử bạn định hỏi bạn bè nói chuyện với họ trải nghiệm du lịch khứ họ đến nơi khác Bạn nhận số khuyến nghị từ tất bạn Bây bạn phải tạo danh sách địa điểm đề xuất Sau đó, bạn yêu cầu họ bỏ phiếu (hoặc chọn địa điểm tốt cho chuyến đi) từ danh sách địa điểm đề xuất bạn thực Địa điểm có số phiếu bầu cao lựa chọn cuối bạn cho chuyến Trong q trình định trên, có hai phần Trước tiên, hỏi bạn bè trải nghiệm du lịch cá nhân họ nhận đề xuất từ nhiều nơi họ ghé thăm Điều giống sử dụng thuật toán định Ở đây, người số bạn chọn nơi mà họ ghé thăm Phần thứ hai, sau thu thập tất khuyến nghị, thủ tục bỏ phiếu để chọn địa điểm tốt danh sách khuyến nghị Tồn q trình nhận khuyến nghị từ bạn bè bỏ phiếu cho họ để tìm nơi tốt gọi thuật toán rừng ngẫu nhiên Về mặt kỹ thuật, phương pháp tổng hợp (dựa cách tiếp cận phân chia chinh phục) định tạo tập liệu chia ngẫu nhiên Bộ sưu tập phân loại định gọi rừng Cây định riêng lẻ tạo cách sử dụng báo chọn thuộc tính tăng thông tin, tỷ lệ tăng số Gini cho thuộc tính Mỗi phụ thuộc vào mẫu ngẫu nhiên độc lập Trong toán phân loại, phiếu bầu chọn lớp phổ biến chọn kết cuối Trong trường hợp hồi quy, mức trung bình tất kết đầu coi kết cuối Nó đơn giản mạnh mẽ so với thuật tốn phân loại phi tuyến tính khác Random Forest thuật toán học máy dựa kỹ thuật lắp ghép, kết hợp phân lớp Random Forest xây dựng phân lớp cách lựa chọn ngẫu nhiên nhóm nhỏ thuộc tính nút để phân chia cho mức phân lớp Ngoài tập mẫu lựa chọn ngẫu nhiên phương pháp Bootstrap từ tập mẫu ban đầu Số lượng phân lớp rừng khơng hạn chế thuật tốn sử dụng kết dự đoán tất rừng làm kết cuối thuật toán Random Forest tập hợp mơ hình (ensemble) Mơ hình Random Forest hiệu cho tốn phân loại huy động lúc hàng trăm mơ hình nhỏ bên với quy luật khác để đưa định cuối Mỗi mô hình mạnh yếu khác nhau,ta có hội phân loại xác so với sử dụng mơ hình đơn lẻ 10 Mục đích bước loại bỏ noise data bạn Đa phần noise thẻ HTML, JavaScript, đương nhiên để noise để tiến hành xử lý dẫn đến kết xử lý khơng tốt Ví dụ đơn giản sau: Hình 3-7 Lọc nhiễu tiền xử lý Thông thường hay loại bỏ noise thẻ HTML JS nhiên thực tế noise khơng HTML, JS, cụm từ khơng cần thiết, hay ký tự khơng có ý nghĩa ($%&##")  Tách từ Trong tiếng Việt, dấu cách (space) khơng sử dụng kí hiệu phân tách từ, có ý nghĩa phân tách âm tiết với Vì thế, để xử lý tiếng Việt, công đoạn tách từ (word segmentation) toán quan trọng bậc Ví dụ : từ “đất nước” tạo từ âm tiết “đất” “nước”, âm tiết có nghĩa riêng đứng độc lập, ghép lại mang nghĩa khác Vì đặc điểm này, toán tách từ trở thành tốn tiền đề cho ứng dụng xử lý ngơn ngữ tự nhiên khác phân loại văn bản, tóm tắt văn bản, máy dịch tự động, … Như ví dụ sau: 27 Hình 3-8 Ví dụ tách từ Tách từ xác hay khơng cơng việc quan trọng, khơng xác dẫn đến việc ý nghĩa câu sai, ảnh hưởng đến tính xác chương trình  Chuẩn hố từ Mục đích đưa văn từ dạng khơng đồng dạng Dưới góc độ tối ưu nhớ lưu trữ tính xác quan trọng Ví dụ: U.S.A = USA Ví dụ từ điển, training data khơng có U.S.A, có USA, việc convert từ U.S.A USA điều cần thiết để bước xử lý sau text classification, intent detection xác Có nhiều cách viết, cách viết lưu trữ tốn lượng memory khác nhau, half size tốn 1/2 dung lượng so với full size nên tuỳ theo nhu cầu, tình hình thực tế, đưa văn dạng đồng Ngoài vài trường hợp, ký tự số không mang lại lợi ích tiến hành loại bỏ ký tự số đó, để nguyên ký tự số trở thành noise, ảnh hưởng đến tính xác model sau 28  Loại bỏ StopWords StopWords từ xuất nhiều ngôn ngữ tự nhiên, nhiên lại không mang nhiều ý nghĩa Ở tiếng việt StopWords từ như: để, này, Tiếng anh từ như: is, that, this Có nhiều cách để loại bỏ StopWords có cách là:  Dùng từ điển  Dựa theo tần suất xuất từ Dùng từ điển Cách đơn giản nhất, tiến hành filter văn bản, loại bỏ từ xuất từ điển StopWords: [cậu,của,cứ,dù,nhưng,này,nọ,…] Ví dụ: Hình 3-9 Ví dụ lọc stopwords Dựa theo tần suất xuất từ Với cách này, tiến hành đếm số lần xuất từ data sau loại bỏ từ xuất nhiều lần (cũng lần) Khoa học 29 chứng minh từ xuất nhiều thường từ không mang nhiều ý nghĩa Hình 3-10 Biểu đồ phân bố từ thường gặp Trên top 50 từ xuất nhiều sách, dễ dàng nhận thấy chúng khơng mang nhiều ý nghĩa Chính loại bỏ từ  Vector hố từ Bước mục đích vector hố từ câu Thơng thường nên vector hố theo câu khơng vector hố đoạn Vì vector hố theo đoạn văn dài dẫn đến vector có nhiều chiều, liệu nhiều chiều, dẫn đến tình trạng thiếu tính xác, khó xử lý Phương pháp vector hố có cách: 30  Sử dụng one-hot  Biểu thị phân tán Sử dụng one-hot Phương pháp phổ biến nhất, dễ sử dụng Giả sử ta có danh sách từ sau: (nlp, python, word, ruby, one-hot) vector hố từ python, ta được: Hình 3-11 Ví dụ vector hóa từ Tương tự với nlp vị trí nlp 1, cịn lại 0, ta biểu diễn tất từ Lấy ln hình làm ví dụ ta được:  nlp: 10000  python: 01000  word: 00100  ruby: 00010  one-hot: 00001 Biểu diễn one-hot đơn giản có điểm yếu khơng có mối liên hệ từ 31 Hình 3-12 Tích vơ hướng từ Ta tính độ tương tự từ, việc cần làm tính tích vơ hướng từ đó, nhiên với cách biểu diễn one-hot, tích vơ hướng ln nên khơng có ý nghĩa Biểu thị phân tán Phân tán nghĩa tần suất phân bố, xuất từ chủ đề(topic), đoạn văn khác Thực tế thông thường số chiều khoảng 50-500 Như ví dụ sau: Hình 3-13 Sự phân bố từ 32 Như ví dụ số chủ để khoảng 50-300 chủ đề, biểu diễn theo kiểu này, dễ dàng nhận thấy vấn đề one-hot giải quyết, tính tích vơ hướng nhận thấy python ruby có mối liên quan lớn, ngược lại so với word khơng có nhiều mối tương đồng Việc phân loại từ quan trọng xử lí ngơn ngữ tự nhiên, ví dụ tốn Text Classification, ta cần phân biệt, tìm từ chủ đề Hay toán Intent detection, ta cần tìm mối quan hệ input training data 3.3 Rút trích đặc trưng Dữ liệu qua tiền xử lí xáo trộn phân chia ngẫu nhiên thành tập : 80% cho tập huấn luyện – dùng để huấn luyện xây dựng mơ hình, 20% cho tập kiểm thử - dùng để đánh giá độ xác mơ hình Ở giai đoạn này, bình luận biểu diễn dạng mơ hình khơng gian vector với đặc trưng ứng với túi từ Giá trị phần tử vector giá trị TF-IDF từ bình luận với tồn thể tập liệu Đầu vào trình tập liệu qua tiền xử lí Kết ma trận TF-IDF làm đầu vào cho thuật toán phân lớp, túi từ giá trị IDF túi từ Tiếp theo liệu đưa vào mơ hình Random Forest để trainning, sau kiểm thử tập testing set Ta cần thiết lập thơng số cho mơ hình, trước tiên ta thử với thông số ban đầu Trong mơ hình Random Forest, ta phải thiết lập định cho phù hợp với độ lớn tập liệu Việc thiết lập định lớn cho mơ hình phức tạp chậm hơn, chí độ xác cịn giảm xuống Với liệu có 300 câu bình luận ta có độ xác kiểm thử với tập testing sau: 33 Bảng 3-3 Bảng so sánh độ xác mơ hình Số định Độ xác 40 98% 60 80 100 120 92% 94% 92% 92% Theo bảng ta chọn mơ hình có 40 định 3.4 Đánh giá mơ hình Ta sử dụng phương pháp kiểm thử chéo (Cross-Validation) để đánh giá mơ hình q trình huấn luyện Về bản, phương pháp trích từ tập huấn luyện tập nhỏ thực việc đánh giá mơ hình tập nhỏ Tập nhỏ trích từ tập huấn luyện gọi tập kiểm chứng (validation set) Lúc tập huấn luyện phần lại tập huấn luyện ban đầu Mục tiêu thực Cross-Validation, ta cần chỉnh tham số thuật tốn phân lớp cho mơ hình đạt độ xác cao nhất, lúc ta dự đốn với tham số vừa chọn tập liệu thời, mơ hình tạo tốt Có nhiều phương pháp thực Cross-Validation, đề tài này, ta sử dụng phương pháp “k-fold Cross-Validation” Quá trình thực mơ tả sau: Hình 3-14 Mơ tả trình thực 5-fold Cross-Validation 34 Bước 1: Chia ngẫu nhiên tập huấn luyện thành k tập (fold) Chẳng hạn, ta thực 5-fold Cross-Validation tập huấn luyện chia thành tập Bước 2: Lần lượt chọn tập k tập để làm tập kiểm chứng Tập huấn luyện k-1 tập lại Bước 3: Thực huấn luyện tập huấn luyện với tham số lựa chọn Dùng mơ hình huấn luyện để kiểm thử kiểm chứng ghi nhận lại kết Bước 4: Lặp lại bước với tập khác lựa chọn tập kiểm chứng Quá trình lặp lại k lần Lần lượt tất tập chọn làm tập kiểm chứng đánh giá mơ hình tạo từ tập huấn luyện tập lại Giả sử với lần thực ta độ xác di kết lần thực hiện: Cross-Validation result = 3.5 Chọn tham số tối ưu cho mơ hình Sau hồn thành phần đánh giá, ta muốn cải thiện việc huấn luyện cách Chúng ta thực điều cách điều chỉnh thơng số Có vài thông số ngầm giả định tiến hành huấn luyện lúc để quay lại, kiểm tra giả định thử giá trị khác Trong mơ hình Random Forest có parameter như: n_estimators, max_features, max_depth, min_samples_split Và việc thay đổi giá trị parameter ảnh hưởng đến độ xác mơ hình, cơng việc tìm cho parameter tối ưu Chính việc Tunning HyperParameter Trong đề tài này, ta sử dụng phương pháp Grid Search Với Grid Search, giả dụ 35 giá trị parameter từ 0-9 Grid Search ghép giá trị param với param để tính tốn độ xác model Đảm bảo khơng bỏ sót cặp parameter Hình 3-15 Mơ tả phương pháp Grid Search Với cách làm vậy, truy vấn hết tất trường hợp, nên thường ưu tiên Tuy nhiên mô hình cần thiết lập nhiều parameter nhiều giá trị việc tunning nhiều thời gian, hàng giờ, hàng ngày,… Đầu Grid Search tham số tính tốn tối ưu Việc cần làm sử dụng tham số cho mơ hình 36 3.6 Dự đốn Sau có tham số tối ưu, ta xây dựng lại mơ hình phân loại để dự đốn bình luận có phải “spam” hay khơng Đầu vào mơ hình bình luận, kết trả cho liệu vào cho bình luận khơng “spam” cho bình luận “spam” Dựa vào kết đó, ta tiến hành bước xử lí với bình luận spam, bao gồm xóa, ẩn cấm người dùng tương tác,… 3.7 Kết đạt Sau xây dựng đánh giá, tối ưu cho thuật tốn Mơ hình phân loại bình luận đưa vào có “spam” hay khơng cách vận dụng học để xử lí liệu, phán đốn thơng tin đưa kết luận cuối (“spam” hay khơng ) Mơ hình cịn sơ sài, mạnh mẽ xác hơn, ta cần cho học nhiều nữa, cách cung cấp lượng lớn liệu huấn luyện, đánh giá tối ưu tham số, cải tiến thêm chức phát nhiều ngôn ngữ ký hiệu khác nhau, đưa vào sử dụng cho thời gian thực website mạng xã hội Facebook, Youtube,… 37 CHƯƠNG 4: TỔNG KẾT 4.1 Kết luận Mơ hình phân loại bình luận “spam” mơ hình học máy có giám sát sử dụng thuật toán Random Forest phương pháp đánh giá, tối ưu cho mơ hình Mặc dù có nhiều phương pháp, thuật tốn để phân loại bình luận “spam”, Random Forest thuật toán mạnh mẽ, xác hữu dụng khơng cho tốn phân loại “spam” mà cịn cho tốn phân loại khác Sức mạnh học máy việc ta xác định cách phân biệt bình luận có “spam” hay khơng mơ hình thay đánh giá người hay quy tắc tự nhiên Trong mơ hình ta sử dụng thuật tốn Random Forest với phương pháp xử lí ngơn ngữ tự nhiên, phương pháp đánh giá tối ưu mô hình Ta suy luận từ ý tưởng trình bày hơm cho miền vấn đề khác, áp dụng nguyên tắc tương tự: - Thu thập liệu - Chuẩn bị liệu - Chọn mơ hình - Huấn luyện - Đánh giá - Điều chỉnh siêu thơng số - Dự đốn 4.2 Hướng phát triển Về bản, mơ hình học xây dựng sơ sài đơn giản, nhiên sở cho phát triển mơ hình học máy phân loại “spam” ứng dụng tảng website, mạng xã hội có lượng người dùng tương tác lớn Mơ hình phân loại ngơn ngữ tự nhiên người, hạn chế 38 biến thể ngôn ngữ : teencode, đường link, từ có dấu cách, dấu chấm giữa, … Cần cải thiện mơ hình để áp dụng cho nhiều loại ngôn ngữ khác Machine learning q trình máy học khơng ngừng nghỉ, mơ hình mơ hình sơ khai, tương lai có cải tiến mới, cải thiện mơ hình cho kết xác cao 39 TÀI LIỆU THAM KHẢO [1] Joshua Eckroth, “Python Artificial Intelligence Projects for Beginners”, ISBN 978-1-78953-946-2, July 2018, pp.5-63 [2] Connor P Milliken, “Python Projects for Beginners”, ISBN-13 (pbk): 9781-4842-5354-0, ISBN-13 (electronic): 978-1-4842-5355-7 [3] Nguyen Viet Hung, “Trích chọn thuộc tính đoạn văn với TF-IDF”, https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voi-tf-idfAz45bAOqlxY, Oct 20th, 2017 [4] Nguyen Duy Sim, “Phân lớp Random Forests Python”, https://viblo.asia/p/phan-lop-bang-random-forests-trong-pythondjeZ1D2QKWz, Nov 23rd, 2018 =========================HẾT========================= 40 41 ... thức ? ?spam? ?? email, ? ?spam? ?? chat tin nhắn, ? ?spam? ?? bình luận mạng xã hội, ? ?spam? ?? viết diễn đàn,… Trong đề tài này, tác giả tập trung vào ? ?spam? ?? bình luận Youtube 1.1.2 Vấn đề ? ?spam? ?? Youtube Youtube... thuật phát bình luận ? ?spam? ?? Youtube dùng thuật tốn Random Forest mơ tả q trình xây dựng đánh giá mơ hình Machine Learning để dự đốn bình luận ? ?spam? ?? hay khơng ? ?spam? ?? video Youtube Mơ hình viết... 3.1 Tổng quan Để xây dựng mơ hình phân loại bình luận ? ?spam? ?? Youtube, bước thu thập liệu có sẵn bình luận ? ?spam? ?? gắn nhãn ? ?spam? ?? hay không ? ?spam? ?? , sau tiến hành thực tiền xử lý liệu Tiếp theo,

Ngày đăng: 22/09/2020, 08:59

Hình ảnh liên quan

2.2.2. Mô hình thuật toán - Detecting comments spam youtube

2.2.2..

Mô hình thuật toán Xem tại trang 11 của tài liệu.
Figure 2-1Mô hình thuật toán RandomForest - Detecting comments spam youtube

igure.

2-1Mô hình thuật toán RandomForest Xem tại trang 11 của tài liệu.
Hình 2-1. Mô hình thuật toán RandomForest - Detecting comments spam youtube

Hình 2.

1. Mô hình thuật toán RandomForest Xem tại trang 12 của tài liệu.
Hình 2-2 Hình ảnh Cây quyết định - Detecting comments spam youtube

Hình 2.

2 Hình ảnh Cây quyết định Xem tại trang 13 của tài liệu.
Bảng 2-1 Bảng dữ liệu cho cây quyết định - Detecting comments spam youtube

Bảng 2.

1 Bảng dữ liệu cho cây quyết định Xem tại trang 14 của tài liệu.
Bảng 2-2 Tập dữ liệu minh họa thuật toán RandomForest - Detecting comments spam youtube

Bảng 2.

2 Tập dữ liệu minh họa thuật toán RandomForest Xem tại trang 17 của tài liệu.
Hình 2-3. Hình 2 Cây phân lớp trong rừng - Detecting comments spam youtube

Hình 2.

3. Hình 2 Cây phân lớp trong rừng Xem tại trang 18 của tài liệu.
Hình 2-4. Bootstrap trong RandomForest - Detecting comments spam youtube

Hình 2.

4. Bootstrap trong RandomForest Xem tại trang 20 của tài liệu.
Hình 3-5.Mô tả quá trình xây dựng mô hình dự đoán bình luận “spam” - Detecting comments spam youtube

Hình 3.

5.Mô tả quá trình xây dựng mô hình dự đoán bình luận “spam” Xem tại trang 25 của tài liệu.
Đây là giai đoạn rất quan trọng trong quá trình xây dựng mô hình. Giai đoạn này giúp nâng cao hiệu quả của việc xử lý, giảm độ phức tạp của thuật toán phân lớp  vì nó chuẩn hóa và giảm số từ có trong văn bản nguyên gốc - Detecting comments spam youtube

y.

là giai đoạn rất quan trọng trong quá trình xây dựng mô hình. Giai đoạn này giúp nâng cao hiệu quả của việc xử lý, giảm độ phức tạp của thuật toán phân lớp vì nó chuẩn hóa và giảm số từ có trong văn bản nguyên gốc Xem tại trang 26 của tài liệu.
Hình 3-8. Ví dụ tách từ - Detecting comments spam youtube

Hình 3.

8. Ví dụ tách từ Xem tại trang 28 của tài liệu.
Hình 3-10. Biểu đồ phân bố các từ thường gặp - Detecting comments spam youtube

Hình 3.

10. Biểu đồ phân bố các từ thường gặp Xem tại trang 30 của tài liệu.
Hình 3-11. Ví dụ về vector hóa từ - Detecting comments spam youtube

Hình 3.

11. Ví dụ về vector hóa từ Xem tại trang 31 của tài liệu.
Hình 3-13. Sự phân bố của các từ - Detecting comments spam youtube

Hình 3.

13. Sự phân bố của các từ Xem tại trang 32 của tài liệu.
Hình 3-12. Tích vô hướng của 2 từ - Detecting comments spam youtube

Hình 3.

12. Tích vô hướng của 2 từ Xem tại trang 32 của tài liệu.
Bảng 3-3. Bảng so sánh độ chính xác của mô hình Số cây quyết  - Detecting comments spam youtube

Bảng 3.

3. Bảng so sánh độ chính xác của mô hình Số cây quyết Xem tại trang 34 của tài liệu.
Theo như bảng trên ta chọn mô hình có 40 cây quyết định. - Detecting comments spam youtube

heo.

như bảng trên ta chọn mô hình có 40 cây quyết định Xem tại trang 34 của tài liệu.
Hình 3-15. Mô tả phương pháp Grid Search - Detecting comments spam youtube

Hình 3.

15. Mô tả phương pháp Grid Search Xem tại trang 36 của tài liệu.

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC HÌNH

  • DANH MỤC CÁC BẢNG

  • TÓM TẮT

  • CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

    • 1.1. Hiện trạng và đặt vấn đề

      • 1.1.1. “spam” là gì ?

      • 1.1.2. Vấn đề “spam” trên Youtube

      • 1.2. Mục tiêu đề tài

      • 1.3. Phạm vi nghiên cứu

      • 1.4. Bố cục báo cáo

      • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

        • 2.1. Machine learning là gì?

        • 2.2. Giới thiệu về thuật toán Random Forest.

          • 2.2.1. Random Forest là gì?

          • 2.2.2. Mô hình thuật toán

            • Decision Tree là gì

              • a. Định nghĩa

              • b.Ví dụ

              • c. Một số thuật toán xây dựng cây quyết định

              • d. Đặc điểm của Cây quyết định

              • 2.2.3. Đặc điểm của Random Forest?

                • 2.2.3.1 Ưu điểm

                • 2.2.3.2 Nhược điểm

                • 2.2.4. Mô tả hoạt động của Random Forest

                • 2.2.5. Ví dụ về Random Forest

                • 2.2.6. Phương pháp lấy mẫu Bootstrap

                  • a.Giới thiệu Bootstrap

Tài liệu cùng người dùng

Tài liệu liên quan