... dàng tập hợp tài liệu Nhóm 06 – CNPM K 52 Page 20 11 BàitậplớnmônXửlýngônngữtựnhiênphân lớp bằng tay dịch tự động sang nhiều ngônngữ khác Chúng ta xem xét nhiệm vụ phânloại văn chủ đề ... Page 15 20 11 BàitậplớnmônXửlýngônngữtựnhiên2. 3 .2. 1.3 Thực Mỗi tài liệu cần đánh mục (index) số thuật ngữ, mỗi thuật ngữ miêu tả nội dung tài liêu Các thuật ngữthư ng gọi thuật ngữ gắn ... Giải vấn đề phức tạp, nhiên chắn muốn phân tích câu xửlý văn tiếng Việt toán đặt làm thế để tách từ câu Nhóm 06 – CNPM K 52 Page 28 20 11 BàitậplớnmônXửlýngônngữtựnhiên 3.1.3 .2 Từ loại...
... .23 VI- Tài liệu tham khảo 25 XỬLÝNGÔNNGỮTỰNHIÊN I Tổng quan Đặt vấn đềXửlýngônngữtựnhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung ... input : 0.txt File output output0.txt 24 XỬLÝNGÔNNGỮTỰNHIÊN VI- Tài liệu tham khảo 1- Bài giảng xửlýngônngữtự nhiên- Lê Thanh Hương 2- IGATEC-H.Nguyen 20 05 3- http://www.loria.fr/~lehong/tools/vnTokenizer.php ... ứng dụng ngônngữ người Trong trí tuệ nhân tạo xửlýngônngữtựnhiênphần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ- công cụ hoàn hảo tư giao tiếp Thực chất xửlýngônngữtựnhiên chuyển...
... tầng ẩn 27 I .2. 5 Tập huấn luyện mạng Tập liệu sử dụng cho việc huấn luyện kiểm thửtập ảnh ký tự riêng rẽ Tập ảnh gốc tập gồm 62 lớp , lớp có 55 ảnh png 55 người viết khác ký tự Trong số 62 lớp ... 00 :28 :20 0.5 0.01113 32 101 49 600 00:19 :24 0.5 0.0 126 719 38 1 12 300 00:09 :24 0.5 0.0143953 18 1 32 100 00:03:59 0.5 0.0181330 99 51 900 00:37:55 0.6 0.01068697 105 45 600 00 :21 :26 0.6 0.0119 628 ... số, 26 lớp ảnh ký tự viết hoa, 26 lớp ảnh ký tự viết thư ng Các ảnh tạo chương trình vẽ máy tính, chúng không chứa nhiễu nên thuận tiện cho việc xửlý Các ảnh tập liệu ảnh có sẵn có kích thư c...
... kí tự chữ , kí tự số , kí tự ‘$’ , kí tự gạch ngang ‘-’ , kí tự gạch ‘_’, kí tự nháy đơn ‘’ kí tự cấu tạo thành token Còn kí tự lại khoảng trắng , kí tự * , kí tự : ,… xem kí tựđể tách hay phân ... ^X2=x2 ^ …^Xn=xn) có giá trị lớn Sử dụng công thức xác suất Bayes ta có : 10 P(C=c /X1=x1^X2=x2 ^…^Xn=xn)= P(C=c) Xác suất P(C=c) tính dễ dàng từtập liệu huấn luyện Xác suất P(X1=x1^X2=x2^… ... cho ngưỡng đểphânloại email spam hay không , xác suất lơn t , ta cho email spam , ngược lại ta xem email non-spam 3.3 .2 Chọn ngưỡng phânloại email Trong phânloại email , có hai loại sai lầm...
... cáo Khái niệm spam Các hướng tiếp cận xửlý với spam Một số khái niệm xác suất Phương pháp phânloại Naïve Bayesian Chọn ngưỡng phânloại email Khái ni ệm v ề spam Spam email phát ... cho tập mẫu , tập lớp mà mẫu thuộc C ={c1,c2,…,cm} Cho mẫu huấn luyện với giá trị thuộc tính tương ứng x1,…, xn , dự đoán mẫu thuộc lớp c€ C xác suất P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có giá trị lớn ... Phương pháp phân lo ại Naïve Bayesian Với X1, X2,…,Xn độc lập với : Phân lo ại email d ựa thu ật toán Naïve Bayesian Tập lớp mà email thuộc C = {spam, non-spam} Ch ọn ngư ỡng phân lo ại email...
... 634/(15+18+68+634 +22 +5) = 83 .2% UH = 22 /(15+18+68+634 +22 +5) = 2. 9% VB = 5/(15+18+68+634 +22 +5) = 0.6% Vì tự điển có giới hạn nên chắn xảy trường hợp từtừ điển Để giải trường hợp này, đưa vào tập hợp heuristics ... adverb, 22 lần interjection lần singular verb Từ đây, ta tính xác suất tương ứng từloạitừ “well” sau: JJ = 15/(15+18+68+634 +22 +5) = 1.9% NN = 18/(15+18+68+634 +22 +5) = 2. 3% QL = 68/(15+18+68+634 +22 +5) ... lỗi nêu (2. 9%) Hai dạng lỗi thứthứ minh họa cho khó khăn việc phân biệt câu bên câu Vấn đềxửlý cách tạo phânloại cho dấu chấm câu Tương tự, dạng lỗi lại có thểõ giải cách tạo phânloại cho...
... Dung Trình Bày Mở đầu Tách câu HEURISTICS 2. 1 Xửlý dấu chấm 2.2Xửlý dấu câu ngoặc Tách câu mạng NEURAL 3.1 Bộ phận tách token 3 .2 Bộ phận xác định từloại 3.3 Xây dựng mảng mơ tả cho từ 3.4 ... bước 3 .2 Bộ Phận xác định từloại 3 .2. 1 Biểu Diễn Ngữ Cảnh + Ngữ cảnh xung quanh dấu chấm câu biễu diễn nhiều cách khác + Ở đây, đưa cách tiếp cận xấp xỉ ngữ cảnh xung quanh dấu chấm câu + Ngữ cảnh ... dạng nhất, có tính chất chung dấu chấm không nằm cuối từ, hai ký tự (nghóa khoảng trắng liền sau) nên dễ dàng phân biệt 2.2XửLý Dấu Câu Ngoặc - Khi tách câu gặp dấu mở ngoặc đơn, ngoặc kép,...
... trình - Chạy chương trình file Classifier.jar 15 - DANH MỤC TÀI LIỆU THAM KHẢO Bài giảng Xửlýngônngữtựnhiên – PGS.TS Lê Thanh Hương Bài giảng Học máy, Trí tuệ nhân tạo – TS Nguyễn Nhật Quang ... gồm: nội dung văn bản, từ khóa xuất tậptừ khóa, xác suất phânloại với nhãn lớp 12 IV Đánh giá độ xác phânloại a Phương pháp đánh giá Trong chương trình phânloại nhóm em sử dụng phương pháp đánh ... văn tập dataset sau tính toán độ xác phânloại chương Độ xác phânloại nhãn đánh giá độ xác (Precision) Sau độ xác chương trình đánh giá Macro-Averaging, trung bình cộng độ xác phânloại phân...
... chúng duyệt web có tác động người 2. Bộ lập mục Hệ thống lập mục hay gọi hệ thống phân tích xửlý liệu, thực việc phân tích, trích chọn thông tin cần thiết (thư ng từ đơn , từ ghép , cụm từ quan ... web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Tuy nhiên tồn nghịch lý dù ví thư viện toàn cầu, internet không thoả mãn nhu cầu thông tin người Xung quanh vấn đề có nhiều nguyên nhân quan trọng ... Google Panda để thay cho Google Cafein Nó tập hợp thuật toán phức tạp Với tầm nhìn rõ ràng Google Panda loại bỏ nội dung rác, nội dung copy, loại bỏ website có thư ng hiệu kém…Google Panda lọc quan...
... toán phân lớp website Phương pháp Naïve Bayes • Định lý Bayes: Phânloại Naïve Bayes • Biểu diễn toán phân loại: Một tập học D_train, ví dụ học x biểu diễn vector n chiều (x1, x2,…, xn) Một tập ... c2,…, cm} Với ví dụ z, ta cần xác định xem z phânloại vào lớp nào? • Mục tiêu: xác định phân lớp phù hợp với z Phânloại Naïve Bayes • Vì xác suất P(z1, z2,…, zn) lớp nên ta cần tìm: Phânloại ... • Lại có, phương pháp phânloại Naïve Bayes, giả sử thuộc tính độc lập có điều kiện lớp Vậy: Phânloại Naïve Bayes • Phânloại Naïve Bayes tìm phân lớp ví dụ z là: Phânloại Naïve Bayes – giải...
... nhận góp ý cô Em cảm ơn! IV Tài liệu tham khảo [1] Bài giảng môn Trí tuệ nhân tạo – TS Nguyễn Nhật Quang, Viện CNTT&TT ĐHBK Hà Nội [2] Bài giản mônXửlýngônngữtựnhiên – TS Lê Thanh Hương, ... trình đểxửlý tách từ văn thuộc tập liệu huấn luyện D_train Loại bỏ Stop-Word: chất ngônngữtựnhiên có từ xuất nhiều không mang ý nghĩa đểphânloại Các từ gọi stop-word Chúng em tiến hành loại ... posteriori - MAP): 1 .2 - - Phânloại Naïve Bayes Biểu diễn toán phân loại: o Một tập học D_train, ví dụ học x biểu diễn vectơ n chiều: (x1, x2,…, xn) o Một tập xác định nhãn lớp: C = {c1, c2,…, cm} o Với...
... để chọn tập đặc trưng có lợi để tạo phânloại cho thuật toán học với ví dụ có nhãn nhãn Ngoài ra, tựnhiên kiểm soát nội dung trang web lại đưa thách thức phânloại trang web với phânloại văn ... dụng tập học webKB Có 7000 trang web chia làm nhãn Với tập ta lấy ngẫu nhiên số lượng web nhãn cho làm tập học phânloại số trang lại, so sánh kết phânloại với nhãn ban đầu đưa độ xác phép phân ... bước xửlý liệu quan trọng phânloại trang web thể trang web tập liệu nhiều chiều Đối với nhiều thuật toán học việc xửlý nhiều chiều không phép Hơn nữa, nhiều chiều không liên quan tới việc phân...
... truyền nhãn Tập học Kết phânloại Lặp số lần Mô hình hóa website, xây dựng từ điển từ • • • Đọc website dạng text, loại bỏ thẻ html, loại bỏ stopword, stemming để đưa từ gốc Xây dựng tậptừ điển ... nút j Bài toán phânloại Web • Cho đồ thị G(V,E,W) đó: • Xây dựng mô hình gán nhãn cho đỉnh chưa gán nhãn Vu – V tập đỉnh hay trang Web – E tập cạnh (có link) – W ma trận trọng số cạnh – Tập nhãn ... pháp, thể thao,…} – Vl: Tập nút gán nhãn (y1,y2,…,yl) – Vu = V\Vl: Tập nút chưa gán nhãn Giải thuật lan truyền nhãn Ma trận gán nhãn - Y Với xác suất nút i gán nhãn j m nhãn Tập website mẫu Vl (>5000)...
... Google Panda để thay cho Google Cafein Nó tập hợp thuật toán phức tạp Với tầm nhìn rõ ràng Google Panda loại bỏ nội dung rác, nội dung copy, loại bỏ website có thư ng hiệu kém…Google Panda lọc quan ... thông thư ng mà Search Engine hay áp dụng cho điểm cao với từ khoá nằm anchor text(liên kết), thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 từ khoá in đậm, viết hoa Chúng ta biết văn thư ng ... trả tập viết có từ "ca", "sỹ", "mỹ", "tâm" khoảng cách từthư ng không năm từ Đây thuật toán hay tương đối dễ cài đặt Thuật toán kết hợp với phương thức phân tích cao cấp để xác định vấn đề quan...
... tốc độ hàng trăm ngàn Gb ngày Bộ tìm kiếm thông tin Xửlý truy vấn từ phía người sử dụng Tiếp nhận yêu cầu tìm kiếm, phân tích từ ngữ, tìm kiếm Cơ sở liệu mục, so khớp từ khóa, lấy kết phù ... tốn Google lượng tài nguyên “khủng” Theo tính toán Google, giây hệ thống Caffeine có khả phân tích index 100 ngàn trang Hệ thống Caffeine chiếm gần 100 triệu Gigabyte lưu trữ lớn lên theo tốc ... Maps, Google Groups … Google Search Engine Google Bot Google Bot “ bọ tìm kiếm “ phân rải website Có chức xửlý thông tin website : sàng lọc thông tin mới, thu thập thông tin vào kho liệu Google...
... kí tự chữ,kí tự số,kí tự $,kí tự gạch ngang ‘-’,kí tự gạch dưới ‘_’,kí tự nháy đơn ‘ ‘ ’ kí tự cấu tạo thành token Còn kí tự lại khoảng trắng ,kí tự ‘*’, kí tự ‘:’….được xem kí tự ... =P(AB) 2.2 .2 Công thức xác suất đầy đủ Gỉa sử B1,B2,……,Bn nhóm đầy đủ biến cố Xét biến cố A cho A xảy biến cố B1,B2,….,Bn xảy Khi đó : 2. 2.3 Công thức Bayes 2. 3 Phương pháp phânloại ... ngưỡng để phânloại email spam hay không,nếu xác suất lớn t email đó spam,ngược lại ta xem email đó non-spam 2. 4 .2 Chọn ngưỡng phânloại email Trong phânloại email có hai loại sai lầm...
... University Of Technology 10 /23 /14 IV Thư nghiệm • • 5.1 Tập liệu o o o • Nhóm em dùng kho liệu email chữ Tập huấn luyện: • 922 email non-spam và 594 email spam o Tỉ lệ: ≈ 0.64 425 Tập kiểm thử: • 73 ... Vấn đề Spam Email 1 .2 Học máy Tập học (Training set) Huấn luyện hệ thống Tối ưu hóa Tập tối ưu Tập dữ liệu (Validation set) (Data set) tham số hệ thống Thử nghiệm Tậpthư nghiệm hệ thống ... University Of Technology s NS s n + NS NN s TS s n + TS TN 10 /23 /14 II Phânloại Naïve Bayes • Khi số lần token xuất lớn số token phân biệt? min(1, • p ( X = w, C = spam) = Khi token xuất kho?...