0

bài tập lớn môn xử lý ngôn ngữ tự nhiên đề tài 2 phân loại thư rác

BÀI TẬP LỚN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Tìm hiểu về bài toán phân loại văn bản và thu thập thông tin

BÀI TẬP LỚN MÔN XỬ NGÔN NGỮ TỰ NHIÊN Tìm hiểu về bài toán phân loại văn bản và thu thập thông tin

Công nghệ thông tin

... dàng tập hợp tài liệu Nhóm 06 – CNPM K 52 Page 20 11 Bài tập lớn môn Xử ngôn ngữ tự nhiên phân lớp bằng tay dịch tự động sang nhiều ngôn ngữ khác Chúng ta xem xét nhiệm vụ phân loại văn chủ đề ... Page 15 20 11 Bài tập lớn môn Xử ngôn ngữ tự nhiên 2. 3 .2. 1.3 Thực Mỗi tài liệu cần đánh mục (index) số thuật ngữ, mỗi thuật ngữ miêu tả nội dung tài liêu Các thuật ngữ thư ng gọi thuật ngữ gắn ... Giải vấn đề phức tạp, nhiên chắn muốn phân tích câu xử văn tiếng Việt toán đặt làm thế để tách từ câu Nhóm 06 – CNPM K 52 Page 28 20 11 Bài tập lớn môn Xử ngôn ngữ tự nhiên 3.1.3 .2 Từ loại...
  • 34
  • 610
  • 0
Bài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền

Bài tập lớn xử ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền

Lập trình

... .23 VI- Tài liệu tham khảo 25 XỬ NGÔN NGỮ TỰ NHIÊN I Tổng quan Đặt vấn đề Xử ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung ... input : 0.txt File output output0.txt 24 XỬ NGÔN NGỮ TỰ NHIÊN VI- Tài liệu tham khảo 1- Bài giảng xử ngôn ngữ tự nhiên- Lê Thanh Hương 2- IGATEC-H.Nguyen 20 05 3- http://www.loria.fr/~lehong/tools/vnTokenizer.php ... ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ- công cụ hoàn hảo giao tiếp Thực chất xử ngôn ngữ tự nhiên chuyển...
  • 25
  • 3,008
  • 24
báo cáo bài tập lớn xử lý ngôn ngữ tự nhiên đề tài nhận dạng chữ viết

báo cáo bài tập lớn xử ngôn ngữ tự nhiên đề tài nhận dạng chữ viết

Kỹ thuật lập trình

... tầng ẩn 27 I .2. 5 Tập huấn luyện mạng Tập liệu sử dụng cho việc huấn luyện kiểm thử tập ảnh ký tự riêng rẽ Tập ảnh gốc tập gồm 62 lớp , lớp có 55 ảnh png 55 người viết khác ký tự Trong số 62 lớp ... 00 :28 :20 0.5 0.01113 32 101 49 600 00:19 :24 0.5 0.0 126 719 38 1 12 300 00:09 :24 0.5 0.0143953 18 1 32 100 00:03:59 0.5 0.0181330 99 51 900 00:37:55 0.6 0.01068697 105 45 600 00 :21 :26 0.6 0.0119 628 ... số, 26 lớp ảnh ký tự viết hoa, 26 lớp ảnh ký tự viết thư ng Các ảnh tạo chương trình vẽ máy tính, chúng không chứa nhiễu nên thuận tiện cho việc xử Các ảnh tập liệu ảnh có sẵn có kích thư c...
  • 40
  • 1,162
  • 2
slike thuyế trình báo cáo bài tập lớn xử lý ngôn ngữ tự nhiên đề tài nhận dạng chữ viết

slike thuyế trình báo cáo bài tập lớn xử ngôn ngữ tự nhiên đề tài nhận dạng chữ viết

Kỹ thuật lập trình

... mục tiêu F: X->{0,1 ,2, 3,4,5,6,7,8,9} • X : tập ảnh ký tự Tập mẫu cho trình huấn luyện kiểm tra • • • Tập ảnh ký tự đơn lẻ Số lượng : 55 ảnh/ký tự (55 người viết khác nhau) Phân chia • • • 40 ảnh ... 47 900 00 :28 :20 0.5 101 49 600 00:19 :24 0.5 38 1 12 300 00:09 :24 0.5 18 1 32 100 00:03:59 0.5 Kết True False Epochs Training time Learning rate 99 51 900 00:37:55 0.6 105 45 600 00 :21 :26 0.6 66 ... 300 00:09:37 0.6 20 130 100 00:03:37 0.6 96 54 900 00 :28 :47 1.0 99 51 600 00:19: 02 1.0 101 49 300 00:09:38 1.0 20 130 100 00:03:17 1.0 Tài liệu tham khảo • • • • Nhập môn xử ảnh số-Lương Mạnh...
  • 17
  • 649
  • 0
báo cáo môn môn xử lý ngôn ngữ tự nhiên

báo cáo môn môn xử ngôn ngữ tự nhiên

Kỹ thuật lập trình

... kí tự chữ , kí tự số , kí tự ‘$’ , kí tự gạch ngang ‘-’ , kí tự gạch ‘_’, kí tự nháy đơn ‘’ kí tự cấu tạo thành token Còn kí tự lại khoảng trắng , kí tự * , kí tự : ,… xem kí tự để tách hay phân ... ^X2=x2 ^ …^Xn=xn) có giá trị lớn Sử dụng công thức xác suất Bayes ta có : 10 P(C=c /X1=x1^X2=x2 ^…^Xn=xn)= P(C=c) Xác suất P(C=c) tính dễ dàng từ tập liệu huấn luyện Xác suất P(X1=x1^X2=x2^… ... cho ngưỡng để phân loại email spam hay không , xác suất lơn t , ta cho email spam , ngược lại ta xem email non-spam 3.3 .2 Chọn ngưỡng phân loại email Trong phân loại email , có hai loại sai lầm...
  • 18
  • 504
  • 1
slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

slike môn xử ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

Kỹ thuật lập trình

... cáo      Khái niệm spam Các hướng tiếp cận xử với spam Một số khái niệm xác suất Phương pháp phân loại Naïve Bayesian Chọn ngưỡng phân loại email Khái ni ệm v ề spam  Spam email phát ... cho tập mẫu , tập lớp mà mẫu thuộc C ={c1,c2,…,cm} Cho mẫu huấn luyện với giá trị thuộc tính tương ứng x1,…, xn , dự đoán mẫu thuộc lớp c€ C xác suất P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có giá trị lớn ... Phương pháp phân lo ại Naïve Bayesian  Với X1, X2,…,Xn độc lập với : Phân lo ại email d ựa thu ật toán Naïve Bayesian  Tập lớp mà email thuộc C = {spam, non-spam} Ch ọn ngư ỡng phân lo ại email...
  • 14
  • 382
  • 0
báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

Kỹ thuật lập trình

... 634/(15+18+68+634 +22 +5) = 83 .2% UH = 22 /(15+18+68+634 +22 +5) = 2. 9% VB = 5/(15+18+68+634 +22 +5) = 0.6% Vì tự điển có giới hạn nên chắn xảy trường hợp từ từ điển Để giải trường hợp này, đưa vào tập hợp heuristics ... adverb, 22 lần interjection lần singular verb Từ đây, ta tính xác suất tương ứng từ loại từ “well” sau: JJ = 15/(15+18+68+634 +22 +5) = 1.9% NN = 18/(15+18+68+634 +22 +5) = 2. 3% QL = 68/(15+18+68+634 +22 +5) ... lỗi nêu (2. 9%) Hai dạng lỗi thứ thứ minh họa cho khó khăn việc phân biệt câu bên câu Vấn đề xử cách tạo phân loại cho dấu chấm câu Tương tự, dạng lỗi lại có thểõ giải cách tạo phân loại cho...
  • 27
  • 649
  • 0
slike thuyết trình báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

slike thuyết trình báo cáo sư lỹ ngôn ngữ tự nhiên đề tài xác định biên giới câu

Kỹ thuật lập trình

... Dung Trình Bày Mở đầu Tách câu HEURISTICS 2. 1 Xử dấu chấm 2. 2 Xử dấu câu ngoặc Tách câu mạng NEURAL 3.1 Bộ phận tách token 3 .2 Bộ phận xác định từ loại 3.3 Xây dựng mảng mơ tả cho từ 3.4 ... bước 3 .2 Bộ Phận xác định từ loại 3 .2. 1 Biểu Diễn Ngữ Cảnh + Ngữ cảnh xung quanh dấu chấm câu biễu diễn nhiều cách khác + Ở đây, đưa cách tiếp cận xấp xỉ ngữ cảnh xung quanh dấu chấm câu + Ngữ cảnh ... dạng nhất, có tính chất chung dấu chấm không nằm cuối từ, hai ký tự (nghóa khoảng trắng liền sau) nên dễ dàng phân biệt 2. 2 Xử Dấu Câu Ngoặc - Khi tách câu gặp dấu mở ngoặc đơn, ngoặc kép,...
  • 22
  • 611
  • 0
báo cáo sử lý ngôn ngữ tự nhiên đề tài phân nhóm văn bản sử dụng phương pháp học naïve bayes

báo cáo sử ngôn ngữ tự nhiên đề tài phân nhóm văn bản sử dụng phương pháp học naïve bayes

Kỹ thuật lập trình

... trình - Chạy chương trình file Classifier.jar 15 - DANH MỤC TÀI LIỆU THAM KHẢO Bài giảng Xử ngôn ngữ tự nhiên – PGS.TS Lê Thanh Hương Bài giảng Học máy, Trí tuệ nhân tạo – TS Nguyễn Nhật Quang ... gồm: nội dung văn bản, từ khóa xuất tập từ khóa, xác suất phân loại với nhãn lớp 12 IV Đánh giá độ xác phân loại a Phương pháp đánh giá Trong chương trình phân loại nhóm em sử dụng phương pháp đánh ... văn tập dataset sau tính toán độ xác phân loại chương Độ xác phân loại nhãn đánh giá độ xác (Precision) Sau độ xác chương trình đánh giá Macro-Averaging, trung bình cộng độ xác phân loại phân...
  • 16
  • 624
  • 0
báo cao sư lỹ ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuậ

báo cao sư lỹ ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuậ

Kỹ thuật lập trình

... chúng duyệt web có tác động người 2. Bộ lập mục Hệ thống lập mục hay gọi hệ thống phân tích xử liệu, thực việc phân tích, trích chọn thông tin cần thiết (thư ng từ đơn , từ ghép , cụm từ quan ... web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Tuy nhiên tồn nghịch dù ví thư viện toàn cầu, internet không thoả mãn nhu cầu thông tin người Xung quanh vấn đề có nhiều nguyên nhân quan trọng ... Google Panda để thay cho Google Cafein Nó tập hợp thuật toán phức tạp Với tầm nhìn rõ ràng Google Panda loại bỏ nội dung rác, nội dung copy, loại bỏ website có thư ng hiệu kém…Google Panda lọc quan...
  • 17
  • 1,102
  • 1
slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân lớp văn bản - phân loại website

slike thuyết trình báo cáo sử ngôn ngữ tự nhiên đề tài phân lớp văn bản - phân loại website

Kỹ thuật lập trình

... toán phân lớp website Phương pháp Naïve Bayes • Định Bayes: Phân loại Naïve Bayes • Biểu diễn toán phân loại:  Một tập học D_train, ví dụ học x biểu diễn vector n chiều (x1, x2,…, xn)  Một tập ... c2,…, cm}  Với ví dụ z, ta cần xác định xem z phân loại vào lớp nào? • Mục tiêu: xác định phân lớp phù hợp với z Phân loại Naïve Bayes • Vì xác suất P(z1, z2,…, zn) lớp nên ta cần tìm: Phân loại ... • Lại có, phương pháp phân loại Naïve Bayes, giả sử thuộc tính độc lập có điều kiện lớp Vậy: Phân loại Naïve Bayes • Phân loại Naïve Bayes tìm phân lớp ví dụ z là: Phân loại Naïve Bayes – giải...
  • 22
  • 945
  • 0
báo cáo sử lý ngôn ngữ tự nhiên đề tài phân lớp văn bản - phân loại website

báo cáo sử ngôn ngữ tự nhiên đề tài phân lớp văn bản - phân loại website

Kỹ thuật lập trình

... nhận góp ý cô Em cảm ơn! IV Tài liệu tham khảo [1] Bài giảng môn Trí tuệ nhân tạo – TS Nguyễn Nhật Quang, Viện CNTT&TT ĐHBK Hà Nội [2] Bài giản môn Xử ngôn ngữ tự nhiên – TS Lê Thanh Hương, ... trình để xử tách từ văn thuộc tập liệu huấn luyện D_train Loại bỏ Stop-Word: chất ngôn ngữ tự nhiêntừ xuất nhiều không mang ý nghĩa để phân loại Các từ gọi stop-word Chúng em tiến hành loại ... posteriori - MAP): 1 .2 - - Phân loại Naïve Bayes Biểu diễn toán phân loại: o Một tập học D_train, ví dụ học x biểu diễn vectơ n chiều: (x1, x2,…, xn) o Một tập xác định nhãn lớp: C = {c1, c2,…, cm} o Với...
  • 14
  • 1,107
  • 0
báo cáo sử lý ngôn ngữ tự nhien đề tài  phân loại website sử dụng lan truyền nhãn

báo cáo sử ngôn ngữ tự nhien đề tài phân loại website sử dụng lan truyền nhãn

Kỹ thuật lập trình

... để chọn tập đặc trưng có lợi để tạo phân loại cho thuật toán học với ví dụ có nhãn nhãn Ngoài ra, tự nhiên kiểm soát nội dung trang web lại đưa thách thức phân loại trang web với phân loại văn ... dụng tập học webKB Có 7000 trang web chia làm nhãn Với tập ta lấy ngẫu nhiên số lượng web nhãn cho làm tập học phân loại số trang lại, so sánh kết phân loại với nhãn ban đầu đưa độ xác phép phân ... bước xử liệu quan trọng phân loại trang web thể trang web tập liệu nhiều chiều Đối với nhiều thuật toán học việc xử nhiều chiều không phép Hơn nữa, nhiều chiều không liên quan tới việc phân...
  • 9
  • 523
  • 1
slike thuyết trình báo cáo sử lý ngôn ngữ tự nhien đề tài  phân loại website sử dụng lan truyền nhãn

slike thuyết trình báo cáo sử ngôn ngữ tự nhien đề tài phân loại website sử dụng lan truyền nhãn

Kỹ thuật lập trình

... truyền nhãn Tập học Kết phân loại Lặp số lần Mô hình hóa website, xây dựng từ điển từ • • • Đọc website dạng text, loại bỏ thẻ html, loại bỏ stopword, stemming để đưa từ gốc Xây dựng tập từ điển ... nút j Bài toán phân loại Web • Cho đồ thị G(V,E,W) đó: • Xây dựng mô hình gán nhãn cho đỉnh chưa gán nhãn Vu – V tập đỉnh hay trang Web – E tập cạnh (có link) – W ma trận trọng số cạnh – Tập nhãn ... pháp, thể thao,…} – Vl: Tập nút gán nhãn (y1,y2,…,yl) – Vu = V\Vl: Tập nút chưa gán nhãn Giải thuật lan truyền nhãn Ma trận gán nhãn - Y Với xác suất nút i gán nhãn j m nhãn Tập website mẫu Vl (>5000)...
  • 11
  • 355
  • 0
báo cáo sử lý ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật

báo cáo sử ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật

Kỹ thuật lập trình

... Google Panda để thay cho Google Cafein Nó tập hợp thuật toán phức tạp Với tầm nhìn rõ ràng Google Panda loại bỏ nội dung rác, nội dung copy, loại bỏ website có thư ng hiệu kém…Google Panda lọc quan ... thông thư ng mà Search Engine hay áp dụng cho điểm cao với từ khoá nằm anchor text(liên kết), thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 từ khoá in đậm, viết hoa Chúng ta biết văn thư ng ... trả tập viết có từ "ca", "sỹ", "mỹ", "tâm" khoảng cách từ thư ng không năm từ Đây thuật toán hay tương đối dễ cài đặt Thuật toán kết hợp với phương thức phân tích cao cấp để xác định vấn đề quan...
  • 18
  • 498
  • 0
slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện

slike thuyết trình báo cáo sử ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện

Kỹ thuật lập trình

... tốc độ hàng trăm ngàn Gb ngày Bộ tìm kiếm thông tin  Xử truy vấn từ phía người sử dụng  Tiếp nhận yêu cầu tìm kiếm, phân tích từ ngữ, tìm kiếm Cơ sở liệu mục, so khớp từ khóa, lấy kết phù ... tốn Google lượng tài nguyên “khủng”  Theo tính toán Google, giây hệ thống Caffeine có khả phân tích index 100 ngàn trang  Hệ thống Caffeine chiếm gần 100 triệu Gigabyte lưu trữ lớn lên theo tốc ... Maps, Google Groups … Google Search Engine Google Bot  Google Bot “ bọ tìm kiếm “ phân rải website  Có chức xử thông tin website : sàng lọc thông tin mới, thu thập thông tin vào kho liệu Google...
  • 20
  • 545
  • 0
báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

báo cáo sử ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

Kỹ thuật lập trình

... kí tự chữ,kí tự số,kí tự $,kí tự gạch ngang ‘-’,kí tự gạch dưới ‘_’,kí tự nháy đơn ‘ ‘ ’ kí tự cấu tạo thành token Còn kí tự lại khoảng trắng ,kí tự ‘*’, kí tự ‘:’….được xem kí tự ... =P(AB) 2. 2 .2 Công thức xác suất đầy đủ Gỉa sử B1,B2,……,Bn nhóm đầy đủ biến cố Xét biến cố A cho A xảy biến cố B1,B2,….,Bn xảy Khi đó : 2. 2.3 Công thức Bayes 2. 3 Phương pháp phân loại ... ngưỡng để phân loại email spam hay không,nếu xác suất lớn t email đó spam,ngược lại ta xem email đó non-spam 2. 4 .2 Chọn ngưỡng phân loại email Trong phân loại email có hai loại sai lầm...
  • 17
  • 559
  • 1
slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

slike thuyết trình báo cáo sử ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

Kỹ thuật lập trình

... University Of Technology 10 /23 /14 IV Thư nghiệm • • 5.1 Tập liệu  o o o • Nhóm em dùng kho liệu email chữ Tập huấn luyện: • 922 email non-spam và 594 email spam o Tỉ lệ: ≈ 0.64 425 Tập kiểm thử: • 73 ... Vấn đề Spam Email 1 .2 Học máy Tập học (Training set) Huấn luyện hệ thống Tối ưu hóa Tập tối ưu Tập dữ liệu (Validation set) (Data set) tham số hệ thống Thử nghiệm Tập thư nghiệm hệ thống ... University Of Technology s NS s n + NS NN s TS s n + TS TN 10 /23 /14 II Phân loại Naïve Bayes • Khi số lần token xuất lớn số token phân biệt? min(1, • p ( X = w, C = spam) = Khi token xuất kho?...
  • 14
  • 482
  • 0

Xem thêm