Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản

69 838 2
Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC MỤC LỤC BẢNG DANH MỤC HÌNH HOẠ LỜI GIỚI THIỆU I Đặt vấn đề II Cơ sở lý thuyết 11 Khái niệm Text Mining 11 Kh i phá ữ liệu D t Mining 11 Kh i phá ữ liệu v n ản Text Mining 13 Bài toán phân loại v n ản Text c tegoriz tion 17 Khái niệm phân loại v n ản 17 Các phương pháp phân loại v n ản 18 Sử ụng từ điển phân cấp chủ đề 18 1.1 Giải thuật phân lớp phân cấp chủ đề 19 1.2 Sự phù hợp phân iệt củ trọng số 20 Phương pháp định Decision tree 22 Bài toán thu thập thông tin Inform tion retriev l - IR) 24 Khái niệm thu thập thông tin 24 Các phương pháp thu thập thông tin 26 Các phương pháp chuẩn 27 1.1 Mô hình Boole n 27 1.2 Mô hình không gi n vec-tơ Vector space model - VSM) 30 Các phương pháp ự trí tuệ nhân tạo AI-based method) 36 2.1 Kỹ thuật mạng Nơ-ron (Neural network) 37 Một số công cụ phân tích v n ản tiếng Anh 43 III Các giải pháp áp ụng cho Vietn mese Text Mining 48 Đặc trưng củ v n ản tiếng Việt 48 Các đơn vị củ tiếng Việt 48 Tiếng đặc điểm củ tiếng 48 1.1 Tiếng giá trị ngữ âm 48 1.2 Tiếng giá trị ngữ ngh 48 1.3 Tiếng giá trị ngữ pháp 49 Từ đặc điểm củ từ 50 2.1 Từ đơn vị nh để đặt câu 50 2.2 Từ c ngh hoàn ch nh cấu tạo n định 50 Câu đặc điểm củ câu 51 3.1 Câu c ý ngh hoàn ch nh 51 3.2 Câu c cấu tạo đ ạng 51 Các phương tiện ngữ pháp củ tiếng việt 51 Trong phạm vi cấu tạo từ 51 Trong phạm vi cấu tạo câu 52 c Từ tiếng việt 53 c.1 Từ đơn - từ gh p 53 c.2 Từ loại 54 c.3 Dùng từ cấu tạo ngữ 55 Câu tiếng việt 56 Câu đơn 57 d.2 Câu gh p 58 .2.1 Câu gh p song song 58 2.2 Câu gh p qu lại 59 d.2.3 Các thành ph n câu 59 e Các đặc điểm tả v n ản tiếng Việt 60 Các giải pháp, đánh giá hiệu quả, đề r giải pháp cho phân tích v n ản tiếng Việt 61 Bài toán phân loại v n ản tiếng Việt 61 Bài toán thu thập thông tin từ v n ản tiếng Việt 62 IV Xây ựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp c điển 64 Chương trình ài toán giải 64 Kết chạy chương trình 64 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 67 Các thông tin áo cáo 67 Cách chạy chương trình emo 67 TỪ ĐIỂN THUẬT NGỮ 69 BẢNG DANH MỤC HèNH HOẠ Hình 1: Một ví ụ định Hình Mô hình thu thập thông tin chuẩn Hình Đồ thị iểu iễn vec-tơ củ ài áo D1 D2 Hình 4: Đồ thị iểu iễn qu n hệ giữ truy vấn query tài liệu D1, D2 Hình Mạng nơ-ron: toán tử AND toán tử OR Hình Mạng nơ-ron với lớp ẩn: toán tử NOR Hình 7: Mô hình iểu iễn mạng nơ-ron Hình 8: Minh hoạ công cụ TextAn lyst Hình 9: Minh hoạ công cụ TextAn lyst nhỳng trờn Internet Explorer LỜI GIỚI THIỆU Ngày n y, sở ữ liệu trở thành ph n thiếu củ xã hội loài người Trong k nguyên thông tin này, thông tin lưu trữ xử lý hiệu h u hết thông qu sở ữ liệu S u g n 50 n m phát triển, sở ữ liệu c ước tiến vô qu n trọng lịch sử Công nghệ thông tin Từ mô hình Cơ sở ữ liệu qu n hệ o E.Co đề xuất từ n m 60, ng ụng công nghệ thông tin thực iờn viờc lưu trữ ữ liệu trở thành lưu trữ thông tin thông qu công cụ quản lý xử lý sở ữ liệu Ngày n y, nhu c u lưu trữ xử lý thông tin c mặt kh p nơi Ở ất c t ch c nào, với ất kỳ mô hình h y quy mô c ng c nhu c u lưu trữ kh i thác thông tin Khái niệm thông tin o gồm thông tin nội củ t ch c thông tin môi trường t ch c hoạt động Việc nghiên c u lý thuyết sở ữ liờu đ trở thành ngành kho học ng ụng Do tiến ộ vượt ậc nghiên c u lý thuyết c ng cài đặt thực tế, hệ quản trị sở ữ liệu trở thành tảng, ph n cốt yếu hoạt động củ t ch c Nhờ ch ng mà t ch c hoạt động hiệu Việc ng ụng sở ữ liệu đ giỳp làm giảm nhiều công s c l o động củ người nhờ đ hiệu suất l o động củ họ c o Hệ quản trị sở ữ liệu ngày n y không c n đơn thu n ch cấu cho ph p lưu trữ số liệu mà c n k m theo đ công cụ, tiện ích h y phương pháp luận để chuyển đ i số liệu thành thông tin Tập tất công cụ o người ùng phát triển o nhà cung cấp ph n mềm tung r để phục vụ cho mục đích hoạt động củ t ch c, tối ưu theo yêu c u nghiệp vụ củ t ch c gọi ng ụng h trợ xử lý tác nghiệp C o nữ , nhu c u sử ụng thông tin m c c o cấp để h trợ nhu c u phân tích củ nhà lãnh đạo, nhà lập chiến lược t ch c, loại ng ụng r đời phục vụ cho mục đích với tên gọi “hệ phân tích xử lý trực tuyến” Ở ng ụng này, thông tin lưu trữ, xử lý kết xuất theo mục đích cụ thể ưới ạng hướng chủ đề Nhờ thông tin ạng mà phân tích, nhà lãnh c thể đư r định hoạt động cách hiệu Khi mô hình ữ liệu phát triển m c độ c o hơn, thông tin lưu trữ ưới ạng ữ liệu phong ph đ ạng hơn, người t nhận r c n nhiều tri th c c n tiềm ẩn ữ liệu mà m c phân tích trước đ không phát r Lý o củ vấn đề phân tích trước đ ch hướng mục đích cụ thể củ người Các mục đích cố định phân tích hoàn toàn o người đư r hoàn cảnh cụ thể Khi thông tin phản ánh môi trường th y đ i người không nhận r để điều ch nh phân tích đư r phân tích Các tri th c đ c thể hướng kinh o nh, ự áo thị trường, c ng c thể mối qu n hệ giữ trường h y nội ung ữ liệu mà người không hình ung r tiến hành mô hình hoá hệ thống Vì thế, ngành nghiên c u Phát tri th c sở ữ liệu Knowle ge Discovery in D t se r đời với ài toán Kh i phá ữ liệu D t Mining làm trung tâm nghiên c u Các tư tưởng nghiên c u thuật toán Trí tuệ nhân tạo Hệ chuyên gi áp ụng thu kết qu n trọng như: định, mạng nơ-ron H u hết thuật toán nghiên c u cho D t Mining tập trung trờn c c nguụn số liệu c cấu tr c structure t Nhưng ph n lớn thông tin mà ch ng t lưu trữ tr o đ i h ng ngày lại lưu trữ ưới ạng ữ liệu án cấu tr c semi-structure t phi cấu tr c non-structured data) Ví ụ nhà xuất ản, hệ thống tr ng we trờn we site, tập công v n, giấy tờ, áo cáo, thư tín điện tử công ty Thậm chí t c thể nhận thấy r ng mụt hờ quản trị sở ữ liệu nơi mà ữ liệu lưu trữ c cấu tr c ữ liệu kiểu text v n chiờm mụt t lệ c o Do đ vấn đề đặt r làm để c thể tìm kiếm kh i thác tri th c từ nguồn ữ liệu Các kỹ thuật để giải vấn đề gọi kỹ thuật TextMining h y Kh i phá ữ liệu v n ản Bài toán Kh i phá ữ liệu v n ản không ch tập trung vào h y nh m c c thông tin lưu trữ ưới ạng v n ản, vấn đề đặt r làm c thể Kh i phá thông tin theo lịch sử, từ kh hướng ự đoán tương l i Những tri th c tưởng trừng vô ích kh c thể phát để sử ụng cho mục đích s u Một số ài toán qu n trọng Kh i phá ữ liệu v n ản h y x t đến ài toán “Text Cl ssific tion”, “Text Sum riz tion”, “Text C tegoriz tion” Trên giới c nhiều thành công đề tài phân lớp v n ản nghiên c u củ hãng IBM, ph ng thí nghiệm MIT h y viện nghiên c u củ trường đại học Mỹ, Pháp, Nhật Bản, C n Tuy nhiên, thành công đ chủ yếu tập trung vào vấn đề nghiên c u v n ản tiếng Anh, tiếng Pháp Những ngôn ngữ ngôn ngữ tương đối thuận lợi xử lý Hiện n y, chư c công cụ coi hiệu l nh vực kh i phá v n ản tiếng Việt Nền Công nghệ thông tin củ nước t phát triển hết s c mạnh mẽ Do nhu c u hội nhập, nhu c u phát triển kinh tế, v n hoá, Xã hội ngày t ng, thông tin xử lý thông qu v n ản điện tử, qu we , qu em il phát triển với tốc độ ch ng mặt Từ đ , nhu c u nghiên c u xây ựng công cụ Kh i phá ữ liệu v n ản tiếng Việt đ ng hết s c coi trọng Trong đề tài thực tập này, em xin trình ày nghiên c u t ng qu n củ em Text Mining ng ụng củ n thu thập thông tin từ liệu văn phân loại liệu văn Mục đích củ đề tài hướng tới phát triển công cụ phân loại v n ản tiếng Việt nghiên c u s u đề tài luận v n tốt nghiệp Em xin chân thành cảm ơn th y Nguyễn Ngọc Bỡnh đ giỳp em nhiều trình hướng ẫn em nghiên c u đề tài Em xin cảm ơn nh Lưu Anh Tuấn đ giỳp em số định hướng trình nghiên c u đề tài I Đặt vấn đề Như ch ng t iết, h u hết thông tin tr o đ i n y n m ưới ạng tài liệu v n ản Các thông tin đ c thể ài áo, tài liệu kinh o nh, thông tin kinh tế, ài nghiên c u kho học Dù áp ụng Cơ sở ữ liệu vào hoạt động củ t ch c ph iến đem lại nhiều lợi ích lưu trữ xử lý, t quên r ng c n nhiều ạng thông tin khác lưu trữ ưới ạng v n ản Thậm chí ng y thông tin lưu sở ữ liệu ph n lớn số ch ng c ng t ch c ưới ạng v n ản Hiện n y, t ch c áp ụng công nghệ thông tin vào quản lý hệ thống công v n giấy tờ, ví ụ hệ thống sử ụng Lotus No e Tuy nhiên đ ch thực cách quản lý luồng ữ liệu v n ản, cung cấp công cụ kho ch , c n ữ liệu thực n m ưới ạng v n ản Ch ng t chư c giải thuật phân loại, tìm kiếm tài liệu, công cụ trích lọc thông tin nh m mục đích thống kê, phát tri th c, r định trực tiếp nguồn ữ liệu kiểu Với thực tế đ , vấn đề đặt r làm ch ng t c thể kh i thác thông tin hữu ích từ nguồn tài liệu v n ản n i chung Các nguồn ữ liệu phải xử lý để người ùng c thể c công cụ tự động hoá trợ gi p việc phát tri th c kh i thác thông tin R ràng, ch ng t phải hiểu r ản chất củ ữ liệu v n ản, hiểu r đặc trưng củ ữ liệu loại để c thể c phương pháp luận c n thiết Việc kh i thác thông tin từ nguồn ữ liệu v n ản t ch c Việt N m ch c ch n phải ự vào kết nghiên c u v n ản n i chung, ữ liệu v n ản kỹ thuật xử lý phát triờn trờn giới Tuy nhiên, v n ản tiếng Việt lại c đặc trưng riêng củ n T c thể nhận thấy ng y khác iệt mặt kí pháp, c pháp ngữ pháp tiếng Việt v n ản so với ngôn ngữ ph iến giới tiếng Anh, tiếng Pháp Vậy đặc trưng ảnh hưởng đến kỹ thuật kh i phá ữ liệu v n ản, t c n phải c ký thuật để c thể tận ụng ưu củ tiếng Việt c ng giải ph c tạp tiếng Việt Để trả lời câu h i này, đồ án từ ước nghiên c u Kh i phá ữ liệu v n ản, tìm hiểu đặc trưng củ tiếng Việt, từ đ đề r phương hướng gi p giải ài toán phân loại v n ản tiếng Việt ph c tạp nghiên c u c o Các kết củ nghiên c u đề tài thực tập ước tiến đ u tiên cho luận v n tốt nghiệp củ em với đề tài “Phõn loại văn tiếng Việt phương pháp phân tích cỳ phỏp.” 10 Theo [3], tiếng Việt c thể c từ loại s u: - D nh từ - Động từ - Tính từ - Ph từ - Liên từ sẽ, đã, rụi, r t củ , - Đại từ tôi, n , nh, em, h n - Trợ từ nh , hả, nh - Cảm từ chà, ch o ôi, vâng, - Số từ một, h i - Loại từ con, - Giới từ cùng, với, - Trạng từ hôm qu ng, để Tất nhiên việc phân loại ch c ý ngh tương đối, nhiều tài liệu khác nh u c khác nh u phân chi từ theo từ loại Nếu xem x t cách kỹ lưỡng nữ mặt c pháp, m i loại từ lại c n c thể chi nh nữ , ví ụ r t ph từ ứng trư c mụt c u n ch đ ng trước tính từ đề nhấn mạnh hiệu iểu đạt củ tính từ c D ng từ cấu tạo ng Ngữ đơn vị ngữ pháp ậc trung gi n giữ từ câu [3] 55 Việc tìm hiểu cấu tạo c ng loại ngữ c n thiết để tì m hiểu cấu tạo củ câu Qu cấu tạo củ ngữ, c thể nhận r thêm đặc điểm ngữ pháp củ từ loại tiểu loại Theo [3], t c số nhận x t s u: - Ngữ cấu tạo theo qu n hệ c pháp phụ - t từ c ng ùng để iểu qu n hệ phụ giữ tố với số loại phụ tố s u Ví ụ b o củ tôi" - Khi phụ tố s u o thực từ đảm nhiệm n i chung phụ tụ y c thể ngữ Ví ụ ột người / học sinh / r t thông minh" Ta c thể x t số ngữ loại s u [3]: - D nh ngữ: Ngữ c nh từ làm trung tâm - Động ngữ: Ngữ c động từ làm trung tâm - Tính ngữ: Ngữ c tính từ làm trung tâm - Giới ngữ: Ngữ tđ u ng giới từ C ng phân tích ph n từ loại, để c thể xây ựng hệ thống luật c pháp tốt, t c n phải phân chi ngữ loại cách chặt ch hơn, ví ụ: t c ột nh ngữ c i cầu, nờu thờm mụt số từ nữ , ví ụ nh ngữ " ột c i cầu phải danh ngữ ràng t mở rụng vờ phái trái t thúc tr i r nh ngữ nữ Toàn ộ từ loại ngữ loại chi tiết nêu ph n xây ựng luật c pháp d Câu tiếng việt 56 Câu đơn vị ùng từ, h y đ ng ùng ngữ mà cấu tạo nên trình tư uy, thông áo; n c ngh hoàn ch nh, c cấu tạo ngữ pháp c tính chất độc lập [3] X t cấu tr c câu, tiếng Việt c h i loại câu câu ơn câu ghép d.1 Câu đơn Câu đơn loại câu sở củ tiếng Việt, o gồm n ng cốt đơn h y kết cấu chủ vị Về mặt ngữ ngh , câu đơn m ng ngh tự thân, c n câu gh p m ng ngh kết hợp Câu đơn c thể câu kh ng định, câu phủ định, câu nghi vấn, câu tường thuật, c u c u khiến, câu iểu cảm Ví ụ: - Cái xe tốt - Tôi chư làm xong việc - Anh làm chư - N đ ng đến trường - Con ngủ - Con m o đ p làm s o N ng cốt đơn củ câu đơn kết cấu chủ vị Ngoài r , câu đơn c n c thành ph n n ng cốt [3]: - Thành ph n th n gọi Ví ụ bạn ơi, i n o" - Thành ph n chuyển tiếp Ví ụ l nh Trường, trái lại, hông cả" - Thành ph n ch thích Ví ụ N , em tôi, r t thông inh" - Thành ph n tình Ví ụ dạng nh phân" 57 Trong máy tính, liệu - Thành ph n khởi ý Ví ụ Thu c, anh hông hút" Để iểu iễn câu đơn, người t thường ùng mô hình suy iễn câu đơn s u: Px - Cx - Vx - Bx Với P: thành ph n phụ C: chủ ngữ V: vị ngữ B: B ngữ, định ngữ x: thành ph n c thể kh i triển tiếp Cách iểu iễn r ràng thuận tiện việc xây ựng ộ luật c pháp tiến hành phân tích c pháp cho câu đ u vào d Câu gh p Về mặt ngữ pháp, câu gh p o gồm ộ phận chủ yếu n ng cốt gh p, tạo nên ởi h i vế mụi vờ thường o gồm n ng cốt đơn Ví ụ: Mây t n, mư tạnh Tuy r ng câu đơn ch c n ng cốt đơn o câu đơn c ng ng n câu gh p, c c u r t đơn giản c u trờn c ng câu gh p Người t c thể chi câu gh p thành h i loại: câu gh p song song câu gh p qu lại [3] d.2.1 Câu ghép song song Là loại câu gh p c thể c h i vế h y nhiều hơn, nhiên liên kết giữ vế l ng l o, c thể tách thành câu đơn mà ảo toàn ngh 58 Trong số trường hợp vế c qu n hệ, sử ụng kết từ, nhiên ý ngh độc lập củ vờ v n tương đối r ràng Ví ụ: Khán giả h reo, cờ phất rực trời, đấu iễn r liệt N v y tụi tụi tiờn lại phí n d.2.2 Câu ghép qua lại Là loại câu c h i vế vế điều kiện tồn củ vế ki C h i vế câu c ý ngh thường người t trọn v n Nối giữ h i vế liên từ, thông ùng cặp liên từ T c thể iểu iễn câu gh p c u c ạng s u: xN1 + yN2 Một liên từ c thể loại i) N1 (cho) nên/ - ( - Để N1 (cho) nên/ T c số ví ụ s u: N2 N2 - N u N1 N2 - hông N1 c n N2 - Tôi th n chết V phở ngon nên cử hành củ n đông khách d.2.3 C c th nh phần câu - Chủ ngữ: Thành ph n chủ yếu củ câu 59 - Vị ngữ: Thành ph n chính, sung, giải thích ý ngh cho thành ph n chủ ngữ - Trạng ngữ: Thành ph n th yếu, sung ý ngh cho câu, ch sung ý ngh cho động từ nơi chốn, thời gi n, không gi n - B ngữ: Thành ph n phụ thuộc, làm vị ngữ - Định ngữ: Thành ph n phụ thuộc, sung ý ngh cho vị ngữ e Các đ c điểm tả v văn tiếng Việt Hiện n y, tả tiếng Việt chư thống nhất, c quy t c chuẩn mực định Việc nghiên c u đặc điểm tả tiếng Việt c ý ngh đặc iệt qu n trọng kh u tiờn xử lý ữ liệu, tạo nguồn ữ liệu đ u vào cho ph s u phân tích c pháp h y đánh trọng số cho từ terms , lập ch mục Một số vấn đề tả tiếng Việt mà t c n qu n tâm s u: - C c chữ ng â : Các chữ đồng âm “M ”/ “Mỹ”, “k ”/ “kỹ” thường ị sử ụng lẫn nh u - Từ a phương: Trong v n ản người t thường sử ụng số từ đị phương th y cho từ ph thông Ví dụ “cây kiểng” thay cho “cây cảnh” - tr d u: Theo quy định đánh ấu tiếng Việt, ấu đặt nguyên âm c ưu tiên c o Tuy nhiên viết v n ản, o m i người sử ụng ộ g tiếng Việt khác nh u nờn nhiờu ấu đặt không theo chuẩn Ví ụ h i chữ: “h ” hay “hoả” 60 - C ch vi t hoa: Theo quy định, đ u c u đ u tên riêng phải viết ho Tuy nhiên tồn số cách viết s u: “T ng công ty Dệt may Việt n m” - hiên â ti ng nư c ngo i: Các cách viết s u chấp nhận mà không c quy chuẩn v n ản tiếng Việt: “Singapore”/ “Xinh-ga-po” - Từ gạch nối: Do cách viết ấu gạch nối tuỳ tiờn nờn phân iệt giữ nối tên riêng h y ch thích Những vấn đề vừ nêu thực gây r nhiễu ữ liệu đ u vào, đ i h i phải c hệ thống tiền xử lý tốt, đảm ảo cho việc phân tích c pháp thực c hiệu Các giải pháp đánh giá hiệu đề giải pháp cho phân tích văn tiếng Việt C nhiều ài toán phân loại v n ản Tuy nhiên, em ch xin nh c tới h i ài toán đại iện, c ng h i ài toán đ ng qu n tâm nhiều Đ ài toán phân loại v n ản tiếng Việt thu thập thông tin từ v n ản tiếng Việt B i toán phân loại văn tiếng Việt C n xây ựng hệ thống c thể phân loại tài liệu tiếng Việt H y n i khác đi, đư r tài liệu tiếng Việt, hệ thống c n ch r r ng đ loại v n ản thuộc chủ đề v n hoá, kinh tế, trị, thể th o, Ở ch ng t trình ày h i phương pháp phân loại khác nh u, đ phương pháp sử ụng từ điển phân cấp chủ đề phương pháp định 61 Đối với giải thuật sử ụng từ điển phân cấp chủ đề, c thể hiểu phương pháp chuẩn Quá trình thực ễ àng kết lường trước Tuy nhiên, phương pháp thu hiệu không c o Lý o phương pháp không đề cập đến vấn đề ngữ ngh củ v n ản Ở phương pháp th h i, ch ng t g n ài toán vào ạng trí tuệ nhân tạo So với phương pháp trước phương pháp cho kết tốt o tính mềm o, tính tự học củ giải thuật Tuy nhiên, kết đạt c n khiêm tốn Do số đặc trưng, đ nờu trên, củ v n ản tiếng Việt, việc phân tích v n ản ph c tạp Việc áp ụng h i phương pháp đ nờu ch thu kết tương đối hạn chế Để giải giải ài toán phân loại v n ản tiếng Việt cách triệt để phương pháp phân tích c pháp ưu tiên lên hàng đ u Trong đề tài củ em chư đề cập đến phương pháp N thuộc vào phương pháp lý ngôn ng tự nhiên Do thời gi n c hạn hướng tiếp cận n đ u không đ ng, nên em để ng phương pháp Tuy nhiên, hướng mục tiêu củ em kì làm luận v n tốt nghiệp tới tập trung giải chuyết ài toán Đ là: “Phõn loại văn tiếng Việt phương pháp phân tích cú pháp.” b B i toán thu thập thông tin từ văn tiếng Việt Ở ch ng t đ chỡnh ày phương pháp cho ài toán thu thập thông tin Đ phương pháp: mô hình Boole n, mô hình không gi n vec-tơ, mạng nơ-ron 62 Đối với mô hình Boole n, phương pháp truy vấn thông tin ự theo iểu th c logic ưu điểm lớn củ phương pháp tính đơn giản, ễ cài đặt tốc độ nh nh Tuy nhiên, hạn trế lớn củ n không gi n lưu trữ giá thành cho việc thêm ớt v n ản từ kho lưu trữ tài liệu Phương pháp th h i cài tiến số hạn trế củ phương pháp th c Tuy nhiên, nhược điểm lớn củ phương pháp tốc độ Tuy nhiên, phương án c tính khả thi c o Phương pháp nên áp ụng cho thu thập thông tin tiếng Việt Phương pháp th ự giải thuật trí tuệ nhân tạo ưu điểm củ phương pháp khả n ng huấn luyện củ hệ thống Khi mẫu huấn luyện phương pháp huấn luyện tốt, hệ thống cho r kết tốt Nhưng nhược điểm củ phương pháp giải thuật ph c tạp, kh cài đặt 63 IV Xây dựng th chương tr nh tách thuật ng tiếng Việt theo phương pháp cổ điển Chương tr nh toán đư c giải Để phục vụ cho ài toán phân tích v n ản tiếng Việt, em xây ựng thử nghiệm chương trình Tách thuật ng tiếng Việt Chương trình viết ng ngôn ngữ j v Bài toán đặt r mô tả s u: Xây dựng công cụ tỏch cỏc thuật ng văn tiếng Việt theo từ điển thuật ng có sẵn Đ u vào củ ài toán tệp tin ch tài liệu tiếng Việt định ạng Text ưới ạng phông VN ví ụ phông VnTime , tệp tin ch thông tin thuật ngữ c ng đinh ạng Text ưới ạng phông VN Đ u r củ ài toán tệp tin định ạng Text ởi phông VN, đ chư thông tin thuật ngữ tìm theo khuân ạng: “Tờn thuật ngữ ” số từ tìm Chương trình xây ựng ng ngôn ngữ j v đặt với tên tachthuatngu Kết chạy chương tr nh Khi chạy chương trình với tệp tin Test.txt tệp tin mẫu c s n với nội ung áo cáo nghiên c u lý thuyết tập thô, kết r với nội ung s u: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) 64 thông tin 40 hàm 34 kh i thác 33 truy vấn 26 thực 22 ữ liệu 22 tập thô 14 hệ thống 10) xử lý 10 không gi n ung s i phân nh m từ khoá lưu trữ nghiên c u ngữ ngh kh i phá ữ liệu khái niệm ch tiêu S u h i ng mở đ u, m i ng s u đ ghi tờn thuật ngữ tì ược (số lần xu t t i liệu) Ví ụ: với từ tập th 14 l n tài liệu 65 t thấy xuất TÀI LIỆU THAM KHẢO [1] “Text C tegoriz tion Using Hier rchic l Topic Diction ry” - Alexander Gelbu h Grigori Sidorov Adolfo Guzmỏn-Arenas [2] “M chine Le rning in Autom te Text C tegoriz tion” - Fabrizio Sebastiani [3] “Ngữ pháp tiờng Viờt” – Trung tâm Kho học xã hội Nhân v n quốc gi – Nhà xuất ản Kho học xã hội – Hà nội 2000 [4] “Inform tion retriev l: st n r n AI - based metho s” - Ilya Baraev 66 PHỤ LỤC Các th ng tin báo cáo Trên đ mềm gồm c : - Báo cáo ản softcopy n m tệp tin “A:\Docs\BaocaoTTTN oc”, “A:\Docs\BaocaoTTTN.p f” - Bản ảo vệ ng Microsoft PowerPoint “A:\Docs\B ove.ppt” - Chương trình emo ch mã nguồn viết mã ịch ch thư mục “A:\Project” ng j v ch o gồm thư mục “A:\Project\src” thư mục “A:\Project\t chthu tngu” Cách chạy chương tr nh demo Yêu c u: - Trên máy tính chư ộ ịch j v - Đặt đường ẫn đến thư mục ch tệp tin “j v exe” PATH - S o thư mục “A:\Project” vào nơi khác đ c ng Cách chạy: - Vào chế độ Command Prompt - Chuyển đến thư mục “Project” s o đ c ng - Ghừ vào ng lệnh: “j v t chthu tngu.M in ten_file_tai_lieu” - S u chương trình kết th c, kết ghi r tệp tin chương trình thông Notep o Bạn c thể mở tệp tin nên mở để xem kết 67 ng Ch ý: Tệp tin đ u vào phải c ạng text, ch VN 68 v n ản đặt phông TỪ ĐIỂN THUẬT NGỮ Data Mining Khai phá v n ản ữ liệu Text Mining Kh i phá ữ liệu v n ản Text Categorization Phân loại v n ản Text Clustering Lập nh m v n ản Information Retrieval (IR) Thu thập thông tin Neural Network Mạng Nơ-ron Decision tree Cây định AI-based method Phương pháp ự trí tuệ nhân tạo similarity Độ tương đồng Vector space model (VSM) Mô hình không gi n vec-tơ Text summarization T ng hợp v n ản Term Thuật ngữ 69 [...]... ng phân tích thành T chức|n |to|lắ Các từ được lưu riêng rẽ một cách c cấu tr c để tiện cho việc xử lý - Loại các thông tin không c n thiết Ở ước này, ộ phân tích tìm cách loại các thông tin vô ích từ v n ản Bước này phụ thu c rất nhiều vào ngôn ngữ đ ng được phân tích và kỹ thu t sẽ được ùng để phân tích phân tích v n ản ch đ t c thể loại ước tiếp theo Ví ụ, nếu kỹ thu t ự vào xác xuất xuất hiện từ. .. người ùng đ ng c n Các hệ thống thu thập thông tin IR systems được sử ụng để thu thập các tài liệu liên qu n đến các yêu c u r ràng Vấn đề với thu thập thông tin là việc xử lý các v n ản c nội ung liên qu n nội tại đến các v n ản được sử ụng trước đ Hình 2 đư r một mô hình tương tác thu thập thông tin chuẩn Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đ u vào và đ u r o gồm... tài liệu đã nhận được Việc thu thập thông tin c thể được định ngh cho ất c một loại thông tin nào ví ụ như kiểu v n ản, hình ảnh, âm th nh Tuy nhiên, ở đây ch ng t ch đề cập đến việc thu thập v n ản ởi v n ản là một loại thông tin mà phương th c thực hiện và kỹ thu t xử lý đơn giản hơn C thể nhấn mạnh r ng các kỹ thu t này c ng c thể được áp ụng cho thu thập thông tin đ phương tiện Các kỹ thu t thu thập. .. kỹ thu t thu thập thông tin c thể được chi r thành h i loại: - Các kỹ thu t chuẩn - Các kỹ thu t c áp ụng trí tuệ nhân tạo Nh m đ u tiên o gồm các kỹ thu t ự trên các phương th c thu t toán và toán học truyền thống Nh m th h i cố g ng thu thập tri th c các kỹ thu t áp ụng trí tuệ nhân tạo để giành được các kết quả tốt hơn b Các phương pháp thu thập thông tin 26 ng Ngày n y, các thông tin đ ng được phát... hình thu thập thông tin chuẩn Khi thu thập ữ liệu, ch ng t thường cố g ng tìm kiếm các ữ liệu chính xác Trong các trường hợp khác, ch ng t kiểm tr để xem một thông tin c trong một tệp tin h y không Khi thu thập thông tin, kết quả chính xác thường được qu n tâm, nhưng thông thường ch ng t muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc iệt được đư vào S u đ ch ng t sẽ tự chọn thông tin. .. xuất hiện từ khoá, khi các từ phụ như: n u, thì, th nhưng, như vậ … - Kh i phá ữ liệu đã được giản lược với các kỹ thu t kh i phá ữ liệu t mining truyền thống C rất nhiều kỹ thu t và phương pháp tốt được sử ụng cho Text Mining để tìm r các kiến tr c mới, các mẫu mới, và các liên kết mới Các ước tiền xử lý là các kỹ thu t rất ph c tạp nh m phân tích một phân lớp đặc iệt thành các thu c tính đặc iệt, s... ụng các phương pháp kh i phá ữ liệu kinh điển t c là phân tích thống kê và phân tích các liên kết Các ước c n lại sẽ kh i phá cả v n ản đ y đủ từ tập các v n ản, ví ụ như phân lớp v n ản 15 Mục tiêu cuối cùng củ Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trình iễn và tìm kiếm các tập hợp rộng lớn củ các v n ản Do đ , các kỹ thu t chính củ Text Mining c thể được phân phân... , phân tích v n ản text n lysis , chiết xuất thông tin inform tion extr ction , lập đoạn clustering , phân loại v n ản c tegoriz tion , hiển thị trực qu n visu liz tion , công nghệ cơ sở ữ liệu, học máy m chine le rning và ản thân các kỹ thu t Kh i phá ữ liệu Trong đề tài này em chủ yếu đề cập đến h i ài toán cụ thể, đ là ài toán phân loại dữ liệu văn bản Text c tegoriz tion và ài toán thu thập thông. .. triển mạnh mẽ về số lượng và chủ yếu là từ Internet Internet đã trở thành nơi lưu trữ, quản lý và đặc iệt là nơi thu nhận thông tin nh nh ch ng và tiện lợi Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu c u người ùng Đ là lý o củ các nghiên c u chuyờn s u trong các l nh vực như kh i phá ữ liệu (DataMining , trích xuất thông tin (Information Extr ction , thu thập thông tin (Information... Sự phù hợp v sự phân biệt c a c c trọng số Th y vì các nh sách từ đơn giản, một số trọng số c thể được sử ụng ởi giải thu t để định ngh 1 ph p đo định lượng sự phù hợp củ các từ với các chủ đề và 2 đo m c qu n trọng củ các n t củ thu c cây phân cấp [1] Loại trọng số đ u tiên, ch ng t gọi là các trọng số sự phù hợp, c liên hệ với các liên kết giữ các từ và các chủ đề và các liên kết giữ các n t trờn c ... kỹ thu t xử lý đơn giản C thể nhấn mạnh r ng kỹ thu t c ng c thể áp ụng cho thu thập thông tin đ phương tiện Các kỹ thu t thu thập thông tin c thể chi r thành h i loại: - Các kỹ thu t chuẩn - Các. .. hình thu thập thông tin chuẩn Khi thu thập ữ liệu, ch ng t thường cố g ng tìm kiếm ữ liệu xác Trong trường hợp khác, ch ng t kiểm tr để xem thông tin c tệp tin h y không Khi thu thập thông tin, ... thông tin không c n thiết Ở ước này, ộ phân tích tìm cách loại thông tin vô ích từ v n ản Bước phụ thu c nhiều vào ngôn ngữ đ ng phân tích kỹ thu t ùng để phân tích phân tích v n ản ch đ t c thể loại

Ngày đăng: 02/12/2015, 21:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan