Nghiên cứu xây dựng phân hệ trích lọc và phân loại dữ liệu

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN VĂN TẤN NGHIÊN CỨU XÂY DỰNG PHÂN HỆ TRÍCH LỌC VÀ PHÂN LOẠI DỮ LIỆU Chuyên ngành: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 2 LỜI CẢM ƠN Lời ñầu tiên tôi xin chân thành cảm ơn TS.Trần Thiện Chính ñã tận tình hướng dẫn, gợi mở và ñộng viên tôi suốt quá trình học tập và thực hiện luận văn Tôi xin chân thành cảm ơn các thầy, các cô Khoa Sau ñại học - Học viện Công nghệ Bưu chính Viễn thông, ñã tận tình giảng dạy, truyền ñạt, giúp ñỡ tôi trong quá trình học tập và tạo ñiều kiện thuận lợi cho tôi thực hiện tốt luận văn. Tôi xin gửi lời cám ơn ñến tất cả bạn bè, người thân và ñồng nghiệp tại Trung tâm ñiều hành thông tin - VNPT Hà Nội ñã tạo ñiều kiện và giúp ñỡ, hỗ trợ ñộng viên tôi trong quá trình thực hiện luận văn. Tôi xin chân thành cảm ơn! Hà nội ngày 10 tháng 10 năm 2012 Học viên Nguyễn Văn Tấn 3 CHƯƠNG 1 -MỞ ðẦU 1.1. ðặt vấn ñề Nhận thức ñược lợi ích và tầm quan trọng của công nghệ thông tin và truyền thông trong việc duy trì và thúc ñẩy sự phát triển bền vững, trong những năm qua lĩnh vực công nghệ thông tin (CNTT) nói chung và hoạt ñộng ứng dụng công nghệ thông tin trong xử lý dữ liệu nói riêng ñã phát triển nhanh chóng, mạnh mẽ và ngày càng có ý nghĩa quan trọng trong mọi mặt của kinh tế - xãhội. Vì vậy nhu cầu phân loại, lọc dữ liệu là một nhiệm vụ rất quan trọng có thể hữu ích trong tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn. Phân lớp dữ liệu là một nhiệm vụ rất quan trọng trong việc tổ chức cũng như tìm kiếm dữ liệu trên nhiều nguồn khác nhau. Mặt khác, phân lớp dữ liệu là một trong những thành phần cơ bản nhưng quan trọng nhất trong kiến trúc tổng thể của hầu hết các máy tìm kiếm. Hiện nay, bài toán này ñã và ñang nhận ñược nhiều sự quan tâm, nghiên cứu của các nhà khoa học. ðể tổng hợp trích lọc dữ liệu và phân loại dữ liệu cần phải xây dựng công cụ hỗ trợ tác nghiệp xử lý thành thông tin ñể hỗ trợ nhu cầu phân tích của các nhà lãnh ñạo, các nhà chiến lược trong tổ chức và sự ra ñời ứng dụng mới phục vụ cho mục ñích này ñược gọi là “Hệ trích lọc và xử lý dữ liệu”. Dữ liệu ñược lưu trữ, xử lý, kết xuất theo các nhóm và loại, các mục ñích cụ thể dưới dạng hướng chủ ñề. 1.2. Mục tiêu và phạm vi luận văn 1.2.1. Mục tiêu luận văn Với xu hướng phát triển mạnh mẽ trong công nghệ thông tin, ñặc biệt là lượng thông tin, nguồn dữ liệu cực kỳ lớn ñã ñòi hỏi phải có hệ thống lọc, xử lý và phân loại dữ liệu. Do vậy nhu cầu cần nghiên cứu và xây dựng các công cụ trích lọc, phân loại dữ liệu ñược ñặt ra nhằm nâng cao hiệu quả sử dụng nguồn dữ liệu. Xuất phát từ yêu cầu ñó, tác giả ñặt vấn ñề nghiên cứu xây dựng phân hệ trích lọc và phân tích dữ liệu. Mục ñích của ñề tài là hướng tới xây dựng bộ công cụ trích lọc, phân tích dữ liệu từ các nguồn khác nhau. 1.2.2. Phạm vi luận văn ðối tượng của ñề tài là các nguồn dữ liệu khác nhau trên Web hay Internet. Phạm vi nghiên cứu của ñề tài trong lĩnh vực trao ñổi, xử lý dữ liệu trên trang Web và các nguồn RSS, do thời hạn thực hiện luận văn có hạn nên trong phạm vi của luận văn này, sẽ thực hiện nghiên cứu phương pháp rút trích và phân loại trên công cụ GATE Framework 7.0 . 4 1.3. Kết quả ñạt ñược Nghiên cứu hệ thống trích lọc và phân loại dữ liệu từ nguồn URLs, RSS dụng GATE Framework trên các thư viện số, ñồng thời kết hợp với việc sử dụng cơ sở dữ liệu có sẵn, ñể dữ liệu trích lọc ñược ñảm bảo tính ñầy ñủ, chính xác cao. Tập trung vào cách rút ra ñược các thực thể và quan hệ dựa vào các API của GATE: Trong ñó tập trung vào rút trích thực thể và quan hệ của các chương trình ñã ñược xây dựng trước. 1.4. Bố cục luận văn Nội dung chính của luận văn ñược bố cục gồm có 3 chương như sau: Chương 1: Mở ñầu.Nội dung chương này xác ñịnh vấn ñề cần nghiên cứu của luận văn, mục tiêu và phạm vi của luận văn cũng như tóm lược kết quả ñạt ñược của luận văn. Chương 2: Khái quát trích lọc.Nội dung chương này phân loại dữ liệu, ñịnh nghĩa và khái niệm trích lọc dữ liệu từ trước ñến nay trên thế giới. Nghiên cứu nguyên tắc rút trích, phân loại dữ liệu, phương pháp rút trích hiện nay. phạm vi ứng dụng rút trich thông tin,ñặc trưng dữ liệu trong quá trình xử lý rút trích. Chương 3:Kỹ thuật rút trích dữ liệu và phân loại.Nội dung chương này thể hiện mô hình dữ liệu sử SVM và GATE Framework. ðặc tả dữ liệu và biểu diễn mô hình. Chương 4: Kết quả rút trích, và phân loại dữ liệu khi sử dụng công cụ GATE Framwork. CHƯƠNG 1-KHÁI QUÁT TRÍCH LỌC, PHÂN LOẠI DỮLIỆU 1.5. ðịnh nghĩa rút trích thông tin Các ñịnh nghĩa ñược dùng phổ biến trên internet liên quan ñến trích xuất thông tin bao gồm: Các nghiên cứu hiện nay liên quan ñến rút trích thông tin văn bản tập trung vào: - Rút trích các thuật ngữ (Terminology Extraction): Tìm kiếm các thuật ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ ñề tài liệu hay một tập các tài liệu. - Rút trích các thực thể ñịnh danh (NER):Việc rút trích ra các thực thể ñịnh danh tập trung vào các phương pháp nhận diện các ñối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một ñịa danh, nơi chốn. - Rút trích quan hệ (Relationship Extraction):Cần xác ñịnh mối quan hệ giữa các thực thể ñã nhận biết từ tài liệu. Chẳng hạn xác ñịnh nơi chốn cho một tổ chức, công ty hay nơi làm việc của một người nào ñó. 5 1.6. Nguyên tắc rút trích thông tin Theo tiến sĩ Diana Maynard hầu hết các hệ thống rút trích thông tin(IE) nói chung thường tiến hành các bước sau: - Tiền xử lý . - Nhận biết ñịnh dạng tài liệu (Format detection). - Tách từ (Tokenization). - Phân ñoạn từ (Word Segmentation). - Giải quyết nhập nhằng ngữ nghĩa (Sense Disambiguation). - Tách câu (Sentence Splitting). - Gán nhãn từ loại (POS Tagging). - Nhận diện thực thể ñịnh danh (Named Entity Detection). - Nhận biết thực thể (Entity Detection). - Xác ñịnh ñồng tham chiếu (Coreference). 1.7. Phương pháp tiếp cận rút trích thông tin Các phương pháp trích xuất hiện nay có thể chia thành hai cách tiếp cận chính: tiếp cận công nghê tri thức (Knowledge Engineering) và tiếp cận học máy tự ñộng (Automatic Training). 1.8. Phương pháp ñánh giá rút trích thông tin Sadflk ðể ñánh giá kết quả của thông tin ñược trích xuất, các chuyên gia ñã ñưa ra ñộ ño và ñược sử dụng trong lĩnh vực truy vấn thông tin (IR) ñó là ñộ chính xác “Precision” và ñộ tin cậy “Recall”. ðộ chính xác Precision (P): Là phân số thể hiện tỷ lệ thông tin ñược rút trích ñúng. Bao nhiêu phần trăm thông tin ñược rút là ñúng. Tỷ lệ giữa số lượng câu trả lời ñúng tìm thấy với tổng số câu trả lời ñúng có thể. ðộ tin cậy Recall (R): Là ñộ ño hay phân số thể hiện khả năng tin cậy của thông tin ñược trích xuất. Tỷ lệ giữa tổng số câu trả lời ñúng tìm thấy với tổng số câu trả lời tìm thấy. )( tntp tp R + = (1) )( fptp tp P + = (2) Với: tp là số kết quả ñúng ñược tìm thấy; tn là số kết quả ñúng mà không tìm thấy; fp 6 là số kết quả tìm thấy mà không ñúng. Người ta ñã tìm cách kết hợp hai ñộ ño này và ñề xuất một ñộ ño mới, ñó là F-Measure (F). Thông số β xác ñịnh mức ñộ tương quan giữa ñộ chính xác P (Precision) và ñộ tin cậy R (Recall). Các chuyên gia về rút trích thông tin thường sử dụng β = 1 ñể ñánh giá ñộ ño F. Khi ñó P và R ñược gán trọng số bằng nhau, hiệu năng của hệ thống ñược ñánh giá thông qua các giá trị khác nhau của ñộ chính xác R và ñộ tin cậy P, từ ñó có thể so sánh một cách dễ dàng. Với β = 1 thì F-Mearsure: )( 2 RP RP F + × × = 1.9. Một số phương pháp trích lọc và phân loại dữ liệu hiện nay 1.9.1. Phương pháp rút trích cụm từ khóa (Keyphrase Extraction) Việc rút trích trước ñây hầu hết dựa vào tiếp cận phân tích cú pháp, tách câu, thống kê tần xuất xuất hiện tf*idf ñể rút ra các cụm. Kết quả rút trích vẫn chưa thực sự tốt, còn khá nhiều “rác” (cụm vô nghĩa, cụm không thể hiện ñiện ngữ nghĩa của tài liệu ñề cập). Vấn ñề xác ñịnh chính xác các cụm từ khóa, cũng như xác ñịnh ñược biên giới của các từ khóa, cụm từ khóa từ tài liệu tiếng Việt hiện nay vẫn là một bài toán khó và vẫn ñang ñược quan tâm nghiên cứu. 1.9.2. Phương pháp sinh cụm từ khóa tự ñộng Phương pháp gán cụm từ khóa (Keyphrase Assignment):Tìm kiếm và chọn các cụm từ khóa từ từ vựng quản lý (Controlled Vocabulary) thích hợp nhất ñể mô tả tài liệu. Tập dữ liệu huấn luyện là một tập hợp các tài liệu với mỗi cụm từ trong từ vựng và dựa vào ñó ñể xây dựng một bộ phân lớp (classifier). Phương pháp trích xuất cụm từ khóa (Keyphrase Extraction):Sẽ dùng các kỹ thuật truy vấn thông tin và xử lý từ vựng ñể chọn ra các cụm từ khóa từ chính tài liệu ñang xét thay vì dùng các cụm từ ñịnh nghĩa trước trong từ vựng quản lý. 1.9.3. Phương pháp trích xuất các cụm từ khóa (KEA) KEA dùng phương pháp học máy Naïve Bayes ñể huấn luyện và rút trích các cụm từ khóa. 7 Theo nhận ñịnh của các tác giả, KEA là thuật toán có khả năng ñộc lập ngôn ngữ.Các bước sau thực hiện thuật toán KEA: Chi tiết tham khảo (Phụ lục A). 1.9.4. Phương pháp thống kê Hầu hết các nghiên cứu ñầu tiên cho rút trích dữ liệu ñều tập trung trên những tài liệu kỹ thuật (các bài báo khoa học). Các phương pháp cổ ñiển thường tập trung vào các ñặc trưng hình thái ñể tính ñiểm cho các câu và rút trích các câu quan trọng ñể ñưa vào tóm tắt. Sử dụng các ñặc trưng như: wordfrequency, stopwords, position, cuewords, title. Sử dụng phương pháp kết nối tuyến tính ñể kết hợp các ñiểm ñặc trưng lại với nhau: + Thử nghiệm với 400 dữ liệukỹthuật và kết quảñạt 44%. 1.9.5. Phương phápthống kê trên TF.IDF Phương pháp này còn gọi là mô hình túi từ (bag-of-words), sử dụng mô hình trọng số tần suất thuật ngữ và tần suất câu ñảo ngược (TF.IDF). Ở mô hình này, giá trị IDF ñược tính trên câu. Trongñó, TF là số lần xuất hiện của term trong1 câu. Và DF là số câu có chứa thuật ngữ. Tuy nhiên, phương pháp dung ñộ ño TF.IDF không ñược dùng ñộc lập, mà thường ñược kết hợp với các phương pháp khác như máy học, ñồ thị… ñể ñạt ñược hiệu quả cao hơn. 1.9.6. Phương pháp Naïve-Bayes Các hướng tiếp cận theo phương pháp này giả ñịnh rằng các ñặc trưng của dữ liệu ñộc lập nhau. Sử dụngbộ phân lớp Naïve-Bayes ñể xác ñịnh câu nào thuộc về tóm tắt và ngược lại: Chos là các câu cần xác ñịnh. F 1 …F k là các ñặc trưng ñã ñược chọn, và giả ñịnh các thuộc tính ñộc lập nhau. Xác suất của câu s thuộc về tóm tắt ñược tính như sau: Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ ñược rút trích. + Kết hợp thêm nhiều ñặc trưng phong phú hơn: tf.idf(singleword, two-noun word, named-entities), discourse(cohension) (sử dụng Wordnet và kỹ thuật sử lý ngôn ngữ tự nhiên ñể phân tích sự tham chiếu ñối với các thực thể). 1.9.7. Phương pháp mô hình Makov ẩn (Hidden Makov Model) Tác giả ñưa ra khái niệm về sự phụ thuộc cục bộ (local dependencies) giữa các câu và 8 sử dụng mô hình HMM ñể xác ñịnh sự phụ thuộc này. Các ñặc trưng sử dụng: position, number of term, like lihood of sentence. Mô hình HMM bao gồm 2s+1 trạng thái, trong ñó s là số trạng thái tóm tắt (câu thuộc tóm tắt) và s+1 là câu không thuộc tóm tắt. Hình 1.1 : Mô hình Hidden Makov Model Mô hình HMM xây dựng ma trận chuyển vị M, coi các ñặc trưng là ña biến và tính xác suất của các câu qua từng trạng thái. 1.9.8. Phương pháp máy học SVM SVM là một phương pháp phân loại xuất phát từ lý thuyết học thống kê. Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector ñặc trưng (space of feature vectors) mà ở ñó một siêu phẳng tối ưu ñược tìm ra ñể tách dữ liệu thuộc hai lớp khác nhau. Giả sử, chúng ta lựa chọn ñược tập các ñặc trưng là T={t 1 , t 2 , …, t n }, x i là vector dữ liệu ñược biểu diễn x i =(w i1 , w i2 , …, w in ), w in ∈R là trọng số của ñặc trưng t n . Với tập dữ liệu huấn luyện Tr={(x 1 , y 1 ), (x 2 , y 2 ), …, (x l , y l )}, (x i ∈ R n ), y i ∈ {+1, -1}, cặp (x i , y i ) ñược hiểu là vector x i ñược gán nhãn là y i . Nếu coi mỗi x i ñược biểu diễn tương ứng với một ñiểm dữ liệu trong không gian R n thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n- chiều ñể phân chia dữ liệu sao cho tất cả các ñiểm x + ñược gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x + )>0), các ñiểm x - ñược gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x - )<0). 9 Hình 1.2 : H 2 là mặt phẳng tốt nhất Việc tính toán ñể tìm ra siêu mặt phẳng tối ưu dùng kỹ thuật sử dụng toán tử Lagrange ñể biến ñổi thành dạng ñẳng thức là rất phức tạp và khó khăn. Hiện nay ñã có những bộ thư viện ñã hỗ trợ cho việc tính toán trên như : SVM light , LIBSVM, jSVM, Ví dụ: Giả sử ta có một tập các ñiểm ñược gán nhãn dương (+1): {(3,1), (3, -1), (6, 1), (6, -1)}; và tập các ñiểm ñược gán nhãn âm (-1) trong mặt phẳng R + : {(1, 0), (0, 1), (0, -1), (-1, 0)}. Chúng ta sẽ dùng SVM ñể phân biệt hai lớp (+1 và -1). Bởi vì dữ liệu ñược chia tách một cách tuyến tính, rõ ràng, nên chúng ta sử dụng linear SVM (SVM tuyến tính) ñể thực hiện. Hình 1.3 : Các ñiểm dữ liệu ñược biểu diễn trên R + Theo quan sát Hình 3.6, chúng ta chọn ra 3 vector hỗ trợ ñể thực thi các phép toán 10 nhằm tìm ra mặt phẳng phân tách tối ưu nhất: {s 1 = (1,0), s 2 = (3,1), s 3 = (3, -1)} Hình 1.4 : Các vector hỗ trợ (support vector) ñược chọn Các vector hỗ trợ ñược tăng cường (augmented) bằng cách thêm 1. Tức là s 1 = (1, 0), thì nó sẽ ñược chuyển ñổi thành s % = (1, 0, 1). Theo kiến trúc SVM, công việc của chúng ta là tìm ra những giá trị i α . 1 1 1 2 2 1 3 3 1 1 1 2 2 2 2 3 3 2 1 1 1 2 2 3 3 3 3 ( ). ( ) ( ). ( ) ( ). ( ) 1 ( ). ( ) ( ). ( ) ( ). ( ) 1 ( ). ( ) ( ). ( ) ( ). ( ) 1 s s s s s s s s s s s s s s s s s s α α α α α α α α α Φ Φ + Φ Φ + Φ Φ = − Φ Φ + Φ Φ + Φ Φ = + Φ Φ + Φ Φ + Φ Φ = + Bởi vì chúng ta sử dụng SVM tuyến tính nên hảm () Φ - dùng ñể chuyển ñổi vector từ không gia dữ liệu ñầu vào sang không gian ñặc trưng – sẽ bằng () I Φ = . Biểu thức trên ñược viết lại như sau: 1 1 1 2 2 1 3 3 1 1 1 2 2 2 2 3 3 2 1 1 3 2 2 3 3 3 3 . . . 1 . . . 1 . . . 1 s s s s s s s s s s s s s s s s s s α α α α α α α α α + + = − + + = + + + = + % % % % % % % % % % % % % % % % % % Rút gọn biểu thức trên thông qua việc tính toán tích vô hướng giữa các vector. 1 2 3 1 2 3 1 2 3 2 4 4 1 4 11 9 1 4 9 11 1 α α α α α α α α α + + = − + + = + + + = + Giải hệ phương trình 3 ẩn trên ta có: α 1 = -3.5, α 2 = 0.75, α 3 = 0.75. Tiếp ñến ta tính trọng số ω % thông qua công thức: 1 3 3 1 3.5 0 0.75 1 0.75 1 0 1 1 1 2 i i i s ω α                 = = − + + − =                 −         ∑ % % Siêu phẳng phân chia 2 lớp ñó là: y = wx + b với w = (1, 0) và b = -2. [...]... a ch n GATE Frame ñ nghiên c u trích l c và phân lo i d li u t các ngu n Internet.GATE ñư c vi t hoàn toàn b ng Java và là ph n m m mã ngu n m , ngoài ra, nó còn s d ng JAPE (Java Annotation Patterns Engine) ñ xây d ng các b lu t cho vi c gán nhãn d li u CHƯƠNG 2 -K THU T TRÍCH L C VÀ PH N LO I D LI U GATE Framework 2.1 Bi u di n d li u c n trích l c và phân lo i 2.1.1 D li u ñ u vào a Các ñ i tư ng... trưng là nh ng nhãn c a 5 dòng trư c và 5 dòng sau dòng ñang xét CHƯƠNG 3 - NG D NG CÔNG C TRÍCH L C VÀ PHÂN LO I 3.1 ng d ng GATE trích l c và phân lo i d li u 3.1.1 Sơ lư c GATE 3.1.1.1 Gi i thi u v GATE ð tài d a trên xây d ng các lu t, m u d a trên thông tin c u trúc và trình bày c a tài li u, k t h p v i nh ng t ñi n, ontologies và thư vi n s n có c a GATE ñ rút trích các metadata cho các tài li... c ñ ng nghĩa Hi n nay ñã có các phương pháp trích l c (SVM, CRF, GATE, Naïve-Bayes, KEA ) Trong ñó phương pháp trích l c và phân lo i GATE có nh ng ưu như c ñi m: - Trích l c ñư c nhi u d ng d li u ñ u vào: Text, Internet, Rss, XML, DBF và m t s d ng văn b n khác - Là công c mã ngu n m , cho phép phát tri n ti p thành công c h u ích ñ trích l c d li u, và phân lo i d li u cho m t lĩnh v c chuyên sâu... c cơ b n v trích l c d li u, ng d ng c a rút trích d li u văn b n - Các phương pháp rút trích c m t khóa, th c th , quan h gi a các th c th và các phương pháp rút trích siêu d li u (metadata) d li u t ngu n Internet, Rss - ð xu t phương pháp rút trích metadata d a trên vi c xây d ng các lu t, m u k t h p các t ñi n, thông tin ti n t và h u t - Xây d ng công c trên n n API GATE Frameword trích l c d... nay như: H u h t các phương pháp rút trích quan h ti p c n theo các hư ng như d a trên lu t (rule-base), d a trên ñ c trưng (feature-based) và các phương pháp kernel (kernel-based) 2.2 Phương pháp trích l c và phân lo i d li u t m t s ngu n khác nhau 2.2.1 Trích l c 13 D li u D hu n D li u tóm t t li u test Rút Ngu n trích ñ c trưng d li u Ngu n d li u ðóng Rút trích nhãn ñ c trưng T p Lu t Thu t toán... Degree Publish name CsenLen : 6 … ClinePos : 2 Ví d : 2.3.2 Bư c 2: Phân l p các dòng ñ c l p theo 15 ñ c trưng, và gán nhãn t m th i cho 16 t ng dòng 2.3.3 Bư c 3: Bi u di n t ng dòng l i theo 15 + 150 ñ c trưng ðưa vào b phân l p theo ng c nh (context) và ti n hành gán nhãn l i: - Thông qua b phân l p ñ c l p ta xây d ng t p ph n trên, b phân l p theo ng c nh 1c 2 1v i 15 ñ c trưng ñư c ñ c p v i 15 +... Dubline Core Metadata, và k t qu ñư c th hi n trong B ng 3.1: 24 B ng 3.1 : K t qu ñư c ñanh giá như bi u ñ trên Metadata Precision (%) Recall (%) F-Measure (%) Tittel 50,0% 100,0% 67% Location 97,22% 83,63% 89,91% Person 68% 83% 74,99% K T LU N VÀ KI N NGH K t lu n Lu n văn ñã t p trung nghiên c u t ng quan v lĩnh v c trích l c d li u và phân lo i d li u t URLs, Rss trên internet và các ngu n d li u... theo 15 + 150 ñ c trưng ðưa vào b phân l p theo ng c nh (context) và ti n hành gán nhãn l i 2.2.3 Phương pháp ti p c n rút trích thông tin: 2.2.3.1 Phương pháp rút trích thông tin d a trên h c máy (Machine Learning) B ng cách h c t t p hu n luy n (quan sát các ñ c trưng c a t p d li u ñã ñư c xác ñ nh b i chuyên gia), h th ng s phân tích n i dung d li u mà ngư i dùng ñưa vào (thư ng là d ng text), ñ... li u Hình 2.1 : Mô hình trích l c d li u SVM Framework chung cho h th ng tóm t t d li u b ng phương pháp máy h c 2.2.2 Phân lo i d li u 2.2.2.1 Khái ni m: Phân lo i văn tài li u là vi c gán các nhãn phân lo i lên m t tài li u m i d a trên m c ñ tương t c a tài li u ñó so v i các tài li u ñã ñư c gán nhãn trong t p hu n luy n” 2.2.2.2 SVM trong bài toán rút trích metadata Rút trích nh ng trư ng metadata... chu n và ñ l n ñ cho thu t toán h c phân lo i Các phương pháp h u h t ñ u s d ng mô hình vector ñ bi u di n d li u, do ñó phương pháp tách t là m t y u t quan tr ng Thu t toán s d ng ñ phân lo i ph i có th i gian x lý h p lý , th i gian này bao g m : th i gian h c , th i gian phân lo i d li u , ngoài ra thu t toán này ph i có tính tăng cư ng (incremental function) 2.3 ð c t trích rút d li u và bi u . vấn ñề nghiên cứu xây dựng phân hệ trích lọc và phân tích dữ liệu. Mục ñích của ñề tài là hướng tới xây dựng bộ công cụ trích lọc, phân tích dữ liệu từ. NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN VĂN TẤN NGHIÊN CỨU XÂY DỰNG PHÂN HỆ TRÍCH LỌC VÀ PHÂN LOẠI DỮ LIỆU Chuyên ngành: TRUYỀN DỮ LIỆU VÀ

Ngày đăng: 17/02/2014, 09:38

Xem thêm: Nghiên cứu xây dựng phân hệ trích lọc và phân loại dữ liệu, Nghiên cứu xây dựng phân hệ trích lọc và phân loại dữ liệu