XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

92 1.3K 7
XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát triển nhanh chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới của chúng ta bộ mặt mới.

Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giải nghĩa 1. KDD Knowledge Discovery in Databases Phát hiện tri thức trong cơ sở dữ liệu 2. TFxIDF Term Frequency times Inverse Document Frequency 3 IR Hệ thu thập thông tin Information Retrieval 4. NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 5. SVM Support Vector Machine Mô hình máy vector hỗ trợ 6. CFG Context Free Grammar Văn phạm phi ngữ cảnh 7. CSDL Cơ sở dữ liệu 8. POS Part of Speech Từ loại 9. RST Rhetorical Structure Theory Lý thuyết cấu trúc tu từ 1 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 STT Từ viết tắt Giải nghĩa 10 HMM Hidden Markov Model Mô hình Markov ẩn 2 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 DANH MỤC HÌNH VẼ 3 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 MỤC LỤC DANH MỤC TỪ VIẾT TẮT .1 DANH MỤC HÌNH VẼ .3 MỤC LỤC 4 LỜI NÓI ĐẦU 8 Chương 1. KHAI PHÁ VĂN BẢN .11 1.1. Khai phá dữ liệu 11 1.2. Khai phá văn bản 12 1.3. Biểu diễn văn bản 13 1.3.1. Mô hình boolean 14 1.3.2. Mô hình không gian vector .14 a. Mô hình không gian vector chuẩn .14 b. Kỹ thuật TFxIDF .15 c. Mô hình vector thưa và các mô hình không gian vector khác .16 1.3.3. Các mô hình biểu diễn văn bản khác .17 a. Mô hình Xác suất .17 b. Mô hình Mạng Bayes 17 c. Mô hình tập thô dung sai .18 1.4. Các bài toán Khai phá văn bản điển hình .18 1.4.1. Bài toán Phân lớp văn bản 18 1.4.2. Bài toán Phân nhóm văn bản 19 1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm 20 1.4.4. Bài toán Tóm tắt văn bản .20 1.5. Kết chương 21 Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN 22 2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên 22 2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 24 2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu 24 2.2.2. Gán nhãn từ loại 25 2.2.3. Phân tích cú pháp 26 4 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 2.2.4. Phân tích ngữ nghĩa .27 2.3. Các đặc trưng ngơn ngữ của tiếng Việt 27 2.3.1 Đặc trưng về ngữ âm và âm vị 27 2.3.2 Đặc trưng về từ pháp và hình thái .28 2.3.3. Đặc trưng về ngữ pháp 29 2.4. Kết chương 31 Chương 3. BÀI TỐN TĨM TẮT VĂN BẢN 32 3.1. Giới thiệu chung 32 3.1.1. Tóm tắt văn bản là gì ? .33 3.1.2. Các tiêu chí đánh giá .35 3.1.3. Phân loại bài tốn Tóm tắt văn bản 36 3.2. Mơ hình Tóm tắt văn bản 39 3.2.1. Mơ hình chung .39 3.2.2. Các phương pháp áp dụng trong pha Phân tích 41 3.2.2.1. Phương pháp thống kê (Statistical Methods) .42 3.2.2.2 . Phương pháp cấu trúc .43 3.2.2.3. Kết luận về các phương pháp trong pha Phân tích 45 3.2.3. Các phương pháp áp dụng trong pha Biến đổi 46 3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ) .46 3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation) .47 3.2.3.3. Kết luận về các phương pháp trong pha Biến đổi .49 3.2.4. Các phương pháp áp dụng trong pha Generation .49 3.2.4.1. Phương pháp hiển thị phân đoạn ( Segmental Display ) .50 3.2.4.2. Phương pháp Hiển thị 51 3.2.4.3. Kết luận về các phương pháp trong pha Hiển thị 51 3.3. Đánh giá kết quả tóm tắt .52 3.3.1. Đánh giá bên trong (Intrinsic Evaluation) .53 3.3.1.1. Độ chặt chẽ mạch lạc ( Coherence ) .53 3.3.1.2. Độ hàm chứa thơng tin ( Informationess ) .53 3.3.2. Đánh giá bên ngồi ( Extrinsic Evaluation ) .53 3.3.2.1. Độ phù hợp ( Relevance ) 53 5 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence ) .53 3.3.3. So sánh đánh giá bên trong - bên ngoài 54 3.3.4. Các phương pháp đánh giá .54 3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall) 54 3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity) .55 3.3.4.2. Độ tương quan phù hợp (Relevance Correlation) .55 3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản 56 3.4. Một số hệ thống tóm tắt văn bản trên thế giới .56 3.5. Kết chương 59 Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 60 4.1. Mô hình xây dựng ứng dụng .60 4.2. Cài đặt tiền xử lý văn bản tiếng Việt .62 4.2.1. Chuẩn hóa văn bản 62 4.2.2. Mô hình hóa văn bản .62 4.2.3. Tách thuật ngữ .63 4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt .67 4.3.1. Các phương pháp trong pha Phân tích .67 a. Phương pháp Title 67 b. Phương pháp Heading 68 c. Phương pháp NamedEntity - NE .69 d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) .70 e. Phương pháp Tần suất xuất hiện của thuật ngữ 71 f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) 72 4.3.2. Các phương pháp trong pha Biến đổi .73 4.3.2.1. Biến đổi nhờ vào rút gọn câu .73 4.3.2.2. Giản lược câu về mặt ngữ nghĩa 75 4.3.3. Các phương pháp trong pha Hiển thị .76 4.4. Kết chương 76 6 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG .77 5.1. Giao diện kết quả thực nghiệm .77 5.2. Tập kiểm thử .82 5.3. Kết quả kiểm thử và đánh giá 83 5.3.1. Kiểm thử thuật toán tách term tiếng Việt 83 5.3.2. Kiểm thử thuật toán tách named Entity .84 5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng 84 5.3.3.1. Phương pháp truyền thống 85 5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung 86 5.3.4. Kiểm thử đánh giá rút gọn câu 87 7 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 LỜI NÓI ĐẦU Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát triển nhanh chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới của chúng ta bộ mặt mới. Các ứng dụng của Công nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộc sống, kéo theo chúng là những thay đổi đáng kể. Nền kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi mô tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp . là những ứng dụng tiêu biểu của Công nghệ Thông tin và Truyền thông. Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới. Những lợi ích mà Internet mang lại quá lớn khiến chúng ta phụ thuộc nhiều vào nó. Những người biết sử dụng linh hoạt và đúng đắn những lợi thế này sẽ phần nào vượt lên trên những thách thức của nền kinh tế tri thức toàn cầu để thu được những thành công trong công việc cũng như cuộc sống. Thông qua Internet, những thông tin quý giá về mọi lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội. Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng và cấp thiết của nhân loại. Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này là Khai phá dữ liệu. Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá trình Phát hiện tri thức trong cơ sở dữ liệu. Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từ các dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người. Các phương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay Phân loại . Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản được quan tâm chú ý hơn cả. Và trong đồ án này, em xin đề cập tới Khai phá văn bản như là tiền đề cho việc giải quyết bài toán Tóm tắt văn bản. Khai phá dữ liệu - Khai phá văn bản tuy ra đời muộn nhưng đã đạt được nhiều thành tựu đáng kể và tất nhiên cũng đóng góp rất nhiều cho ngành Khoa học máy tính. Trên thế giới cũng như ở Việt Nam, các vấn đề của Khai phá văn bản đã và đang được tìm hiểu nghiên cứu cũng như xây dựng các ứng dụng mang tính thực tiễn cao. Tuy nhiên, vẫn còn rất nhiều vấn đề cần phải giải quyết, đặc biệt là ở Việt Nam, khi Khai phá văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán điển hình của Khai phá văn bản như Phân lớp văn bản, Phân nhóm văn bản hiện mới trong quá trình nghiên cứu, chưa có một sản phẩm nào mang tính thương mại trên thị 8 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 trường. Một bài toán khác của Khai phá văn bản là Thu thập thông tin đã được cài đặt thành các ứng dụng tìm kiếm trên mạng như các bộ máy tìm kiếm của Netnam (PanVietNam) hay Tinh Vân (Vinaseek). Nhưng những ứng dụng như vậy còn quá ít và chưa đáp ứng đầy đủ cho các nhu cầu to lớn của nền Công nghệ thông tin Việt Nam. Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sự bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cách đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình. Đó là lĩnh vực Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người. Thông qua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào đời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới. Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tin giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện. Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả… Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệt mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói đến Khai phá dữ liệu là nói đến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thông tin cụ thể. Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản. Bài toán tóm tắt văn bản thật ra đã được coi là một vấn đề của Xử lý ngôn ngữ tự nhiên khi nó lần đầu tiên được đề cập và nghiên cứu một cách nghiêm túc trong bài báo khoa học của Luhn vào năm 1958 [17] và tiếp đó là của Edminson vào năm 1969 [21]. Như vậy, Tóm tắt văn bản đã ra đời trước khi có sự ra đời của Khai phá văn bản ! Và khi Khai phá văn bản ra đời, dựa trên những đặc điểm của nó, người ta mới xếp Tóm tắt văn bản vào lĩnh vực mới mẻ này. Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể. Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản. Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của các phương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang ý nghĩa ngôn ngữ tự nhiên 9 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 như đầu vào của nó. Tóm tắt văn bản có rất nhiều ứng dụng trong ngành Công nghệ thông tin cũng như Ngôn ngữ học và một số ngành khác. Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương mại. Mặc dù vậy, do những khó khăn và thách thức riêng, Tóm tắt văn bản hiện nay chưa được nghiên cứu nhiều ở Việt Nam so với các bài toán điển hình khác trong lĩnh vực Khai phá văn bản. Chính vì lý do này em đã chọn Tóm tắt văn bản tiếng Việt là đề tài đồ án tốt nghiệp, mong muốn góp một phần công sức cho sự phát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung. Trong đồ án này em muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt văn bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phương pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên có xét tới những đặc trưng về ngôn ngữ của tiếng Việt. Đồ án gồm các phần sau : Chương 1. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình. Chương 2. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bản tiếng Việt. Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, bao gồm mô tả khái niệm chung và phân loại một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, mô hình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản… Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng tóm lược văn bản tiếng Việt VTAS dựa trên một số phương pháp trong các phương pháp đã nêu ở chương 3. Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được em đề cập đến với những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khai phá văn bản tiếng Việt. Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng VTAS, các kết quả thực nghiệm của chương trình. Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này. Cuối cùng là phần tài liệu tham khảo và các phụ lục của đồ án. 10 [...]... áp dụng các phương pháp và kỹ thuật riêng Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết các dạng yêu cầu đó • Tóm tắt một văn bảnTóm tắt nhiều văn bản Khi xét đầu vào một hệ thống Tóm tắt văn bản, ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn bản (Multi-Document) Tóm tắt đơn văn bảntừ một văn bản nguồn cho ra bản. .. thống Tóm tắt văn bản tự động [10,12] Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự động một mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng và hiển thị ra theo dạng yêu cầu của người sử dụng [10,11] Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá văn bản là việc tìm ra những thành phần quan trọng trong văn bản cần tóm. .. nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khai phá văn bản đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản, Phân lớp & Phân loại văn bản , đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử lý văn bản tự động tiếng Việt Tuy nhiên, bài toán Tóm tắt văn bản thì chưa có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành công ứng dụng Có lẽ bởi vì bài toán này không... một văn bản nguồn cho ra bản ngắn gọn của văn bản đó Nguợc lại, tóm tắt nhiều văn bảntừ nhiều văn bản nguồn cũng chỉ cho ra một đoạn tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều văn bản khác nhau Tất nhiên, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như... TOÁN TÓM TẮT VĂN BẢN Trong chương ba em xin trình bày vấn đề trọng tâm của đồ án, đó là bài toán Tóm tắt văn bản tự động Chương này bao gồm các mục sau :  Giới thiệu tổng quan về bài toán Tóm tắt văn bản bao gồm các khái niệm, phân loại bài toán…  Mô hình bài toán Tóm tắt văn bản, các phương pháp thường sử dụng trong bài toàn này  Đánh giá một ứng dụng tóm tắt văn bản 3.1 Giới thiệu chung Ở Việt. .. cần thiết cho bài toán Tóm tắt văn bản tiếng Việt Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên trong tiếng Việt đã được nêu ra và sẽ được giải quyết phần nào trong các chương sắp tới Sau đây là phần tìm hiểu sâu hơn về bài toán Tóm tắt văn bản : các khái niệm, tiêu chí phân loại, mô hình chung, các phương pháp xây dựng cũng như đánh giá kết quả một ứng dụng Tóm tắt văn bản 31 Website: http://www.docs.vn... đưa vào áp dụng gần đây nhằm xây dựng các giải thuật tiên tiến cho các bài toán như Phân lớp văn bản, Phân loại văn bản v.v 1.3.3 Các mô hình biểu diễn văn bản khác a Mô hình Xác suất Mô hình xác suất biểu diễn và sắp xếp văn bản thu được theo thứ tự giảm dần của xác suất độ liên quan giữa truy vấn và các văn bản đối tượng [3] Mô hình xác suất thường được dùng trong bài toán Tìm kiếm văn bản truyền... nào khác Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động : • Tóm tắt tự động các tin tức trên báo điện tử • Trợ giúp thông minh việc đọc và khai thác thông tin • Tóm lược danh sách tìm kiếm từ các Search Engine • Giản lược nội dung trình bày cho các thiết bị cầm tay • Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản • Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh... trường tiếng Việt và qua đó cài đặt một ứng dụng tóm tắt văn bản tiếng Việt dựa trên những tìm hiểu và nghiên cứu về Xử lý tiếng Việt 21 Website: http://www.docs.vn Email : lienhe@docs.vn Tel : 0918.775.368 Chương 2 XỬ LÝ NGÔN NGỮ TỰ NHIÊN Trong chương này em xin trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên  Tổng quan về Xử lý ngôn ngữ tự nhiên  Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên  Đặc... biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên quan hoàn toàn được giải quyết Truy vấn là kết quả của các phép toán vector giữa các vector biểu diễn cho những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong trường hợp này cũng là một văn bản đặc biệt Việc xác định độ liên quan giữa truy vấnvăn bản được quy thành độ liên quan giữa văn bảnvăn bản Hai văn bản

Ngày đăng: 24/04/2013, 22:05

Hình ảnh liên quan

XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT
XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT Xem tại trang 1 của tài liệu.
Mô hình máy vector hỗ trợ - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

h.

ình máy vector hỗ trợ Xem tại trang 1 của tài liệu.
Mô hình Markov ẩn - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

h.

ình Markov ẩn Xem tại trang 2 của tài liệu.
Hình 1.2: Mô tả các bài toán phân lớp văn bản - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 1.2.

Mô tả các bài toán phân lớp văn bản Xem tại trang 19 của tài liệu.
Hình 1.3: Mô tả bài toán Phân nhóm văn bản - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 1.3.

Mô tả bài toán Phân nhóm văn bản Xem tại trang 20 của tài liệu.
Hình 3.2: Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.2.

Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay Xem tại trang 34 của tài liệu.
Hình 3.1: Tóm tắt trang tin - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.1.

Tóm tắt trang tin Xem tại trang 34 của tài liệu.
Hình 3.3: Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.3.

Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp Xem tại trang 35 của tài liệu.
Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.5.

Mô hình hệ Tóm tắt văn bản tổng quát Xem tại trang 40 của tài liệu.
Hình 3.6: Mô hình một hệ Trích rút văn bản - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.6.

Mô hình một hệ Trích rút văn bản Xem tại trang 41 của tài liệu.
Hình 3.7: Quan hệ lẫn nhau giữa các đoạn trong văn bản - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.7.

Quan hệ lẫn nhau giữa các đoạn trong văn bản Xem tại trang 43 của tài liệu.
Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.8.

Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ Xem tại trang 57 của tài liệu.
Hình 3.9: Giao diện và kết quả trích rút văn bản của Microsoft Word - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 3.9.

Giao diện và kết quả trích rút văn bản của Microsoft Word Xem tại trang 58 của tài liệu.
Hình 4.1: Mô hình ứng dụng Tóm lược văn bản tiếng Việt - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 4.1.

Mô hình ứng dụng Tóm lược văn bản tiếng Việt Xem tại trang 62 của tài liệu.
Hình 5.1: Giao diện chính - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 5.1.

Giao diện chính Xem tại trang 78 của tài liệu.
Hình 5.2: Giao diện kiểm thử - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 5.2.

Giao diện kiểm thử Xem tại trang 79 của tài liệu.
Hình 5.3: Giao diện phân tách đoạn và câu - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 5.3.

Giao diện phân tách đoạn và câu Xem tại trang 80 của tài liệu.
Hình 5.4: Giao diện phân tách thuật ngữ của đoạn - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 5.4.

Giao diện phân tách thuật ngữ của đoạn Xem tại trang 81 của tài liệu.
Hình 5.5: Kết quả thực thi phương pháp TFxIDF - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Hình 5.5.

Kết quả thực thi phương pháp TFxIDF Xem tại trang 82 của tài liệu.
Ở đây, chúng ta sử dụng công thức Cosine ch oM vì VTAS đã mô hình hoá các văn bản ở dạng vector - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

y.

chúng ta sử dụng công thức Cosine ch oM vì VTAS đã mô hình hoá các văn bản ở dạng vector Xem tại trang 86 của tài liệu.
6 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung (nguyên thủ môn đội bóng đá Lâm Đồng) đang ghi độ bóng đá cho hai người chơi tại nhà 158 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung đang ghi  - XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

6.

Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung (nguyên thủ môn đội bóng đá Lâm Đồng) đang ghi độ bóng đá cho hai người chơi tại nhà 158 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung đang ghi Xem tại trang 88 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan