slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên tách từ và xác định từ khóa trong văn bản tiếng việt

10 606 0
slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên tách từ và xác định từ khóa trong văn bản tiếng việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Đề tài: Tách từ và xác định từ khóa trong văn bản tiếng Việt  Thành viên: - Đoàn Trung Kiên - 20086096 - Phạm Trí Dũng - 20086081 - Phạm Văn Chí - 20086077 - Phạm Tiến Dũng – 20086080 Nội dung trình bày 1. Yêu cầu thực tế 2. Giới thiệu về chương trình 3. Các bước tiến hành 4. Sử dụng chương trình 5. Demo chương trình 1. Yêu cầu thực tế  Tách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn bản.  Kết quả của việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bản cao hơn như phân loại văn bản, tóm tắt văn bản, xác định ngữ nghĩa của văn bản. 2. Giới thiệu về chương trình  Chương trình KeywordDetermining được sử dụng để xác định từ khóa và tính trọng số từ các văn bản tiếng Việt (mã hóa bằng bảng mã Unicode UTF-8)  Chương trình có sử dụng công cụ tách từ của Lê Hồng Phương (vnTokenizer) 3. Các bước tiến hành  1. Tìm hiểu công cụ tách từ của Lê Hồng Phương để tách từ (vnTokenizer)  2. Loại bỏ các từ tầm thường (stop word) trong tập các từ đã được tách (từ tầm thường là các từ xuất hiện nhiều nhưng không mang ngữ nghĩa của văn bản)  3. Loại bỏ các từ trùng lặp sau khi tách từ. 3. Các bước tiến hành (2)  4. Tính trọng số TF*IPF của tất cả các từ trên theo công thức sau:  Trong đó tf là số lần xuất hiện từ i trong đoạn, N là tổng số đoạn trong văn bản, ni là số đoạn chứa từ i 3. Các bước tiến hành (3) 5. Sắp xếp các từ theo chiều giảm dần của điểm IF*IPF đã tính ở bước trước. Một số phần trăm nhất định của các từ có điểm IF*IPF cao nhất sẽ được chọn làm từ khóa. (Sử dụng thuật toán Quick sort) 4. Sử dụng chương trình • Dữ liệu cần cung cấp cho chương trình gồm 1 tệp văn bản tiếng Việt • Kết quả: Một tệp văn bản kết quả được ghi dưới định dạng XML. Tệp kết quả chứa tất cả các từ trong văn bản và được sắp xếp theo chiều giảm dần của chỉ số TF*IPF 4. Sử dụng chương trình (2) • java -jar KeywordDetermining.jar -i <tệp-input> -o <tệp-output> • Hai tùy chọn -i và -o là bắt buộc • Ví dụ: java -jar KeywordDetermining.jar -i samples/5.txt -o samples/5.xml • Tìm từ khóa tệp samples/5.txt và ghi kết quả vào tệp samples/5.xml 5. DEMO  java -jar KeywordDetermining.jar -i samples/3.txt -o samples/3.xml . việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bản cao hơn như phân loại văn bản, tóm tắt văn bản, xác định ngữ nghĩa của văn bản. 2. Giới thiệu về chương trình  Chương trình. KeywordDetermining được sử dụng để xác định từ khóa và tính trọng số từ các văn bản tiếng Việt (mã hóa bằng bảng mã Unicode UTF-8)  Chương trình có sử dụng công cụ tách từ của Lê Hồng Phương. chương trình 3. Các bước tiến hành 4. Sử dụng chương trình 5. Demo chương trình 1. Yêu cầu thực tế  Tách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn bản.  Kết

Ngày đăng: 23/10/2014, 23:32

Từ khóa liên quan

Mục lục

  • Đề tài: Tách từ và xác định từ khóa trong văn bản tiếng Việt

  • Nội dung trình bày

  • 1. Yêu cầu thực tế

  • 2. Giới thiệu về chương trình

  • 3. Các bước tiến hành

  • 3. Các bước tiến hành (2)

  • 3. Các bước tiến hành (3)

  • 4. Sử dụng chương trình

  • 4. Sử dụng chương trình (2)

  • 5. DEMO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan