Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt

1 Ứng dụng xử lý ngôn ngữ tự nhiên hệ tìm kiếm thơng tin văn tiếng Việt Giới Thiệu: Trong hệ thống tìm kiếm thơng tin văn (Text Information Retrieval System), tiến trình quan trọng tiến trình phân tích nội dung văn để xác định tập mục (Index) biểu diễn tốt nội dung văn (tiến trình lập mục - indexing) Để phân tích rút trích mục (index term / term) tốt người ta thường ứng dụng kết lĩnh vực xử lý ngơn ngữ tự nhiên vào tiến trình Chỉ mục từ (word) cấu trúc phức tạp cụm danh từ (noun phrase), khái niệm (concept) Vấn đề xác định mục cho văn tiếng Việt phức tạp ngôn ngữ châu Âu việc xác định giới hạn từ (word segmentation) tiếng Việt không đơn giản dựa vào khoảng trắng chúng Hơn ngữ pháp tiếng Việt nhiều vấn đề tranh luận nhà ngôn ngữ học nên cịn nhiều khó khăn việc tự động hóa việc phân tích tiếng Việt Trong tiểu luận báo cáo chúng tơi trình bày việc ứng dụng xử lý ngôn ngữ tự nhiên vào hệ thống tìm kiếm thơng tin nói chung, chúng tơi trình bày số đặc trưng tiếng Việt góc nhìn lĩnh vực tìm kiếm thơng tin Cuối chúng tơi trình bày số kết mà đạt việc xác định mục cho văn tiếng Việt Bài báo cáo chia làm bốn phần, phần I "Giới thiệu tổng quát việc ứng dụng xử lý ngôn ngữ tự nhiên vào lĩnh vực tìm kiếm thơng tin" Phần II "Trình bày số đặc trưng tiếng Việt góc nhìn lĩnh vực tìm kiếm thơng tin" Phần III "Một số kêt đạt việc lập mục cho văn tiếng Việt dựa uni-gram, bi-gram, cụm danh từ" cuối "Phần kết luận" I Ứng dụng xử lý ngôn ngữ tự nhiên vào tìm kiếm thơng tin 1.1 Giới thiệu tổng quan Tìm kiếm thơng tin (Information retrieval) lĩnh vực nghiên cứu nhằm tìm giải pháp giúp người sử dụng tìm thấy thơng tin cần khối lượng lớn liệu Nhiệm vụ hệ thống tìm kiếm thơng tin tương tự nhiệm vụ tổ chức phân loại tài liệu phục vụ việc tra cứu thư viện Một hệ thống tìm kiếm thơng tin có hai chức : lập mục (indexing) tra cứu (interrogation) Lập mục giai đoạn phân tích tài liệu (document) để xác định mục (term / index term) biểu diễn nội dung tài liệu Việc lập mục dựa vào cấu trúc phân lớp có sẵn (control vocabulary) cách làm nhân viên thư viện, phân loại tài liệu theo phân loại cho trước Các mục cách làm tồn trước độc lập với tài liệu Cách thứ hai để lập mục rút trích mục từ nội dung tài liệu (free text) Trong đề cập đến cách thứ hai Cuối giai đoạn lập mục nội dung tài liệu có kho tài liệu (corpus) biểu diễn bên tập mục Trong giai đoạn tra cứu, nhu cầu thông tin người sử dụng đưa vào hệ thống dạng câu hỏi (query) ngôn ngữ tự nhiên hay dạng thức qui ước đó, phân tích biểu diễn thành dạng biểu diễn Hệ thống sử dụng hàm so khớp (matching function) để so khớp biểu diễn câu hỏi với biểu diễn tài liệu để tìm tài liệu có liên quan (relevance) Một hệ thống tìm kiếm thơng tin biểu diễn hình vẽ sau: Để đánh giá hiệu hệ thống tìm kiếm thông tin người ta dựa vào hai độ đo độ xác (presicion) độ bao phủ (recall) Giả sử với câu hỏi cho trước q, P tập tài liệu mà hệ thống tìm được, R tập tài liệu thật liên quan đến câu hỏi q Độ xác tỉ số số tài liệu liên quan đến câu hỏi tìm thầy tồn số tài liệu tìm thấy ((P∩ R) /P) Độ bao phủ tỉ số số tài liệu liên quan đến câu hỏi tìm thấy tổng số tài liệu liên quan ((P∩R)/R) Mặc dù lĩnh vực tìm kiếm thơng tin nghiên cứu từ chục năm kỹ thuật chưa áp dụng vào hệ thống thương mại nhiều lý khác Đa số hệ thống tìm kiếm thơng tin văn dựa kỹ thuật đơn giản dẫn đến kết chưa đáp ứng mong đợi người sử dụng Như thường gặp sử dụng cơng cụ tìm kiếm (search engine) Internet Phần lớn hệ thống tìm kiếm dựa giả định câu hỏi tài liệu có chứa số từ (từ khố) chung, tài liệu liên quan đến câu hỏi, dĩ nhiên số từ chung nhiều độ liên quan cho cao [1] Để đánh giá độ liên quan tài liệu câu hỏi tốt dựa vào số lượng từ chung, người ta đánh trọng số (weight) cho từ để biểu diễn mức độ quan trọng từ tài liệu Với giả định hệ thống khơng thể cho kết xác xem biểu diễn tài liệu câu hỏi dạng tập hợp từ khoá độc lập (được gọi túi từ khoá) việc so khớp tiến hành so khớp ‘túi’ từ khóa Cách biểu diễn đơn giản khơng thể cho kết cao nhìn góc nhìn ngơn ngữ học khơng xử lý biến thể mặt ngôn ngữ học (linguistic variation) từ biến thể hình thái học (morphological variation), biến thể từ vựng học (lexical variation), biến thể ngữ nghĩa học (semantical variation) biến thể cú pháp học (syntax variation) 1.2 Các biến thể ngơn ngữ học Biến thể hình thái học dạng khác mặt cấu trúc (nơm na hình dáng) từ hay thấy ngơn ngữ châu Âu Ví dụ tiếng Anh từ computer, computerize, computers biến thể hình thái học từ computer Hệ thống cho kết khơng xác đối xử với biến thể từ độc lập Biến thể từ vựng học từ khác mang nghĩa Ví dụ tiếng Anh từ: car, auto Hệ thống khơng trả tài liệu có chứa từ auto mà không chứa từ car câu hỏi chứa từ car Biến thể ngữ nghĩa học vấn đề từ đa nghĩa tùy vào ngữ cảnh Vi dụ tìm từ ‘bands’ nhận tài liệu nói ‘radio frequency bands’ Biến thể cú pháp học các kết hợp khác mặt cú pháp nhóm từ mang ý nghĩa khác Do hệ thống khơng xử lý cấu trúc ngữ pháp nhóm từ dẫn đến việc giảm độ xác Ví dụ tài liệu chứa câu ‘near to the river, air pollution is a major problem’ khơng liên quan đến ‘river pollution’ hai từ có xuất tài liệu Do để nâng cao hiệu hệ tìm kiếm thơng tin, người ta phải có giải thuật để xử lý biến thiên ngôn ngữ học nêu 1.3 Các thuật tốn xử lý ngơn ngữ tự nhiên Đối với biến thiên hình thái học người ta có hai cách để xử lý: cách thứ mở rộng câu hỏi (query expansion) cách thêm vào câu hỏi tất biến thể hình thái học tất từ có câu hỏi, cách thứ hai chuẩn hố biến thể hình thái học (stemming) từ chuẩn chung (stem) Ví dụ từ computer, computed, computes, computerize chuẩn hoá thành stem compute Hai thuật toán stemming biết đến nhiều cho tiếng Anh Lovins Porter Để xử lý biến thể từ vựng học người ta mở rộng câu hỏi cách thêm vào câu hỏi tất từ đồng nghĩa có tất từ câu hỏi xử lý giai đoạn so khớp cách đưa độ đo khoảng cách khái niệm (conceptual distance measures) Đối với cách thứ cần có từ điển đồng nghĩa, cách thứ hai phải xây dựng tự điển từ vựng (thesaurus) có định nghĩa khoảng cách từ mạng ngữ nghĩa WORDNET Biến thể ngữ nghĩa thường kết hợp chặt chẽ với biến thể từ vựng học Để xử lý biến thể cần công đoạn xử lý đa nghĩa từ (word sense disambiguiation), hiệu hệ thống tìm kiếm phụ thuộc vào kết giai đoạn xử lý Các kỹ thuật xử lý biến thể cú pháp học hay nói cụ thể xử lý cấu trúc cụm từ (phrase) chia làm hai loại: kỹ thuật lập mục dựa vào cụm từ (phase based indexing) kỹ thuật lập mục cấu trúc phân tích từ mệnh đề Các kỹ thuật lập mục dựa cụm từ nhằm tăng độ xác hệ thống Với giả định dùng cụm từ mục thay cho từ đơn độ xác tăng cụm từ biểu diễn xác nội dung tài liệu Các hệ thống tìm kiếm dựa mục cụm từ ngày thu hút nhiều nhóm nghiên cứu vấn đề làm để rút trích cụm từ cách tự động từ tài liệu trở thành vấn đề hệ Các giải pháp rút trích cụm từ thường dựa vào hai cách tiếp cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất (co-occurrence) hay cách tiếp cận dựa vào tri thức ngôn ngữ học Cách tiếp cận thứ hai đòi hỏi phải áp dụng nhiều kỹ thuật lĩnh vực xử lý ngôn ngữ tự nhiên Kỹ thuật lập mục cấu trúc dựa vào cấu trúc có từ việc phân tích mệnh đề câu tài liệu trình so khớp so khớp cấu trúc câu hỏi với cấu trúc tài liệu Cách tiếp cận khơng thu hút nhiều nhóm nghiên cứu độ phức tạp việc phân tích mệnh đề để xây dựng cách cấu trúc cao lại khơng tăng hiệu hệ thống tìm kiếm 1.4 Hệ thống tra cứu thông tin ứng dụng xữ lý ngơn ngữ tự nhiên Theo [1], q trình lập mục hệ thống tìm kiếm thơng tin có ứng dụng kỹ thuật xử lý ngơn ngữ tự nhiên phải bao gồm chức sau: Xác định từ (tokenization/ word segmentation) Xác định từ loại cho từ (Part-of-speech tagging) Chuẩn hoá biến thể hình thái học từ Xác định từ ghép Chuẩn hoá biến thể từ vựng học ngữ nghĩa học Phân tích cú pháp Chuẩn hố biến thể cú pháp học Đánh trọng số cho biểu thức mục Bước xác định từ thực việc xác định câu tài liệu xác định từ câu Đối với ngôn ngữ châu Âu bước cài đặt dựa vào luật viết hoa, khoảng trắng ký tự phân cách khác Đối với tiếng Việt bước phức tạp từ tiếng Việt xác định dựa theo cách Sau đă xác định từ, hệ thống tiến hành gán từ loại (category) cho từ phụ thuộc vào ngữ cảnh từ Đây công đoạn phức tạp từ mang nhiều từ loại khác tùy thuộc vào ngữ cảnh xuất từ Việc xác định từ loại cho từ nhằm phục vụ cho giai đoạn tiến trình xác định từ ghép, cụm danh từ có câu Bước hệ thống xác định từ ghép (compound noun) ví dụ từ ‘hot dog’ để xử lý chúng đơn vị thay xử lý riêng rẽ từ hot dog trường hợp Việc xác định từ ghép thường dùng phương pháp thống kê tần suất đồng xuất từ tài liệu dùng mẫu (patern) tổ hợp từ loại, ví dụ danh từ - tính từ, danh từ - danh từ … Tiếp theo q trình chuẩn hố biến thể từ vựng học ngữ nghĩa để xây dựng phân nhóm mục theo nhóm ngữ nghĩa (semantical clustering) Phân tích cú pháp giai đoạn nhằm xác định liên hệ mặt cú pháp từ cụm từ Khi xác định cụm từ liên hệ cú pháp từ cụm từ, tiến hành chuẩn hóa cụm từ chuẩn chung cuối tiến hành đánh trọng số cho cụm từ mục Phần chúng tơi trình bày kiến trúc hệ thống tìm kiếm thơng tin có ứng dụng xử lý ngơn ngữ tự nhiên Tuy nhiên ví bước xử lý ngơn ngữ tự nhiên phức tạp với thời gian xử lý nhiều nên việc triển khai hệ thống thực tế nhiều hạn chế II Một số đặc trưng tiếng Việt 2.1 Từ tiếng Việt Một vấn đề khó khăn xử lý tự động tiếng Việt việc định nghĩa từ tiếng Việt nhiều tranh luận Để thuận tiện cho việc trình bày sau theo quan điểm Đinh Điền [2] sau: câu tiếng Việt bao gồm nhiều từ, từ bao gồm hay nhiều ‘tiếng’, ‘tiếng’ chuỗi ký tự liền phân biệt với tiếng khác hay nhiều khoảng trắng Ví dụ : từ ‘học’ từ gồm tiếng từ ‘học sinh’ từ gồm hai tiếng cụm từ ‘khoa học tự nhiên’ gồm từ hay tiếng Chúng sử dụng phương pháp học dựa vào luật biến đổi (transformation based learning) [3] để thực công việc đạt độ xác khoảng 8085% Trong hệ thống tìm kiếm thơng tin văn tiếng Châu âu, người ta đơn giản lấy xác định từ nhờ vào khoảng trắng phân cách từ chọn từ đặc trưng cho nội dung văn (dựa vào tần suất xuất từ) làm mục mà hiệu tìm kiếm chấp nhận Đối với tiếng Việt làm tương tự xác định từ dựa khoảng trắng phân cách nhận ‘tiếng’ vơ nghĩa độ xác hệ thống thấp Theo nhà ngôn ngữ học tiếng Việt có đến 80% từ ‘tiếng’ [6] Chúng tơi trình bày kết thực nghiệm chứng minh điều phần sau Một đặc điểm tiếng Việt từ tiếng Việt biến thể hình thái học cơng đoạn chuẩn hóa hình thái học khơng hiệu tiếng Việt Dĩ nhiên tiếng Việt có số hình thức biến thể hình thái học trường hợp thêm tiếng ‘sự’ trước động từ để biến thành danh từ tương đương ví dụ như: động từ ‘lựa chọn’ danh từ ‘sự lựa chọn’ hay việc thêm tiếng ‘hóa’ sau danh từ để biến thành động từ tương đương : danh từ ‘tin học’ động từ ‘tin học hóa’ 2.2 Từ loại Vấn đề xác định từ loại cho từ tiếng Việt phức tạp tiếng châu Âu dựa vào đặc tính đặc biệt hình thái học từ để xác định loại từ ví dụ tiếng anh xác định từ tính từ có phần cuối ‘able’ Đối với tiếng Việt từ loại xác định tùy vào ngữ cảnh Vi dụ, xem xét câu sau: Thành công dự án tạo tiếng vang lớn Anh thành công nghiên cứu khoa học Buổi biểu diễn thành công Trong câu (1) từ ‘thành công’ danh từ, câu (2) từ ‘thành công’ động từ câu (3) từ ‘thành cơng’ lại tính từ Cụm danh từ Cấu trúc cụm danh từ vấn đề cịn nhiều tranh luận nhà ngơn ngữ học Chúng tơi trình bày theo quan điểm phù hợp với việc tin học hoá (theo quan điểm chủ quan chúng tôi) sau Một cụm danh từ tiếng Việt gồm ba phần: phần mang ý nghĩa cụm danh từ, phần phụ trước gồm định từ phần phụ sau gồm từ bổ nghĩa cho phần Ví dụ: có cụm từ ‘Tất sách tin học’ cụm từ phần phụ trước: Tất phần chính: sách phần phụ sau: tin học Phần danh từ, phần phụ trước thường định từ, phần phụ sau phức tạp từ loại, danh từ, tính từ, động từ… Chúng sử dụng phương pháp học dựa luật biến đổi để xây dựng tập luật biến đổi theo ngữ cảnh phục vụ cho việc xác định cụm danh từ Kết đạt xác khoảng 80% [5] III Một số kết thực nghiêm tiếng Việt 10 Chúng tiến hành thử nghiệm để xác định xem loại mục phụ hợp cho việc lập mục văn tiếng Việt Chúng thử nghiệm loại mục: uni-gram, bi- gram, bi-gram kết hợp với từ vựng cụm danh từ 3.1 Tập liệu kiểm tra (test collection) Để đánh giá hiệu hệ thống tìm kiếm thông tin người ta sử dụng hai độ đo: độ xác độ bao phủ hệ thống tập liệu kiểm tra Tập liệu kiểm tra bao gồm ba phần: tập tài liệu, tập câu hỏi dạng chủ đề (topic) tập đánh giá liên quan tài liệu câu hỏi Các tập liệu kiểm tra thường tổ chức chuyên hệ thống tìm kiếm thơng tin xây dựng (như TREC : Text REtrieval Conference), tiếng Việt chưa có tập liệu kiểm tra Do chúng tơi phải tự xây dựng tập kiểm tra cho tiếng Việt Tập liệu kiểm tra gồm tập hợp 10.750 tài liệu (document) báo trích từ báo Việt nam năm 2000, kích thước 23Mbyte Tập câu hỏi bao gồm 14 câu hỏi Nhóm chúng tơi tiến hành xây dựng tập liệu đánh giá liên quan tài liệu câu hỏi theo cách bán thủ công Bước sử dụng hệ tìm kiếm thơng tin SMART (một hệ thống tiếng Đại học Cornell phát triển ) để lập mục tập liệu trên, chúng tơi dùng SMART để tìm tài liệu liên quan đến 14 câu hỏi chọn, với câu hỏi chọn 20 tài liệu hệ SMART trả tài liệu có liên quan đến câu hỏi Bước hai tiến hành đánh giá lại lần thủ công 20 tài liệu ứng với câu hỏi để có bảng đánh giá cuối Như tập liệu kiểm tra mà sử dụng chưa phải tập kiểm tra tốt chấp nhận thời điểm 3.2 Các loại mục tiến hành thử nghiệm Chúng tiên hành thử nghiệm với mục Uni-gram Uni-gram đơn vị ngơn ngữ ‘tiếng’ mà chúng tơi trình bày phần Như 11 nêu phần trên, ‘tiếng’ từ tiếng Việt phần lớn từ tiếng Việt tự gồm ‘tiếng’, nên tiến hành thử nghiệm với mục bi-gram Một bi-gram tổ hợp gồm ‘tiếng’ liền nhau, cách làm giúp chúng tơi có đánh giá sơ chưa cần ứng dụng xử lý ngôn ngữ học phức tạp Tiếp theo sử dụng danh mục từ (lexicon) tiếng Việt gồm 30.000 từ để loại bỏ bi-gram khơng có ý nghĩa Chúng sử dụng hệ SMART [4] cho thử nghiệm với cách đánh trọng số cho mục ltc Chúng xây dựng số module tiền xử lý liệu để xác định bigram nối chúng lại dấu gạch ( _ ) để SMART hiểu ‘từ’ nhất, việc kiểm tra bi-gram có từ tiếng Việt không, dựa vào danh mục từ tiếng Việt Các kết thử nghiệm sau: 3.2.1 Uni-gram Đây xem thử nghiệm để đối chiếu với việc sử dụng mục ‘từ’ hệ tìm kiếm dựa từ khóa ngơn ngữ châu Âu xem có sở để đánh giá loại mục khác Độ xác trung bình nhận 0.3636 3.2.2 Bi-gram Việc xác định bi-gram thực sau: duyệt tài liệu từ trái sang phải trích tất tổ hợp ‘tiếng’ Ví dụ, với câu ABCDE bigram trích AB, BC, CD, DE Cách làm đơn giản cho phép trích từ tiếng Việt gồm ‘tiếng’ tạo ‘rác’ (các tổ hợp khơng có tiếng Việt) Ví dụ : xem xét đoạn gồm ‘tiếng’: ‘công nghệ thông tin’ cắt thành bi-gram sau : ‘công nghệ’, ‘nghệ thông’, ‘thông tin’ Các bi-gram từ tiếng Việt có nghĩa, cịn ‘ nghệ thơng’ từ vơ nghĩa Tuy độ xác trung bình tăng lên so với việc dùng ‘tiếng’ mục Độ xác trung bình chúng tơi đạt 0.3778 3.3.3 Bi-gram kết hợp với danh mục từ 12 Để giảm ‘rác’ sinh việc cắt ‘cơ học’ bi-gram, tiến hành kiểm tra bi-gram cắt với danh mục từ tiếng Việt có sẵn giữ lại bi-gram có danh mục, bi-gram khơng có danh mục chúng tơi xử lý từ đơn ‘tiếng’ Cách làm làm tăng đáng kể độ xác hệ thống Chúng tơi đạt độ xác trung bình 0.5625 Biểu đồ so sánh đường cong biểu diễn tương quan độ xác độ bao phủ IV Kết luận Trong tiểu luận báo cáo chúng tơi cố gắng trình bày cách tổng hợp ứng dụng xử lý tự động ngôn ngữ tự nhiên vào hệ thống tìm kiếm thơng tin văn Chúng ta thấy việc ứng dụng bước xử lý ngôn ngữ tự nhiên cho phép nâng cao hiệu hệ tìm kiếm cịn lại câu hỏi cần phải xem xét tính phức tạp xử lý ngơn ngữ tự nhiên làm chậm tốc độ hệ thống thân độ xác xử lý cịn phải tiếp tục nâng lên Do đó, nên tùy vào đòi hỏi hệ thống 13 ứng dụng cụ thể để nên áp dụng xử lý ngôn ngữ tự nhiên đến mức độ Chúng tơi trình bày số đặc trưng tiếng Việt góc nhìn người làm hệ thống tìm kiếm thơng tin số kết mà đạt việc thử nghiệm để chọn loại mục phù hợp cho tiếng Việt Cho đến nhận thấy với mục bi-gram kết hợp với danh mục từ cho độ xác cao Chúng tơi tiến hành thử nghiệm với mục cụm danh từ Tài liệu tham khảo [1] A Arampatzis et al,.(2000), “Linguistically Motivated Information Retrieval” Encylopedia of Library and Infoamation Science, Marcel Dekker, Inc., New York, Basel [2] E Brill (1995), “Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging” Computational linguistique, 21(4):543-565 [3] G Salton and M.J McGill (1983), “Introduction to Modern Information Retrieval” McGraw-Hill, NewYork, New York [4] Nguyễn Hữu Quỳnh (2001), “Ngữ Pháp Tiếng Việt”, Nhà xuất từ điển bách khoa [5] Nguyễn Kim Thản (1997), “Nghiên cứu ngữ pháp tiếng Việt” Nhà xuất khoa học xã hội [6] W.A Woods et al, (2000), “Linguistique knowledge can improve information retrieval” In Sixth Annual Applied Natural Language Processing Conference, pages 262-267 14 PHẦN DEMO CHƯƠNG TRÌNH "SMART" ... cách tổng hợp ứng dụng xử lý tự động ngôn ngữ tự nhiên vào hệ thống tìm kiếm thơng tin văn Chúng ta thấy việc ứng dụng bước xử lý ngôn ngữ tự nhiên cho phép nâng cao hiệu hệ tìm kiếm cịn lại câu... tăng hiệu hệ thống tìm kiếm 1.4 Hệ thống tra cứu thông tin ứng dụng xữ lý ngơn ngữ tự nhiên Theo [1], q trình lập mục hệ thống tìm kiếm thơng tin có ứng dụng kỹ thuật xử lý ngơn ngữ tự nhiên phải... trình bày kiến trúc hệ thống tìm kiếm thơng tin có ứng dụng xử lý ngơn ngữ tự nhiên Tuy nhiên ví bước xử lý ngơn ngữ tự nhiên phức tạp với thời gian xử lý nhiều nên việc triển khai hệ thống thực tế

Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan