TÌM HIỂU VẤN ĐỀGÁN NHÃN VĂN BẢN TIẾNG VIỆT VÀ MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN VĂN BẢN

20 917 2
TÌM HIỂU VẤN ĐỀGÁN NHÃN VĂN BẢN TIẾNG VIỆT VÀ MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ CƠ SỞ 2 THÀNH PHỐ HỒ CHÍ MINH  MÔN HỌC: NGUYÊN LÝ CHƯƠNG TRÌNH DỊCH GV BỘ MÔN:TS HÀ CHÍ TRUNG ĐỀ TÀI: TÌMHIỂUVẤNĐỀGÁNNHÃNVĂN BẢNTIẾNGVIỆT VÀ MỘT SỐ PHƯƠNG PHÁPGÁNNHÃNVĂN BẢN (ÍT NHẤT2 PHƯƠNG PHÁP) Học viên thực hiện : Phan Thị Ngọc Tuyết Vân Mã học viên : 14871114 Lớp :CHKHMT K.26B Tp.HCM, năm 2015 Đồ án môn Nguyên Lý Chương Trình Dịch LỜI MỞ ĐẦU Kính Thưa Thầy, trước tiên em xin gởi đến Thầy lời cảm ơn chân thành nhất. Thầy đã hướng dẫn môn học NGUYÊN LÝ CHƯƠNG TRÌNH DỊCH cho lớp CHKHMT – TPHCM25A13. Dẫu trong thời gian ngắn, nhưng Thầy đã giảng giải cho chúng em khái quát và những gì cô đọng nhất về môn học. Khi phân công bài tập, Thầy hướng dẫn và phân tích để chúng em hiểu cách trình bày cho việc hoàn thành bài tập. Em rất cảm ơn sự tận tâm của Thầy đã giúp chúng em hoàn tất bài tập. Trong khuôn khổ của một bài viết sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự góp ý cũng như chỉ bảo thêm của Thầy, được như vậy tất cả chúng em sẽ có thể được học hỏi thêm nhiều kiến thức của Thầy, giúp chúng em tiến bộ hơn trong tương lai. Trân trọng. MỤC LỤC HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 2 Đồ án môn Nguyên Lý Chương Trình Dịch MỞĐẦU Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy. Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 3 Đồ án môn Nguyên Lý Chương Trình Dịch Chương 1: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN I. Tổng quan: Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chưa hiểu được thành các dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình. II. Qui trình xử lý ngôn ngữ tự nhiên Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngôn ngữ cấp cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chương trình đó sang chương trình ở dạng ngôn ngữ đích. Cấu trúc của trình biên dịch là một cấu trúc mức quan niệm bao gồm các giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghĩa, Sinh mã trung gian, Tối ưu mã và Sinh mã đích. Nói một cách đơn giản, trình biên dịch là một chương trình làm nhiệm vụ đọc một chương trình được viết bằng một ngôn ngữ - ngôn ngữ nguồn (source language) - rồi dịch nó thành một chương trình tương đương ở một ngôn ngữkhác - ngôn ngữ đích (target languague). Một phần quan trọng trong quá trình dịch là ghi nhận lại các lỗi có trong chương trình nguồn để thông báo lại cho người viết chương trình 1. Phân tích từ vựng (Lexical Analysis) Phân tích từ vựng là giai đoạn đầu tiên của mọi trình biên dịch. Nhiệm vụ chủ yếu của nó là đọc các ký hiệu đầu vào rồi tạo ra một chuỗi các mã thông báo token được sử dụng bởi bộ phân tích cú pháp. 2. Phân tích cú pháp (Syntax Analysis) Giai đoạn phân tích cú pháp thực hiện công việc nhóm các thẻ từ của chương trình nguồn thành các ngữ đoạn văn phạm (grammatical phrase), mà sau đó sẽ được trình biên dịch tổng hợp ra thành phẩm. Thông thường, các ngữ đoạn văn phạm này được biểu diễn bằng dạng cây phân tích cú pháp (parse tree) với: - Ngôn ngữ được đặc tả bởi các luật sinh. - Phân tích cú pháp dựa vào luật sinh để xây dựng cây phân tích cú pháp. HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 4 Đồ án môn Nguyên Lý Chương Trình Dịch 3. Phân tích ngữ nghĩa (Semantic Analysis) Giai đoạn phân tích ngữ nghĩa sẽ thực hiện việc kiểm tra xem chương trình nguồn có chứa lỗi về ngữ nghĩa hay không và tập hợp thông tin về kiểu cho giai đoạn sinh mã về sau. Một phần quan trọng trong giai đoạn phân tích ngữ nghĩa là kiểm tra kiểu (type checking) và ép chuyển đổi kiểu. 4. Sinh mã trung gian Sau khi phân tích ngữ nghĩa, một số trình biên dịch sẽ tạo ra một dạng biểu diễn trung gian của chương trình nguồn. Chúng ta có thể xem dạng biểu diễn này như một chương trình dành cho một máy trừu tượng. Chúng có 2 đặc tính quan trọng: dễ sinh và dễ dịch thành chương trình đích. 5. Tối ưu mã Giai đoạn tối ưu mã cố gắng cải thiện mã trung gian để có thể có mã máy thực hiện nhanh hơn. Một số phương pháp tối ưu hóa hoàn toàn bình thường. Có một khác biệt rất lớn giữa khối lượng tối ưu hoá mã được các trình biên dịch khác nhau thực hiện. Trong những trình biên dịch gọi là "trình biên dịch chuyên tối ưu", một phần thời gian đáng kể được dành cho giai đoạn này. 6. Sinh mã đích Giai đoạn cuối cùng của biên dịch là sinh mã đích, thường là mã máy hoặc mã hợp ngữ. Các vị trí vùng nhớ được chọn lựa cho mỗi biến được chương trình sử dụng. Sau đó, các chỉ thị trung gian được dịch lần lượt thành chuỗi các chỉ thị mã máy. Vấn đề quyết định là việc gán các biến cho các thanh ghi. HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 5 Đồ án môn Nguyên Lý Chương Trình Dịch Chương 2: BÀI TOÁN GÁN NHÃN TỪ LOẠI I Khái niệm về bài toán gán nhãn từ loại Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việcgiải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại haykhông dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản làxác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từthành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãntừ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tậpnhãn cho trước. 1 Quá trình gán nhãn từ loại thường được chia làm 3 bước : Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao. Khởi tạo gán nhãn: tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét. Quyết định kết quả gán nhãn: đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill) và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, … 7. Các khó khăn của bài toán gán nhãn từ loại Nếu mỗi từ chỉ có một nhãn từ loại và ta có thể xây dựng được một từ điển hữuhạn các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gánnhãn từ loại với kết quả tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiềuhơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ cóthể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loạiphải đối mặt: Nhập nhằng từ loại và từ mới.Vấn đề chủ yếu của bài toán gán nhãn từ loại thực HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 6 Đồ án môn Nguyên Lý Chương Trình Dịch chất là việc loại bỏ nhậpnhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể,nó chỉ có thể có một từ loại đúng mà thôi Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đếnngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thôngtin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từmới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trongtrường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt đểchuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word). III. Tập nhãn từ loại 1 Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loạicủa các ngôn ngữ trên thế giới Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩakhái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiệnnhững chức năng ngữ pháp nhất định ở trong câu. Trong thực tế, các tập nhãn sửdụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bảnlà các lớp từ đóng (Closed word class, function word class, còn được gọi là các từchức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa mộtsố lượng ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm, ) và các lớp từmở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc“mượn” từ các ngôn ngữ khác. Có 4 lớp từ mở chính là danh từ - nouns, động từ -verb, tính từ - adjective và một phần của phó từ - [adverb]). Thường thì một lớp từ sẽđược chia thành nhiều từ loại theo các đặc tính riêng nào đó. Với mỗi ngôn ngữ thường đều có nhiều tập nhãn từ loại có thể sử dụng,tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãntừ loại. Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể khôngđủ đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộcvào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứngdụng đó đòi hỏi. Như vậy, cần phải có một sự thoả hiệp để xây dựng được một bộnhãn từ loại không quá lớn và có chất lượng, tức là cần phải có sự cân đối giữa: • Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt). • Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng dễ tiến hành). HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 7 Đồ án môn Nguyên Lý Chương Trình Dịch 8. Các hướng tiếp cận bài toán gán nhãn từ loại a. Gán nhãn bằng phương pháp dựa trên hệ luật Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai”đều thực hiện theo phương pháp này. Nội dung chính của phương pháp này là xâydựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy phương pháp này cònđược gọi là phương pháp gán nhãn thủ công. Các luật được xây dựng dựa vào ngữ cảnh thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xuhướng là một danh từ hơn là một động từ. Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này làENGTWOL (Voutilainen, 1995). b. Các phương pháp dựa vào học máy Phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàngrất nhiều nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trêncác luật là rất tốn công sức. Thông thường để xây dựng một hệ thống như vậy đòi hỏicông sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ học. Giảipháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó có thể “tựhọc”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăngtính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các phương phápdựa vào học máy. Như đã nói ở trên, các phương pháp dựa vào học máy là các phương pháp xâydựng hệ thống mà bằng cách nào đó có thể “tự học” (để ngắn gọn ở các phần dưới đâyta sẽ gọi là các phương pháp học máy). Phần này sẽ xem xét một đại diện tiêu biểu củaphương pháp học máy, giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu huấnluyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó trongngữ cảnh cho trước, vì bản chất đó, họ các phương pháp này còn được gọi là cácphương pháp xác suất. Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp vớimột từ cho trước w được tính bằng công thức: Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãnđiển hình sử dụng mô hình Markov ẩn (HMM). Mô hình Markov ẩn được giớithiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến naynó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tựnhiên. HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người tasử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó. Mô hình HMM có thể được xây dựng bởi các ô-tô-mát hữu hạn trạng thái(probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạngthái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 8 Đồ án môn Nguyên Lý Chương Trình Dịch HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trìnhsinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạngthái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc.Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyểnsang trạng thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tươngứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB và dữ liệu quan sát là cáctừ trong câu. Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán chomột từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó. Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các nhãn tốt nhấtcho toàn bộ câu, trong đó mỗi nhãn tương ứng với một từ của câu đầu vào T (t1, t2, …,tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tíchP(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức: Tˆ = argmaxT ∈τ P(T | W ) Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức nên mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó. Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức Tˆ = argmaxT ∈τ P(T )P(W | T ) Áp dụng luật chuỗi xác suất, ta có công thức Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cáchchính xác, vì nó yêu cầu quá nhiều dữ liệu. Ở đây ta phải áp dụng các giả thiết độc lậpđiều kiện để có một xác suất đơn giản hơn (giả thiết rằng mỗi từ đều là độc lập với cáctừ khác và đặc tính của một từ chỉ phụ thuộc vào nhãn của nó). Sử dụng giả thiết N-gram để mô hình hóa xác suất chuỗi từ: Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram. P ( t1 ,t2 ,t3 ) = P ( t2 | t1 ) P ( t3 | t2 ) Đầu tiên, ta đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào nhãn củanó: P(w i | w 1 t 1 w i − 1 t i − 1 t i ) = P(w i | t i ) HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 9 Đồ án môn Nguyên Lý Chương Trình Dịch Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãntrước và gần nó nhất: P(t i | w 1 t 1 w i-1 t i-1 )= P(t i | t i-2 t i-1 ) Vì vậy, công thức Tˆ = argmaxT ∈τ P(T | W ) được biến đổi tương đương với công thức dưới đây,ta phải lựa chọn chuỗi nhãn làm cực đại công thức này Các thành phần thừa số trong công thức trên có thể được tính toán từ tập dữ liệuhuấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sử dụng cáckỹ thuật làm trơn Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình Như đã nói ở trên, thông thường trong mô hình HMM thuật toán hay được sửdụng để tìm dãy trạng thái tối ưu là thuật toán Viterbi. Thuật toán này dựa trêncông thức truy hồi dưới đây: Một trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán nhãnTnT của tác giả Thorsten Brants sử dụng phương pháp tri-gram, cho kết quả 96.7% vớitập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếng Anh. QTAG là mộtbộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộctrường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đíchnghiên cứu. Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưngnó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác. Phương pháp xácsuất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụviệc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su; Hai tác giảFábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM đểgán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48 % . HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 10 [...]... phương pháp lai là phương pháp dựa trên học chuyển đổi(Transformation-Based learning TBL), đây là một phương pháp học có giám sát,đòi hỏi một tập ngữ liệu đã được gán nhãn Phương pháp này sử dụng đặc tính của cảhai kiến trúc gán nhãn nói trên Giống như bộ gán nhãn dựa trên luật, nó dựa vào luậtđể xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất Giốngnhư bộ gán nhãn xác suất, nó có một. .. toán tìm cực đạicủa hàm loglikelihood Có nhiều phương pháp tìm cực đại của hàm log-likelihoodnhư các phương pháp lặp (IIS, GIS), các phương pháp tối ưu số (phương pháp dựa trênvector gradient như phương pháp gradient liên hợp, quasi-Newton …) và L-BFGs cóthể phục vụ cho ước lượng tham số mô hình Trong các phương pháp tìm cực trị hàmlog-likelihood này, phương pháp L-BFGs được đánh giá là vượt trội và. .. toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nóiriêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của môhình HMM mà ta đã nói ở trên Cùng với đó, bên cạnh các phương pháp học máy xácsuất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độđo, phương pháp sử dụng mạng nơ ron nhân tạo, … c Phương pháp lai Đại diện tiêu biểu của phương. .. Tài liệu tham khảo [1] Nguyễn Quang Châu- Phan Thị Tươi- Cao Hoàng Trụ, (2006), Gán nhãn từ loại cho tiếng việt dựa trên văn phong và tính toán xác suất”, Tạp chí phát triển KH&CN, tập 9 (số 2) [2] Nguyễn Thị Minh Huyền - Vũ Xuân Lương - Lê Hồng Phương, (2003), “Sử dụng bộ gán nhãn từ loại xác suất qtag cho văn bản tiếng việt , Kỷ yếu Hội thảo ICT.rda’03 HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang... định hàm tiềm năng của một CRF có dạng một hàm mũ Ở đây fklà một thuộc tính của chuỗi dữ liệu quan sát và là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính fk Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng thái (kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G Thay các hàm tiềm năng vào công thức và thêm vào đó một thừa sổ chuẩn hóa Z(x)... tại, đây là một trong những phươngpháp gán nhãn theo phương pháp xác suất thông dụng nhất được biết đến nhưng nóvẫn còn tiềm tàng những giới hạn khó giải quyết Adrew McCallum trong các nghiêncứu của mình đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêngvà các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệudạng chuỗi Ngoài HMM, còn rất nhiều phương pháp xác suất... luật một cáchtự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hoặctinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biếnđổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chínhxác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãnchính... sẽ bắt đầu mô hình với một đồ thị đầy đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mô hình.Tiếc rằng giải pháp này sẽ làm mất đi tính có thứ tự của mô hình, một tính chất rất có ích cho các bài toán trích chọn thông tin Một giải pháp đúng đắn hơn cho vấn đề này là xem xét toàn bộ chuỗi trạng thái như một tổng thể và cho phép một số các bước chuyển trong... liệu Mô hình tổng quát của phương pháp lai Thuật toán bao gồm 5 bước: HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 11 Đồ án môn Nguyên Lý Chương Trình Dịch • Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất • Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằngnhãn mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một phépchuyển bằng hệ số đánh giá lỗi thực chất... kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams,sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được chobởi bảng sau: ST T 1 2 Chuyển nhãn Cũ Mới NN VB VBP VB 3 NN VB 4 5 VB VBD NN VBN Điều kiện Ví dụ Nhãn trước đó là TO To/TO race/NN VB Might /MD vanish/VBP VB Might/MD not reply/NNVB 1 trong 3 nhãn trước . CHƯƠNG TRÌNH DỊCH GV BỘ MÔN:TS HÀ CHÍ TRUNG ĐỀ TÀI: TÌMHIỂUVẤNĐỀGÁNNHÃNVĂN BẢNTIẾNGVIỆT VÀ MỘT SỐ PHƯƠNG PHÁPGÁNNHÃNVĂN BẢN (ÍT NHẤT2 PHƯƠNG PHÁP) Học viên thực hiện : Phan Thị Ngọc Tuyết Vân Mã. cận bài toán gán nhãn từ loại a. Gán nhãn bằng phương pháp dựa trên hệ luật Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai”đều thực hiện theo phương pháp này. Nội. biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi(Transformation-Based learning TBL), đây là một phương pháp học có giám sát,đòi hỏi một tập ngữ liệu đã được gán nhãn. Phương pháp này

Ngày đăng: 21/05/2015, 08:16

Từ khóa liên quan

Mục lục

  • MỞĐẦU

  • Chương 1: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

  • Chương 2:

  • BÀI TOÁN GÁN NHÃN TỪ LOẠI

  • a. Gán nhãn bằng phương pháp dựa trên hệ luật

  • b. Các phương pháp dựa vào học máy

  • c. Phương pháp lai

  • a Khái niệm MEM

  • d. Nguyên lý cực đại hóa Entropy

  • e. Mô hình xác suất

  • f. Hạn chế của mô hình MEM

  • a Khái niệm CRF

  • g. Hàm tiềm năng của các mô hình CRF

  • h. Thuật toán gán nhãn cho dữ liệu dạng chuỗi.

  • i. Ước lượng tham số cho các mô hình CRF

  • Tài liệu tham khảo

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan