Cải tiến chất lượng dịch máy thống kê cho cặp ngôn ngữ anh – việt dựa vào cây phân tích cú pháp phụ thuộc (tt)

28 104 0
Cải tiến chất lượng dịch máy thống kê cho cặp ngôn ngữ anh – việt dựa vào cây phân tích cú pháp phụ thuộc (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

✣❸■ ❍➴❈ ◗❯➮❈ ●■❆ ❍⑨ ◆❐■ ❚❘×❮◆● ✣❸■ ❍➴❈ ❈➷◆● ◆●❍➏ ✖✖✖✖✖✖✖ ❚❘❺◆ ❍➬◆● ❱■➏❚ ❈❷■ ❚■➌◆ ❈❍❻❚ ▲×Đ◆● ❉➚❈❍ ▼⑩❨ ❚❍➮◆● ❑➊ ❈❍❖ ❈➄P ◆●➷◆ ◆●Ú ❆◆❍✲❱■➏❚ ❉Ü❆ ❱⑨❖ ❈❹❨ P❍❹◆ ❚➑❈❍ ❈Ĩ P❍⑩P P❍Ư ❚❍❯❐❈ ❈❤✉②➯♥ ♥❣➔♥❤✿ ❑❤♦❛ ❤å❝ ♠→② t➼♥❤ ▼➣ sè✿ ✻✷ ✹✽ ✵✶ ✵✶ ❚➶▼ ❚➁❚ ▲❯❾◆ ⑩◆ ❍➔ ◆ë✐ ✲ ✷✵✶✽ ❈ỉ♥❣ tr➻♥❤ ✤÷đ❝ ❤♦➔♥ t❤➔♥❤ t↕✐✿ ❚r÷í♥❣ ✣↕✐ ❤å❝ ❈ỉ♥❣ ♥❣❤➺✱ ✣↕✐ ❤å❝ ố ữớ ữợ ❚❙✳◆❣✉②➵♥ ❱➠♥ ❱✐♥❤ ✷✳ P●❙✳❚❙✳ ◆❣✉②➵♥ ▲➯ ▼✐♥❤ ▼ð ✤➛✉ ✶✳ ❚➼♥❤ ❝➜♣ t❤✐➳t ❝õ❛ ❧✉➟♥ →♥ ❱➜♥ ✤➲ q✉❛♥ trå♥❣ ❝õ❛ ❞à❝❤ ♠→② ❧✐➯♥ q✉❛♥ ✤➳♥ ✈✐➺❝ ❧➔♠ t❤➳ ♥➔♦ ✤➸ s✐♥❤ r❛ t❤ù tü ❝→❝ tø ✭❝ö♠✮ ❝❤➼♥❤ ①→❝ tr♦♥❣ ♥❣æ♥ ♥❣ú ✤➼❝❤✳ ❚r♦♥❣ ❤➺ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❞ü❛ tr➯♥ ❝ö♠ tø ✭P❇❙▼❚✮✱ ✈✐➺❝ ✤↔♦ ❝ö♠ tø ✈➝♥ ❝á♥ ✤ì♥ ❣✐↔♥ ✈➔ ❝❤➜t ❧÷đ♥❣ ❝❤÷❛ ❝❛♦✳ ❇➯♥ ❝↕♥❤ ✤â✱ ❞♦ ❝→❝ ♥❣æ♥ ♥❣ú ❝â ♥❤✐➲✉ ✤➦❝ ✤✐➸♠ ❦❤→❝ ♥❤❛✉ ❞➝♥ tỵ✐ ❦❤ỉ♥❣ t❤➸ ♠ỉ ❤➻♥❤ ❤â❛ ❝❤➼♥❤ tr q tr Pữỡ t ỷ ỵ ợ t tờ ủ õ ữ ❣✐ú ✤÷đ❝ ✤✐➸♠ ♠↕♥❤ ❝õ❛ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ❝ư♠ tø✱ ❣✐↔♠ t❤✐➸✉ t❤í✐ ❣✐❛♥ ❣✐↔✐ ♠➣✱ ❝ơ♥❣ ♥❤÷ ❣✐ú ✤✐➸♠ ♠↕♥❤ ❝õ❛ ❞à❝❤ ♠→② t❤❡♦ ❝ó ♣❤→♣ tr♦♥❣ ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø✳ ◆❤ú♥❣ ✈➜♥ ✤➲ t❤→❝❤ t❤ù❝ ✤➦t r❛✿ ✲ ▼ët sè ♥❣❤✐➯♥ ❝ù✉ ✤➣ →♣ ❞ư♥❣ ✤↔♦ tr➟t tü tø ❞ü❛ tr➯♥ ❝➙② ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝ ❝❤♦ ❝❤✐➲✉ ❆♥❤✲❱✐➺t✳ ❚✉② ♥❤✐➯♥ ♥❤ú♥❣ ♥❣❤✐➯♥ ❝ù✉ ♥➔② ❝❤õ ②➳✉ ❞ò♥❣ ❝→❝ ❧✉➟t ❜➡♥❣ t❛②✱ ❝❤÷❛ →♣ ❞ö♥❣ ❝→❝ ❧✉➟t tü ✤ë♥❣ tr♦♥❣ ❜➔✐ t♦→♥ ❞à❝❤✳ t ự sỷ t ỷ ỵ ỹ ú tở tỗ t t t ữủ ợ ÷✉ ✤✐➸♠ ❝õ❛ ❝➜✉ tró❝ ❝➙② ♣❤➙♥ t➼❝❤ ♣❤ư t❤✉ë❝ tr♦♥❣ ✈✐➺❝ t❤➸ ❤✐➺♥ q✉❛♥ ❤➺ ♣❤ö t❤✉ë❝ tø✱ tè❝ ✤ë ♥❤❛♥❤✱ ♣❤ò ❤đ♣ ✈ỵ✐ ✈➜♥ ✤➲ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø✱ ❧✉➟♥ →♥ t➟♣ tr✉♥❣ ♥❣❤✐➯♥ ❝ù✉ ✤➲ t➔✐✿ ✧❈↔✐ t✐➳♥ ❝❤➜t ❧÷đ♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❝❤♦ ❝➦♣ ♥❣ỉ♥ ♥❣ú ❆♥❤✲❱✐➺t ❞ü❛ ✈➔♦ ❝➙② ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝✑ ✳ ✷✳ ▼ö❝ t✐➯✉ ❝õ❛ ❧✉➟♥ →♥ • ◆❣❤✐➯♥ ❝ù✉ ❝→❝ ♣❤÷ì♥❣ ♣❤→♣ ❣✐↔✐ q✉②➳t ❜➔✐ t♦→♥ ✤↔♦ ❝ö♠ tø tr♦♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❞ü❛ ✈➔♦ t ữợ t t ỷ ỵ ❞ü♥❣✱ ♠ð rë♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ✈➔ ♣❤→t tr✐➸♥ ❝→❝ ❧✉➟t tü ✤ë♥❣ →♣ ❞ö♥❣ ✤➸ ❝↔✐ t❤✐➺♥ ❝❤➜t ữủ tố tố ❞à❝❤ t❤è♥❣ ❦➯ ▼♦s❡s✱ t➼❝❤ ❤đ♣ tr✐ t❤ù❝ ♥❣ỉ♥ ♥❣ú✱ t ữỡ ợ tỹ õ õ tữủ ổ ♥❣ú✱ ✤➲ ①✉➜t ❝→❝ ❧✉➟t ✤↔♦ tr➟t tü tø t❤õ ❝ỉ♥❣ tø ✈✐➺❝ ❧ü❛ ❝❤å♥ ✤➦❝ tr÷♥❣ ✈➲ ♥❣ỉ♥ ♥❣ú tr ú tở t ữỡ ♣❤→♣ sû ❞ư♥❣ ✤❛ ♣❤➙♥ ❧ỵ♣ tr♦♥❣ ❤å❝ ♠→② ✤➸ ❣✐↔✐ q✉②➳t ❜➔✐ t♦→♥ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø✳ t ữủ tỹ tứ ỳ ✣➲ ①✉➜t ♣❤÷ì♥❣ ♣❤→♣ sû ❞ư♥❣ ♠↕♥❣ ♥ì✲r♦♥ ✤➸ ❣✐↔✐ qt t s ỗ t tự tỹ tứ P t ữ ❝→❝ ❧é✐ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ✤➳♥ ❝❤➜t ❧÷đ♥❣ ❞à❝❤ q✉❛ ✈✐➺❝ →♣ ❞ö♥❣ ❝→❝ ❧✉➟t s➢♣ ①➳♣ ❧↕✐ tr➟t tỹ tứ ỗ t q ự ữủ ❝æ♥❣ ❜è tr♦♥❣ ✶✵ ❝æ♥❣ tr➻♥❤✿ ✵✽ ❜→♦ ❝→♦ tr♦♥❣ ❦✛ ②➳✉ ❝õ❛ ❤ë✐ ♥❣❤à q✉è❝ t➳ ❝â ♣❤↔♥ ❜✐➺♥❀ ✵✶ ❜→♦ ❝→♦ tr♦♥❣ ❦✛ ②➳✉ ❝õ❛ ❤ë✐ t❤↔♦ q✉è❝ ❣✐❛ ❝â ♣❤↔♥ ❜✐➺♥❀ ✵✶ ❜➔✐ ❜→♦ ð t↕♣ ❝❤➼ tr ữợ õ ữỡ q q ữỡ Pữỡ ❧✉➟t t❤õ ❝æ♥❣ ❝❤♦ ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø tr tố ữỡ Pữỡ sû ❞ư♥❣ ❝→❝ ❧✉➟t tü ✤ë♥❣ ❜➡♥❣ ❤å❝ ♠→② ✈ỵ✐ ữỡ Pữỡ sỷ ♠↕♥❣ ♥ì✲r♦♥ ❦➳t ❤đ♣ ❝→❝ t❤ỉ♥❣ t✐♥ ♥❣ú ❝↔♥❤✳ • ❈❤÷ì♥❣ ✺ ❷♥❤ ❤÷ð♥❣ ❝õ❛ ❝➙② ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ ✈➔ ①➙② ❞ü♥❣ ❤➺ t❤è♥❣ t❤û ♥❣❤✐➺♠✳ ❈❤÷ì♥❣ ✶ ❚ê♥❣ q✉❛♥ ❝→❝ ✈➜♥ ✤➲ ❧✐➯♥ q✉❛♥ ❧✉➟♥ →♥ ❈❤÷ì♥❣ ♥➔② tr➻♥❤ ❜➔② tê♥❣ q✉❛♥ ✈➲ ❝→❝ ✈➜♥ ✤➲ ự tr ❚r❛♥s❧❛t✐♦♥ ✲ ▼❚✮✱ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ✭❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ✲ ❙▼❚✮✱ ♠ỉ ❤➻♥❤ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ❝ư♠ tø✱ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣✱ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝✱ ❝→❝ ♥❣❤✐➯♥ ự q ữ r ỏ tỗ t ♠➔ ❧✉➟♥ →♥ s➩ t➟♣ tr✉♥❣ ❣✐↔✐ q✉②➳t✳ ✶✳✶ ▲à❝❤ sû ❞à❝❤ ♠→② ❉à❝❤ ❧➔ ♠ët q✉→ tr➻♥❤ ❝❤✉②➸♥ ♥❣❤➽❛ ❝õ❛ ❝→❝ tø ❤❛② ✈➠♥ ❜↔♥ s❛♥❣ ♥❣æ♥ ♥❣ú ❦❤→❝✱ ❧✐➯♥ q✉❛♥ ✤➳♥ ✈✐➺❝ ❣✐↔✐ ♠➣ ♥❣❤➽❛ ❝õ❛ ♥❣æ♥ ♥❣ú ỗ s õ õ t ♥❣æ♥ ♥❣ú ✤➼❝❤✳ ◗✉→ tr➻♥❤ ✤á✐ ❤ä✐ ❦✐➳♥ t❤ù❝ ✤➛② ổ ỳ t ú ♣❤→♣✱ ♥❣ú ♥❣❤➽❛✳✳✳ ✶ ✭❛✮ ❚❤→♣ ❝❤✉②➸♥ ✤ê✐ t❤➸ ❤✐➺♥ q✉→ tr➻♥❤ ❞à❝❤ ✭❜✮ ❚❤→♣ ❝❤✉②➸♥ ✤ê✐ t❤➸ ❤✐➺♥ ❝→❝ ❦✐➸✉ ♣❤➙♥ t❤❡♦ ❝→❝ ♣❤÷ì♥❣ ♣❤→♣ ❦❤→❝ ♥❤❛✉ t➼❝❤ tr♦♥❣ sỡ ỗ t ỡ ỗ t t❤➸ ❤✐➺♥ ❝→❝ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② ❦❤→❝ ♥❤❛✉✳ ✶✳✷ ❚ê♥❣ q✉❛♥ ✈➲ ❞à❝❤ ♠→② ✶✳✸ ❉à❝❤ ♠→② t❤è♥❣ ❦➯ ❉à❝❤ ♠→② t❤è♥❣ ❦➯ ✭❙▼❚✮ ❧➔ ♠ët ♣❤÷ì♥❣ ♣❤→♣ t✐➳♣ ❝➟♥ ❝õ❛ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ♣❤➙♥ t➼❝❤ t❤è♥❣ ❦➯ t➟♣ ❞ú ❧✐➺✉ ❝→❝ ❝➦♣ ❝➙✉ tø ❤❛✐ ♥❣æ♥ ♥❣ú✱ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú✳ ❍➻♥❤ ✶✳✷✿ ❑✐➳♥ tró❝ ❝ì ❜↔♥ ❝õ❛ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ✷ ✶✳✹ ❉à❝❤ ♠→② ♠↕♥❣ ♥ì✲r♦♥ ❍➻♥❤ ✶✳✸✿ ❍➺ t❤è♥❣ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ♠↕♥❣ ♥ì✲r♦♥ ✶✳✺ P❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ ✶✳✻ ❱➜♥ ✤➲ ✤↔♦ tr➟t tü tø tr♦♥❣ ❞à❝❤ ♠→② ✶✳✻✳✶ ❙ü ❦❤→❝ ♥❤❛✉ ✈➲ t❤ù tü tø ❣✐ú❛ ❝→❝ ♥❣æ♥ ♥❣ú ✶✳✻✳✷ ❇➔✐ t♦→♥ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tứ t tố t♦→♥ ❝♦♥✿ ✤♦→♥ ✤à♥❤ t➟♣ ❤ñ♣ tø tr♦♥❣ ❜↔♥ ❞à❝❤ ✈➔ ①→❝ ✤à♥❤ t❤ù tü ❝õ❛ ❝→❝ tø ❞à❝❤ ✭❜➔✐ t♦→♥ s➢♣ ①➳♣ ❧↕✐✮✳ ✶✳✼ ▼æ ❤➻♥❤ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ❝ư♠ tø ❑✐➳♥ tró❝ ❝õ❛ ♠ỉ ❤➻♥❤ ❞à❝❤ ❞ü❛ tr➯♥ ❝ö♠ tø tr♦♥❣ ❤➻♥❤ ✶✳✹ ✸ ước lượng từ tập từ song song với liên kết từ Tất cặp cụm từ phù hợp với liên kết từ trích xuất Xác suất đưa dựa số lượng tương i hoc xỏc sut dch t vng Ngôn ngữ nguồn Thuật toán tìm kiếm BEAM M e * arg max m hm (e, f ) e Mô hình ngôn ngữ h1 (e, f ) Mô hình dịch h2 (e, f ) m Ngôn ngữ dịch Các đặc trung dịch máy dựa cụm từ Kin trúc mơ hình dịch dựa cụm từ ❍➻♥❤ ✶✳✹✿ ❑✐➳♥ tró❝ ❝õ❛ ♠ỉ ❤➻♥❤ ❞à❝❤ ❞ü❛ tr➯♥ ❝ư♠ tø Mơ hình dịch dựa cụm từ thường khơng thực theo trình tự ✶✳✽ ❈→❝pháp♥❣❤✐➯♥ ❝ù✉ ❧✐➯♥ phương dựa sở từ, mà sửq✉❛♥ dụng khn dạng ghi tuyến tính Các thành phần mơ hình ngơn ngữ, mơ hình dịch cụm từ, mơ hình ✶✳✽✳✶ ❙û ❞ư♥❣ ❝→❝ ❧✉➟t t❤õ ❝ỉ♥❣ t ỷ ỵ dch t vng hoc mơ hình đảo cụm sử dụng cách thích hợp Khn dạng cho ❝→❝ phép❧✉➟t tích hợp tính ❝❤♦ ✈➜♥ bổ sung lượng ✶✳✽✳✷ ❙û ❞ö♥❣ tỹ cỏc nh tsỷ ỵ cỏc t c tạo số dịch cụm từ sử dụng ✶✳✾ Mơ❑➳t ❧✉➟♥ hình đảo cụm ❝❤÷ì♥❣ thường mơ hình hóa khoảng cách sở Đảo cụm thường bị giới hạn dịch chuyển số lượng tối đa từ Các mơ hình đảo cụm thường tn theo ngữ pháp ngơn ngữ đích (ví dụ 11 ✹ ❈❤÷ì♥❣ ✷ P❤÷ì♥❣ ♣❤→♣ ❞ü❛ ✈➔♦ ❧✉➟t t❤õ ❝æ♥❣ ❝❤♦ ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø tr♦♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❚r➻♥❤ ❜➔② ❝→❝❤ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø ✭✤↔♦ trt tỹ tứ ỹ tr t ỷ ỵ t♦→♥ ❞à❝❤ ✈ỵ✐ ❦❤♦ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú ❆♥❤ ✕ ❱✐➺t✳ ❚ø ♣❤➙♥ t➼❝❤ ❝→❝ t❤ỉ♥❣ t✐♥ tr➯♥ ❝➙② ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ ✈➔ ❝→❝ ❤✐➺♥ t÷đ♥❣ ♥❣ỉ♥ ♥❣ú✱ sû ❞ư♥❣ ❝→❝ ❧✉➟t t❤õ ❝ỉ♥❣ ✤➸ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ trt tỹ tứ ữ ữợ t ỷ ỵ t❤è♥❣ ❞à❝❤ ♠→②✳ ✷✳✶ ❱➜♥ ✤➲ ✤↔♦ tr➟t tü tø tr♦♥❣ ❞à❝❤ ♠→② ❱✐➺❝ ✤↔♦ tr➟t tø tø ❞ü❛ ✈➔♦ ❝➙② ♣❤➙♥ t➼❝❤ ♣❤ö t❤✉ë❝ ✈➔ →♣ ❞ö♥❣ ❝→❝ ❧✉➟t s➢♣ ①➳♣ ❧↕✐ ✤➸ t✐➳♥ ❤➔♥❤ t❤❛② ✤ê✐ t❤ù tü ❝→❝ tø✳ ✺ ✷✳✷ ❈→❝ ♥❣❤✐➯♥ ❝ù✉ ❧✐➯♥ q✉❛♥ ✷✳✸ ❉à❝❤ ♠→② t❤è♥❣ ❦➯ ❞ü❛ tr➯♥ ❝ö♠ tø ❚❤ü❝ ❤✐➺♥ ỗ s ỗ t ộ tứ ộ ữủ s❛♥❣ ♥❣æ♥ ♥❣ú ✤➼❝❤✳ ❇✐➸✉ ❞✐➵♥ ❝õ❛ q✉→ tr➻♥❤ q✉❛ ❝æ♥❣ t❤ù❝✿ n tˆ = argmax t,a λi fj (s, t, a) i=1 ỷ ỵ ú ♣❤ö t❤✉ë❝ ❝❤♦ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❍➻♥❤ ✷✳✶✿ ❱➼ t ỷ ỵ t P t➼❝❤ ❤✐➺♥ t÷đ♥❣ ♥❣ỉ♥ ♥❣ú ✈➔ ✈➜♥ ✤➲ s➢♣ ①➳♣ ❧↕✐ ❚➟♣ tr✉♥❣ ✈➔♦ ✈✐➺❝ ♣❤➙♥ t➼❝❤ ❝→❝ ❝➜✉ tró❝ t❤ỉ♥❣ ❞ư♥❣ ♥❤➜t ❝õ❛ t✐➳♥❣ ❆♥❤ ❦❤✐ ❞à❝❤ s❛♥❣ t✐➳♥❣ ❱✐➺t ♥❤÷ tr♦♥❣ ❤➻♥❤ ✷✳✷ ✈➔ ❤➻♥❤ ✷✳✸✳ ✻ ❈❤÷ì♥❣ ✸ P❤÷ì♥❣ ♣❤→♣ sû ❞ư♥❣ ❝→❝ ❧✉➟t tü ✤ë♥❣ ❜➡♥❣ ợ r ữỡ tr ❜➔② ❝→❝❤ ❣✐↔✐ q✉②➳t ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø ữ ữợ t ỷ ỵ t ❝→❝❤ ♠æ ❤➻♥❤ ❤â❛ ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø ✈ỵ✐ ❝→❝ ♣❤➙♥ ❧ỵ♣ q✉❛♥ ❤➺ t❤ù tü ✭✈➜♥ ✤➲ t ỷ ỵ ỹ tr t tr➟t tü tø ✤÷đ❝ s✐♥❤ tü ✤ë♥❣ tø ❞ú ❧✐➺✉✱ ✤÷đ❝ ♥➨♥ t❤ỉ♥❣ t✐♥ tr✐ t❤ù❝✱ ❝→❝ ✤➦❝ tr÷♥❣ ♥❣ỉ♥ ỳ ỷ ỵ ❞ü❛ tr➯♥ ♣❤➙♥ ❧ỵ♣ ❝❤♦ ❞à❝❤ ♠→② ❞ü❛ t❤❡♦ ❝ư♠ ❚ø ♥❤ú♥❣ ÷✉ ✤✐➸♠ ❝õ❛ ❤å❝ ♠→②✱ ❝❤ó♥❣ tỉ✐ ✤➲ ①✉➜t sû ❞ö♥❣ ❦ÿ t❤✉➟t ❤å❝ ♠→② tr♦♥❣ ✈✐➺❝ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ ✤↔♦ tr➟t tü tø ✈➔ →♣ ❞ö♥❣ ữ q tr t ỷ ỵ tố t ỷ ỵ ỹ tr ❧ỵ♣ ❳➙② ❞ü♥❣ ♠ỉ ❤➻♥❤ ❤å❝ ♠→② ❝â t❤➸ tü ✤ë♥❣ t❤❛② ✤ê✐ t❤ù tü ❝→❝ tø tr♦♥❣ ❝➙✉ ♥❣æ♥ ỳ ỗ s tự tỹ tữỡ ự ợ ổ ♥❣ú ✤➼❝❤✳ ✶✵ ✸✳✶✳✷ ✣➦❝ tr÷♥❣ ❍➻♥❤ ✸✳✶✿ ❱➼ ❞ư t ỷ ỵ s ỳ t ✸✳✶✳✸ ▼ỉ ❤➻♥❤ ♣❤➙♥ ❧ỵ♣ ✲❚❤✉➟t t♦→♥ ✷✳✶ ✿ ❚r➼❝❤ t tỹ t ợ tở ❣✐â♥❣ ❤➔♥❣ tø✳ ✲❚❤✉➟t t♦→♥ ✷✳✷ ✿ ❚✐➳♥ ❤➔♥❤ ❜➡♥❣ ❝→❝❤ ①➨t t➜t ❝↔ ❝→❝ ❧✉➟t s❛✉ ❦❤✐ ❤♦➔♥ t❤➔♥❤ t❤❡♦ t❤✉➟t t♦→♥ ✶ ✈➔ ❝→❝ ❝➙② ♣❤ö t❤✉ë❝ ♣❤➼❛ ỗ s q✉❛♥ ❤➺ ❣✐ú❛ ♥ót ❝❤❛ ✈ỵ✐ ♥ót ❝♦♥ tr➯♥ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú✳ ✶✶ ✸✳✷ ❚❤ü❝ ♥❣❤✐➺♠ ✈➲ ♣❤÷ì♥❣ ♣❤→♣ sỷ t ỷ ỵ tr ❞à❝❤ ♠→② ✸✳✷✳✶ ❚➟♣ ❞ú ❧✐➺✉ ✈➔ ❝➔✐ ✤➦t t❤ü❝ ♥❣❤✐➺♠ ✸✳✷✳✷ ❑➳t q✉↔ t❤ü❝ ♥❣❤✐➺♠ ❍➻♥❤ ✸✳✸✿ ❚❤è♥❣ ❦➯ ✈➲ q✉❛♥ ❤➺ ❣✐ú❛ ♥ót ❝❤❛ ✈ỵ✐ ❤❛✐ ♥ót ❝♦♥ tr➯♥ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú✳ ❇↔♥❣ ✸✳✶✿ ❍✐➺✉ ♥➠♥❣ ❝❤♦ t→❝ ✈ö ❞à❝❤ ❆♥❤✲ ❱✐➺t ❍➺ t❤è♥❣ ❇▲❊❯ ✭✪✮ ❇❛s❡❧✐♥❡ ✷✻✳✺✷ ▼❛♥✉❛❧ ❘✉❧❡s ✷✼✳✷✻ ❆✉t♦ ❘✉❧❡s ✷✼✳✵✾ ❆✉t♦ ❘✉❧❡s ✰ ▼❛♥✉❛❧ ❘✉❧❡s ✷✼✳✸✹ ✸✳✸ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣ ✶✷ ❈❤÷ì♥❣ ✹ P❤÷ì♥❣ ♣❤→♣ sû ❞ư♥❣ ♠↕♥❣ ♥ì✲r♦♥ ❦➳t ❤đ♣ ❝→❝ t❤ỉ♥❣ t✐♥ ♥❣ú ❝↔♥❤ ❚r♦♥❣ ❝❤÷ì♥❣ ♥➔②✱ tr➻♥❤ ❜➔② ♥ë✐ ❞✉♥❣✱ t q t ỷ ỵ ú ♣❤ö t❤✉ë❝ ❝❤♦ ❜➔✐ t♦→♥ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❆♥❤✲❱✐➺t sû ❞ư♥❣ ♣❤÷ì♥❣ ♣❤→♣ ❤å❝ ♠→② tr♦♥❣ ✤â ♠↕♥❣ ♥ì✲r♦♥ ❞ò♥❣ ❝→❝ t❤ỉ♥❣ t✐♥ ♥❣ú ❝↔♥❤ tø ✇♦r❞ ❡♠❜❡❞❞✐♥❣✳ ✹✳✶ ▼ỉ ❤➻♥❤ ✤↔♦ ❞ü❛ tr➯♥ ♠↕♥❣ ♥ì✲r♦♥ sû ❞ư♥❣ ❝➙② ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ ❝❤♦ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❍➻♥❤ ✹✳✶ ♠ỉ t↔ ❦✐➳♥ tró❝ ✈➔ ❝→❝ ❞ú ❧✐➺✉ ❤✉➜♥ ❧✉②➺♥✱ tr➼❝❤ ①✉➜t ✤➦❝ tr÷♥❣ tr♦♥❣ ♠ỉ ❤➻♥❤✳ ✹✳✶✳✶ ✣➦❝ trữ P ợ P ợ s trữ ợ ữ tr ợ tr✉②➲♥ t❤➥♥❣ ✶✸ ▼é✐ ✤➦❝ tr÷♥❣ ✤÷đ❝ →♥❤ ①↕ ❜ð✐ ✈✐➺❝ t❤❛♠ ❝❤✐➳✉ ❜↔♥❣ ✈ỵ✐ ❜✐➸✉ ❞✐➵♥ ✈➨❝ tì ✈➔ ❝→❝ ✈➨❝ tì ❦➳t q✉↔ ✤÷đ❝ ♥è✐ ✈➔ ✤÷❛ ✈➔♦ ♠é✐ ❝❤✉é✐ ❝→❝ ❧ỵ♣ ➞♥ ✭❝→❝ ♠❛ tr➟♥ trå♥❣ sè✮ ❞ò♥❣ ❤➔♠ ❦➼❝❤ ❤♦↕t sigmoid ✿ 1 + e−x σ(z) = (a) (3,2) (3,5) (2,1) (5,4) (b) Head Pair ✭✹✳✶✳✶✮ child Punctuation Label xh T(xh) L(xh) xc T(xc) L(xc) w(xh,xc) changed changed moment life VBD VBD NN NN root root nsubj dobj moment Null That my NN Null DT PRP Nsubj Null det poss 0 0 L(xr) xh T(xh) Punctuation w(xl,xr) Label dobj changed VBD (0 ; 1) (-1; 0) (0 ; 1) (0 ; 1) (-1; 0) (c) Pair (2,5) xl moment Left child T(xl) NN L(xl) xr nsubj life Right child T(xr) Head V (d) ❍➻♥❤ ✹✳✶✿ ▼æ ❤➻♥❤ ✤↔♦ ❝❤♦ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❆♥❤✲❱✐➺t sû ❞ư♥❣ ♠↕♥❣ ♥ì✲r♦♥ ✈ỵ✐ ❝➙② ♣❤➙♥ t➼❝❤ ♣❤ư t❤✉ë❝✿ ✭❛✮ ❑✐➳♥ tró❝ ♣❤➙♥ ❧ỵ♣ ♠↕♥❣ ♥ì✲r♦♥ ✭❜✮ ▼ët ❣✐â♥❣ ❤➔♥❣ ❝➙✉ tø ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú ❆♥❤✲❱✐➺t ợ trữ ữủ tr➼❝❤ ①✉➜t ❝❤♦✿ ✭❝✮ ♣❤➙♥ ❧ỵ♣ ❝❤❛✲❝♦♥ ✈➔ ✭❞✮ ♣❤➙♥ ❧ỵ♣ ❛♥❤✲❡♠✳ ▲ỵ♣ ➞♥ ✤➣ ❝❤♦ ❝❤✉②➸♥ ✤ê✐ ✈ỵ✐ ✈➨❝ tì ❡♠❜❡❞❞✐♥❣ x✱ ✈➨❝ tì trå♥❣ sè W ✈➔ ♠ët ❣✐→ trà ❜✐❛s b✱ ✤➛✉ r❛ ❞ü ✤♦→♥ δ ①→❝ ✤à♥❤ ❜ð✐✿ z = W.x + b ✭✹✳✶✳✷✮ δ = tanh(z ) ✭✹✳✶✳✸✮ ❍✉➜♥ ❧✉②➺♥ ♠↕♥❣ ♥ì✲r♦♥ L=− T T yi log yˆi + (1 − yi ) log (1 − yˆi ) i=1 ✶✹ ✭✹✳✶✳✹✮ Đặc trưng Pair xh T(xh) L(xh) xc T(xc) L(xc) ω (xh, xc) Label Mô tả Cặp từ với quan hệ nút cha-con Từ nút cha xh Part-of-speech (POS) tag nút cha xh Nhãn phụ thuộc L(xh) xh với nút cha xh Từ nút xc Part-of-speech (POS) tag nút xc Nhãn phụ thuộc L(xh) xh với nút xc Giá trị logic ω(xh, xc) để có dấu câu nút cha xh, tồn nút cha xh nút xc Nhãn có giá trị khoảng -1 đến biết nút bên trái hay bên phải giữ nguyên vị trí với nút cha Đặc trưng Pair xl T(xl) L(xl) xr T(xr) L(xr) xh T(xh) ω(xl, xr) Label (a) The feature of Head-child classifier ❍➻♥❤ ✹✳✷✿ ❈→❝ ✤➦❝ tr÷♥❣ ❝❤♦ q✉❛♥ ❤➺ ới quan hệ nút cha-con xh peech (POS) tag nút cha xh ụ thuộc L(xh) xh với nút cha út xc peech (POS) tag nút xc ụ thuộc L(xh) xh với nút xc gic ω(xh, xc) để có dấu câu a nút cha xh, tồn nút cha xh n xc giá trị khoảng -1 đến on bên trái hay bên phải giữ ị trí với nút cha Đặc trưng Pair xl T(xl) L(xl) xr T(xr) L(xr) xh T(xh) ω(xl, xr) Label he feature of Head-child classifier ❤❡❛❞✲❝❤❧✐❞ Mô tả Cặp từ với quan hệ anh-em Từ nút bên trái xl Part-of-speech (POS) tag củ Nhãn phụ thuộc L(xl) n Từ nút bên phải xr Part-of-speech (POS) tag củ Nhãn phụ thuộc L(xr) n Từ nút cha xh Part-of-speech (POS) tag củ Giá trị logic ω(xl, xr) để nút cha xh, tồn tạ nút xr Nhãn có giá trị khoản biết nút phải bên trái giữ nguyên vị trí so vớ (b) The feature of siblin tr♦♥❣ ♠ỉ ❤➻♥❤ ♣❤➙♥ ❧ỵ♣ Mơ tả Cặp từ với quan hệ anh-em Từ nút bên trái xl Part-of-speech (POS) tag nút xl Nhãn phụ thuộc L(xl) nút xl xh Từ nút bên phải xr Part-of-speech (POS) tag nút xr Nhãn phụ thuộc L(xr) nút xr xh Từ nút cha xh Part-of-speech (POS) tag xh Giá trị logic ω(xl, xr) để có dấu câu nút cha xh, tồn nút xl nút xr Nhãn có giá trị khoảng -1 đến cho biết nút phải bên trái hay bên phải giữ nguyên vị trí so với nút trái (b) The feature of sibling classifier ❍➻♥❤ ✹✳✸✿ ❈→❝ ✤➦❝ tr÷♥❣ ❝❤♦ q✉❛♥ ❤➺ s✐❜❧✐♥❣ tr♦♥❣ ♠ỉ ❤➻♥❤ ♣❤➙♥ ❧ỵ♣ ✹✳✶✳✷ ❑❤✉♥❣ ❧➔♠ ✈✐➺❝ ❝❤♦ ✤↔♦ tr➟t tü tø ❑❤✉♥❣ ❧➔♠ ✈✐➺❝ ♠ỉ t↔ tr♦♥❣ ❤➻♥❤ ✹✳✹✳ ❈❤ó♥❣ tỉ✐ →♣ ❞ư♥❣ ✭❳➙② ❞ü♥❣ ♠ỉ ❤➻♥❤ ❤✉➜♥ ❧✉②➺♥✮ ✈➔ t❤✉➟t t♦→♥ ✹✳✷ ❧➔♠ ✈✐➺❝ ❝õ❛ ❝❤ó♥❣ tỉ✐✳ ✶✺ t❤✉➟t t♦→♥ ✹✳✶ ✭❙➢♣ ①➳♣ ❧↕✐✮ tr♦♥❣ ❦❤✉♥❣ Input sentence Conll format Representation feature Head-Child relation Sibling relation PAC Model SIB Model Prediction sibling order Prediction child-head order New representation feature Rebuild New sentence ❍➻♥❤ ✹✳✹✿ ❑❤✉♥❣ ❧➔♠ ✈✐➺❝ ❝❤♦ q✉→ tr t ỷ ỵ ỗ tứ ỳ s ♥❣ú ❆♥❤✲❱✐➺t✳ ✹✳✷ ❚❤ü❝ ♥❣❤✐➺♠ ✈➲ ♣❤÷ì♥❣ ♣❤→♣ sû ❞ư♥❣ ♠↕♥❣ ♥ì✲r♦♥ ❦➳t ❤đ♣ t❤ỉ♥❣ t✐♥ ♥❣ú ❝↔♥❤ ✹✳✷✳✶ ❚➟♣ ❞ú ❧✐➺✉ ✈➔ ❝➔✐ ✤➦t t❤ü❝ ♥❣❤✐➺♠ ✹✳✷✳✷ ✣✐➸♠ ❇▲❊❯ ✹✳✸ P❤➙♥ t➼❝❤ ✈➔ t❤↔♦ ❧✉➟♥ ✹✳✹ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣ ✶✻ ❇↔♥❣ ✹✳✶✿ ❚❤è♥❣ ❦➯ ♥❣ú ❧✐➺✉ ❈♦r♣✉s ❙❡♥t❡♥❝❡ ♣❛✐rs ❚r❛✐♥✐♥❣ ❙❡t ❉❡✈❡❧♦♣♠❡♥t ❙❡t ❚❡st ❙❡t ●❡♥❡r❛❧ ✶✸✸✹✵✸ ❚r❛✐♥✐♥❣ ✶✸✵✹ ✶✵✽✵ ❱✐❡t♥❛♠❡s❡ ❊♥❣❧✐s❤ ❙❡♥t❡♥❝❡s ❉❡✈❡❧♦♣♠❡♥t ❚❡st ✶✸✶✵✶✾ ✶✸✶✵✶✾ ❆✈❡r❛❣❡ ▲❡♥❣t❤ ✶✽✳✾✶ ✶✼✳✾✽ ❲♦r❞ ✷✹✽✶✼✻✷ ✷✸✻✵✼✷✼ ❱♦❝❛❜✉❧❛r② ✸✾✵✼✶ ✺✹✵✽✻ ❙❡♥t❡♥❝❡s ✶✸✵✹ ❆✈❡r❛❣❡ ▲❡♥❣t❤ ✷✷✳✼✸ ✷✶✳✹✶ ❲♦r❞ ✾✵✾✷ ✽✺✻✼ ❱♦❝❛❜✉❧❛r② ✶✺✸✼ ✶✾✷✵ ❙❡♥t❡♥❝❡s ✶✵✽✵ ❆✈❡r❛❣❡ ▲❡♥❣t❤ ✷✷✳✼✵ ✷✶✳✹✷ ❲♦r❞ ✷✷✼✵✼ ✷✶✹✷✽ ❱♦❝❛❜✉❧❛r② ✷✽✽✷ ✸✽✶✻ ❇↔♥❣ ✹✳✷✿ ❍✐➺✉ ♥➠♥❣ ❝❤♦ t→❝ ✈ö ❞à❝❤ ❆♥❤✲ ❱✐➺t ❍➺ t❤è♥❣ ❇▲❊❯ ✭✪✮ ❇❛s❡❧✐♥❡ ✷✻✳✺ ▼❛♥✉❛❧ ❘✉❧❡s ✷✼✳✶✷ ❆✉t♦ ❘✉❧❡s ✷✼✳✵✼ ❉P◆◆ ❈❧❛ss✐❢✐❡r ✷✼✳✶✻ ✶✼ ❈❤÷ì♥❣ ✺ ❷♥❤ ❤÷ð♥❣ ❝õ❛ ❝➙② ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ ✈➔ ①➙② ❞ü♥❣ ❤➺ t❤è♥❣ t❤û ♥❣❤✐➺♠ ❚r♦♥❣ ❝❤÷ì♥❣ ♥➔②✱ t❤ü❝ ❤✐➺♥ ♣❤➙♥ t➼❝❤ s♦ s→♥❤ ✤➸ q✉❛♥ s→t ❤✐➺✉ q✉↔ ❝õ❛ ❝→❝ ❧é✐ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ❦❤→❝ ♥❤❛✉ ✤è✐ ✈ỵ✐ ✈✐➺❝ s➢♣ ①➳♣ ❧↕✐ ❜➡♥❣ ❝→❝❤ ❦➳t ❤đ♣ ❝→❝ ♣❤÷ì♥❣ ♣❤→♣ t❤ü❝ ♥❣❤✐➺♠ ✈➔ ♠ỉ t↔✳ ✺✳✶ P❤➙♥ t ú tở ỗ t❤à ❝➙② ♣❤➙♥ t➼❝❤ ♣❤ư t❤✉ë❝ ✈ỵ✐ ❝→❝ ♥❤➣♥ q✉❛♥ q ữợ tr t ✈➲ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ t❤➻ ♠ư❝ tø ♥➡♠ ð ❣è❝ ❝õ❛ ♠ô✐ t➯♥ ❧➔ tø ❝❤➼♥❤ ✕ ❣å✐ ❧➔ ❤❡❛❞✱ ♠ư❝ tø ♥➡♠ ð ✤➛✉ ♠ơ✐ t➯♥ ❧➔ tø ♣❤ö ✲ ❣å✐ ❧➔ ❞❡♣❡♥❞❡♥t✳ ✶✽ ✺✳✶✳✶ 5.2.2 ❇➔✐Bài t♦→♥ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ tốn phân tích pháp tổngq✉→t✿ quát: ❈❤♦ Cho ♠ët câu, pháp đưa✤÷❛ mơ tả vềt↔ ✈➲ ❇➔✐ Bài t♦→♥tốntê♥❣ ❝➙✉✱phân ♣❤➙♥tích t➼❝❤cú❝ó ♣❤→♣ r❛ ♠ỉ quan vaitrá trò ♥❣ú ngữ pháp cụm từ thái đó.❝➙✉ ✤â✳ q✉❛♥ ❤➺hệ✈➔và✈❛✐ ♣❤→♣của ❝õ❛các ❝→❝từ,tø✱ ❝ư♠ tøhình ✈➔ ❤➻♥❤ t❤→✐câu ❝õ❛ Hình tổng qt ✈➲ phân tícht➼❝❤ ❝ó pháp phụ♣❤ư thuộc ❍➻♥❤1.4: ✺✳✷✿Mơ ▼ỉhình ❤➻♥❤bài ❜➔✐tốn t♦→♥ tê♥❣ q✉→t ♣❤➙♥ ♣❤→♣ t❤✉ë❝ Đầu vào: câu phân tách từ gán nhãn từ loại đó, từ lại có đặc điểm hình thái xác định Quá trình kiểm tra phân tích, tổ hợp ✺✳✶✳✷ ❞↕♥❣ ❞ú cú❧✐➺✉phápt❤❡♦ ❝❤✉➞♥ đầu vào✣à♥❤ dựa luật để loại bỏ các❈♦◆▲▲ trường hợp bất quy tắc bước xây dựng nên cấu trúc pháp Kết cần đạt hình thái ✺✳✶✳✸ ❙û ❞ư♥❣ t➟♣ ♥❤➣♥ ❝❤♦ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ câu ✺✳✷ Input: ❷♥❤ ❤÷ð♥❣ ❝õ❛ ❧é✐ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝ o Câu x = w1, w2 …wn tiền xử lý, tách từ gán nhãn từ loại tỵ✐o Kho ❝❤➜t ❞à❝❤ ♠→② ngữ❧÷đ♥❣ liệu gồm câu gán nhãn phụ thuộc Out put: Là đồ thị phụ thuộc câu x ✺✳✷✳✶ ĐồP❤÷ì♥❣ ♣❤→♣là: ♣❤➙♥ t➼❝❤tập ❧é✐ thị phụ thuộc cho L = {r1, …r|L|} loại phụ thuộc (các cung),tü đồtø thị♠è❝ phụ ❝❤✉➞♥ thuộc ✤÷đ❝ câu x s➢♣ = (w①➳♣ …w một●♦❧❞✲❚r❡❡✱ đồ thị 1,w2,❧↕✐ n) ✲ ✣♦nhãn sü t÷ì♥❣ ✈➔ ❝➙✉ ❞ü❛ tr➯♥ có hướng gán nhãn G =(V, E, R), đó: ❝ơ♥❣ ♥❤÷ ❣✐ú❛ ♠è❝ ❝❤✉➞♥ ✈➔ ❝➙✉ ✤÷đ❝ s➢♣ ①➳♣ ❧↕✐ ❞ü❛ tr➯♥ tø♥❣ ❝➙② ❝ó ♣❤→♣✳ o V = Zn+1 ✲ ❳→❝ ✤à♥❤ ♠ù❝ ✤ë ❧é✐ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ↔♥❤ ❤÷ð♥❣ ✤➳♥ s➢♣ ①➳♣ ❧↕✐✳ o E∈ { } o R hàm xác định cung Tập đỉnh V la tập Zn+1 = {0, 1, 2…n}, n ∈ Z+ tập số nguyên âm tăng ✺✳✷✳✷khơng✣→♥❤ ❣✐→dần Điều có nghĩa tất từ câu đỉnh (1 ≤ i ≤ n) có đỉnh đặc biệt 0, khơng tương ứng với từ ❙û ❞ư♥❣ ✤ë ✤♦ ❑❡♥❞❛❧❧✬s t❛✉ ✭τ ✮ ①➳♣ ❤↕♥❣ ✤ë t÷ì♥❣ q✉❛♥ ✤➸ ✤♦ ✤ë t÷ì♥❣ câu ln gốc đồ thị phụ thuộc Sử dụng V+ tập hợp tất tü t❤ù tü tø tr♦♥❣ ❝→❝ ỗ ỳ ữủ s➢♣ ①➳♣ ❧↕✐✳ τ= #of concordant pairs 15 ×2−1 #of all pairs ✶✾ ✭✺✳✷✳✶✮ ❍➻♥❤ ✺✳✸✿ ▼ỉ t↔ ♣❤÷ì♥❣ ♣❤→♣ ♣❤➙♥ t➼❝❤ ❧é✐✳ ❍➻♥❤ ✺✳✹✿ ❱➼ ❞ö ✈➲ ❧é✐ ❞♦ ①→❝ ✤à♥❤ s❛✐ ❧♦↕✐ ♣❤ư t❤✉ë❝ ♥ót ❣è❝ ❦❤✐ s♦ s→♥❤ ❞ú ❧✐➺✉ t❤è♥❣ ❦➯ ❣✐ú❛ ❝➙② ✤÷đ❝ s✐♥❤ r❛ ợ ữủ s tứ ỳ ❱➼ ❞ö ✈➲ ❧é✐ tø ❧♦↕✐ ❦❤✐ s♦ s→♥❤ ❞ú tố ữủ s r ợ ✤÷đ❝ s✐♥❤ tø ❞ú ❧✐➺✉ ❝❤✉➞♥✳ ✷✵ Đánh giá qua độ đo Đánh giá qua độ đo Đánh giá 1: sử dụng tập tiếng Anh Đánh giá 2: sử dụng tập câu tham xếp lại thủ cơng điểm chuẩn so sánh với tập câu tiếng Anh xếp lại tự động ✭❛✮ chiếu tiếng Việt đóng vai trò điểm chuẩn so sánh với tập câu tiếng Anh xếp lại tự động 84 ✭❜✮ 85 ✺✳✷✳✸ P❤➙♥ t➼❝❤ ♥❣✉②➯♥ ♥❤➙♥ ❣➙② ❧é✐ ✤↔♦ tr➟t tü tø • ▲é✐ ♣❤ư t❤✉ë❝✿ tø ❧♦↕✐ ❦❤ỉ♥❣ ♣❤↔✐ ❧➔ ♠ët ♣❤ư t❤✉ë❝ ợ út ộ út tứ ❧♦↕✐ s❛✐ ❦❤✐ ✤÷đ❝ ♥❤➟♥ ❜✐➳t ♥❤÷ ♥ót ❝❤❛✳ ✺✳✸ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣ ✷✶ ❑➳t ❧✉➟♥ ❙➢♣ ①➳♣ ❧↕✐ tr➟t tỹ tứ tr ữợ t ỷ ỵ ữ ởt ữỡ ♣❤→♣ ❜ê s✉♥❣ ❝â ❤✐➺✉ q✉↔ ✤è✐ ✈ỵ✐ ❝→❝ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② tr✉②➲♥ t❤è♥❣✱ ✤â♥❣ ✈❛✐ trá q✉❛♥ trå♥❣ tr♦♥❣ ❜↔♥ ❞à❝❤✳ ✶✳ ❚â♠ ❧÷đ❝ ❝→❝ ❦➳t q✉↔ ✈➔ ✤â♥❣ ❣â♣ ❝õ❛ ❧✉➟♥ →♥ ❈→❝ ❦➳t q✉↔ ✈➔ ✤â♥❣ õ t t trt tü tø t❤õ ❝æ♥❣ ❜➡♥❣ ✈✐➺❝ ❧ü❛ ❝❤å♥ ❝→❝ ✤➦❝ tr÷♥❣ ✈➲ ♥❣ỉ♥ ♥❣ú tr➯♥ ❝➙② ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ư t❤✉ë❝✳ • ❈❤ó♥❣ tỉ✐ ✤➲ ①✉➜t ❧✉➟t ✤↔♦ tr➟t tỹ tứ tỹ ợ t ỗ ❑❤❛✐ t❤→❝ ❝→❝ ✤➦❝ tr÷♥❣ ✈➲ ♥❣ỉ♥ ♥❣ú ✈➔ ✤➲ t ữỡ sỷ ợ tr t❤✉➟t ❤å❝ ♠→② ✤➸ ❣✐↔✐ q✉②➳t ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø ♥❤÷ ✈✐➺❝ ✤♦→♥ ♥❤➟♥ t❤ù tü ✤ó♥❣ ❝õ❛ ổ ỳ tữỡ ự ợ tự tü tr♦♥❣ ♥❣ỉ♥ ♥❣ú ✤➼❝❤✳ ✕ ✣➲ ①✉➜t ♣❤÷ì♥❣ ♣❤→♣ sû ❞ư♥❣ ♠↕♥❣ ♥ì✲r♦♥ ✤➸ ❣✐↔✐ q✉②➳t ❜➔✐ t♦→♥ s➢♣ ỗ t tự tỹ tứ trữợ t ữủ t t ữ ❝õ❛ ❝→❝ ❧é✐ ♣❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ✤➳♥ ❝❤➜t ❧÷đ♥❣ ❞à❝❤ q✉❛ ✈✐➺❝ →♣ ❞ö♥❣ ❝→❝ ❧✉➟t s➢♣ ①➳♣ ❧↕✐ trt tỹ tứ ữợ t tr rở ự ❝õ❛ ❝❤ó♥❣ tỉ✐ ✤➳♥ ❝→❝ ❝➦♣ ♥❣ỉ♥ ♥❣ú ❤♦➦❝ tø♥❣ ♥❣ỉ♥ ♥❣ú ❦❤→❝✳ ❚❤û ♥❣❤✐➺♠ ♣❤÷ì♥❣ ♣❤→♣ ❤å❝ tü ✤ë♥❣ ✈ỵ✐ ❦❤♦ ♥❣ú ❧✐➺✉ ❧ỵ♥✱ ❝â ✤ë ♣❤õ tèt ✤➸ ❝â t❤➸ ①➙② ❞ü♥❣ ❝→❝ ❧✉➟t ❜➡♥❣ t❛② ❝â ❝❤➜t ❧÷đ♥❣ tèt ❝ơ♥❣ ♥❤÷ ❤å❝ tü ✤ë♥❣ ✤➸ ❝â ❝→❝ ❧✉➟t s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø tèt ❤ì♥✳ ◆❣♦➔✐ r❛ ❝❤ó♥❣ tỉ✐ s➩ t✐➳♥ ❤➔♥❤ sû ❞ư♥❣ ❝→❝❤ t✐➳♣ ❝➟♥ t➼❝❤ ❤đ♣ ✈➔♦ ❤➺ ❞à❝❤ ♠→② ♠↕♥❣ ♥ì✲r♦♥ ✤➸ ❝â t❤➸ ①➙② ❞ü♥❣ ❤➺ t❤è♥❣ ❞à❝❤ tèt ❝❤♦ ❝↔ ❤❛✐ ❝❤✐➲✉ ❞à❝❤ ❆♥❤✲❱✐➺t✱ ❱✐➺t✲❆♥❤✳ ✷✷ ❉❛♥❤ ♠ư❝ ❝ỉ♥❣ tr➻♥❤ ❦❤♦❛ ❤å❝ ❝õ❛ t→❝ ❣✐↔ ❧✐➯♥ q✉❛♥ ✤➳♥ ❧✉➟♥ →♥ ❬✶❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❍✉②❡♥ ❱✉ ❚❤✉♦♥❣✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥ ❛♥❞ ▼✐♥❤ ▲❡ ◆❣✉②❡♥✱ ✧❉❡♣❡♥❞❡♥❝②✲❜❛s❡❞ Pr❡✲♦r❞❡r✐♥❣ ❋♦r ❊♥❣❧✐s❤✲❱✐❡t♥❛♠❡s❡ ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥✧✱ ■♥ ❱◆❯ ❏♦✉r♥❛❧ ♦❢ ❙❝✐❡♥❝❡✿ ❈♦♠♣✉t❡r ❙❝✐❡♥❝❡ ❛♥❞ ❈♦♠♠✉♥✐❝❛t✐♦♥ ❊♥❣✐♥❡❡r✐♥❣✱ ✷✵✶✼✱ ♣❛❣❡s ✶✼✺✲✶✼✾✳ ❬✷❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ◗✉❛♥ ❍♦❛♥❣ ◆❣✉②❡♥ ❛♥❞ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥ ✧❆ ◆❡✉r❛❧ ◆❡t✲ ✇♦r❦ ❈❧❛ss✐❢✐❡r ❇❛s❡❞ ♦♥ ❉❡♣❡♥❞❡♥❝② ❚r❡❡ ❊♥❣❧✐s❤✲❱✐❡t♥❛♠❡s❡ ❙t❛t✐st✐❝❛❧ ▼❛✲ ❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥✧✱ ■♥ Pr♦❝❡❡❞✐♥❣s ♦❢ t❤❡ ✶✾t❤ ■♥t❡r♥❛t✐♦♥❛❧ ❈♦♥❢❡r❡♥❝❡ ♦♥ ■♥t❡❧❧✐❣❡♥t ❚❡①t Pr♦❝❡ss✐♥❣ ❛♥❞ ❈♦♠♣✉t❛t✐♦♥❛❧ ▲✐♥❣✉✐st✐❝s✱ ✷✵✶✽✳ ❆✈❛✐❧❛❜❧❡✿ ❤tt♣✿✴✴s✐t❡✳❝✐❝❧✐♥❣✳♦r❣✴✷✵✶✽✴❛❝❝❡♣t❡❞✳❤t♠❧ ❬✸❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❍✉②❡♥ ❱✉ ❚❤✉♦♥❣✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥ ❛♥❞ ▼✐♥❤ ▲❡ ◆❣✉②❡♥✱ ✧❆ ❈❧❛ss✐❢✐❡r✲❜❛s❡❞ Pr❡♦r❞❡r✐♥❣ ❆♣♣r♦❛❝❤ ❢♦r ❊♥❣❧✐s❤✲❱✐❡t♥❛♠❡s❡ ❙t❛t✐st✐❝❛❧ ▼❛✲ ❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥✧✱ ■♥ Pr♦❝❡❡❞✐♥❣s ♦❢ t❤❡ ✶✼t❤ ■♥t❡r♥❛t✐♦♥❛❧ ❈♦♥❢❡r❡♥❝❡ ♦♥ ■♥✲ t❡❧❧✐❣❡♥t ❚❡①t Pr♦❝❡ss✐♥❣ ❛♥❞ ❈♦♠♣✉t❛t✐♦♥❛❧ ▲✐♥❣✉✐st✐❝s✳ ❬✹❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❍✉②❡♥ ❱✉ ❚❤✉♦♥❣✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥ ❛♥❞ ▼✐♥❤ ▲❡ ◆❣✉②❡♥✱ ✧❆ ❘❡♦r❞❡r✐♥❣ ▼♦❞❡❧ ❋♦r ❱✐❡t♥❛♠❡s❡✲❊♥❣❧✐s❤ ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ❯s✐♥❣ ❉❡♣❡♥❞❡♥❝② ■♥❢♦r♠❛t✐♦♥✧✱ ■♥ ❈♦♠♣✉t✐♥❣ ❛♥❞ ❈♦♠♠✉♥✐❝❛t✐♦♥ ❚❡❝❤♥♦❧♦✲ ❣✐❡s✱ ❘❡s❡❛r❝❤✱ ■♥♥♦✈❛t✐♦♥✱ ❛♥❞ ❱✐s✐♦♥ ❢♦r t❤❡ ❋✉t✉r❡ ✭❘■❱❋✮✱ ✷✵✶✻ ■❊❊❊ ❘■❱❋ ■♥t❡r♥❛t✐♦♥❛❧ ❈♦♥❢❡r❡♥❝❡ ♦♥✱ ♣❛❣❡s ✶✼✺✲✶✼✾✳ ❬✺❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥ ❛♥❞ ▼✐♥❤ ▲❡ ◆❣✉②❡♥✱ ✧■♠♣r♦✈✐♥❣ ❊♥❣❧✐s❤✲ ❱✐❡t♥❛♠❡s❡ ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ❯s✐♥❣ Pr❡✲♣r♦❝❡ss✐♥❣ ❉❡♣❡♥❞❡♥❝② ✷✸ ❙②♥t❛❝t✐❝✧✱ ■♥ Pr♦❝❡❡❞✐♥❣s ♦❢ t❤❡ P❛❝✐❢✐❝ ❆ss♦❝✐❛t✐♦♥ ❢♦r ❈♦♠♣✉t❛t✐♦♥❛❧ ▲✐♥❣✉✐s✲ t✐❝s ✷✵✶✺✱ ♣❛❣❡s ✶✶✺✲✶✷✶✳ ❬✻❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❍✉②❡♥ ❱✉ ❚❤✉♦♥❣✱ ❱✐♥❤ ◆❣✉②❡♥ ❱❛♥ ❛♥❞ ❚r✉♥❣ ▲❡ ❚✐❡♥✱ ✧❚❤❡ ❊♥❣❧✐s❤✲❱✐❡t♥❛♠❡s❡ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ❙②st❡♠ ❢♦r ■❲❙▲❚ ✷✵✶✺✧✱ ■♥ Pr♦❝❡❡❞✲ ✐♥❣ ♦❢ t❤❡ ✶✷t❤ ■♥t❡r♥❛t✐♦♥❛❧ ❲♦r❦s❤♦♣ ♦♥ ❙♣♦❦❡♥ ▲❛♥❣✉❛❣❡ ❚r❛♥s❧❛t✐♦♥✱ ✷✵✶✺✱ ♣❛❣❡s ✽✵✲✽✹✳ ❆✈❛✐❧❛❜❧❡✿ ❤tt♣✿✴✴✇♦r❦s❤♦♣✷✵✶✺✳✐✇s❧t✳♦r❣✳ ❬✼❪ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❆♥❤ ❚✉❛♥ P❤❛♠✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥✱ ❍♦❛✐ ❳✉❛♥ ◆❣✉②❡♥✱ ❍✉② ◗✉❛♥❣ ◆❣✉②❡♥✱ ❈▼❆✲❊❙✧✱ ✧P❛r❛♠❡t❡r ▲❡❛r♥✐♥❣ ❢♦r ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ✉s✐♥❣ ■♥ Pr♦❝❡❡❞✐♥❣s ♦❢ t❤❡ ❙✐①t❤ ■♥t❡r♥❛t✐♦♥❛❧ ❈♦♥❢❡r❡♥❝❡ ❑❙❊ ✷✵✶✹✱ ❙❡✲ r✐❡s✿ ❆❞✈❛♥❝❡s ✐♥ ■♥t❡❧❧✐❣❡♥t ❙②st❡♠s ❛♥❞ ❈♦♠♣✉t✐♥❣✱ ❱♦❧✳ ✸✷✻✱ ♣❛❣❡s ✷✺✶✲✷✺✾✳ ❬✽❪ ▲✉❛♥ ◆❣❤✐❛ P❤❛♠✱ ❱✐❡t ❍♦♥❣ ❚r❛♥✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥✱ ❝❡♥t ❘❡st♦r❛t✐♦♥ ✇✐t❤ ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ✧✱ ✧❱✐❡t♥❛♠❡s❡ ❚❡①t ❆❝✲ Pr♦❝❡❡❞✐♥❣ ♦❢ ✷✼t❤ P❛✲ ❝✐❢✐❝ ❆s✐❛ ❈♦♥❢❡r❡♥❝❡ ♦♥ ▲❛♥❣✉❛❣❡✱ ■♥❢♦r♠❛t✐♦♥ ❛♥❞ ❈♦♠♣✉t❛t✐♦♥✳ ❆✈❛✐❧❛❜❧❡✿ ❤tt♣✿✴✴❛❝❧✇❡❜✳♦r❣✴❛♥t❤♦❧♦❣②✴❨✶✸✲✶✵✹✹ ❬✾❪ ❍♦❛✐ ❚❤✉ ❱✉♦♥❣✱ ❱✐♥❤ ❱❛♥ ◆❣✉②❡♥✱ ❱✐❡t ❍♦♥❣ ❚r❛♥ ❛♥❞ ❆❦✐r❛ ❙❤✐♠❛③✉✱ ✧■♠✲ ♣r♦✈✐♥❣ ❙t❛t✐st✐❝❛❧ ▼❛❝❤✐♥❡ ❚r❛♥s❧❛t✐♦♥ ✇✐t❤ Pr♦❝❡ss✐♥❣ ❙❤❛❧❧♦✇ P❛rs✐♥❣✧✱ Pr♦✲ ❝❡❡❞✐♥❣ ♦❢ ✷✻t❤ P❛❝✐❢✐❝ ❆s✐❛ ❈♦♥❢❡r❡♥❝❡ ♦♥ ▲❛♥❣✉❛❣❡✱ ■♥❢♦r♠❛t✐♦♥ ❛♥❞ ❈♦♠♣✉✲ t❛t✐♦♥✳ ttrt r ỗ t ữỡ r t ỷ ỵ ú ♣❤→♣ ♥æ♥❣ tr♦♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯✧✱ ❑✛ ②➳✉ ❤ë✐ t❤↔♦ ◗✉è❝ ❣✐❛ ❧➛♥ t❤ù ❳❱ ✧▼ët sè ✈➜♥ ✤➲ ❝❤å♥ ❧å❝ ❝õ❛ ❈æ♥❣ ♥❣❤➺ t❤æ♥❣ t✐♥ ✈➔ ❚r✉②➲♥ t❤æ♥❣✧✱ tr❛♥❣ ✹✶✵✲✹✶✻✳ ✷✹ ... ngôn ngữ h1 (e, f ) Mô hình dịch h2 (e, f ) m Ngôn ngữ dịch Các đặc trung dịch máy dựa cơm tõ Kiến trúc mơ hình dịch dựa cụm từ ❍➻♥❤ ✶✳✹✿ ❑✐➳♥ tró❝ ❝õ❛ ♠ỉ ❤➻♥❤ ❞à❝❤ ❞ü❛ tr➯♥ ❝ư♠ tø Mơ hình dịch. .. ♣❤→♣ ♣❤ư t❤✉ë❝ tốn phân tích cú pháp tổngq✉→t✿ qt: ❈❤♦ Cho ♠ët câu, pháp đưa✤÷❛ mơ tả vềt↔ ✈➲ ❇➔✐ Bài t♦→♥tốntê♥❣ ❝➙✉ phân ♣❤➙ tích t➼❝ cú ó ♣❤→♣ r❛ ♠ỉ quan vaitrá trò ♥❣ú ngữ pháp cụm từ thái... ngữ liệu gồm câu gán nhãn phụ thuộc Out put: Là đồ thị phụ thuộc câu x ✺✳✷✳✶ ĐồP❤÷ì♥❣ ♣❤→♣là: ♣❤➙♥ t➼❝❤tập ❧é✐ thị phụ thuộc cho L = {r1, …r|L|} loại phụ thuộc (các cung),tü đồtø thị♠è❝ phụ

Ngày đăng: 14/03/2019, 14:55

Từ khóa liên quan

Mục lục

  • Mở đầu

  • Tổng quan các vấn đề liên quan luận án

    • Lịch sử dịch máy

    • Tổng quan về dịch máy

    • Dịch máy thống kê

    • Dịch máy mạng nơ-ron

    • Phân tích cú pháp phụ thuộc

    • Vấn đề đảo trật tự từ trong dịch máy

      • Sự khác nhau về thứ tự từ giữa các ngôn ngữ

      • Bài toán sắp xếp lại trật tự từ

      • Mô hình dịch máy dựa trên cụm từ

      • Các nghiên cứu liên quan

        • Sử dụng các luật thủ công cho vấn đề tiền xử lý

        • Sử dụng các luật tự động cho vấn đề tiền xử lý

        • Kết luận chương

        • Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự từ trong dịch máy thống kê

          • Vấn đề đảo trật tự từ trong dịch máy

          • Các nghiên cứu liên quan

          • Dịch máy thống kê dựa trên cụm từ

          • Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê

            • Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại

            • Luật chuyển đổi trật tự từ

            • Tập các luật đảo trật tự từ thủ công

            • Thực nghiệm về sử dụng các luật thủ công dựa trên tiền xử lý trong dịch máy

              • Tập dữ liệu và cài đặt thực nghiệm

              • Kết quả thực nghiệm

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan