Bài giảng xử lý ngôn ngữ tự nhiên

180 1.7K 7
Bài giảng xử lý ngôn ngữ tự nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng xử lý ngôn ngữ tự nhiên Viện công nghệ thông tin và truyền thôngĐại học Bách Khoa Hà NộiBài giảng xử lý ngôn ngữ tự nhiên Viện công nghệ thông tin và truyền thôngĐại học Bách Khoa Hà NộiBài giảng xử lý ngôn ngữ tự nhiên Viện công nghệ thông tin và truyền thôngĐại học Bách Khoa Hà NộiBài giảng xử lý ngôn ngữ tự nhiên Viện công nghệ thông tin và truyền thôngĐại học Bách Khoa Hà NộiBài giảng xử lý ngôn ngữ tự nhiên Viện công nghệ thông tin và truyền thôngĐại học Bách Khoa Hà Nội

[...]... ranh giới của các từ trong câu Là bước xử quan trọng đối với các hệ thống XLNNTN, đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt Với các ngôn ngữ đơn lập, một từ có thể có một hoặc nhiều âm tiết Vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ 2 Từ vựng   tiếng Việt là ngôn ngữ không biến hình Từ điển từ tiếng... trúc ngữ pháp của câu với các nút được gán nhãn (từ, từ loại, vai trò ngữ pháp) Vấn đề:    Quan hệ giữa từ, từ loại, và cấu trúc câu Sử dụng nhãn cú pháp (Chủ ngữ, vị ngữ, bổ ngữ, ….) Ví dụ: Tôi/ĐaT nhìn thấy/ĐgT Mai/DT  ((Tôi/ĐaT)CN ((nhìn thấy/ĐgT) (Mai/DT)OBJ)VN)C 53 Ngữ nghĩa    Vào: cấu trúc ngữ pháp của câu Ra: cấu trúc ngữ nghĩa của câu Vấn đề:  Quan hệ giữa các đối tượng như chủ thể (Subject),...  Mai ăn gì vào bữa tối? Ai mang bữa tối đến cho Mai? Ai làm bít tết? Mai có trả tiền không? 40 Tri thức về ngôn ngữ: Chúng ta biết gì về câu này?    Các từ phải xuất hiện theo một trình tự nhất định: a Chó kem ăn b Chó ăn kem Các bộ phận cấu thành câu: chó = chủ ngữ (subject); ăn kem = vị ngữ (predicate) Ai làm gì cho ai: chủ thể(chó), hành động(ăn), đối tượng(kem) 41 Các vấn đề khác?  Hai câu... được so sánh với một chuỗi  Các ký tự đặc biệt:  * - bất cứ chuỗi ký tự nào, kể cả không có gì x – ít nhất 1 ký tự  + - chuỗi trong ngoặc xuất hiện ít nhất 1 lần Ví dụ:  Email: *@x(.*)+  dir *.txt  ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”    Biểu thức chính quy được sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ của dữ liệu * Xử chuỗi * Tách dữ liệu và tạo báo... Lớp ngôn ngữ chính qui, được đoán nhận bởi máy ảo, gọi tên là automat hữu hạn    Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA Automat hữu hạn không đơn định (Nondeterministic Finite Automat a– NFA) Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA) 19 Giới thiệu phi hình thức về automat hữu hạn    Một bài toán trong automat là nhận diện chuỗi w có thuộc về ngôn ngữ. .. thiệu phi hình thức về automat hữu hạn    Một bài toán trong automat là nhận diện chuỗi w có thuộc về ngôn ngữ L hay không Chuỗi nhập được xử tuần tự từng ký hiệu một từ trái sang phải Trong quá trình thực thi, automat cần phải nhớ thông tin đã qua xử 20 Ví dụ về automat hữu hạn L = {w  {0, 1}* | w kết thúc bằng chuỗi con 10} 21 Automat hữu hạn cho các từ tiếng Anh 22 Automata hữu hạn cho... a telescope 33 11 Ngữ pháp: nhập nhằng cấu trúc (liên kết) S VP NP NP V NP PP PP I saw the man on the hill with a telescope 34 Ngữ pháp: nhập nhằng cấu trúc (liên kết) S VP NP V NP PP PP I saw the man on the hill with a telescope 35 Nhưng ngữ pháp không nói lên nhiều điều…    Colorless green ideas sleep furiously [Chomsky] fire match arson hotel plastic cat food can cover 36 12 Ngữ nghĩa: nhập nhằng... add iz  Box+s-> boxiz ; add iz  Cần có hệ thống luật để sinh /xử các trường hợp này 45 15 “Phân tích” = gắn bề ngoài với cách biểu diễn trong của nó   Vì sao XLNNTN khó: không có tương ứng 11 với bất kỳ cách biểu diễn nào Ta cần biết cấu trúc dữ liệu và thuật toán để thực hiện, mặc dù có thể xảy ra bùng nổ tổ hợp ở bất cứ công đoạn xử nào 46 Phân tích câu hỏi LSAT / (former) GRE   Sáu tượng... được lưu dưới dạng một ký tự  VD: danh từ -112 – p, - 115 – s 10 Tiếp cận dựa trên từ điển  Phân trang theo hai chữ cái đầu của từ, sắp tăng Với mỗi trang, các từ lại được sắp theo vần ABC Paragraph n 2 1 ba bà xe Content 1 bao 2 bà ngoại bài tập n xe cộ xe đạp 11 Tìm từ trong từ điển    Độ dài tối đa của từ? 3? 4? 5? Vấn đề: nếu ngắn (vd 3), không xử được các tổ hợp từ cố định,... Các nguồn tri thức:  Tri thức miền (Domain knowledge)  Tri thức về diễn ngôn (Discourse knowledge)  Tri thức thế giới (World knowledge) 48 16 Tại sao XLNNTN lại khó? NNTN:    Nhập nhằng tại mọi mức Phức tạp và mờ Liên quan lập luận về thế giới 49 Giải pháp  Ta cần các công cụ nào?  Tri thức về thế giới   Tri thức về ngôn ngữ  Cách kết hợp các tri thức Giải pháp tiềm năng:  Các mô hình xác . nghĩa 5 Xử lý NNTN = chuyển đổi âm thanh thành ngữ nghĩa NNTN là trung tâm của trí tuệ con người 6 Xử lý NNTN là gì?  Mục đích: hiểu được nhiều ngôn ngữ  Không chỉ đơn giản là xử lý xâu. con người học một ngôn ngữ  Nghiên cứu cách ngôn ngữ tiến hóa 24 9 25 Các chủ đề trong XLNNTN  Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực chứng, …  Các bài toán con: gán nhãn. 1 1 Xử lý ngôn ngữ tự nhiên (Natural Language Processing) Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường

Ngày đăng: 13/06/2014, 12:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan