ngôn ngữ hình thức và automata

145 1.4K 9
ngôn ngữ hình thức và automata

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ngôn ngữ hình thức và automata

Luận Tốt Nghiệp KS2-K7 LỜI NÓI ĐẦU Môn học ngôn ngữ hình thức automata có rất nhiều ứng dụng trong lĩnh vực khoa học máy tính như xây dựng các trình biên dịch, nhận dạng chuyển đổi giữa các ngôn ngữ khác nhau… Do đó mà môn học này là một môn học bắt buộc cho các sinh viên ngành CNTT trong các trường đại học. Để giúp cho các sinh viên có điều kiện học tốt thực hành các bài tập của môn học này, luận văn này đi sâu vào việc mô phỏng lại hoạt động của các giải thuật trong phần ngôn ngữ phi ngữ cảnh đặc biệt là các giải thuật phân tích cú pháp Earley CYK. Sinh viên có thể khai thác cơ sở lý thuyết của môn học thông qua hệ thống Help của chương trình. Xin cám ơn thầy Hồ Văn Quân đã tận tình hướng dẫn giúp đỡ tôi hoàn thành bản luận văn tốt nghiệp như yêu cầu của đề bài. Sinh Viên Thực Hiện Thái Thuần Thạch PHẦN 1 Trang 1 Luận Tốt Nghiệp KS2-K7 GIỚI THIỆU 1. GIỚI THIỆU ĐỀ TÀI Yêu cầu của đề tài là : “Xây dựng bộ công cụ thực hiện một số giải thuật trong môn học ngôn ngữ hình thức Automata.” Ngoài các giải thuật biến đổi văn phạm, tập trung vào nghiên cứu hiện thực hai giải thuật phân tích cú pháp CYK Earley, Đánh giá số bước phân tích của mỗi giải thuật. Aùp dụng nhận dạng một câu nhập thuộc ngôn ngữ tự nhiên (Tiếng Anh) 2. MỤC ĐÍCH & Ý NGHĨA Hiện nay, ở nước ta việc áp dụng giảng dạy các môn học thông qua các mô hình giảng dạy thiết kế trên máy tính còn gặp nhiều khó khăn, một trong những nguyên nhân là thiếu các phần mềm hỗ trợ việc học giảng dạy. Luận văn này ra đời không nằm ngoài mục đích giúp sinh viên nghành CNTT có một công cụ để hỗ trợ thêm cho việc học môn học “Ngôn Ngữ Hình Thức & Automata” . Bộ công cụ này cho phép sinh thấy rõ cách thức hoạt động của một số giải thuật của phần ngôn ngữ phi ngữ cảnh, cũng như thấy được ứng dụng của các giải thuật phân tích cú pháp. 3. NỘI DUNG CHÍNH CỦA LUẬN VĂN TỐT NGHIỆP Nội dung của luận văn được chia làm 8 phần, cụ thể như sau: ♦ Phần 1 : Là phần giới thiệu về đề tài, cùng ý nghĩa tầm quan trọng của nó. ♦ Phần 2 : Đây là phần tìm hiểu về cơ sở lý thuyết có liên quan, trong phần 2 này được chia làm 4 chương với các chủ đề tìm hiểu khác nhau cụ thể là : Chương 1 : Một số khái niệm cơ bản của môn học Mục đích của chương này là giúp cho người đọc làm quen với một số khái niệm về Ngôn ngữ Hình thức & Automat như chuỗi, ngôn ngữ văn phạm chính qui, ngôn ngữ văn phạm PNC, cây dẫn xuất… để có thể dễ dàng đọc tiếp những phần sau.Tuy nhiên, người đọc có thể bỏ qua chương này nếu đã nắm được các khái niệm trên. Chương 2 :Các giải thuật biến đổi văn phạm PNC & các dạng chuẩn Trong chương này tập trung tìm hiểu các giải thuật biến đổi văn phạm PNC như : Loại bỏ các luật sinh rỗng, đơn vị, vô dụng cũng như chuyển đổi một văn phạm PNC bất kỳ về hai dạng chuẩn Chomsky Greibach, đây là phần lý thuết cơ bản làm nền tảng cho việc thực hiện giải thuật phân tích cú pháp CYK sau này. Chương 3 : Trình bày Một số giải thuật công cụ phân tích cú pháp thông dụng bao gồm phương pháp từ trên xuống (top -down) từ dưới lên (bootom -up) mục đích là giúp cho người đọc có sơ sở để so sánh với hai giải thuật phân tích cú pháp tổng quát CYK Earley Chuơng 4 : Giải thuật phân tích cú pháp Earley CYK, đây là phần chính của luận văn, trong chương này chú trọng đến việc tìm hiểu về giải thuật để phân tích cú pháp tạo chuỗi dẫn xuất cho câu nhập, cũng như so sánh độ phức tạp của hai giải thuật này với các giải thuật ở chương 3. Trang 2 Luận Tốt Nghiệp KS2-K7 ♦ Phần 3 : Tìm hiểu lý thuyết về phần mềm hỗ trợ học tập giảng dạy, cách thức để thiết kế lựa chọn mô hình giảng dạy tốt. ♦ Phần 4 : Tập trung phân tích thiết kế cho mô hình vừa chọn, phần này dựa trên các lý thuyết đã tìm hiểu ở phần 2 hình giảng dạy để đưa ra • Lựa chọn ngôn ngữ lập trình • Cấu trúc dữ liệu cho các giải thuật sử dụng trong chương trình • Cách thức nhập liệu, cấu trúc file lưu trữ • Cách trình bày dữ liệu xuất • Các lưu đồ thuật toán, tính toán độ phức tạp… • … ♦ Phần 5 : So sánh độ phức tạp giữa hai giải thuật phân tích cú pháp CYK Earley, trong phần này đưa ra các giả thiết để thực hiện tính độ phức tạp cho hai giải thuật trên bằng chương trình cũng như đưa ra những minh họa bằng ví dụ thực tế (với các đồ thị minh họa) ♦ Phần 6 : Aùp dụng nhận dạng ngôn ngữ tự nhiên, trong phần này sẽ trình bày các vấn đề liên quan đến việc nhận dạng một câu nhập (Tiếng Anh) cách thức xây dựng bộ từ điển token. ♦ Phần 7 : Thiết kế Help : đây cũng là một phần quan trọng của một chương trình trợ giúp học tập, trong phần này chú trọng tìm hiểu thiết kế một hệ thống Help. Đặc biệt là thiết kế hệ thống Help cho chương trình thông qua công cụ Windows Help Designer Pro (down load từ http://www.devgr.com) ♦ Phần 8 : Giới thiệu chuơng trình kết quả. ♦ Phần 9 : Phụ lục - Mã chương trình ♦ Phần 10 : Giới thiệu các tài liệu tham khảo PHẦN 2 : CƠ SỞ LÝ THUYẾT LIÊN QUAN CHƯƠNG 1 MỘT SỐ KHÁI NIỆM CƠ BẢN Trong chương này chúng ta sẽ tìm hiểu một số khái niệm định nghĩa cơ bản liên quan đến môn học như : bảng chữ cái, chuỗi, ngôn ngữ, văn phạm, cây dẫn xuất…, tuy nhiên sinh viên có thể bỏ qua chương này nếu đã nắm bắt được các khái niệm trên. 1. BẢNG CHỮ CÁI ♦ Là một tập hữu hạn không trống các ký hiệu (symbol) tập này thường được ký hiệu bằng Σ ♦ Ví dụ : Trang 3 Luận Tốt Nghiệp KS2-K7 {A,B,C, .,Z} : Bảng chữ cái chữ La Tinh {0,1,2, 9} : Bảng chữ số thập phân 2. CHUỖI ♦ Cho Σ là bảng chữ cái (alphabet), một từ w trên Σ là một chuỗi hữu hạn các chữ cái. Ví dụ: w=aabba, v=aaabbb là các từ trên bảng chữ cái Σ={a,b} ♦ Chuỗi rỗng cũng là một từ trên bảng chữ cái Σ ký hiệu là λ ♦ Kết nối chuỗi (concatenation) : Cho hai chuỗi u,v trên bảng chữ cái Σ, kết nối giữa hai chuỗi u,v ký hiệu là uv là một từ trên bảng chữ cái Σ bao gồm các ký hiệu thuộc u theo sau là các ký hiệu thuộc v. Ví dụ: Σ ={a,b,1,2} u=aabb v=1122 uv=aabb1122 ♦ Đảo một chuỗi : là chuỗi nhận được bằng cách viết các ký hiệu theo thứ tự ngược lại. Ví dụ : v=1122 thì v R =2211 ♦ Tiếp đầu ngữ (prefix) tiếp vĩ ngữ (suffix) của một chuỗi : Nêu w=uv thì u được gọi là tiếp đầu ngữ v được gọi là tiếp vĩ ngữ của w ♦ Chiều dài của một chuỗi : Chiều dài của một chuỗi w được ký hiệu là |w| hay là l(w) là số ký hiệu có trong chuỗi. ♦ Với mọi chuỗi u,v trên Σ ta có: |uv|=|u|+|v| |uv|=|vu| ♦ Lũy thừa của một chuỗi: nêu w là một chuỗi thì w n là một chuỗi có được bằng cách kết nối chuỗi w với chính nó n lần, trường hợp đặc biệt w 0 =λ ♦ Σ * : Nếu Σ là một bảng chữ cái thì tập tất cả các chuỗi trên Σ kể cả chuởi trống được gọi là Σ * ♦ Σ + : Nếu Σ là một bảng chữ cái thì tập tất cả các chuỗi trên Σ không kể chuởi trống được gọi là Σ + 3. NGÔN NGỮ ♦ Bất kỳ một tập L nào trên bảng chữ cái Σ, hay tập con L của Σ * được gọi là một ngôn ngữ. Ví dụ : Cho Σ={a,b} thì Σ * ={λ,a,b,aa,ab,ba,aaa,aab, .} Tập {a,aa,aab} là một ngôn ngữ trên ∑ Tập L={a n b n : n≥0} cũng là một ngôn ngữ trên tập ∑ ♦ Vì ngôn ngữ là một tập hợp các chuỗi nên hội (union), giao (intersection) hiệu (diference) của hai ngôn ngữ dễ dàng xác định ngay lập tức. ♦ Bù của một ngôn ngữ : Bù của một ngôn ngữ L trên bảng chữ cái ∑ được ký hiệu là L =∑ * -L Trang 4 Luận Tốt Nghiệp KS2-K7 ♦ Cho L 1 L 2 là hai ngôn ngữ trên bảng chữ cái ∑: + L 1 L 2 : Là một ngôn ngữ trên ∑ chứa các chuỗi có được bằng cách nối bất kỳ một chuỗi của ngôn ngữ L 1 với một chuỗi bất kỳ của ngôn ngữ thuộc L 2 L 1 L 2 ={w: w=uv, u∈L 1 , v∈L 2 } + L n : Lũy thừa của một ngôn ngữ bao gồm L nối với chính n lần với trường hợp đặc biệt : L 0 ={λ} L n =L n-1 L với n≥0 ♦ Bao đóng -sao của một ngôn ngữ L được ký hiệu là L * với : L * =L 0 ∪L 1 ∪L 2 . ♦ Bao đóng -dương của một ngôn ngữ L được ký hiệu là L + với : L + =L 1 ∪L 2 . 4.VĂN PHẠM CHÍNH QUI NGÔN NGỮ CHÍNH QUI 4.1- Văn phạm Chính Qui Để nguyên cứu một ngôn ngữ, chúng ta cần một cơ chế để mô tả nó. Ngôn ngữ hàng ngày thường không chính xác (vì có thể hiểu theo nhiều nghĩa tùy vào hoàn cảnh của từng người bối cảnh sảy ra), cú pháp thì nhập nhằng không rõ ràng (câu có thể không xác định được ý nghĩa chính xác), vì vậy chúng ta sẽ tìm hiểu một vài cơ chế định nghĩa ngôn ngữ rất hiệu quả trong các trường hợp khác nhau đó là định nghĩa ngôn ngữ thông qua văn phạm. ♦ Định Nghĩa Một văn phạm G được xác định như là một bộ bốn : G=(V,T,S,P) Trong đó: + V là một tập hữu hạn các đối tượng được gọi là các biến (variable) + T là một tập hữu hạn các đối tượng được gọi là các ký hiệu kết thúc (terminal symbol) + S ∈ V là một ký hiệu đặt biệt được gọi là biến khởi đầu. + P là tập hữu hạn các luật sinh (Production) ♦ Văn phạm tuyến tính Phải Trái + Một văn phạm G=(V,T,S,P) được gọi là tuyến tính - phải nếu tất cả các luật sinh có dạng : X  xB, X x Trong đó : A,B ∈ V, x ∈ T* . + Mộtvăn phạm được gọi là tuyến tính trái nếu tất cả các luật sinh có dạng : X Bx, X x + Một văn phạm gọi là chính qui là văn phạm mà hoặc là tuyến tính trái hoặc tuyến tính phải. Các luật sinh là trái tim của văn phạm, chúng chỉ ra làm thế nào văn phạm biến đổi một chuỗi thành một chuỗi khác, thông qua cách này chúng (các luật sinh) định nghĩa một ngôn ngữ liên kết với văn phạm. ♦ Chúng ta nói rằng w dẫn xuất ra z ký hiệu w= * >z hay z được dẫn xuất ra từ w. Các chuỗi lần lượt được dẫn xuất bằng cách áp dụng các luật sinh của văn phạm trong một thứ tự tùy ý nếu : w 1 =>w 2 => .=>w n chúng ta nói w 1 dẫn xuất ra w n viết w 1 = * > w 2. Trang 5 Lun Tt Nghip KS2-K7 Du * ch ra rng mt s bc bt k no ú (k c khụng) cú th c ỏp dng dn xut ra w n t w 1 ch ra ớt nht mt lut sinh ỏp dng chỳng ta phi vit : w 1 = + >w n 4.2- Ngụn Ng Chớnh Qui Mt ngụn ng gi l chớnh qui nu tn ti mt automat hu hn chp nhn nú. Vỡ vy mi ngụn ng chớnh qui cú th c mụ t bng mt dfa hay mt nfa no ú, nh vy trỡnh by mt ngụn ng chớnh qui cú th mụ t nú nh l mt dfa hay nfa. Ngụn ng L l chớnh qui nu v ch nu tn ti mt vn phm chớnh qui G sao cho L=L(G). 4.3- Biu Thc Chớnh Qui Mt cỏch biu din ngụn ng chớnh qui l thụng qua khỏi nin biu thc chớnh qui. Khỏi nim v biu thc chớnh qui bao gm s kt hp cỏc chui kớ hiu ca mt bng ch cỏc no ú, cỏc du ngoc ( ) v cỏc phộp toỏn + , . v *. Vớ d r=(a|b)*a nh ngha Cho l mt bng ch cỏi. Thỡ: + , v a tt c u l nhng biu thc chớnh qui. Nhng cỏi ny c gi l nhng biu thc chớnh qui nguyờn thy. + Nu r 1 v r 2 l nhng biu thc chớnh qui, thỡ r 1 +r 2, r 1. r 2 , v(r 1 ) cng vy. + Mọt chui l mt biu thc chớnh quy nu v ch nu nú cú th c dn xut t cỏc biu thc chớnh qui nguyờn thy bng mt s ln hu hn ỏp dng cỏc qui tc trong (2). Ngụn ng L(r) c biu th bi biu thc chớnh qui bt k v c nh ngha bi cỏc qui tc sau: + l mt biu thc chớnh qui biu th tp trng. + l mt biu thc chớnh qui biu th tp {} + i vi mi a , a l biu thc chớnh qui biu th cho ngụn ng {a}. Nu r 1 v r 2 nhng biu thc chớnh qui thỡ : + L(r 1 +r 2 ) = L(r 1 ) L(r 2 ) + L(r 1. r 2 ) = L(r 1 ).L(r 2 ) + L((r 1 )) = L(r 1 ) + L(r 1 * ) = (L(r 1 )) * 5. NGễN NG PHI NG CNH Trong thc t hng ngy khụng phi tt c cỏc ngụn ng iu l chớnh qui. Trong khi ngụn ng chớnh qui hiu qu trong vic mụ t mt vi mu n gin do ú ngi ta khụng cn chỳ ý quỏ nhiu n cỏc ngụn ng chớnh qui vỡ cú nhiu s hn ch ca nú i vi ngụn ng lp trỡnh. Vớ d: Nu trong L={a n b n : n0}, chỳng ta thay th du ngoc trỏi cho a v du ngoc phi cho b thỡ chui cỏc du ngoc chng hn nh (( )) v ((( ))) l thuc L nhng (( ) thỡ khụng m trong mt ngụn ng lp trỡnh thỡ thng xuyờn gp nhng cu trỳc lng nhau nh vy. Do ú ta thy mt vi thuc tớnh ca ngụn ng lp trỡnh yờu cu mt cỏi gỡ ú bờn ngoi ngụn ng chớnh qui, bao trựm nhng vn ny ta phi m rng ngụn ng dn n vic nguyờn cu ngụn ng v vn phm phi ng cnh. 5.1- Vn Phm Phi Ng Cnh Cỏc lut sinh trong vn phm chớnh qui thỡ b gii hn theo 2 cỏch : V phi l mt bin n, trong khi ú v phi cú mt dng c bit. to ra vn phm mnh hn, chỳng ta phi ni Trang 6 Luận Tốt Nghiệp KS2-K7 lỏng một vài giới hạn như vậy, bằng cách duy trì giới hạn trên vế trái nhưng cho phép bất kỳ cái gì trên vế phải khi đó chúng ta nhận được một văn phạm phi ngữ cảnh. ♦ Định Nghĩa Một văn phạm G =(V,T,S,P) được gọi là phi ngữ cảnh nếu mọi luật sinh trong P có dạng : A-->x trong đó A ∈ V còn x ∈ (V ∪ T) * . Một ngôn ngữ được gọi là phi ngữ cảnh nếu chỉ nếu có một văn phạm phi ngữ cảnh G sao cho L= L(G). 5.2- Dẫn Xuất Trái Nhất Phải Nhất Trong văn phạm phi ngữ cảnh mà không tuyến tính, một dẫn xuất có thể bao gồm nhiều dạng câu với nhiều hơn một biến, trong trường hợp như vậy chúng có có một sự chọn lựa về thứ tự biến nào được thay thế. Một dẫn xuất được gọi là trái nhất nếu trong mỗi bước biến bên trái nhất được thay thế. nếu trong mỗi bước biến bên phải nhất được thay thế thì gọi dẫn xuất trái nhất. 5.3 - Cây Dẫn Xuất Một cách thứ hai để trình bày các dẫn xuất, độc lập với thứ tự trong đó các luật sinh được áp dụng là bằng cây dẫn xuất. Một cây dẫn xuất là một cây có thứ tự trong đó các nốt được gán nhãn với vế trái của luật sinh còn các con của các nốt biểu diễn bằng vế phải tương ứng của nó Ví dụ : A--> abABc thì cây dẫn xuất là : Định Nghĩa Cho G=(V,T,S,P) là một văn phạm phi ngữ cảnh. Một cây có thứ tự là một cây dẫn xuất cho G nếu chỉ nếu có các tính chất sau: + Gốc được gán nhãn là S + Mỗi lá có một nhãn lấy từ tập (T ∪ { λ }) + Mỗi nốt bên trong không phải là lá có một nhãn lấy từ V. + Nếu nỗi nốt có nhãn A ∈ V, các con của nó được gán nhãn (từ trái sang phải) a 1 , a 2 a n thì P phải chứa một luật sinh có dạng A--> a 1 , a 2 a n + Một lá được gán nhãn λ không có anh chị e, tức là một nốt với một con được gán nhãn λ có thể không có con nào khác. Ngoài ra còn có một số khái niệm khác chưa được nêu ra ở đây, các bạn có thể tìm hiểu thêm trong “An Introduction To Formal Languages And Automata” của Peter Linz Trang 7 A BA cb a Luận Tốt Nghiệp KS2-K7 CHUƠNG 2 MỘT SỐ GIẢI THUẬT BIẾN ĐỔI VĂN PHẠM PNC CÁC DẠNG CHUẨN Trong phần này, chúng ta đi sâu vào việc tìm hiểu một số giải thuật biến đổi văn phạm phi ngữ cảnh như : + Loại bỏ các luật sinh rỗng + Loại bỏ các luật sinh vô dụng + Loại bỏ các luật sinh đơn vị + Chuyển văn phạm bất kỳ về dạng chuẩn Chomsky + Chuyển văn phạm bất kỳ về dạng chuẩn Greibach Việc loại bỏ các luật sinh trên rất quang trọng làm tiền đề để có thể biến đổi tập văn phạm của ngôn ngữ phi ngữ cảnh về các dạng chuẩn quan trọng như dạng chuẩn Chomsky, dạng chuẩn Greibach. Từ đó giúp cho việc thực hiện một giải thuật phân tích cú pháp như CYK. I- CÁC GIẢI THUẬT BIẾN ĐỔI VĂN PHẠM 1) LOẠI BỎ CÁC LUẬT SINH RỖNG (λ) Bất kỳ luật sinh nào của văn phạm phi ngữ cảnh có dạng A --> λ được gọi là luật sinh λ , bất kỳ biến A nào mà đối với nó dẫn xuất A-- * > λ là có thể thì A gọi là khả trống. Nhập : - Một văn phạm phi ngữ cảnh G =(V,T,S,P) với : + V : Các kí hiệu không kết thúc. + T : Các kí hiệu kết thúc. + S : Biến khởi đầu + P : Tập các luật sinh Xuất : - Một văn phạm G^=( V,T,S,P^) với tập luật sinh P^ không có tập luật sinh rỗng. • Giải Thuật Bước 1: Duyệt qua tất cả các luật sinh trong P, nếu có luật sinh nào có dạng A->λ thì cho A vào tập Vn Bước 2 : Lặp lại bước sau cho đến khi nào không thêm được biến vào Vn được nữa : + Nếu trong P có tồn tại : B---> A 1 A 2 A 3 . A n với A 1 A 2 A 3 . A n ∈ Vn thì cho B vào Vn Bước 3: Sau khi đã có tập Vn, xét mọi luật sinh trong P có dạng : A---> x 1 x 2 . x m với m≥1 x i ∈ (V∪ T) Đối với mỗi luật sinh như vậy của P, đặt vào P^ luật sinh đó cũng như những luật sinh bằng cách thay thế các biến khả trống (∈ Vn) bằng λ trong mọi tổ hợp có thể có, ngoại trừ tất cả x i (i=1,2 .) là khả trống thì không đặt luật sinh A->λ vào trong P^ Ví dụ: Cho văn phạm G =({S,A,B,C,D},{a, b,d,λ},{S},P) các luật sinh trong P như sau : Trang 8 Luận Tốt Nghiệp KS2-K7 S ---> ABaC A ---> BC B ---> b | λ C ---> D | λ D ---> d Áp dụng giải thuật trên ta có : - Đầu tiên Vn={} Bước 1: Các luật sinh trực tiếp sinh B--->λ, C--->λ do đó Vn={B,C} Bước 2: Các luật sinh gián tiếp dẫn xuất ra rỗng là A--->BC do đó thêm A vào tập Vn => Vn={B,C,A} Bước 3 : Xây dựng các tổ hợp cho mỗi luật sinh bằng cách thay thế λ cho những biến ở vế phải thuộc Vn, ta được luật P^: S ---> ABaC | BaC | AaC | ABa | aC | Ba | Aa | a B ---> b C ---> D A ---> BC | C | B 2) LOẠI BỎ CÁC LUẬT SINH ĐƠN VỊ Bất kỳ luật sinh của văn phạm phi ngữ cảnh có dạng A ---> B trong đó A,B thuộc V thì được gọi là luật sinh đơn vị. • Nhập : - Một văn phạm phi ngữ cảnh G =(V,T,S,P) với : + V : Các kí hiệu không kết thúc. + T : Các kí hiệu kết thúc. + S : Biến khởi đầu + P : Tập các luật sinh • Xuất : - Một văn phạm G^=( V,T,S,P^) với tập luật sinh P^ không có tập luật sinh đơn vị. • Giải Thuật Bước 1 : Đặt vào P^ các luật sinh không đơn vị của P Bước 2 : Đối với mỗi luật sinh trong P có dạng A---> B (A ≠ B), thì đối với mỗi biến A tìm tất cả các biến B sao cho A--*> B Điều này có thể thực hiện được bằng cách vẽ đồ thị phụ thuộc cho G. Bước 3 : Xét tất cả các biến A B thỏa mãn ở bước 2 , chúng ta sẽ thêm vào P^ các luật sinh sau : A ---> y 1 | y 2 | y 3 | .|y n Trong đó B ---> y 1 | y 2 | y 3 | .|y n là các luật sinh không đơn vị của B. Hay nói cách khác đặt các vế phải của các luật sinh không đơn vị của B ở trong P vào làm các vế phải của các luật sinh của A trong p^ Kết quả G^ sẽ tương đương với G mà P^ không chứa các luật sinh đơn vị Ghi chú : Nếu muốn trong P^ không chứa luật sinh rỗng λ thì trước tiên ta phải loại bỏ luật sinh λ trước. Ví dụ: Cho văn phạm G =({S,A,B},{a,b,c},{S},P) các luật sinh trong P như sau : S ---> Aa | B B ---> A | bb Trang 9 Luận Tốt Nghiệp KS2-K7 A ---> a | bc | B Áp dụng giải thuật trên ta có : - Bước 1: Đặt vào P^ các luật sinh không đơn vị : S ---> Aa B ---> bb A ---> a | bc - Bước 2: Từ các tập luật sinh đơn vị trên tìm ra được các tập luật sinh dẫn xuất A--*>B như sau : S ---> B S ---> A A ---> B B ---> A + Đồ thị phụ thuộc: - Bước 3 : Xét tất cả các luật sinh thõa mãn bước 2 ta thêm vào các luật sinh sau vào P^ S ---> B <==> S ---> bb S ---> A <==> S ---> a | bc A ---> B <==> A ---> bb B ---> A <==> S ---> a | bc Vậy trong P^ : S ---> Aa | bb | a | bc B ---> bb | a | bc A ---> a | bc | bb Không có luật sinh đơn vị nào 3) LOẠI BỎ CÁC LUẬT SINH VÔ DỤNG Một mong muốn cố định là loại bỏ ra khỏi văn phạm những luật sinh mà không bao giờ đóng góp gì trong bất kỳ dẫn xuất nào. Chẳng hạn trong văn phạm sau toàn bộ tập luật sinh của nó là : S ---> aSb | λ | A A ---> aA Luật sinh S ---> A rõ ràng không đóng một vai trò nào, vì A không thể được biến đổi thành các ký hiệu kết thúc. Trong khi A có thể xuất hiện trong một chuỗi được dẫn xuất từ S, cái này có thể không bao giờ dẫn đến câu. Việc loại bỏ luật sinh này không làm ảnh hưởng đến ngôn ngữ là một sự đơn giản hóa theo bất kỳ định nghĩa nào. • Nhập : - Một văn phạm phi ngữ cảnh G =(V,T,S,P) với : + V : Các kí hiệu không kết thúc. + T : Các kí hiệu kết thúc. + S : Biến khởi đầu + P : Tập các luật sinh • Xuất : - Một văn phạm G^=(V^,T^,S,P^) với tập luật sinh P^ không có tập luật sinh vô dụng. Trang 10 B A S [...]... 0] trên I7 [E T] trên I0 do đó ta thực thi R([T F *T , 0], 7) kết quả là luật sinh thứ 3 được đưa vào trong π => π={32}, sau khi gọi R trên ta có k=3 l=7 • Với k=3, ta tìm ra được [T F.] trên I0 [T F * T] trên I6 do đó ta gọi R([T F ,6],7] cho 4 vào tập π ={432} đặt k=2 l=6 • Tại bước (3a) ta gặp * do đó giản k l đi 1 k=1 l=5 Tìm thấy [F(E).,0] trên I5 [T F... phi ngữ cảnh đã đang đóng một vai trò rất lớn trong việc thực hiện các chương trình dịch cho ngôn ngữ lập trình các chương trình xử lý ngôn ngữ tự nhiên Earley đã đưa ra một giài thuật phân tích cú pháp cho văn phạm phi ngữ cảnh Đây là một giải thuật thuộc loại phân tích cú pháp từ trên xuống xây dựng các dẫn xuất trái nhất của chuỗi ký hiệu nhập, giải thuật này hiệu quả hơn giải thuật CYK và. .. j) nếu chỉ nếu tồn tại γ δ sao cho chúng ta có S =*> γAδ γ =*> a1…ai α =*> ai+1 … aj Ý nghĩa của thực thể trên là : chúng ta đã nhìn thấy chuỗi nhập dẫn xuất từ α đến vị trí j đang chờ chuổi tiếp theo được dẫn xuất từ β • Nếu A ∈ thì thực thể của nó là [A ,i]  Sau khi hình thành danh sách I0, I1, … In cho chuổi nhập w, chúng ta kết luận w là một chuỗi thuộc ngôn ngữ L(G) nếu chỉ... Yacc α là chuỗi các ký hiệu văn phạm Yacc sẽ sinh ra bộ phân tích cú pháp dưới dạng đặc tả như vậy xử lý các luật sinh trên như các luật sinh thông thường Trang 21 Luận Tốt Nghiệp KS2-K7 CHƯƠNG 4 GIẢI THUẬT PHÂN TÍCH CÚ PHÁP EARLEY CYK I- GIẢI THUẬT PHÂN TÍCH CÚ PHÁP EARLEY 1.1 Giới Thiệu Văn phạm phi ngữ cảnh được sử dụng rộng rãi trong việc mô tả cú pháp của ngôn ngữ lập trình và ngôn ngữ. .. thể (03) (04) nhưng hai thực thể này đã tồn tại trong I0 rồi nên ta không thêm vào - Xéùt (03) áp dụng luật (3) của giải thuật ta thêm vào I0 các thực thể : [F (E) , 0] (05) [F a , 0] (06) - Xét (04) áp dụng luật (3) của giải thuật ta cũng có được hai thực thể (05) (06) nhưng hai thực thể này đã tồn tại trong I0 rồi nên ta không thêm vào bây giờ không có thực thể nào được thêm vào I0 nữa... này chúng ta sẽ trình bày một bộ sinh phân tích cú pháp LARL được gọi là Yacc Yacc sinh ra mã đích dưới dạng ngôn ngữ C từ đó xây dựng bảng phân tích LARL phân tích một chuỗi nhập theo văn phạm LR(1) Yacc thường được sử dụng để xây dựng các bộ phân tích cú pháp cho các ngôn ngữ lập trình hiện nay Yacc là một lệnh của hệ điều hành UNIX 2- Mô Tả Bộ Phân Tích Cú Pháp Yacc Dưới đây là sơ đồ mô tả... đỉnh stack a là ký hiệu nhập đang xét Hoạt động của giải thuật tùy thuộc vào giá trị của action[s,a] như sau : • Nếu action[s,a] = shift si : Đẩy a vào stack, sau đó là si, chuyển ký hiệu kế tiếp trong chuỗi nhập thành ký nhập sẽ xét • Nếu action[s,a] = reduce A  α , đặt | α | là chiều dài của α, đẩy 2*|α | ký hiệu ra khỏi stack, đẩy A vào stack sau đó đẩy trạng thái cho bỡi goto[si,A] vào trong... Younger T Kasami (theo Peter Linz 1990) Giải thuật chỉ làm việc trên văn phạm phi ngữ cảnh ở dạng chuẩn Chomsky khi thực hiện việc phân tích cú pháp sẽ cho cây dẫn xuất trái nhất Ý tưởng chính của giải thuật như sau :  Giả sử có một văn phạm phi ngữ cảnh ở G=(N,∑, P,S) dạng chuẩn Chomsky một chuỗi nhập w= a1a2 … an  Giải thuật CYK sẽ đi xây dựng một bảng phân tích cú pháp T (có hình một... tích cú pháp T (có hình một tam giác) , mỗi phần tử tij 1≤ i ≤ n 1 ≤ j ≤ n-i+1 có các giá trị là một tập con của N  Một kí hiệu không kết thúc A ∈ tij nếu chỉ nếu A =*> aiai+1 … ai+j-1  Chuỗi nhập w thuộc ngôn ngữ L(G) nếu S∈ t1n 2.2- Giải Thuật Phân Tích Cú Pháp CYK Nhập : Văn phạm phi ngữ cảnh G=(N,∑, P, S) ở dạng chuẩn Chomsky chuỗi nhập w= a1a2 … an thuộc ∑* Xuất : Bảng phân tích cú pháp... n), ∀i (1 ≤ j’ < j) Khi đó tập tij được tính như sau : tij= ∪ { A | A BC thuộc P mà B ∈ tik C ∈ ti+k, j-k} 1≤k . làm quen với một số khái niệm về Ngôn ngữ Hình thức & Automat như chuỗi, ngôn ngữ và văn phạm chính qui, ngôn ngữ và văn phạm PNC, cây dẫn xuất… để. môn học Ngôn Ngữ Hình Thức & Automata . Bộ công cụ này cho phép sinh thấy rõ cách thức hoạt động của một số giải thuật của phần ngôn ngữ phi ngữ cảnh,

Ngày đăng: 14/03/2013, 11:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan