tiểu luận môn nhận dạng tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng

27 442 0
tiểu luận môn nhận dạng tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐÀO TẠO SAU ĐẠI HỌC  TIỂU LUẬN MÔN HỌC : Tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng GVHD:  Học viên:    !" Lớp: #$%&' ()%*%+% ,-./0123.45 3  Được sự phân công của ban cán sự lớp, nhóm thực hiện đề tài: Tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng (nhận dạng chữ,…) và so sánh chất lượng và hiệu năng với phương pháp khác để nhận dạng chữ. (Đề 13). Trong phạm vi của tiểu luận này, với những kiến thức đã được học cũng như tự nghiên cứu thêm tài liệu từ các giáo trình, bài giảng và mạng Internet, chúng tôi xin trình bày các nội dung sau: 3"-!627.45 %3 /,849:!":;:.452<=>27:5/ =.45?.452@) 12):A)BC 3D;2<=-!67E7F:!":;:G;2H,. 452@?:!"=82HI=)2JC Cho dù đã hết sức cố gắng, nhưng do điều kiện thời gian và khả năng còn nhiều hạn chế, hơn nữa nội dung tiểu luận môn học này là một lĩnh vực tri thức rộng lớn còn đang được nghiên cứu, đa dạng và rất phức tạp nên chắc chắn không thể không tránh khỏi những sai sót và khiếm khuyết. Rất mong nhận được sự góp ý, phê bình, đánh giá của PGS.TS và của các bạn trong lớp để nhóm chúng tôi rút kinh nghiệm và hoàn thiện tốt hơn trong thời gian tới. Chúng tôi xin gửi lời cảm ơn chân thành đến PGS.TS Nguyễn Thị Hoàng Lan đã giảng dạy kiến thức, cung cấp tài liệu, định hướng và hướng dẫn chúng tôi trong suốt thời gian qua để nhóm chúng tôi hoàn thành tiểu luận này. A20207E23 3 %3 3?!"=82HI=C 3 !"?!"=82KA2JC L/3MM !" % ,-./0123.45 3   N0O,4HP=!6)G0442 a) Không gian biểu diễn đối tượng Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng. Việc biểu diễn ảnh theo đặc trưng nào là phụ thuộc vào ứng dụng tiếp theo. Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng. Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay, …) được biểu diễn bởi n thành phần (n đặc trưng): X = {x 1 , x 2 , , x n }; mỗi x i biểu diễn một đặc tính. Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa: X = {X 1 , X 2 , , X m } trong đó mỗi X i biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn. b) Không gian diễn dịch Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức gọi Ω là tập tên đối tượng: Ω = {w 1 , w 2 , ,w k } với w i , i = 1, 2, , k là tên các đối tượng Quá trình nhận dạng đối tượng f là một ánh xạ f: X > Ω với f là tập các quy luật để định một phần tử trong X ứng với một phần tử trong Ω . Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có giám sát. Trường hợp thứ hai là nhận dạng không có giám sát. Đương nhiên trong trường hợp này việc nhận dạng có khó khăn hơn. L/3MM !"  ,-./0123.45 3 %.45/Q=PGR7.452<=>2 a) Nhận dạng mẫu thống kê Nhận dạng mẫu thống kê phân loại các mô hình dựa trên một tập hợp các tính năng trích xuất và một mô hình cơ bản thống kê. Lý tưởng nhất, được thực hiện với một thủ tục khá đơn giản: - Xác định vector tính năng, - Huấn luyện hệ thống, - Phân lớp. Cũng có nhiều mô hình chứa thông tin cấu trúc và quan hệ khiến cho rất khó hoặc không xác định được dạng vector tính năng. b) Nhận dạng cấu trúc văn phạm Cách tiếp cận của mô hình này dựa vào việc mô tả đối tượng bằng cách biểu thị giả định đối tượng cơ sở để có thể đánh giá được trong ngôn ngữ tự nhiên. Phương pháp này xây dựng mô tả thứ bậc các mô hình phức tạp từ các yếu tố nguyên thủy đơn giản. Để mô tả đối tượng, người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung,… Chẳng hạn một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một. Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc V t , một bộ kí hiệu không kết thúc gọi là V n . Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thuỷ (tập V t ). Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu. Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (V t , V n , P, S) với: - V t là bộ ký hiệu kết thúc, - V n là bộ ký hiệu không kết thúc, - P là luật sản xuất, L/3MM !" S ,-./0123.45 3 - S là ký hiệu, biểu tượng kết thúc. Ví dụ, đối tượng nhà gồm mái và tường, mái là một tam giác gồm 3 cạnh là 3 đoạn thẳng, tường là một hình chữ nhật gồm 4 cạnh vuông góc với nhau từng đôi một sẽ được mô tả thông qua cấu trúc mô tả dựa vào văn phạm sinh như chỉ ra trong hình 1 dưới đây. Hình 1. Mô hình cấu trúc của một đối tượng nhà. Việc xác định số lượng và mô tả cấu trúc được thực hiện chủ yếu bằng cách sử dụng: - Ngôn ngữ hình thức - Mô tả quan hệ (chủ yếu là đồ thị). Bước tiếp theo, nhận dạng và phân loại được thực hiện bằng cách sử dụng: - Phân tích cú pháp (đối với ngôn ngữ hình thức), - Kết hợp đồ thị quan hệ (đối với mô tả quan hệ). Trong tiểu luận này chúng tôi sẽ nghiên cứu phương pháp tiếp cận nhận dạng cấu trúc văn phạm. So sánh nó với phương pháp nhận dạng chuỗi và đồ thị. L/3MM !" T ,-./0123.45 3 !"#$%  &'()'  %!"=822<=>27:5/ Ngữ pháp cung cấp mô hình được chi tiết hóa làm nền tảng cho việc tạo ra tuần tự ký tự trong chuỗi. Ví dụ, chuỗi số điện thoại có một cấu trúc chặt chẽ. Tương tự như vậy, hệ thống nhận dạng ký tự quang nhận dạng và biên dịch các phương trình toán học có sử dụng quy tắc để sắp xếp các biểu tượng toán học. Bài toán nhận dạng, chúng tôi đưa ra một câu (một chuỗi có quy tắc) và ngữ pháp (các bộ quy tắc), và xác định xem câu có được tạo ra bởi văn phạm này không. Một ngữ pháp bao gồm bốn thành phần: - Các ký tự: Mỗi câu bao gồm một chuỗi ký tự (hay biểu tượng nguyên thủy, biểu tượng kết thúc) từ bảng chữ cái. - Các biến: Là (ký hiệu) biểu tượng không kết thúc (hoặc biểu tượng trung gian, biểu tượng nội bộ). - Biểu tượng gốc: Là một biến đặc biệt, là gốc cho tất cả các chuỗi. - Luật sinh: là các quy tắc sinh (hoặc viết lại quy tắc) để xác định chuyển đổi một tập hợp các biến và biểu tượng vào các biến và biểu tượng khác. Ví dụ, nếu A là biến và c là ký hiệu kết thúc, quy tắc cA -> cc nghĩa là bất kỳ thời điểm nào phân khúc cA xuất hiện trong chuỗi có thể được thay thế bởi cc. Ngôn ngữ L(G) được tạo ra bởi một văn phạm G là tập hợp tất cả các chuỗi (có thể là số vô hạn) có thể được tạo ra bởi G. L/3MM !" U ,-./0123.45 3 Hình 2: Cây trên minh họa một câu tiếng Anh được tạo ra bởi văn phạm. Một vài đặc điểm của phương thức nhận dạng theo cú pháp và cấu trúc như sau: + Các mẫu được phân tách thành các mẫu nhỏ dựa trên mối quan hệ. + Các mẫu được hình thành bởi các mẫu nhỏ hơn được phân cấp. + Các lớp khác nhau có các mẫu nhỏ khác nhau, quy luật giữa các mẫu nhỏ khác nhau có thể khác với các lớp khác nhau. Ví dụ cho một mẫu nhận dạng: Hình 3 – Phân tích nhận dạng cú pháp một khuông nhạc L/3MM !" V ,-./0123.45 3 Như vậy, đối tượng cần nhận dạng X được miêu tả bởi xâu chuỗi, đồ thị hoặc văn phạm. Ta có cấu trúc văn phạm G dựa trên bộ tứ G = (V N , V T , P, S), V N và V T (V N ∩ V T = ∅) - V N : tập các từ vựng - V T : tập các từ vựng được coi là biến - P là tập quy tắc sinh câu . Ví dụ: α → β, α và β là các tập con của V và α ∩ VN = ∅. - S ∈ V N là biểu tượng, dấu hiệu thư mục gốc (hoặc bắt đầu). Một số ký hiệu: • Σ * là tập hợp của tất cả các câu có chiều dài hữu hạn được hình thành từ biểu tượng Σ. Chuỗi rỗng được ký hiệu là λ; Σ + = Σ * - {λ} • x n biểu thị sự lặp lại của câu x n lần. • | x | là độ dài của câu x. • nghĩa là η trực tiếp tạo ra câu γ, nghĩa là η = ω 1 α ω 2 , γ = ω 1 β ω 2 , và có tồn tại một quy tắc sinh α → β. • có nghĩa là η gián tiếp tạo ra câu γ, tức là, có tồn tại một chuỗi các câu ς 1 . . . , ς n để η = ς 1 , γ = ς n , và ς i ⇒ ς i +1, i = 1,. . . , n - 1. Các câu ς 1 ,. . . , ς n được gọi là nguồn gốc của γ từ η. Nếu G là một cấu trúc văn phạm, khi đó là một cụm từ có cấu trúc được tạo ra bởi văn phạm. Một ngôn ngữ có thể có nhiều cách đặc tả, do đó cũng có thể có nhiều văn phạm khác nhau sinh ra cùng một ngôn ngữ. Hai văn phạm sinh ra cùng một ngôn ngữ thì gọi là tương đương. G 1 tương đương G 2 <=> L(G 1 ) = L(G 2 ) L/3MM !" W ,-./0123.45 3 Nếu một chuỗi x ∈ L(G) có thể được sinh bởi nhiều cách, văn phạm G là không rõ ràng. Trong các ứng dụng nhận dạng, một văn phạm rõ ràng là điều mong muốn, bởi nó có thể phân tích cú pháp. Hình 4 – Minh họa một hệ thống nhận dạng theo cấu trúc văn phạm %%0@ =82 Bằng cách áp đặt một số quy tắc hạn chế trên các luật sinh, Noam Chomsky đề nghị một hệ thống phân loại các văn phạm dựa vào tính chất các luật sinh. Hệ thống này cho phép xây dựng các bộ nhận dạng hiệu quả và tương thích với từng loại văn phạm. Ta có 4 loại văn phạm như sau: 5+3?:5/:@2G052X): Văn phạm không cần thỏa mãn bất kỳ ràng buộc trên các luật sinh hay quy tắc nào. 5:(7:5/2/@2#): Nếu văn phạm G có luật sinh dạng αIβ → αxβ. Trong đó α,β là một chuỗi bất kỳ chứa biến trung gian hoặc biểu tượng kết thúc, I là biến trung gian, x là biến trung gian hoặc biểu tượng kết thúc. 5%: ?7:5/:@2#Y): Nếu văn phạm G có luật sinh dạng A → α với A là một biến trung gian và α là một chuỗi ký hiệu kết thúc hoặc biến trung gian ∈ V T . Loại 3: (7:5/2Z[\): Nếu văn phạm G có luật sinh dạng tuyến tính: α → zβ hoặc α → βz hoặc α → z với α,β là các biến trung gian và z là chuỗi ký hiệu kết thúc (có thể là rỗng). Lớp của văn phạm kiểu i bao gồm tất cả văn phạm kiểu i + 1. L/3MM !" ] ,-./0123.45 3 %.45D^492<=>27:5/ Giả sử có một câu x được tạo bởi ngôn ngữ 2 có các mẫu hoặc lớp khác nhau. Câu x được phân loại theo ngữ pháp đã sinh nó, x là một thành viên của ngôn ngữ L(G i ). Phân tích cú pháp là quá trinh xử lý ngược, cho x cụ thể, tìm một dẫn xuất trong G, dẫn đến x. Phân tích cú pháp từ dưới lên bắt đầu với câu x, và tìm cách đơn giản nó, coi nó là biểu tượng gốc. Phương pháp tiếp cận cơ bản là sử dụng các luật sinh trở về trước, tức là tìm viết lại quy tắc bên phải của chuỗi hiện tại, và thay thế nó với một phân khúc. Phân tích cú pháp từ trên xuống bắt đầu với nút gốc và liên tục áp dụng luật sinh để tìm gốc của câu x. Từ đó xác định được quy tắc sinh. %S0@/0= D^49.452<=>27:5/ Hình 5: Sử dụng ngôn ngữ mô tả hình ảnh (PDL) để nhận dạng cấu trúc văn phạm Ngôn ngữ mô tả hình ảnh (PDL) là một cách thức đầu tiên để mô tả các mẫu hình ảnh sử dụng ngôn ngữ hình thức. Trong hình trên: Các ký hiệu (biểu tượng) kết thúc: {t, b, u, o, s, *, - , +}; + đại diện cho 2 vector nối đuôi nhau, * đại diện cho 2 vector cùng điểm bắt đầu, và - đại diện đảo ngược vector. H đại diện cho cuối vector và T đại diện cho đầu vector. L/3MM !" + [...]... NHẬN DẠNG 6 2.1 Phương thức cấu trúc văn phạm 6 2.2 Ngôn ngữ hình thức 9 2.3 Nhận dạng sử dụng cấu trúc văn phạm 10 2.4 Ngôn ngữ mô tả hình ảnh sử dụng nhận dạng cấu trúc văn phạm 10 10 PHẦN 3: SO SÁNH CHẤT LƯỢNG VÀ HIỆU NĂNG NHẬN DẠNG VỚI PHƯƠNG PHÁP KHÁC ĐỂ NHẬN DẠNG CHỮ 14 3.1 PHƯƠNG PHÁP SUY LUẬN 3.2 NHẬN... sử dụng DTW Một số ví dụ về việc sử dụng các khoảng cách chỉnh sửa Nhóm 13: Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương Trang 23 Tiểu luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan KẾT LUẬN Qua tiểu luận, nhóm chúng tôi cơ bản đã hiểu được nhận dạng là gì, các khái niệm, vấn đề cơ bản trong nhận dạng, ngôn ngữ hình thức, cấu trúc văn phạm, phương pháp nhận dạng cấu trúc trong nhận. .. Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương Trang 25 Tiểu luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan MỤC LỤC MỞ ĐẦU 2 PHẦN 1 SƠ LƯỢC VỀ NHẬN DẠNG 3 1.1 Không gian biểu diễn đối tượng, không gian diễn dịch 3 1.2 Nhận dạng mẫu thống kê và nhận dạng cấu trúc .4 PHẦN 2: TÌM HIỂU ỨNG DỤNG PHƯƠNG PHÁP NHẬN DẠNG CẤU TRÚC VĂN PHẠM TRONG NHẬN... ngữ hình thức, cấu trúc văn phạm, phương pháp nhận dạng cấu trúc trong nhận dạng Trên cơ sở tham khảo giáo trình, hiểu và nắm được cơ bản vấn đề nhận dạng cấu trúc văn phạm, chúng tôi cũng có so sánh các phương pháp nhận dạng chữ khác như phương pháp suy luận, đồ thị, và chuỗi ký tự với phương pháp nhận dạng chữ dựa vào cấu trúc Mặc dù đã hết sức cố gắng, nhưng do điều kiện thời gian và khả năng kiến... luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan Hình 9: Ví dụ cây cú pháp biểu diễn hình lập phương Hình 10: Ví dụ cây cú pháp biểu diễn 1 ảnh nhị phân Nhóm 13: Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương Trang 13 Tiểu luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan PHẦN 3: SO SÁNH CHẤT LƯỢNG VÀ HIỆU NĂNG NHẬN DẠNG VỚI PHƯƠNG PHÁP KHÁC ĐỂ NHẬN DẠNG CHỮ 3.1 Phương pháp. .. sử dụng các quy tắc ngữ pháp Cách xây dựng: Hi Hình 13: Bộ nhận dạng Nhóm 13: Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương Trang 17 Tiểu luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan Ở đây x là một chuỗi kí hiệu và Gi là một văn phạm tương tương ứng với lớp ωi Giả sử rằng G là một văn phạm ngữ cảnh và x là một chuỗi kí tự Trong việc xây dựng, công nhận của một cây phân tích cú pháp. .. pháp suy luận Trong nhiều ứng dụng, ngữ pháp được thiết kế bằng tay Một phương pháp khác là học ngữ pháp từ các mẫu có sẵn Việc học này được gọi là phương pháp suy luận Dữ liệu huấn luyện thiết lập H có thể bao gồm mẫu tích cực S+ và mẫu tiêu cực S-, có nghĩa là, H = {S+, S-} Mục đích là để học một ngũ pháp Glearn ngữ pháp để mẫu trong S+ thuộc về ngôn ngữ được xác định bởi ngữ pháp, và các mẫu trong. .. luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan Hình 6: Sử dụng PDL để mô tả ống trụ tròn Hình 7: Sử dụng PDL hình (7b) để mô tả 4 ký tự A, C, P, F như hình (7a) Trong hình trên ta sử dụng PDL để nhận dạng 4 ký tự trên tương ứng với các luật sinh sau: A = u + ((u + o + -u) * o) + -u C = -o + u + u + o P = u + ((u + o + -u) * o) F = u + (o * u) + o Ta có một cấu trúc văn phạm G được sắp xếp trong. .. Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương Trang 11 Tiểu luận môn học: Nhận dạng GVHD: PGS TS Nguyễn Thị Hoàng Lan LEFT_STACK -> block © block © table RIGHT_STACK -> block © block © table} (Các luật sinh) Hình 8: Cấu trúc văn phạm biểu diễn 4 khối được sắp xếp trong 2 khối stack Hình (8ii) biểu diễn (8i) và (8iv) biểu diễn (8iii) Nhóm 13: Hoàng Văn Hải – Nguyễn Văn Dũng – Trần Đình Phương. .. các phép toán tối thiểu cần thiết để sửa đổi một đồ thị khác được sử dụng như một biện pháp thay thế o Chèn và loại bỏ các đỉnh o Kết hợp và chia tách các đỉnh o Thay đổi loại của các đỉnh o Chèn và loại bỏ các cạnh o Thay đổi các loại của cạnh 3.3 Nhận dạng dựa trên đối sánh cấu trúc xâu chuỗi Phân tích cấu trúc của một chuỗi kí tự có nghĩa là kiểm tra cấu trúc đó có được chấp nhận hay không, đó là, . tài: Tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng (nhận dạng chữ,…) và so sánh chất lượng và hiệu năng với phương pháp khác để nhận dạng chữ. (Đề 13). Trong phạm. BÁCH KHOA HÀ NỘI VIỆN ĐÀO TẠO SAU ĐẠI HỌC  TIỂU LUẬN MÔN HỌC : Tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng GVHD:  Học viên:. quan hệ (đối với mô tả quan hệ). Trong tiểu luận này chúng tôi sẽ nghiên cứu phương pháp tiếp cận nhận dạng cấu trúc văn phạm. So sánh nó với phương pháp nhận dạng chuỗi và đồ thị. L/3MM

Ngày đăng: 18/02/2015, 00:13

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • PHẦN 1. SƠ LƯỢC VỀ NHẬN DẠNG

    • 1.1. Không gian biểu diễn đối tượng, không gian diễn dịch

      • a) Không gian biểu diễn đối tượng

      • b) Không gian diễn dịch

      • 1.2 Nhận dạng mẫu thống kê và nhận dạng cấu trúc

        • a) Nhận dạng mẫu thống kê

        • b) Nhận dạng cấu trúc văn phạm

        • PHẦN 2: TÌM HIỂU ỨNG DỤNG PHƯƠNG PHÁP NHẬN DẠNG CẤU TRÚC VĂN PHẠM TRONG NHẬN DẠNG.

          • 2.1 Phương thức cấu trúc văn phạm

          • 2.2 Ngôn ngữ hình thức

          • 2.3 Nhận dạng sử dụng cấu trúc văn phạm

          • 2.4 Ngôn ngữ mô tả hình ảnh sử dụng nhận dạng cấu trúc văn phạm

          • PHẦN 3: SO SÁNH CHẤT LƯỢNG VÀ HIỆU NĂNG NHẬN DẠNG VỚI PHƯƠNG PHÁP KHÁC ĐỂ NHẬN DẠNG CHỮ.

            • 3.1 Phương pháp suy luận

            • 3.2 Nhận dạng dựa vào đồ thị.

            • 3.3 Nhận dạng dựa trên đối sánh cấu trúc xâu chuỗi

            • KẾT LUẬN

            • TÀI LIỆU THAM KHẢO

            • MỤC LỤC

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan