XÂY DỰNG hệ THỐNG từ điển BKDICTIONARY sử DỤNG CHUẨN DICT

80 845 1
XÂY DỰNG hệ THỐNG từ điển BKDICTIONARY sử DỤNG CHUẨN DICT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TỪ ĐIỂN BKDICTIONARY SỬ DỤNG CHUẨN DICT Sinh viên thực hiện : Cao Sĩ Dũng Lớp CNPM - K48 Giáo viên hướng dẫn: TS. Cao Tuấn Dũng Hà Nội 5-2008 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Mục đích nội dung của ĐATN: Nghiên cứu , thiết kế, xây dựng hệ thống từ điển BKDictionary theo chuẩn DICT. Hệ thống bao gồm một từ điển trên desktop, DICT server và một từ điển trên web. 2. Các nhiệm vụ cụ thể của ĐATN:  Tìm hiểu về chuẩn từ điển DICT, WordNet,  Xây dựng từ điển trên Desktop hoạt động trên nhiều loại CSDL.  Thực hiện Get Text và tra từ trên mọi nền như Web, PDF,  Phát triển từ điển với Microsoft Speech SDK tạo khả năng đọc từ.  Xây dựng Dict Server, Dict Client, Dict Protocol . Tạo một từ điển trên nền Web với công nghệ AJAX.  Xây dựng từ điển trên Desktop có thể sử dụng nhiều loại CSDL theo chuẩn DICT. Thuận lợi cho việc sử dụng nhiều loại ngoại ngữ như Anh, Pháp, Nhật,Việt, Đức,…  Xây dựng hệ thống từ điển với DICT protocol theo mô hình Server-Client kết hợp sử dụng các Dict Server miễn phí trên mạng.  Xây dựng trang web từ điển sử dụng công nghệ Ajax. 3. Lời cam đoan của sinh viên: Tôi Cao Sĩ Dũng cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS. Cao Tuấn Dũng. Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày 18 tháng 5 năm 2008 Tác giả ĐATN Cao Sĩ Dũng 4. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn TS. Cao Tuấn Dũng TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Từ điển là một công cụ không thể thiếu trong việc tra cứu, dịch thuật, làm việc với một ngôn ngữ. Cùng với việc ngày nay con người sử dụng máy tính như một công cụ lao động thiết yếu thì nhu cầu xây dựng một hệ thống từ điển trên máy tính đáp ứng mọi yêu cầu công việc là một nhu cầu tất yếu. Đồ án này tập trung tìm hiểu đánh giá các yêu cầu về hệ thống từ điển, đánh giá các hệ thống hiện tại, nghiên cứu các giải pháp kỹ thuật cũng như triển khai, thiết kế, xây dựng một hệ thống từ điển đáp ứng tốt nhất các yêu cầu đa dạng của người dùng. Hệ thống từ điển sẽ xây dựng là một giải pháp tổng thể theo mô hình kết hợp từ phần mềm trên desktop, client- server đến web nhằm đưa đến người sử dụng nhiều sự lựa chọn phục vụ cho các yêu cầu công việc khác nhau. Mang lại tính tiện dụng khi sử dụng từ điển như có khả năng tra cứu, phát âm, dịch tự động, tra cứu nhanh trên nhiều nền như Windows, web, pdf,… Đáp ứng mọi nhu cầu về các ngôn ngữ khác nhau của người dùng thông qua việc sử dụng chuẩn DICT cho phép dễ dàng thêm, bớt thay đổi các cơ sở dữ liệu từ điển hay dễ dàng tạo, sửa, chia sẻ các tài nguyên từ điển, phát huy sức mạnh từ cộng đồng mạng xây dựng các CSDL cho tất cả các ngôn ngữ. Tạo lập các cơ sở dữ liệu riêng biệt của các cơ quan, tổ chức, cá nhân có nhu cầu tổ chức riêng CSDL từ điển cho mình. Đồng thời hướng tới mục tiêu xây dựng các cơ sở dữ liệu chuyên biệt cho từng lĩnh vực kinh tế, xã hội, khoa học. ABSTRACT OF THESIS Dictionary is an unnecessary tool in looking-up, translation, and working with a language. Together with the human use of computers as a essential working tool, the building need for a dictionary system integrated into the computer is a vital need. This project concentrates on studying to assess requirements of dictionary system, assess the current system, study, design, and build a dictionary system that best satisfy all diversified requirements of users. Construction Dictionary System is a comprehensive solution to build in accordance with combined model from the sofeware on desktop, client- server to website in order to bring users many choices serving for different task requirements that bring back benefits when using dictionary such as looking-up capacity, pronounciation, automatic translation, quick looking-up on many desktops such as Windows, web, pdf,etc.; satisfy all requirements of different languages by using DICT standard that allows to easily add or remove, change its database; easily create, repair, share dictionary resources, promote strength from web community to build database for all languages; establish specific database of bodies, organizations, and individuals who have a private need for their own dictionary databse; and simultaneously aim at the target of building specific database for each economic, social, and scientific sector. Lời cảm ơn Để có ngày hoàn thành đồ án tốt nghiệp này, em xin chân thành cảm ơn các thầy cô giáo trong khoa Công Nghệ Thông Tin Trường Đại học Bách khoa Hà Nội đã tận tâm dạy dỗ chúng em trong suốt những năm học vừa qua. Xin cảm ơn trung tâm Bkis đã tạo điều kiện giúp em có một môi trường thực tập và làm việc trong hơn một năm vừa qua. Em cũng xin gửi lời cảm ơn tới gia đình, các bạn đồng nghiệp, những người đã giúp đỡ, động viên em trong suốt quá trình học tại trường. Cuối cùng, em xin bày tỏ lòng biết ơn sâu sắc tới thầy Cao Tuấn Dũng người đã tận tâm hướng dẫn em thực hiện đồ án này. Em xin chân thành cảm ơn! Hà Nội ngày 18/5/2008 Cao Sĩ Dũng. MỤC LỤC I. PHẦN MỞ ĐẦU 10 1. Đặt vấn đề 11 2. Yêu cầu về hệ thống từ điển: 12 3. Các tiêu chí của một hệ thống từ điển hoàn chỉnh 13 4. Khảo sát đánh giá hệ thống phần mềm từ điển hiện tại 14 5. Cơ sở dữ liệu từ điển 15 6. Mục đích của đồ án 16 7. Cấu trúc luận văn 16 II. KIẾN THỨC CHUNG 18 Chương 1. Chuẩn DICT 19 1. DICT format 19 2. DICT Protocol 21 3. Ứng dụng chuẩn DICT trong hệ thống từ điển 31 Chương 2. Mô hình Client-Server và lập trình mạng 32 1. Kiến trúc client-server 32 2. Giao thức mạng: 34 3. Socket 35 4. Các mô hình đáp ứng của server: 36 5. Các vấn đề gặp phải khi triển khai mô hình Client – Server: 36 6. Ứng dụng mô hình Client – Server trong hệ thống từ điển 37 Chương 3. Nhận dạng text trên Windows 38 1. Kĩ thuật hook trong Windows 38 2. Kĩ thuật lấy text 47 3. Sử dụng kĩ thuật lấy text trong hệ thống từ điển 52 Chương 4. Công nghệ Ajax 53 1. Định nghĩa về Ajax 53 2. Mô tả về công nghệ 53 3. Sử dụng AJAX cho phát triển trang web từ điển 55 Chương 5. Text to speech 57 1. Microsoft Speech SDK 57 2. Phát âm với ngôn ngữ không phải tiếng Anh 57 3. Phát âm tiếng Việt 59 4. Sử dụng Text to Speech trong hệ thống phần mềm từ điển 59 III. PHÂN TÍCH & THIẾT KẾ HỆ THỐNG 60 Chương 1. Phân tích hệ thống 61 1. Các mô hình phát triển hệ thống 61 2. Mô tả mô hình hệ thống theo mô hình kết hợp 62 3. Yêu cầu đặt ra xây dựng hệ thống từ điển 62 Chương 2. Thiết kế hệ thống 64 1. Các thành phần chung của hệ thống. 64 2. Thiết kế các module của hệ thống 65 3. Thiết kế lớp chính cho phần mềm từ điển 70 4. Thiết kế giao diện cho phần mềm từ điển trên desktop 72 IV. CÀI ĐẶT & SỬ DỤNG HỆ THỐNG 73 V. KẾT LUẬN 79 DANH MỤC HÌNH VẼ Hình 1. Mô hình DICT protocol 22 Hình 2.Mô hình IOCP 36 Hình 3.Mô hình phân lớp của Acrobat core API 49 Hình 4. Cấu trúc tổ chức Acrobat SDK 50 Hình 5.Mô hình web truyền thống 54 Hình 6.Mô hình ứng dụng Web: truyền thống và sử dụng Ajax 55 Hình 7.Mô hình tương tác trong một ứng dụng Web dùng Ajax 55 Hình 8. Mô hình chung 64 Hình 9. Thiết kế class cho từ điển trên Desktop 70 Hình 10.Thiết kế class cho DICT server 71 Hình 11.Thiết kế giao diện từ điển 72 Hình 12.Cài đặt 74 Hình 13.Giao diện chương trình chính 75 Hình 14.Giao diện quản lí từ điển 75 Hình 15.Giao diện quản lí từ 76 Hình 16.Giao diện dịch tự động 76 Hình 17.Giao diện tra nhanh 77 DANH MỤC TỪ NGỮ VIẾT TẮT VÀ KHÁI NIỆM STT Từ viết tắt/ khái niệm Mô tả 1. CSDL Cơ sở dữ liệu 2. DICT Một chuẩn từ điển 3. DICT format Định dạng file CSDL từ điển theo chuẩn DICT 4. DICT protocol Giao thức theo chuẩn DICT giữa DICT client và DICT server. 5. 6. 7. I. PHẦN MỞ ĐẦU [...]... complete 3 Ứng dụng chuẩn DICT trong hệ thống từ điển Hệ thống từ điển xây dựng sẽ sử dụng các CSDL từ điển theo định dạng DICT, những CSDL này được chia sẻ miễn phí trên mạng Giới hạn trong phạm vị đồ án này sử dụng từ điển của trang dict. org Sử dụng DICT protocol xây dựng hệ thống từ điển theo mô hình Client- Server Chương 2 Mô hình Client-Server và lập trình mạng Thuật ngữ client/server được sử dụng đầu... về chuẩn từ điển DICT, WordNet,  Xây dựng từ điển trên Desktop hoạt động trên nhiều loại CSDL  Thực hiện Get Text và tra từ trên mọi nền như Web, PDF,  Phát triển từ điển với Microsoft Speech SDK tạo khả năng đọc từ  Xây dựng Dict Server, Dict Client, Dict Protocol Tạo một từ điển trên nền Web với công nghệ AJAX  Xây dựng một từ điển trên Desktop có thể sử dụng nhiều loại CSDL theo chuẩn DICT. .. :dict: / /dict. org, dict: //mova.org, dict: //vocabulary.aioe.org, dict: / /dict. tugraz.at, dict: / /dict. tuchemnitz.de, dict: / /dict. die.net , dict: //test .dict. org, dict: / /dict. arabeyes.org, dict: //lividict.org, dict: / /dict. saugus.net, … Các server này đều sử dụng DICT protocol nên rất dễ dàng cho việc tra cứu từ xa Mục tiêu xây dựng hệ thống từ điển của chúng ta là có thể tận dụng hết những DICT server này cho phép... Nghĩa của mỗi từ gồm một phần như trên, các nghĩa của mỗi từ nối tiếp nhau liên tục c Ứng dụng DICT format Phần khó khăn xây dựng một hệ thống từ điển là xây dựng CSDL Nhưng với việc sử dụng DICT format, chúng ta có thể sử dụng rất nhiều bộ CSDL từ điển miễn phí sẵn có trên Internet được xây dựng cho hầu hết các ngôn ngữ Việc sử dụng DICT format cũng cho phép người dùng có thể tự xây dựng nên những... điển Trong việc xây dựng hệ thống phần mềm từ điển, một vấn đề bắt buộc phải thực hiện là chọn lựa, xây dựng cơ sở dữ liệu từ điển Việc xây dựng một CSDL từ điển mới hoàn toàn tốn rất nhiều thời gian và công sức Đồng thời nếu mỗi từ điển lại đi xây dựng CSDL cho riêng mình thì thứ nhất là sẽ phải xây dựng nhiều loại CSDL từ điển gây tốn kém, thứ hai là gây lãng phí vì hầu như CSDL từ điển cho một song... các CSDL từ điển đa số sử dụng chuẩn chung là chuẩn DICT Vì vậy nếu ta xây dựng một phần mềm từ điển hỗ trợ chuẩn DICT thì có thể sử dụng hầu hết các CSDL này Không chỉ có CSDL từ điển miễn phí, trên mạng còn tồn tại những server từ điển miễn phí Những server này cho phép tra cứu thông qua Internet trên rất nhiều CSDL Có thể kể ra đây rất nhiều server từ điển miễn phí như :dict: / /dict. org, dict: //mova.org,... về hệ thống từ điển, chúng ta đi xem xét tất cả các vấn đề mà người dùng gặp phải:  Vấn đề chung Vấn đề khó khăn Giải pháp đề xuất Thiếu cơ sở dữ liệu từ điển Nhất là các từ điển chuyên ngành Các cơ sở dữ liệu lại không thống nhất với nhau Các từ điển hầu hết chỉ sử dụng một vài cơ sở dữ liệu từ điển cố định Sử dụng một chuẩn dành cho cơ sở dữ liệu từ điển là chuẩn DICT Format Các cơ sở dữ liệu từ điển. .. cho việc sử dụng nhiều loại ngoại ngữ như Anh,Pháp,Nhật,Việt,Đức,Nga,  Xây dựng hệ thống từ điển với DICT protocol theo mô hình Server-Client kết hợp sử dụng các Dict Server miễn phí trên mạng  Xây dựng trang web từ điển công nghệ Ajax 7 Cấu trúc luận văn Luận văn gồm 5 phần:  Phần I PHẦN MỞ ĐẦU: Đặt vấn đề xây dựng hệ thống  Phần II KIẾN THỨC CHUNG: Nêu ra những kiến thức, kĩ thuật sử dụng trong... cho phép thay đổi, chỉ sử dụng cho mục đích tra cứu một ngôn ngữ duy nhất  Từ điển Lingoes Từ điển Lingoes đại diện cho lớp các từ điển được cung cấp trên Internet Trong lớp từ điển này phải kể đến như: Stardict, Lingoes, Vdict, Babylon,MultiDictionary, … Những từ điển kiểu này thường được học sinh, sinh viên sử dụng Ta chọn ra một từ điển được đánh giá cao nhất trong đó là từ điển Lingoes để xem xét... dụng DICT Protocol xây dựng DICT server, Dict Client cho phép đặt CSDL trên các server Các từ điển trên nền Web thiếu tính tương tác thân thiện với người dùng như trên Desktop Sử dụng công nghệ AJAX xây dựng từ điển online Xây dựng các AddOns , plugin cho phép người dùng tra từ điển mọi nơi, mọi lúc  Vấn đề của học sinh sinh viên Học sinh, sinh viên chủ yêu sử dụng phần mềm từ điển cho mục đích học . xây dựng hệ thống từ điển BKDictionary theo chuẩn DICT. Hệ thống bao gồm một từ điển trên desktop, DICT server và một từ điển trên web. 2. Các nhiệm vụ cụ thể của ĐATN:  Tìm hiểu về chuẩn từ. năng đọc từ.  Xây dựng Dict Server, Dict Client, Dict Protocol . Tạo một từ điển trên nền Web với công nghệ AJAX.  Xây dựng từ điển trên Desktop có thể sử dụng nhiều loại CSDL theo chuẩn DICT. . các CSDL từ điển đa số sử dụng chuẩn chung là chuẩn DICT. Vì vậy nếu ta xây dựng một phần mềm từ điển hỗ trợ chuẩn DICT thì có thể sử dụng hầu hết các CSDL này. Không chỉ có CSDL từ điển miễn

Ngày đăng: 22/08/2015, 07:00

Từ khóa liên quan

Mục lục

  • I. PHẦN MỞ ĐẦU

    • 1. Đặt vấn đề.

    • 2. Yêu cầu về hệ thống từ điển:

    • 3. Các tiêu chí của một hệ thống từ điển hoàn chỉnh.

    • 4. Khảo sát đánh giá hệ thống phần mềm từ điển hiện tại.

    • 5. Cơ sở dữ liệu từ điển.

    • 6. Mục đích của đồ án.

    • 7. Cấu trúc luận văn.

    • II. KIẾN THỨC CHUNG

      • Chương 1. Chuẩn DICT

        • 1. DICT format.

        • 2. DICT Protocol.

        • 3. Ứng dụng chuẩn DICT trong hệ thống từ điển.

        • Chương 2. Mô hình Client-Server và lập trình mạng.

          • 1. Kiến trúc client-server

          • 2. Giao thức mạng:

          • 3. Socket.

          • 4. Các mô hình đáp ứng của server:

          • 5. Các vấn đề gặp phải khi triển khai mô hình Client – Server:

          • 6. Ứng dụng mô hình Client – Server trong hệ thống từ điển.

          • Chương 3. Nhận dạng text trên Windows.

            • 1. Kĩ thuật hook trong Windows.

            • 2. Kĩ thuật lấy text.

            • 3. Sử dụng kĩ thuật lấy text trong hệ thống từ điển.

            • Chương 4. Công nghệ Ajax.

              • 1. Định nghĩa về Ajax.

Tài liệu cùng người dùng

Tài liệu liên quan