tóm tắt Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt

26 351 0
tóm tắt Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 -1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN VĂN HUỆ NGHIÊN CỨU XÂY DỰNG CHƯƠNG TRÌNH TÍCH HỢP XỬ LÝ CHỮ VIẾT TẮT, GÕ TẮT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG - Năm 2012 Footer Page of 126 Header Page of 126 -2- Cơng trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS Huỳnh Công Pháp Phản biện 1: ………………………………… Phản biện 2: ………………………………… Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày … tháng … năm 2012 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 -3- Header Page of 126 MỞ ĐẦU Lý chọn ñề tài Trong năm gần ñây, sống xã hội (cơng nghiệp, nơng nghiệp, văn hố xã hội ) phát triển mạnh mẽ mặt, luợng thơng tin tăng nhanh, ngơn ngữ nói ngơn ngữ viết, tượng nói tắt, viết tắt trở nên phổ biến Điều ñáp ứng ñược yêu cầu tiết kiệm thời gian, giấy bút gây khó hiểu cho người nghe, người đọc Quy tắc hình thành chữ viết tắt (CVT) đa dạng Có CVT giống để vật giống giới cơng nhận cho dù tên gọi nước ñối với vật có khác Ví dụ: Ký hiệu ngun tố hố học, đơn vị đo lường theo hệ SI Có CVT hình thành lấy trọn vẹn vài chữ cụm chữ tên gọi Có nhiều trường hợp tên gọi nguyên ngữ nghĩa có đến vài tên viết tắt khác ngược lại CVT lại ñược dùng ñể nhiều tên gọi nguyên ngữ khác Tình hình gây khơng khó khăn cho người sử dụng Chính lý này, việc nghiên cứu xây dựng kho liệu CVT ñược phân loại theo nhiều lĩnh vực cần thiết, giải nhu cầu tra cứu, sử dụng CVT thực tiễn, góp phần quan trọng việc phát triển hệ thống tra cứu, hỗ trợ việc diễn giải nghĩa xác giúp NSD xử lý văn có từ viết tắt thuận lợi CVT ñược sử dụng nhiều lĩnh vực nghiên cứu, quản lý, khai thác xuất nội dung, giảng dạy học tập hiệu Footer Page of 126 Header Page of 126 -4- Trong q trình soạn thảo máy tính thường gặp nhiều từ, cụm từ ñược lặp ñi lặp lại nhiều lần mà phải gõ ñi gõ lại Điều gây khơng phiền tối tốn nhiều thời gian người soạn thảo Trong MS Word, ta định nghĩa CVT gõ tắt nhờ sử dụng tính “AutoCorrect Options” Tuy nhiên ta khơng dùng từ viết tắt ñược ñịnh nghĩa chương trình khác FrontPage, Excel, Access, WordPad, Notepad, skype, yahoo,…cũng ñang chạy Windows Dữ liệu CVT dùng ñể hỗ trợ việc gõ tắt hạn chế, khơng có sẵn lúc cần sử dụng nên có nhu cầu phải ñịnh nghĩa trước Phần mềm Unikey hỗ trợ tính hạn chế khó sử dụng, chưa hỗ trợ tính đa ngữ đa nghĩa CVT Ngồi có vài ứng dụng khác ñã nghiên cứu vấn ñề đề tài “Nghiên cứu tích hợp mơi trường, cơng cụ kỹ thuật tìm kiếm, quản lý chữ viết tắt.” Luận văn thạc sĩ kỹ thuật Khoa học máy tính, Bạch Như Nguyện (2007) Nhưng nhìn chung ứng dụng cịn tồn hạn chế như: • Chưa tổ chức ñược kho liệu CVT ña ngữ đa nghĩa đầy đủ • Chưa khai thác ứng dụng ñược kho liệu CVT ña ngữ, ña nghĩa ñầy ñủ giúp ngưới sử dụng gõ tắt tất môi trườn soạn thảo Microsoft Ofice, Notepad, WordPad, chát chương trình ứng dụng khác Vậy vấn ñề ñặt là: Footer Page of 126 Header Page of 126 • -5- Làm ñể tập hợp ñược kho liệu CVT chuẩn gồm nhiều lĩnh vực đa ngơn ngữ Hổ trợ người dùng tra cứu CVT cách nhanh chóng xác • Làm để khai thác kho liệu CVT ña ngữ, ña nghĩa giúp người dung gõ tắt ứng dụng Vì thế, tơi chọn đề tài “Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt” ñể nghiên cứu giải vấn ñề Mục đích nghiên cứu Xây dựng sở liệu CVT với giải pháp thu thập, phân loại CVT theo lĩnh vực, chuyên ngành Xây dựng ñược hệ thống quản lý, tra cứu CVT gõ tắt soạn thảo văn ứng dụng khác Hỗ trợ tra cứu phục vụ công tác nghiên cứu, học tập Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu bao gồm: Quy tắc cấu thành dấu hiệu đặc trưng CVT, cơng cụ xây dựng quản lý sở liệu CVT, ngôn ngữ lập trình xây dựng ứng dụng khai thác CVT, tài liệu, văn bản, website có từ viết tắt Phạm vi nghiên cứu gồm: Nghiên cứu CVT, nghiên cứu kỹ thuật tìm kiếm CVT, kỹ thuật xử lý thơng điệp windows Phương pháp nghiên cứu Phương pháp nghiên cứu qua nguồn tư liệu ñã xuất bản, báo đăng tạp chí khoa học, sưu tập tư liệu Footer Page of 126 Header Page of 126 -6- liên quan ñến vấn ñề ñang nghiên cứu mạng Internet Xây dựng ứng dụng, kiểm thử kho liệu CVT, ñánh giá kết ứng dụng tìm kiếm CVT gõ tắt Ý nghĩa khoa học thực tiễn luận văn Nghiên cứu công nghệ tiên tiến, xây dựng tổng thể chuẩn hóa hệ thống CVT góp phần phát triển ngơn ngữ Làm cho văn tinh gọn, có tính thẩm mỹ cao, thời gian soạn thảo ñược rút ngắn, hạn chế phải thao tác nhiều bàn phím, sử dụng ký tự có thể, không dành nhiều không gian cho việc lưu trữ nhằm nâng cao chất lượng nội dung soạn thảo Bố cục luận văn Luận văn ñược tổ chức thành chương sau: Chương - Lý thuyết tổng quan: Giới thiệu tổng quan vấn ñề xử lý văn bản, giới thiệu vấn ñề liên quan ñến CVT, kỹ thuật tìm kiếm văn biểu thức quy, kỹ thuật xử lý thơng điệp Windows Trên sở đó, phân tích đề xuất phương pháp tìm kiếm cập nhật nhằm định hướng xây dựng sở liệu CVT Chương - Xây dựng giải pháp kỹ thuật: Lựa chọn công cụ hỗ trợ xây dựng sở liệu, xây dựng giải pháp thu thập cập nhật liệu CVT từ nhiều nguồn liệu khác nhau, xây dựng giải pháp tìm kiếm CVT, kỹ thuật gõ tắt tiếng Việt văn phục vụ nhu cầu sử dụng người dùng Footer Page of 126 Header Page of 126 -7- Chương - Xây dựng ứng dụng: Trên sở phân tích mơ hình liệu, cấu trúc bảng liệu, xây dựng sở liệu CVT ñồng thời triển khai xây dựng ứng dụng khai thác CSDL CVT Chương LÝ THUYẾT TỔNG QUAN 1.1 TÌM HIỂU VẤN ĐỀ XỬ LÝ VĂN BẢN Xử lý thơng tin q trình biến đổi liệu từ dạng thành dạng khác để thu thơng tin tri thức Trong giai ñoạn ñầu, CNTT tập trung vào liệu dạng số, biểu diễn dạng ñược cấu trúc véc tơ (vector) hay bảng Trong kỷ phát triển, CNTT “xử lý” nhiều kiểu liệu khác, hình ảnh, âm thanh, văn bản, ký hiệu hình thức, đồ thị, gần ñây nhiều kiểu liệu phức tạp liệu sinh học (genomic data) Phương pháp xử lý ngày phong phú, từ tính tốn đến suy luận, nhiều kiểu khác Xử lý ngơn ngữ xử lý thơng tin đầu vào “dữ liệu ngơn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Hiện có nhiều tốn liên quan đến lĩnh vực xử lý văn bản, sau tơi xin trình bày số tốn sau: • Nhận dạng chữ viết (optical character recognition) • Dịch tự động (machine translation) • Tóm tắt văn (text summarization) • Tìm kiếm thơng tin (information retrieval) Footer Page of 126 -8- Header Page of 126 • Trích chọn thơng tin (information extraction) Trong phạm vi ñề tài, CVT ñối tượng cần xử lý Tìm kiếm nhận dạng CVT văn vấn ñề thuộc lĩnh vực xử lý văn Nghiên cứu vấn ñề giúp tơi tìm giải pháp thích hợp nhằm xác ñịnh ñơn vị từ văn CVT 1.2 NGHIÊN CỨU CHỮ VIẾT TẮT TIẾNG VIỆT 1.2.1 Những quy ñịnh chữ viết tắt tiếng Việt Khi sử dụng CVT soạn thảo văn bản, phải xem xét hai trường hợp sau: • CVT có sẵn: CVT trường hợp CVT ñã ñược ñịnh nghĩa, minh giải trước thơng dụng, nhiều người biết, không mập mờ, không phản nghĩa dùng; có quy định • CVT chưa định nghĩa: Trong trường hợp cần ñịnh nghĩa CVT xuất lần ñầu văn theo dạng sau: () 1.2.2 Các quy tắc tạo lập chữ viết tắt tiếng Việt 1.2.2.1 Tạo lập theo tiếng Trong dạng này, chữ ñầu tiếng cụm từ cần viết tắt ñược ghép lại với tạo thành CVT Ví dụ: KCNC Footer Page of 126 = Khu Công nghệ cao -9- Header Page of 126 1.2.2.2 Tạo lập theo từ Tất chữ từ có nghĩa cụm từ cần viết tắt ñược ghép lại với tạo thành CVT Ví dụ: TĐC Tiêu chuẩn Đo lường Chất lượng = 1.2.2.3 Tạo lập theo ghép âm hay ghép tiếng CVT thành lập cách lấy âm đầu, hay phần âm dễ đọc, dễ nhận biết từ cụm từ cần viết tắt, sau ghép chúng lại thành CVT Ví dụ: VINASA = Hiệp hội phần mềm Việt Nam 1.2.2.4 Tạo lập theo chữ viết phụ Tương tự dạng ghép theo tiếng dạng ghép theo từ có nghĩa có sử dụng kèm theo chữ phụ khơng viết hoa Ví dụ: ThS = Thạc sĩ 1.2.2.5 Tạo lập theo chữ viết tắt tiếng nước Theo dạng thức mượn nguyên CVT tiếng nước (chủ yếu tiếng Anh) ñể sử dụng cho CVT tiếng Việt Ví dụ: SMS = Short Message Service 1.2.2.6 Tạo lập theo từ thuộc lĩnh vực khoa học CVT dùng lĩnh vực khoa học, ñược xem quy ñịnh, ký hiệu Đây cách sử dụng phổ biến ngành Tốn học, Hóa học, Vật lý,… Ví dụ: NaCl Footer Page of 126 = Natri Clorua (muối ăn) - 10 - Header Page 10 of 126 1.2.2.7 Tạo lập tự phát Là cách viết tắt khơng theo quy luật, ngun tắc Ví dụ: Bit rui = Biết 1.2.2.8 Tạo lập có chèn thêm tiếng nước ngồi Đây dạng CVT sử dụng phổ biến tin nhắn SMS, chat, email, Twitter, Ví dụ: Thanks U da nhac! = Cám ơn bạn ñã nhắc! 1.2.2.9 Tạo lập theo phụ âm tiếng Phụ âm ñầu chữ: Bảng 1.1 Qui ước thay phụ âm đầu chữ Cách thay Ví dụ F thay PH Fai = Phai K thay KH Ki ko kan = Khi kho khan Phụ âm cuối chữ: Bảng 1.2 Qui ước thay phụ âm cuối chữ Cách thay Ví dụ G thay NG Kog mog = Khong mong H thay NH Tah Tanh = 1.2.3 Các dạng sử dụng chữ viết tắt Trong soạn thảo văn bản, CVT nằm dấu ngoặc ñơn (…) sau cụm từ viết ñầy ñủ CVT ñược ñịnh nghĩa lần ñầu Footer Page 10 of 126 Header Page 12 of 126 - 12 - thơng điệp tiến hành xử lý thơng điệp trước thơng điệp ñi tới cửa sổ ñích 1.4.1.2 Sử dụng hook Ta cài đặt thủ tục hook vào chuỗi hook việc gọi hàm SetWindowsHookEx Hook nên ñược bỏ ñi không cần thiết cách sử dụng hàm UnhookWindowsHookEx 1.4.2 Kỹ thuật hook giao diện lập trình ứng dụng 1.4.2.1 Thay ñổi bảng nhập xuất hook Hook API (application programming interface) kỹ thuật dùng ñể chặn lời gọi hàm API Windows chuyển hướng sang hàm khác người dùng xây dựng 1.4.2.2 Chèn lệnh vào giao diện lập trình ứng dụng Để hook hàm API ta thay đổi trực tiếp hàm đó, phương pháp chèn lệnh JMP (Jump) vào ñầu hàm API (Overwriting the start of the hooked API with a JMP instruction) kỹ thuật phổ biến ñược sử dụng ñể hook API cách thay ñổi ñoạn mã ñầu hàm API thành lệnh nhảy tới hàm thay Chương XÂY DỰNG GIẢI PHÁP KỸ THUẬT 2.1 PHƯƠNG PHÁP CẬP NHẬT CHỮ VIẾT TẮT 2.1.1 Cập nhật từ giao diện chương trình Chương trình cung cấp giao diện nhập liệu, thơng tin nhập trực tiếp tự động kiểm tra tính hợp lệ trước ñưa vào sở liệu Footer Page 12 of 126 Header Page 13 of 126 - 13 - 2.1.2 Cập nhật từ tệp lưu trữ chữ viết tắt Chương trình cung cấp giao diện thực đọc tồn nội dung tệp chứa danh mục CVT từ trước, sau thực tách từ để trích xuất CVT nội dung diễn giải cập nhật vào CSDL Thuật toán thực Input: Tệp liệu nguồn dạng *.Doc Output: Danh mục CVT ñược lưu vào bảng CVT_TAM Bắt ñầu: Xác ñịnh tệp nguồn chứa danh mục CVT Mở file liệu nguồn Khởi tạo biến trung gian tencvt, diengiai Xác định vị trí bảng chứa CVT Repeat - Đọc dòng tệp nguồn - Tách chuỗi, ñưa nội dung vào biến trung gian TenCVT, DiengiaiTV, DiengiaiTA - Mở kết nối sở liệu - Gọi hàm Insert_Data2(tencvt, diengiai) để lưu thơng tin CVT vào CVT_TAM Until Đọc hết tệp Đóng tệp Đóng kết nối sở liệu Kết thúc Hàm Insert_Data2(tencvt, diengiai) chèn liệu vào bảng CVT_TAM trả kết thực Footer Page 13 of 126 Header Page 14 of 126 - 14 - 2.1.3 Cập nhật từ trang Web Dựa vào cấu trúc lưu trữ liệu HTML, ñặc biệt cặp thẻ , , sử dụng mẫu so khớp biểu thức quy trích lọc CVT ñể bổ sung vào CSDL 2.1.4 Cập nhật sử dụng tiện ích SQL Server 2.2.4.1 Máy chủ liên kết Máy chủ liên kết (Linked Server) giải pháp cho phép liên kết nhiều nguồn liệu máy chủ, ñặc biệt nguồn liệu CVT có sẵn, cung cấp lượng liệu lớn cần thiết việc làm giàu kho liệu CVT 2.2.4.2 Trích rút liệu Kết rút liệu (Import data) tiện ích SQL Server Đây giải pháp giúp ta kết rút liệu từ nguồn liệu CVT khác Phương pháp tìm kiếm chữ viết tắt 2.1.5 Tìm kiếm chữ viết tắt sử dụng phương pháp so khớp Dựa vào phương pháp khớp tối ña (Maximum Matching MM), duyệt ñoạn văn ta cần chọn từ có nhiều khả CVT Sau so khớp với từ điển CVT sở liệu CVT có trước Như xác suất tìm kiếm xác CVT cao hiệu Sau thuật tốn tìm kiếm CVT tệp văn sử dụng phương pháp so khớp: Thuật toán thực hiện: Input: Các tệp văn Footer Page 14 of 126 Header Page 15 of 126 - 15 - Output: Tệp kết danh sách lưu trữ nội dung bao gồm tổng số CVT, nội dung diễn giải tần suất sử dụng CVT Bắt ñầu: Xác ñịnh tệp nguồn hàm tương tác • • Mở tệp nguồn Đọc nội dung tệp gán vào biến chuoiluutru Khởi tạo biến danhsachlk Đọc nội dung chuoiluutru Repeat - Đọc ñoạn văn chuoiluutru - Gán nội dung vào biến line - Đọc nội dung line • Kiểm tra cụm từ theo tiêu chí nhận dạng CVT + Tách nội dung tìm CVT diễn giải + Gọi hàm sokhop(cvt) ñể so khớp CVT với từ ñiển CSDL CVT, ñúng Gán vào Tencvt Gán diễn giải vào Diengiai • Kiểm tra Tencvt có tồn danhsachlk, có - Tăng biến Solansudung, ngược lại: - Tạo danhsachlk - Tăng biến ñếm Solansudung - Gán Tencvt, Diengiai, Solansudung vào biến danhsachlk Until ñọc cho ñến hết chuoiluutru Đóng tệp nguồn Footer Page 15 of 126 Header Page 16 of 126 - 16 - Lưu vào tệp ketqua • • Mở tệp ketqua Đọc nội dung Tencvt, Diengiai, Solansudung lưu vào tệp ketqua Đóng tệp ketqua Kết thúc Hàm kiểm tra sokhop(cvt) có chức kiểm tra xem CVT tìm có tồn CSDL CVT hay khơng ? Nếu có trả chuỗi kết chứa nội dung diễn giải, loại CVT ngôn ngữ CVT Nếu khơng trả chuỗi rỗng 2.1.6 Tìm kiếm chữ viết tắt sử dụng biểu thức quy BTCQ quan trọng thường ứng dụng trình biên tập văn tiện ích tìm kiếm xử lý văn dựa mẫu ñược quy ñịnh Kết hợp với phương pháp nhận dạng CVT trình bày mục hình thức nhận dạng CVT chương Ta tạo nên mẫu tình kiếm CVT dễ dàng xác xuất phát CVT lớn 2.1.7 Tìm kiếm chữ viết tắt từ sở liệu Mục tiêu tìm kiếm tất CVT nội dung diễn giải CSDL thống kê theo loại CVT Kỹ thuật thủ tục sử dụng phép truy vấn “Select” “Join” ñể thành lập câu truy vấn tìm tập kết mong muốn 2.2 PHƯƠNG PHÁP GÕ TẮT TRONG VĂN BẢN Phương pháp dựa vào giao diện lập trình ứng dụng (API) Windows nhằm đón bắt tất ký tự gõ từ bàn phím, sau xử lý trả ứng dụng hành nội dung diễn giải Footer Page 16 of 126 - 17 - Header Page 17 of 126 CVT tìm Đây phương pháp bảo đảm NSD gõ tắt ứng dụng Windows Thuật toán thực hiện: Input: Tập ký tự nhập từ bàn phím, Tệp văn *.txt chứa danh sách CVT Output: Chuỗi ký tự mơ tả diễn giải từ viết tắt tìm ñược Bắt ñầu: Cài ñặt Hook lệnh SetWindowsHookEx Khởi tạo biến diengiai, cvt Gõ ký tự từ bàn phím • Sử dụng HookedKeys để nhận giá trị phím • Gán giá trị phím vào biến cvt • Sử dụng Keys.Space để thực xử lý Mở tệp danh sách từ viết tắt Repeat - Đọc dòng nội dung - Tách lấy chữ viết tắt - Kiểm tra cvt = , có + Lưu diễn giải vào biến diengiai + Thốt vịng lặp Until đọc hết tệp Đóng tệp Chèn nội dung CVT • Sử dụng keybd_event((byte)Keys.Back, 0, 0, UIntPtr.Zero) xóa từ viết tắt Footer Page 17 of 126 Header Page 18 of 126 - 18 - • Sử dụng Clipboard.settext(diengiai) dán nội dung biến diengiai vào clipboard Hủy bỏ Hook lệnh UnhookWindowsHookEx Kết thúc Hook kỹ thuật tương ñối khó kiến thức rộng Tuy nhiên, muốn xây dựng ứng dụng có can thiệp vào việc xử lý thơng điệp hệ điều hành hook kỹ thuật khơng thể thiếu Chương XÂY DỰNG ỨNG DỤNG 3.1 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 3.1.1 Mơ hình sơ đồ dịng liệu (DFD) Hình Mơ hình sơ ñồ dòng liệu (DFD) Footer Page 18 of 126 Header Page 19 of 126 - 19 - 3.1.2 Mơ hình cấu trúc thực thể Để xây dựng CSDL CVT, Ta phải xác ñịnh ñối tượng liệu ứng dụng Căn vào yêu cầu luận văn, vào yêu cầu chức chương trình, tơi xác định “Chữ viết tắt” đối tượng liệu CSDL Bên cạnh đó, thơng tin liên quan đến CVT như: tác giả tạo nên CVT, ngôn ngữ CVT, nguồn gốc CVT CVT thuộc lĩnh vực ? Dựa vào danh từ đó, tơi tiếp tục xác định thêm đối tượng liên quan mơ tả thơng tin CVT sau: • Tác giả tạo nên CVT • Ngôn ngữ CVT • Nguồn gốc xuất phát CVT • Loại (lĩnh vực) CVT • CVT có nghĩa Xác ñịnh ñúng ñủ ñối tượng liệu tạo sở cho việc phân tích thiết kế sở liệu chứa thông tin CVT phục vụ ứng dụng khai thác sau 3.1.3 Mơ hình thực thể kết hợp Từ thực thể ñã xây dựng xét mối quan hệ thực thể ta xây dựng mơ hình thực thể kết hợp sau: Footer Page 19 of 126 Header Page 20 of 126 - 20 - Hình Mơ hình thực thể kết hợp 3.1.4 Thiết kế cấu trúc bảng liệu chữ viết tắt Để xây dựng mơ hình biểu diễn CSDL CVT tiếng Việt, lập bảng biểu diễn thuộc tính kiểu liệu CVT hình 3.3 3.1.5 Thiết kế mơ hình quan hệ liệu chữ viết tắt Dựa sở mô hình logic liệu cấu trúc bảng, tơi thiết kế CSDL CVT tiếng Việt hệ quản trị CSDL SQL Server có tên CVT gồm bảng liệu sau: • CVT (mơ tả chữ viết tắt) • LOAICVT (mô tả loại chữ viết tắt) • TACGIA (mơ tả người tạo CVT) • NGONNGU (mơ tả ngơn ngữ CVT) • NGUONGOC (mơ tả nguồn gốc CVT) Footer Page 20 of 126 Header Page 21 of 126 • - 21 - DONGNGHIA (mơ tả CVT ñồng nghĩa) Sơ ñồ quan hệ ñược biểu diễn hình sau Hình 3 Mơ hình quan hệ liệu CVT 3.2 XÂY DỰNG ỨNG DỤNG 3.2.1 Tổng quan cơng cụ thư viện hỗ trợ lập trình 3.2.1.1 Cơ sở liệu – Hệ quản trị sở liệu 3.2.1.2 DOT NET FrameWork 3.2.1.3 Visual studio 2005 3.2.2 Mơ hình hoạt động ứng dụng Footer Page 21 of 126 Header Page 22 of 126 - 22 - Mơ hình hoạt động chương trình bao gồm cập nhật khai thác CVT mơ tả hình đây: Hình Mơ hình hoạt ñộng ứng dụng NSD khai thác liệu CVT với tính như: tra cứu thống kê CVT, tìm kiếm CVT văn bản, gõ tắt văn bản, gõ tắt ñịa Internet, chat… 3.2.3 Các u cầu mục đích ứng dụng Ứng dụng đáp ứng mục đích sau ñây: • Xây dựng sở liệu CVT • Xây dựng giải pháp cập nhật tối ưu • Xây dựng giải pháp tìm kiếm • Tích hợp gõ tắt tiếng việt Footer Page 22 of 126 Header Page 23 of 126 • - 23 - Ứng dụng chạy độc lập máy đơn, chạy nhiều máy mạng nội truy xuất đến CSDL chung • Ứng dụng có giao diện dễ sử dụng, thân thiện người dùng, dễ cài ñặt khả chịu tải lớn 3.2.4 Các giao diện ứng dụng 3.2.4.1 Giao diện 3.2.4.2 Giao diện cập nhật CVT 3.2.4.3 Giao diện cập nhật CVT từ tệp, trang Web 3.2.4.4 Giao diện biên tập, phân loại CVT 3.2.4.5 Giao diện tra cứu CVT 3.2.4.6 Giao diện tìm kiếm, thống kê CVT văn Hình Kết CVT tìm tệp văn Footer Page 23 of 126 Header Page 24 of 126 - 24 - Mục đích chức xác ñịnh ñơn vị từ văn CVT NSD chọn ñường dẫn ñến tệp, kích chọn nút “Tìm”, chương trình tự động phân tích đưa đoạn văn có chứa CVT, danh sách CVT, thống kê số lượng hiệu suất sử dụng CVT 3.2.4.7 Giao diện gõ tắt Chương trình tích hợp vào ứng dụng chạy mơi trường Windows, tính ứng dụng giống tính Autocorrect Microsoft Word, thành phần CVT mở rộng thơng qua lựa chọn loại CVT trước sử dụng Do sử dụng hook tồn cục nên ta ứng dụng gõ tắt tất ứng dụng khác Windows Hình Giao diện ứng dụng gõ tắt 3.2.5 Cài ñặt ứng dụng Ứng dụng ñược cài ñặt máy có cấu hình: Pentium IV trở lên, tốc ñộ xử lý CPU Ghz, Bộ nhớ Ram 500 MB, ñĩa cứng 20 GB Ứng dụng chạy máy đơn, nhiều máy mạng LAN Cơ sở liệu ñược cài máy có cấu hình Footer Page 24 of 126 Header Page 25 of 126 - 25 - cao, lưu trũ liệu cung cấp thông tin cho ứng dụng máy khác 3.3 KẾT QUẢ THỬ NGHIỆM ỨNG DỤNG Sau xây dựng cài ñặt thành cơng, tơi tiến hành q trình kiểm thử tính hiệu ứng dụng Dang sách tính thử nghiệm: Cập nhật CVT, tìm kiếm CVT tệp, gõ tắt soạn thảo văn bản, tra cứu CVT KẾT LUẬN Sau thời gian nỗ lực nghiên cứu, phân tích xây dựng đề tài “Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt” tơi hồn thành đáp ứng yêu cầu việc xây dựng, cập nhật khai thác kho CSDL CVT Tôi xin chân thành cám ơn thầy giáo Huỳnh Công Pháp, bạn bè đồng nghiệp giúp tơi hồn thành luận văn KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN • Trình bày nhu cầu sử dụng CVT học tập, nghiên cứu Nêu lên dạng thức tạo lập, quy ñịnh sử dụng CVT thực tiễn • Xây dựng phương pháp gõ tắt tiếng Việt soạn thảo văn ứng dụng khác • Hỗ trợ tra cứu, thống kê phục vụ học tập, nghiên cứu, giảng dạy Footer Page 25 of 126 Header Page 26 of 126 • - 26 - Xây dựng chương trình DEMO thể đầy đủ tính năng, kết kiểm nghiệm thống kê CVT HẠN CHẾ CỦA LUẬN VĂN Mặc dù ñã ñạt ñược số mục tiêu đề ra, đề tài cịn số hạn chế nghiên cứu quy tắc tạo lập dạng thức sử dụng CVT chưa sâu, ứng dụng chạy mơi trường Windows, chưa triển khai hệ điều hành khác, tìm kiếm CVT cịn chưa đa dạng, thực tệp MS Word, chưa triển khai loại tệp khác liệu gõ tắt chưa đa dạng, chưa có kiểu hình ảnh biểu tượng HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI Xây dựng tính hổ trợ sử dụng CVT soạn thảo văn như: • Giải nghĩa tự động chữ viết tắt có văn • Gợi ý viết tắt từ cụm từ xuất nhiều lần • Phát chữ viết tắt khơng hợp lệ • Thu thập phân loại tự động chữ viết tắt • Phát triển ứng dụng thành plugin tích hợp ñược vào ứng ụng tự ñộng thu thập CVT bổ sung vào kho CVT Footer Page 26 of 126 ... Sau thời gian nỗ lực nghiên cứu, phân tích xây dựng đề tài ? ?Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết tắt, gõ tắt? ?? tơi hồn thành ñáp ứng yêu cầu việc xây dựng, cập nhật khai thác... tắt, gõ tắt? ?? ñể nghiên cứu giải vấn đề Mục đích nghiên cứu Xây dựng sở liệu CVT với giải pháp thu thập, phân loại CVT theo lĩnh vực, chuyên ngành Xây dựng ñược hệ thống quản lý, tra cứu CVT gõ. .. tra cứu CVT cách nhanh chóng xác • Làm ñể khai thác kho liệu CVT ña ngữ, ña nghĩa giúp người dung gõ tắt ứng dụng Vì thế, tơi chọn đề tài ? ?Nghiên cứu xây dựng chương trình tích hợp xử lý chữ viết

Ngày đăng: 17/05/2017, 15:38

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan