nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông

44 16 0
nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  Nguyễn Hà Thanh NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG XỬ LÝ VĂN BẢN LUẬT GIAO THƠNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hà Thanh NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG XỬ LÝ VĂN BẢN LUẬT GIAO THƠNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hƣớng dẫn: PGS TS Nguyễn Việt Hà HÀ NỘI - 2015 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Ha Thanh RESEARCH AND PROPOSE VIETNAMESE TRAFIC LAW PROCESSING METHOD A THESIS PRESENTED FOR THE DEGREE BACHELOR Major: Information Technology Supervisor: Assoc Prof Nguyen Viet Ha HA NOI - 2015 TĨM TẮT Tóm tắt: Mặc dù nhu cầu pháp lý xã hội ngày cao, hệ thống pháp luật Việt Nam nhiều điểm chồng chéo, liên tục thay đổi, gây khó khăn cho việc tiếp cận, áp dụng, sử dụng thực thi pháp luật Ngày với phát triển nhanh chóng kỹ thuật học máy đặc biệt kỹ thuật sử dụng mạng nơron nhân tạo, nhiều ứng dụng thông minh đời giúp ích nhiều cho sống ngƣời Trong giới hạn khóa luận tốt nghiệp sinh viên, đề tài nghiên cứu giải tốn đặt xây dựng chƣơng trình có khả phát câu luật giao thơng có hình thái khác nhƣng biểu ý nghĩa giống Hƣớng tiếp cận để giải vấn đề sử dụng kỹ thuật nơron nhân tạo học máy Cách thức tiến hành thực nghiệm đề tài phù hợp để chứng minh tính khả thi phƣơng pháp có đƣợc kết bƣớc đầu ấn tƣợng, mở triển vọng cho ứng dụng chất lƣợng cao xử lý vấn đề pháp lý Từ khóa: Mạng nơron, xử lý tiếng việt, luật giao thông SUMARY Sumary: Nowadays, the demands for legal services in our society are rising sharply However, the legal system in Vietnam is still greatly overlapping and constantly changing, which creates considerable difficulties for people in accessing, applying and using the law for legitimate reasons Today, with the rapid development of machine learning, especially the technical uses of artificial neural network, many smart applications were born and became very helpful for human life Within the scope of a graduation paper for the bachelor degree, this research aims at studying related knowledge and building a program having the capacity to detect the traffic law sentences which are in different morphology but express similar meaning The main approach to achieve these aims is to use techniques in machine learning artificial neurons Experimental methods proposed in this research are suitable for proving the method Initial results are rather impressive, opening up prospects for high quality applications in handling legal issues Keyword: Artificial neural network, Vietnamese processing, traffic law LỜI CAM ĐOAN Tôi xin cam đoan đóng góp khóa luận đƣợc trình bày cách xác trung thực, tất tài liệu tham khảo, cơng trình nghiên cứu ngƣời khác đƣợc sử dụng đề tài đƣợc ghi rõ nguồn, đƣợc liệt kê thích dƣới trang đƣợc đặt danh mục tài liệu tham khảo khóa luận Những cải tiến, đóng góp phƣơng pháp, kỹ thuật lập trình nhƣ mã nguồn chƣơng trình thực nghiệm tự thiết kế khơng có chép cơng trình ngƣời khác Nếu nhƣ tơi nói trái thật, tơi xin chịu hình thức kỷ luật cao nhà trƣờng Hà Nội, ngày 30/4/2015 Sinh viên Nguyễn Hà Thanh LỜI CẢM ƠN Trƣớc tiên, em muốn gửi lời cảm ơn sâu sắc đến thầy Nguyễn Việt Hà, thầy Nguyễn Lê Minh gợi ý cho em hƣớng nghiên cứu thú vị tận tình hƣớng dẫn, đƣa lời khuyên kinh nghiệm quý báu cho em trong trình thực khóa luận Em xin bày tỏ lời cảm ơn sâu sắc đến thầy tác giả đề tài "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP), ngƣời tạo móng quan trọng cho việc tiếp cận xử lý ngôn ngữ tiếng Việt Em xin đƣợc gửi lời cảm ơn tới tác giả báo, nghiên cứu có liên quan Trong khoa học nói chung khoa học máy tính nói riêng, khơng có phƣơng pháp, cách thức tuyệt đối tối ƣu nhƣng nhờ nghiên cứu nghiên túc tận tâm tác giả, cách tiếp cận, xử lý vấn đề cơng trình hội tụ nhanh tới cách tiếp tận hiệu giới Hà Nội, ngày 30/4/2015 Sinh viên Nguyễn Hà Thanh MỤC LỤC CHƢƠNG MỞ ĐẦU VÀ ĐẶT VẤN ĐỀ 1.1 BỐI CẢNH NGHIÊN CỨU 1.2 NHIỆM VỤ CỦA KHÓA LUẬN 1.3 CÁC NỘI DUNG CỦA KHÓA LUẬN CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO 2.2 SỬ DỤNG VÀ HUẤN LUYỆN MẠNG NƠRON NHÂN TẠO 2.3 PHƢƠNG PHÁP GRADIENT DESCENT VÀ STOCHASTIC GRADIENT DESCENT 2.4 ĐẶC ĐIỂM CỦA NGÔN NGỮ TIẾNG VIỆT 10 CHƢƠNG ĐỀ XUẤT MẠNG NƠRON ĐÁNH GIÁ NGỮ NGHĨA 12 3.1 BÀI TOÁN 12 3.2 CÁC NGHIÊN CỨU ĐƢỢC KẾ THỪA 13 3.3 XÂY DỰNG KHÔNG GIAN VECTOR TỪ 14 3.3.1 Tổng quan cách tiếp cận 14 3.3.2 Thu thập tiền xử lý liệu 15 3.3.3 Xây dựng mạng nơron 15 3.3.4 Huấn luyện mạng hiệu chỉnh vector từ 17 3.4 MẠNG NƠRON ĐÁNH GIÁ NGỮ NGHĨA 18 3.4.1 Phân tách cú pháp phụ thuộc 18 3.4.2 Xây dựng mạng nơron đánh giá ngữ nghĩa phụ thuộc 19 3.4.3 Huấn luyện mạng nơron tính điểm 21 3.5 PHÂN TÍCH ĐIỂM MẠNH, HẠN CHẾ PHƢƠNG PHÁP 21 3.5.1 Điểm mạnh phƣơng pháp 21 3.5.2 Hạn chế phƣơng pháp 22 CHƢƠNG THỰC NGHIỆM, KẾT QUẢ, VÀ SO SÁNH ĐÁNH GIÁ 23 4.1 CÔNG CỤ VÀ MÔI TRƢỜNG THỰC NGHIỆM 23 4.1.1 Win web crawler - chƣơng trình lấy nội dung trang web 23 4.1.2 vnTokenizer - công cụ tách từ tiếng Việt 23 4.1.3 vndp - công cụ khai triển phụ thuộc tiếng Việt 24 4.1.4 Chƣơng trình thực nghiệm tự thiết kế triển khai 25 4.1.5 Môi trƣờng thực nghiệm 27 4.2 DỮ LIỆU DÙNG CHO THỰC NGHIỆM 27 4.3 CÁCH THỨC TỔ CHỨC THỰC NGHIỆM 28 4.4 KẾT QUẢ THỰC NGHIỆM 29 4.5 PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 30 CHƢƠNG KẾT LUẬN 32 TÀI LIỆU THAM KHẢO 34 CHƢƠNG MỞ ĐẦU VÀ ĐẶT VẤN ĐỀ 1.1 BỐI CẢNH NGHIÊN CỨU Xã hội phát triển, chất lƣợng sống ngƣời ngày đƣợc nâng cao nhu cầu sử dụng pháp luật cá nhân, tổ chức theo ngày gia tăng Trong hiến pháp nƣớc Cộng hòa xã hội chủ nghĩa Việt Nam năm 2013, chế định quyền người, quyền nghĩa vụ công dân đƣợc đƣa từ chƣơng lên chƣơng (so với hiến pháp năm 1992), điều lần cho thấy vị trí vai trị pháp luật đời sống thƣờng ngày dần đƣợc khẳng định, xã hội hoạt động theo pháp luật sở cho phát triển nhanh ổn định Để sử dụng áp dụng pháp luật, ngƣời làm ngành phải đọc nhiều liên tục cập nhật thông tin từ văn pháp luật đƣợc thông qua Các văn pháp luật đời sau có hiệu lực thay thế, phủ định bổ sung văn trƣớc đó, việc diễn thƣờng xuyên liên tục gây trở ngại lớn cho ngƣời hoạt động pháp lý Những ngƣời dù hành nghề lâu năm khơng dám tự tin biết vấn đề pháp lý hay không nhƣ họ không tra cứu vấn đề thời gian dài Bên cạnh đó, chế bảo hiến hệ thống pháp luật Việt Nam nhiều bất cập điểm chồng chéo mâu thuẫn văn quy phạm pháp luật Tại thời điểm khóa luận đƣợc hoàn thành, văn quy phạm pháp luật thuế liên tục đƣợc sửa đổi Thời báo kinh tế Sài Gịn có đoạn viết: “[ ]“Ma trận” văn thuế tạo hệ thống văn quy phạm pháp luật chồng chéo, chắp vá gây khó khăn lớn cho đối tượng thực Chẳng hạn, để biết quy định Luật Thuế TNDN hiệu lực thi hành quy định cụ thể nào, đối tượng thực phải so sánh Luật Thuế TNDN năm 2008, Luật Sửa đổi, bổ sung số điều Luật Thuế TNDN năm 2013, Luật Sửa đổi, bổ sung số điều luật thuế năm 2014, nghị định thơng tư tương ứng, có nghị định sửa nhiều nghị định thông tư sửa nhiều thông tư.[ ] ” 1 http://www.thesaigontimes.vn/125339/Ma-tran-van-ban-phap-luat-ve-thue.html 3.4.3 Huấn luyện mạng nơron tính điểm Để huấn luyện mạng nơron, ta thiết lập bộ, gồm câu thể nội dung chế định luật giao thông biến thể đƣợc đƣa vào huấn luyện Ta gọi 𝑆 toàn câu đƣa vào huấn luyện, 𝑆(𝑖) tập biến thể câu luật giao thơng 𝑖(bao gồm nó) Hàm mục tiêu cần tối thiểu là: 𝐽𝑡𝑟𝑎𝑖𝑛 (𝜃) = 𝑖,𝑗 ∈𝑆(𝑖) 𝑘∈𝑆\𝑆(𝑖) 𝑚𝑎𝑥(0, ∆ − 𝑕(𝑖) 𝑕(𝑗) + 𝑕(𝑖) 𝑕(𝑘)) Hàm mục tiêu đƣợc sử dụng có dạng hàm mơ hình máy vector hỗ trợ (SVM), tham số 𝜃 đƣợc tối ƣu hóa qua bƣớc thuật toán Stochastic gradient descent biến mạng nơron có dạng siêu phẳng có khả tách đƣợc tập câu có ý nghĩa cặp câu không ý nghĩa Khi hàm mục tiêu đƣợc tối thiểu, câu ý nghĩa có tích vơ hƣớng đƣợc đánh giá cao so với cặp câu xa nghĩa 3.5 PHÂN TÍCH ĐIỂM MẠNH, HẠN CHẾ PHƢƠNG PHÁP 3.5.1 Điểm mạnh phƣơng pháp Đánh giá cách khách quan, thấy phƣơng pháp đƣợc đề xuất chƣơng có số điểm mạnh sau đây: - - Đƣa đƣợc cách tiếp cận phù hợp, giải đƣợc yêu cầu toán nghiên cứu Giải đƣợc vấn đề phát sinh thao tác với ngôn ngữ tiếng Việt nhƣ phân tích phần sở lý luận Đặc biệt giải cách tốt vấn đề đa nghĩa tiếng Việt cách sử dụng vector từ đƣợc huấn luyện gắn với ngữ cảnh sử dụng phụ thuộc Kế thừa ý tƣởng từ nghiên cứu nƣớc quốc tế lĩnh vực xử lý ngôn ngữ tự nhiên xử lý ngôn ngữ tự nhiên tiếng Việt nhà khoa học có uy tín 21 3.5.2 Hạn chế phƣơng pháp Bên cạnh điểm mạnh, phƣơng pháp tồn số hạn chế sau đây: - - Hạn chế phƣơng pháp chứa hạn chế mơ hình mạng nơron nhân tạo, để hoạt động xác, mạng nơron nhân tạo cần nhiều tài nguyên nhƣ luyện huấn luyện, chi phí mặt thời gian, tính tốn nhớ cho hoạt động huấn luyện Độ xác phƣơng pháp bị giới hạn độ xác chƣơng trình tách từ tiếng Việt (~98%) chƣơng trình sinh phụ thuộc (~80%) Việc phân tích đặc điểm tiếng Việt để áp dụng nghiên cứu nƣớc liệu tiếng Anh cịn chƣa có nhiều sở khoa học chắn 22 CHƢƠNG THỰC NGHIỆM, KẾT QUẢ, VÀ SO SÁNH ĐÁNH GIÁ 4.1 CÔNG CỤ VÀ MÔI TRƢỜNG THỰC NGHIỆM 4.1.1 Win web crawler - chƣơng trình lấy nội dung trang web Nhƣ phân tích chƣơng trƣớc, mạng nơron chƣơng trình máy tính khơng có giá trị nhƣ thiếu liệu huấn luyện Mạng nơron đƣợc đề xuất đề tài hoạt động trực tiếp với liệu từ vựng tiếng Việt nên yêu cầu liệu thu thập đƣợc cần thỏa mãn tiêu chí độ lớn, tính bao phủ, tính ngẫu nhiên khách quan Để đạt đƣợc tiêu chí liệu nhƣ vậy, nguồn liệu từ vựng đƣợc sử dụng đề tài đƣợc lấy từ trang web chuyên đƣa tin giao thông11 trang web chứa văn pháp luật12 Công trình sử dụng chƣơng trình Win web crawler đƣợc cung cấp miễn phí trang web http://www.winwebcrawler.com/ để làm cơng cụ thu thập liệu từ vựng Chƣơng trình có thiết kế đơn giản đủ chức giúp thu thập từ vựng cách nhanh chóng Tệp từ vựng đƣợc lấy từ website thơng qua chƣơng trình chứa 4.000 từ, đạt yêu cầu độ bao phủ, tính ngẫu nhiên tính khách quan Tệp có dung lƣợng 10.9MB sau đƣợc xử lý tách từ 4.1.2 vnTokenizer - công cụ tách từ tiếng Việt Do đặc trƣng tiếng Việt, công cụ tách từ yêu cầu thiếu muốn thao tác với liệu tiếng Việt Công cụ tách từ tiếng Việt sử dụng đề tài vnTokenizer 13 tác giả Lê Hồng Phƣơng Công cụ sử dụng kết hợp từ điển ngram, mơ hình ngram đƣợc huấn luyện sử dụng treebank tiếng Việt (70,000 câu đƣợc tách từ) với độ xác 97%14 Tác giả chƣơng trình cung cấp file nhị phân mã nguồn cơng cụ cho mục đích nghiên cứu khoa học Cơng trình sử dụng trực tiếp mã nguồn cơng cụ để có 11 http://www.vovgiaothong.vn, http:// www.gttm.go.vn,http://www.mt.gov.vn, http://www.baogiaothong.vn http:// thuvienphapluat.vn, http://www.vanban.chinhphu.vn 13 http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer 14 Đây công cụ thuộc Đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) 12 23 thể tùy biến chức năng, phục vụ cho nhu cầu cơng trình nhƣ chuẩn hóa file đầu vào mạng nơron, chuẩn hóa tự động đầu vào phụ thuộc hay sinh kiểm thử đơn giản cho mục đích gỡ rối chƣơng trình Cơng cụ đƣợc đánh giá có độ xác 97%, có độ xác cao xong trình đƣợc sử dụng áp dụng vào thực nghiệm đề tài, cơng cụ có lúc rơi vào 3% cịn lại ví dụ nhƣ từ “cấm_vận”, “đƣờng_khơng”, “kéo_theo”, “tính_từ” Sai sót cơng cụ tuyệt vời xảy đặc trƣng câu luật giao thơng, ví dụ nhƣ tiếng “tính” “từ” đứng cạnh thƣờng có xác suất cao tạo thành từ “tính_từ” nhƣng rõ ràng câu “không dừng xe, đỗ xe nơi đường giao phạm vi mét tính từ đường giao nhau” chúng khơng mang ý nghĩa nhƣ Để khắc phục tồn nhỏ này, chƣơng trình thực nghiệm đề tài có bƣớc chuẩn hóa lại liệu tách để đảm bảo không xảy lỗi q trình huấn luyện mạng nơron 4.1.3 vndp - cơng cụ khai triển phụ thuộc tiếng Việt15 Đây chƣơng trình tác giả Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen Minh Le Nguyen thuộc đề tài “From Treebank Conversion to Automatic Dependency Parsing for Vietnamese” Mã nguồn chƣơng trình đƣợc cung cấp miễn phí cho mục đích học tập nghiên cứu khoa học, việc sử dụng công cụ đề tài đƣợc thông qua đồng ý tác giả Đặc điểm công cụ lần hoạt động, công cụ khoảng thời gian lâu để nạp liệu có dung lƣợng 160MB hoạt động đƣợc, bên cạnh đó, cơng cụ hỗ trợ việc đọc ghi từ tệp đĩa Do việc sử dụng mã nguồn công cụ nhƣ phần chƣơng trình có nhiệm vụ tách câu làm giảm tốc độ chƣơng trình thời gian nạp liệu độ trễ phải giao tiếp với đĩa cứng Với liệu khổng lồ mà mạng nơron phải tính tốn việc giảm tốc độ cho câu đƣa vào xử lý nhƣ dẫn đến tổng thời gian vơ ích chƣơng trình vơ lớn Điều đồng nghĩa với việc ta phải chờ đợi lâu hàng trăm lần để có mạng nơron hoạt động tốt với hàm giá hội tụ 15 http://vndp.sourceforge.net/ 24 Chú ý đặc điểm cơng cụ khai triển phụ thuộc tiếng Việt, cơng trình đề xuất cách giải tiến hành khai triển tất câu tập huấn luyện tập kiểm thử, sau tiến hành phân tích tệp kết lƣu vào sở liệu nhƣ thuộc tính nằm kế bên giá trị câu tƣơng ứng Mỗi lần câu đƣợc đƣa vào huấn luyện hay tính điểm, chƣơng trình cần thực việc truy vấn phụ thuộc từ sở liệu không cần phải khai triển phụ thuộc 4.1.4 Chƣơng trình thực nghiệm tự thiết kế triển khai Hình 4.1 Bố trí mã nguồn chương trình Do mục đích chƣơng trình thực nghiệm triển khai phƣơng pháp đƣợc đề xuất cơng trình, nhằm chứng minh tính đắn chúng, chƣơng trình đƣợc thiết kế đơn giản đủ cho chức cần thiết tối thiểu để triển khai đƣợc thuật tốn, khơng có thiết kế giao diện ngƣời dùng Chƣơng trình đƣợc viết java với IDE Netbean, cấu trúc mã nguồn, chƣơng trình gồm gói (package) chính, gói phụ trách hoạt động mạng nơron Các lớp đƣợc thiết kế theo thực thể đƣợc nhắc tới phƣơng pháp đề xuất (bao gồm câu, từ, phụ thuộc, trọng số, vector) lớp hỗ trợ khác 25 Hình 4.2 Các lớp chương trình thực nghiệm Tại hàm main() chƣơng trình, 16 lựa chọn đƣợc liệt kê, lựa chọn triển khai chƣơng trình vào nhánh thực nhiệm vụ cụ thể 16 lựa chọn bao gồm: Bảng 4.1 Danh sách tham số chạy chương trình STT Ý nghĩa Lựa chọn Đối với mạng nơron vector hóa từ vựng NORMALIZE_VOCAB_FILE Tách từ, chuẩn hóa tệp từ vựng UPDATE_VOCAB Bổ sung từ vựng từ tệp vào sở liệu INITIALIZE_WEIGHT Khởi tạo trọng số mạng nơron, lƣu vào CSDL CALCULATE_IDF_WEIGHT Tính trọng số IDF để tính giá trị trọng số trung bình TEST_AVARAGE_DOC Tính giá trị trọng số trung bình phục vụ cho việc tính điểm câu ngữ cảnh tốn cục TEST_LOCAL_SCORE Kiểm thử việc tính điểm câu ngữ cảnh cục TEST_GLOBAL_SCORE Kiểm thử việc tính điểm câu ngữ cảnh tồn cục TRAIN_VOCAB Huấn luyện mạng để vector hóa từ vựng 26 Đối với mạng nơron tính điểm đồng nghĩa câu INITIALIZE_WEIGHT_SENTENCE Khởi tạo trọng số mạng nơron, lƣu vào CSDL 10 SENTENCE_TO_DTREE Chuyển câu thành dạng phụ thuộc lƣu vào sở liệu 11 TEST_SCORE_SENTENCE Kiểm thử việc tính điểm tƣơng đồng ý nghĩa 12 TEST_TRAIN_SENTENCE Kiểm thử việc huấn luyện nơron (kiểm tra hƣớng hội tụ hàm giá thơng qua ví dụ cụ thể) 13 TRAIN_SENTENCE Tiến hành huấn luyện mạng dựa tập huấn luyện thật 14 TEST_CLOSEST_SENTENCE Kiểm thử việc tìm câu sát nghĩa câu truy vấn 15 SENTENCE_TO_DTREE_TEST_DATA Chuyển câu tập kiểm thử thành dạng phụ thuộc lƣu vào sở liệu 16 ANALYZE_TEST_RESULT Đánh giá kết đầu cho mạng nơron chạy với liệu kiểm thử 4.1.5 Môi trƣờng thực nghiệm Chƣơng trình thực nghiệm đƣợc chạy hệ điều hành Windows (64 bit), máy tính xách tay cá nhân có cấu hình nhƣ sau: - Bộ vi xử lý: Intel(R) Core(TM)i5-2410M - CPU: 2.30 GHz Ram: 4GB Hệ thống: 64 bit 4.2 DỮ LIỆU DÙNG CHO THỰC NGHIỆM Nhƣ trình bày phần trƣớc, liệu yếu tố quan trọng tính hữu dụng mạng nơron Để đảm bảo thỏa mãn tiêu chí độ lớn, tính bao phủ, tính ngẫu nhiên khách quan cho mạng nơron huấn luyện vector từ, liệu đƣợc lấy từ website giao thông16 văn pháp luật17 16 17 http://www.vovgiaothong.vn, http:// www.gttm.go.vn,http://www.mt.gov.vn, http://www.baogiaothong.vn http:// thuvienphapluat.vn, http://www.vanban.chinhphu.vn 27 Đối với mạng nơron phát đồng nghĩa câu, ngữ cảnh tốn đƣợc giới hạn khn khổ luật giao thông Việt Nam, liệu huấn luyện đƣợc sử dụng đề tài nhỏ so với liệu thực nghiệm đƣợc sử dụng cơng trình Richard Socher đồng tác giả Việc giới hạn ngữ cảnh đóng góp lớn cho tính khả thi cơng trình điều kiện Dữ liệu huấn luyện gồm 110 gồm câu nghĩa đƣợc xáo trộn trật tự từ nhƣng đảm bảo ngữ pháp tiếng Việt Dữ liệu huấn luyện đƣợc chia làm phần, 75 đóng vai trị liệu học đƣợc sử dụng cho việc huấn luyện mạng nơron 35 sử dụng cho việc kiểm thử chất lƣợng mạng Từ 75 tập liệu học ta sinh đƣợc 550.000 ba ví dụ chứa câu nghĩa câu khác nghĩa với hai câu lại, ba đƣợc tạo đầu vào mạng nơron đƣợc trình bày chƣơng trƣớc Các đƣợc sử dụng kiểm thử đƣợc trộn ngẫu nhiên nhiệm vụ chƣơng trình nhặt đƣợc câu với 4.3 CÁCH THỨC TỔ CHỨC THỰC NGHIỆM Quá trình thực nghiệm đƣợc tổ chức theo bƣớc: Thu thập liệu, Tiền xử lý liệu, Huấn luyện mạng nơron Đo độ xác mạng nơron Tại bƣớc đầu tiên, liệu từ vựng đƣợc thu thập cách tự động chƣơng trình Win web crawler, tệp liệu ban đầu có kích thƣớc 9.2MB Dữ liệu câu thể luật giao thông đƣợc thu thập từ cộng tác viên thông qua website đƣợc xây dựng tạm, phục vụ riêng cho mục đích nhập liệu cho khóa luận Sau đƣợc thu thập, liệu lƣu tệp CSDL đƣợc tiền xử lý, trình bao gồm việc tách từ, chuyển câu sang dạng phụ thuộc, chuyển thông tin dạng số từ thể Đây bƣớc quan trọng trƣớc tiến hành huấn luyện liệu Bƣớc huấn luyện mạng nơron gồm hai q trình vector hóa từ vựng sử dụng mạng nơron huấn luyện mạng nơron thứ để có khả phát đƣợc câu đồng nghĩa Quá trình sử dụng mạng nơ ron có lớp ấn chứa 20 nơron, lớp vào gồm 10 vector từ xếp cạnh nhau, vector từ chứa 10 phần tử lớp có nơron mang giá trị điểm chuỗi 10 từ Quá trình thứ sử dụng mạng nơ ron đệ quy có lớp ẩn lớp vào có 10 phần tử Cả hai q trình sử dụng thuật 28 tốn Stochastic Gradient Descent với hệ số học 10-5, trình đƣợc chạy liên tiếp vịng ngày, q trình thứ đƣợc chạy liên tiếp vòng ngày trƣớc hệ thống đƣợc đem đánh giá 4.4 KẾT QUẢ THỰC NGHIỆM Để đánh giá đƣợc mơ hình, 175 câu (từ 35 bộ) đƣợc dùng làm đối tƣợng kiểm thử Với câu, hệ thống tìm câu gần nghĩa với dựa vào tích vô hƣớng vector để xếp hạng từ xuống dƣới mức độ gần nghĩa, sau hệ thống ghi lại thứ hạng câu gần thuộc (gọi mean rank) Giá trị mean rank nhỏ chứng tỏ mạng nơron hoạt động với ví dụ xác Đây sở để đánh giá chất lƣợng mạng nơron đƣợc huấn luyện Bảng 4.2 liệt kê số ví dụ kết đầu Bảng 4.2 Một số kết đầu ví dụ Câu phát biểu luật giao thông Mean Rank luật giao thông đƣờng quy định không đƣợc dừng xe, đỗ xe phạm vi an tồn đƣờng sắt khơng đƣợc để phƣơng tiện giao thơng lịng đƣờng, hè phố trái quy định luật giao thông đƣờng không cho phép sử dụng lòng đƣờng, lề đƣờng, hè phố trái phép khơng kéo lê hàng hóa mặt đƣờng nghiêm cấm dừng xe, đỗ xe nơi dừng xe buýt 11 luật giao thông đƣờng quy định ngƣời điều khiển xe mô tô hai bánh, xe mô tô ba bánh, xe gắn máy không đƣợc xe vào phần đƣờng dành cho ngƣời phƣơng tiện khác 71 nghiêm cấm dừng xe, đỗ xe trƣớc cổng phạm vi mét hai bên cổng trụ sở quan, tổ chức 141 Để đánh giá đƣợc chất lƣợng mạng nơ ron cách định lƣợng, đề tài đề xuất cách đánh giá ghi lại thống kê tý lệ câu tập liệu kiểm thử có số mean rank nhỏ (cụ thể trƣờng hợp mean rank = 0, mean rank < mean rank < 10) Bảng dƣới ghi lại kết thống kê sơ sử dụng mạng nơron phân tích liệu kiểm thử 29 Bảng 4.3 Bảng thống kê mean rank Trƣờng hợp Số trƣờng hợp Tỷ lệ % Câu nằm bảng xếp hạng 48/175 27,43% Câu nằm top bảng xếp hạng 86/175 49,14% Câu nằm top 10 bảng xếp hạng 115/175 65,71% Xét tập liệu kiểm thử, giá trị mean rank trung bình 14,1 Nhìn vào kết đầu mạng nơ ron trình khảo sát gỡ rối cài đặt mạng, thấy mạng hoạt động tốt với câu có độ dài trung bình (từ 6-10 từ) Mạng nơ ron thể kết câu ngắn dài phạm vi đó, với câu ngắn, phụ thuộc đƣợc sinh có độ sâu thấp trở nên không linh hoạt việc cập nhật trọng số mạng trình huấn luyện, ngƣợc lại, phụ thuộc sinh câu dài có độ sâu lớn nên thƣờng xảy trƣờng hợp tràn nhớ trọng số, dẫn đến tình trạng hội tụ ảo Ngồi ra, kết phân loại mạng câu rút gọn (khuyết chủ ngữ) so với câu có cấu trúc đầy đủ 4.5 PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM Dựa vào kết thực nghiệm, ta thấy mạng nơron đƣợc cài đặt xác hoạt động tƣơng đối tốt với tập liệu Tỷ lệ câu nhóm đứng đầu bảng xếp hạng, top top 10 lần lƣợt 27,43% ; 49,14% 65,71%, điều chứng tỏ trọng số mạng nơron đƣợc tối ƣu hƣớng hàm mục tiêu hội tụ dần điểm cực trị, tỷ lệ lớn nhiều lần so với việc xếp hạng ngẫu nhiên câu Cơng trình sử dụng cách đánh giá với báo “Grounded Compositional Semantics for Finding and Describing Images with Sentences” Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, Andrew Y Ng (2013) Mặc dù xử lý dựa ngôn ngữ tiếng Việt, với thời gian, liệu hạn chế độ xác bị giới hạn độ xác cơng cụ xử lý ngôn ngữ tiếng Việt sử dụng nhƣng cơng trình có giá trị mean rank ấn tƣợng 14.1 Giá trị mean rank chƣa tốt kết mạng nơron đƣợc đề xuất cơng trình Richard Socher đồng tác giả 30 sinh nhƣng trội số phƣơng pháp khác liệu tiếng Anh Bảng dƣới cho ta thấy rõ điều đó18 Giá trị mean rank nhỏ chứng tỏ mơ hình tốt Bảng 4.4 Bảng giá trị mean rank phương pháp khảo sát Richard Socher đồng tác giả Mơ hình Giải thích Mean Rank Random Mơ hình ngẫu nhiên 101.1 BoW Mơ hình Bag of word 11.8 CT-RNN Mơ hình sử dụng mạng nơron đệ quy với bỏ phiếu 15.8 Recurrent NN Mơ hình mạng nơron hồi quy vịng 18.5 kCCA Mơ hình Kernel Canonical Correlation Analysis 10.7 DT-RNN Mơ hình mạng nơron đệ quy với phụ thuộc 11.1 SDT-RNN Mơ hình mạng nơron đệ quy với phụ thuộc ngữ nghĩa 18 10.5 Bảng lấy từ số liệu cơng trình “Grounded Compositional Semantics for Finding and Describing Images with Sentences” Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, Andrew Y Ng (2013) 31 CHƢƠNG KẾT LUẬN Trong khn khổ khóa luận tốt nghiệp đại học, đề tài giải phần toán đặt xây dựng chƣơng trình có khả phát câu thể luật giao thơng có hình thái khác nhƣng biểu ý nghĩa giống Bài toán nghiên cứu sở để phát triển ứng dụng công nghệ cao lĩnh vực pháp lý sau này, giúp phát hiện, loại bỏ chồng chéo hệ thống pháp luật Việt Nam hỗ trợ hữu ích cho ngƣời hoạt động lĩnh vực pháp lý Hƣớng tiếp cận để giải vấn đề sử dụng kỹ thuật nơron nhân tạo học máy Phƣơng pháp thực nghiệm đề tài phù hợp có đƣợc kết bƣớc đầu ấn tƣợng Đóng góp cơng trình đƣa đƣợc sở lý thuyết, đề xuất đƣợc tốn có ý nghĩa thực tiễn xây dựng đƣợc hệ thống hoạt động tƣơng đối hiệu với liệu tiếng Việt dựa cơng cụ, nghiên cứu có trƣớc số cải tiến kỹ thuật Kết nghiên cứu đề tài khơng có ý nghĩa giới hạn văn luật giao thơng mà ứng dụng rộng rãi đề tài liên quan đến xử lý ngôn ngữ tự nhiên tiếng Việt khác Bên cạnh cịn số điểm hoàn thiện nghiên cứu để có cơng trình hồn chỉnh hơn: - Thứ nhất, chế để ngƣời dùng tham gia cải thiện việc học hệ - thống giúp tăng chất lƣợng phân loại mạng nơron Thứ hai, liệu huấn luyện nghèo nàn, nhiều khâu phải nhập liệu thủ công Thứ ba, hàm giá mạng nơron phát đồng nghĩa chƣa tối ƣu, chƣa - tính điểm xác đƣợc cho câu có độ dài lớn nơron bị tràn tìn hiệu Thứ tƣ, ngơn ngữ lập trình Java chƣa phải ngôn ngữ phù hợp để cài đặt - mơ hình mạng nơron nhân tạo Từ phân tích nêu trên, hƣớng đề xuất cải thiện hệ thống bao gồm: - Thiết kế ứng dụng web hoàn chỉnh phục vụ ngƣời dùng sử dụng - thao tác, đánh giá ngƣời dùng làm yếu tố đầu vào mạng nơ ron cải tiến việc học mạng Thiết kế lại hàm giá mạng nơ ron để giải đƣợc câu có độ dài lớn 32 - Nghiên cứu xây dựng mạng nơron sử dụng ngôn ngữ chuyên dụng nhƣ Mathlab, Python 33 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Andrew Ng, “Machine learning course - Stanford University”, https://class.coursera.org/ml-005/lecture Last visited: April 2015 [2] Collobert, Ronan, and Jason Weston "A unified architecture for natural language processing: Deep neural networks with multitask learning." InProceedings of the 25th international conference on Machine learning, pp 160-167 ACM, 2008 [3] Huang, Eric H., Richard Socher, Christopher D Manning, and Andrew Y Ng "Improving word representations via global context and multiple word prototypes." In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1, pp 873-882 Association for Computational Linguistics, 2012 [4] Nguyen, Dat Quoc, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen, and Minh Le Nguyen "From treebank conversion to automatic dependency parsing for vietnamese." In Natural Language Processing and Information Systems, pp 196-207 Springer International Publishing, 2014 [5] Richard Socher, Andrej Karpathy, Quoc V Le*, Christopher D Manning, Andrew Y Ng., “Grounded Compositional Semantics for Finding and Describing Images with Sentences” Transactions Of The Association For Computational Linguistics, 2, 207218 [6] Socher, Richard, Cliff C Lin, Chris Manning, and Andrew Y Ng "Parsing natural scenes and natural language with recursive neural networks." InProceedings of the 28th international conference on machine learning (ICML-11), pp 129-136 2011 [7] Socher, Richard, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts "Recursive deep models for semantic compositionality over a sentiment treebank." In Proceedings of the conference on empirical methods in natural language processing (EMNLP), vol 1631, p 1642 2013 [8] Socher, Richard, Brody Huval, Christopher D Manning, and Andrew Y Ng "Semantic compositionality through recursive matrix-vector spaces." InProceedings of 34 the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp 1201-1211 Association for Computational Linguistics, 2012 [9] Thi, Luong Nguyen, Hung Nguyen Viet, Huyen Nguyen Thi Minh, and Phuong Le Hong "Building a treebank for Vietnamese dependency parsing." InComputing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 IEEE RIVF International Conference on, pp 147-151 IEEE, 2013 Tiếng Việt [10] Lƣu Tuấn Anh, Xử lý ngôn ngữ tiếng Việt, http://viet.jnlp.org/ Truy cập lần cuối Th 11, 2014 [11] Hiến Pháp Nước Cộng Hòa Xã Hội Chủ Nghĩa Việt Nam, NXB Chính trị Quốc gia, 2013 [12] Trƣơng Thị Diễm, “Một số đặc trưng ngôn ngữ việt ảnh hưởng đến việc nhận thức tiếng việt sinh viên nước ngoài”, http://www.ued.edu.vn/khoavan/mod/resource/ view.php?inpopup=true&id=59 Truy cập lần cuối: Th4, 2015 [13] GS TS Nguyễn Đăng Dung & TS Nguyễn Minh Tuấn, Giáo trình Luật hiến pháp Việt Nam, NXB Đại học Quốc gia Hà Nội, 2014 [14] Hệ thống Văn Quy phạm pháp luật, NXB Hồng Đức, 2013 [15] Đào Kiến Quốc & Trƣơng Ninh Thuận, Giáo trình tin học sở, Đại học Quốc gia Hà Nội, Hà Nội, 2006 tr.7 [16] Lê Đình Tƣ & Vũ Ngọc Cẩn, Nhập mơn ngôn ngữ học, NXB Khoa học xã hội, Hà Nội, 2009 [17] Vũ Xuân Tiền, “Ma trận văn pháp luật thuế”, http://www.thesaigontimes.vn /125339/Ma-tran-van-ban-phap-luat-ve-thue.html, Truy cập lần cuối: Th4, 2015 [18] Đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) thuộc Chƣơng trình Khoa học Công nghệ cấp Nhà nƣớc KC01/06-10 35 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hà Thanh NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG XỬ LÝ VĂN BẢN LUẬT GIAO THƠNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng... sở lý thuyết, kế thừa nghiên cứu có, đề xuất giải pháp xây dựng đƣợc chƣơng trình có khả phát cặp câu luật giao thông Việt Nam đƣợc thể khác nhƣng mang ý nghĩa giống Đề tài sử dụng luật giao thông. .. chất nhƣ sở nhiều ứng dụng xử lý pháp luật sau Nhiệm vụ đề tài khái quát sở lý thuyết, kế thừa nghiên cứu có, đề xuất giải pháp xây dựng đƣợc chƣơng trình có khả phát đƣợc cặp câu luật nhƣ ngữ cảnh

Ngày đăng: 01/08/2020, 21:04

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan