Nghiên cứu phương pháp đo độ tương đồng văn bản và ứng dụng hát triển sự trùng lặp giữa các văn bản

79 1 0
  • Loading ...
1/79 trang

Thông tin tài liệu

Ngày đăng: 07/05/2020, 22:56

LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi với hướng dẫn khoa học thầy giáo TS Trương Tiến Tùng Các số liệu, kết nêu luận văn hoàn tồn trung thực, chưa cơng bố tài liệu khác Tác giả luận văn PHẠM THỊ HẢI VÂN i LỜI CẢM ƠN Trong suốt trình học tập thực đề tài này, em nhận nhiều quan tâm giúp đỡ, hướng dẫn tận tình thầy với lời động viên khuyến khích từ phía gia đình, bạn bè lúc em gặp khó khăn Em xin bày tỏ lời cảm ơn chân thành đến người Trước tiên, em xin bày tỏ lòng kính trọng biết ơn sâu sắc thầy giáo TS Trương Tiến Tùng tận tình hướng dẫn, định hướng cho em suốt trình làm luận văn Trong thời gian làm luận văn tốt nghiệp, Thầy dành nhiều thời gian quý báu tận tình bảo, hướng dẫn truyền đạt cho em nhiều kiến thức, kinh nghiệm suốt trình nghiên cứu thực luận văn Em xin gửi lời cảm ơn tới Thầy, Cô Viện Đại học Mở Hà Nội nói chung thầy khoa Cơng Nghệ Thơng Tin nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức, kinh nghiệm quý báu làm tảng để em hoàn thành khóa luận, hành trang để em tự tin bước vào sống công việc tương lai Và cuối cùng, em xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người ln bên cạnh động viên, khuyến khích giúp đỡ em trình học tập suốt q trình thực khóa luận Tuy có cố gắng định thời gian trình độ có hạn nên chắn luận văn nhiều thiếu sót hạn chế Kính mong nhận góp ý thầy bạn Em xin chân thành cảm ơn! Hà Nội, ngày 25tháng 11 năm 2016 Tác giả PHẠM THỊ HẢI VÂN ii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG BIỂU vii DANH MỤC HÌNH VẼ .viii MỞ ĐẦU CHƯƠNG CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG ĐỒNG VĂN BẢN 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.1 Xử lý ngôn ngữ tự nhiên - natural language processing - NLP 1.1.2 Các bước xử lý 1.2 Tiền xử lý văn 1.2.1 Bước phân tích từ vựng 1.2.2 Bước loại bỏ từ dừng 1.2.3 Bước loại bỏ từ có tần số thấp 1.2.4 Bước loại bỏ tiền tố hậu tố 1.3 Các phương pháp biểu diễn văn 1.3.1 Mơ hình logic 1.3.2 Mơ hình phân tích cú pháp 11 1.3.3 Mơ hình khơng gian véc-tơ 12 1.3.4 Mơ hình Boolean 14 1.3.5 Phương pháp dựa miền tần số từ khóa (TF-Term Frequency) 14 1.3.6 Phương pháp dựa nghịch đảo tần số văn (IDF-Inverse Document Frequency) 15 1.3.7 Phương pháp TFxIDF 15 1.4 Thuật toán Tokenizer 17 1.4.1 Đặc trưng tiếng Việt 18 1.4.2 Thuật toán tách từ 20 iii 1.5 Mơ hình tách từ tiếng Việt 23 1.5.1 Khái quát tách từ tiếng Việt 23 1.5.2 Ý tưởng 24 1.5.3 Các mơ hình liên quan 25 1.6 Độ tương đồng văn phương pháp tính độ tương đồng văn 27 1.6.1 Độ tương đồng 27 1.6.2 Độ tương đồng văn 27 1.6.3 Các phương pháp tính độ tương đồng văn 28 1.7 Kết luận chương 37 CHƯƠNG HỆ THỐNG PHÁT HIỆN SỰ TRÙNG LẶP GIỮA CÁC VĂN BẢN 38 2.1 Các yêu cầu việc phát trùng lặp văn 38 2.2 Xây dựng chương trình tách từ Tokenizer 39 2.2.1 Bước 1: Tiền xử lý số liệu 40 2.2.2 Bước 2: Tách câu 42 2.2.3 Bước 3: Tách từ 43 2.2.4 Bước 4: Biểu diễn văn 45 2.2.5 Bước 5: Tính độ đo văn 46 2.3 Xây dựng chương trình tính độ tương tự độ đo Cosine 47 2.3.1 Module tiền xử lý văn 48 2.3.2 Module cập nhật thư viện từ 49 2.3.3 Module biểu diễn véc-tơ đặc trưng văn 49 2.3.4 Tính độ tương tự văn dựa vào độ đo Cosine 51 2.3.5 Xây dựng sở liệu mẫu 52 2.4 Kết luận chương 53 CHƯƠNG CHƯƠNG TRÌNH THỰC NGHIỆM VÀ KẾT QUẢ 54 3.1 Môi trường cài đặt thử nghiệm 54 3.2 Chuẩn bị liệu 54 3.3 Một số giao diện chương trình 55 3.3.1 Nhập trực tiếp hai văn 55 3.3.2 Nhập hai văn từ file 56 iv 3.3.3 Xử lý với văn kho liệu 58 3.3.4 Xây dựng kho ngữ liệu 59 3.4 Kết thử nghiệm, đánh giá 61 3.4.1 Một số ví dụ cụ thể 61 3.4.2 Kết thử nghiệm đánh giá 66 3.4.3 Đánh giá 66 3.5 Kết luận chương 67 KẾT LUẬN 68 HƯỚNG PHÁT TRIỂN 69 TÀI LIỆU THAM KHẢO 70 v DANH MỤC TỪ VIẾT TẮT Từ viết tắt NND Tiếng Anh Tiếng Việt Near-Duplicate Detection Phát tái văn gần trùng LTRD Local Text Reuse Detection Phát tái sử dụng văn cục SE Search Engine Máy tìm kiếm CSDL Cơ sở liệu VSM Vector Space Model Mơ hình khơng gian véc-tơ TF Term Frequency Miền tần số IDF Inverse Document Frequency Nghịch đảo miền tần số CRF Conditional random fields Xác suất ngẫu nhiên có điều kiện LM Longest Matching MM Maximal Matching LDA Latent Dirichlet Allocation WCG Wikipedia Category Craph PL Path Length LC Leacock & Chodorow TBL Tranformation – base Learning LRMM Left Right Maximum Matching vi DANH MỤC CÁC BẢNG BIỂU Bảng 1-1 Biểu diễn văn theo mơ hình logic Bảng 1-2 Biểu diễn văn theo mơ hình khơng gian véc-tơ 13 Bảng 1-3 Biểu diễn văn theo mơ hình Boolean 14 vii DANH MỤC HÌNH VẼ Hình 1-1 Mơ hình không gian véc-tơ theo biểu diễn Christian S Perone [13] 13 Hình 1-2 Mơ hình N-Gram 26 Hình 1-3 Tính độ tương đồng văn dựa vào chủ đề ẩn 31 Hình 1-4 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 33 Hình 2-1 Các yêu cầu việc phát chép văn 39 Hình 2-2 Cấu trúc chương trình phát chép văn 40 Hình 2-3 Mơ hình tách từ văn tiếng Việt 44 Hình 2-4 Tài liệu xếp hạng giá trị Cosine giảm dần 47 Hình 3-1 Giao diện chương trình 55 Hình 3-2 Giao diện cho phép nhập trực tiếp hai văn 56 Hình 3-3 Giao diện nhập hai văn từ file 57 Hình 3-4 Giao diện kết sau nhập hai văn từ file 57 Hình 3-5 Giao diện chức xử lý với kho liệu 58 Hình 3-6 Giao diện chức lưu trữ kho ngữ liệu 59 Hình 3-7 Giao diện thực chức tách từ 60 Hình 3-8 Giao diện thực chức tách từ thành cơng 60 Hình 3-9 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd1) 62 Hình 3-10 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd2) 64 Hình 3-11 Kết tính độ đo VB mẫu 65 Hình 3-12 So sánh nội dung văn kiểm tra với văn CSDL 65 viii MỞ ĐẦU Trong thời đại công nghệ số nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Ở quy mô rộng hơn, thư viện điện tử ngày nhiều, tài liệu phát hành Internet nhiều lần thư viện điện tử khác nhau, trang Web khác Làm để phát chép tài liệu theo nghĩa tiêu cực? Làm ngăn chặn việc chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề nghiên cứu từ khoảng 10 năm qua Hiện tại, có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay khơng Tập hợp tài liệu nguồn đóng – tức tài liệu tập hợp trước thư viện điện tử - mở, chẳng hạn tập tài liệu văn internet Đã có số nghiên cứu đề xuất phương pháp khác để xác định xem đoạn văn số tài liệu có nằm tài liệu hay khơng Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi (string matching) Tuy nhiên, phương pháp so khớp chuỗi có hiệu việc chép “ngun văn” Nó khơng thể phát chép có sửa đổi đơi chút thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn Tổng quan tình hình nghiên cứu Hiện tượng văn trùng lặp tượng phổ biến đời thường Các văn hay đoạn văn nhiều nguyên nhân thường bị chép lại, chúng xuất nhiều nguồn khác Các blogger thường lấy tin tức từ báo điện tử; người gửi thư thường trích dẫn phần hay tồn thư trước; sinh viên viết luận văn chép số phần từ luận văn năm trước… Vì nhiều lý khác mà người ta muốn tìm phát văn trùng Ví dụ hệ thống lưu trữ liệu, văn trùng lặp làm tốn tài nguyên lưu trữ mà giá trị thông tin lại mang lại không nhiều Hay tổ chức làm việc liên quan đến quyền tác giả, họ cần tìm văn (tác phẩm văn chương, báo khoa học,…) có sử dụng lại cách trái phép tác phẩm trước Chính vậy, người ta quan tâm nhiều đến vấn đề phát văn trùng lặp Bài toán phát văn trùng lặp tốn khó Nếu văn hoàn toàn trùng (bị chép hồn tồn, khơng thay đổi) cần phép kiểm tra đơn giản ta phát Tuy nhiên, phát văn trùng lặp vấn đề khó nhiều Các dạng trùng lặp vô đa dạng Một văn chép tồn hay phần Các văn chép bị thay đổi (thêm, xóa bị xáo trộn) nằm vị trí văn Văn sau chép khác với văn cũ vài phần nhỏ Chính đa dạng việc chép văn mà có giải thuật hay kỹ thuật đo cách xác giống văn Tính cấp thiết, ý nghĩa khoa học thực tiễn đề tài Xuất phát từ trạng trùng lặp văn diễn cách ạt phân tích trên, tơi chọn đề tài “Nghiên cứu phương pháp đo độ tương đồng văn ứng dụng vào phát trùng lặp văn bản”làm đề tài nghiên cứu luận văn tốt nghiệp Trong báo cáo luận văn, tập trung trình bày nghiên cứu kiến thức xử lý văn bản, kết hợp nhiều phương pháp, có so sánh, đối chứng để tìm phương pháp phát trùng lặp văn Triển khai bước phân tích, xử lý để xây dựng chương trình phát chép văn bản, với bước kết hợp kỹ thuật mới, góp phần nâng cao hiệu việc phát thủ thuật tinh vi chép lại văn bản, giúp giảm áp lực vấn đề lưu trữ dư thừa, đồng thời Hình 3-3 Giao diện nhập hai văn từ file Đầu tiên, muốn chọn hai file văn nào, ta click “Browser” sau chọn đường dẫn đến file cần nhập Sau đó, tồn nội dung hai file hiển thị phần nội dung file 1, nội dung file Tiếp theo chọn phương pháp biểu diễn văn Cuối nhấn nút “Tính độ tương tự để xem kết Sim(document1, document2) Hình 3-4 Giao diện kết sau nhập hai văn từ file 57 3.3.3 Xử lý với văn kho liệu Phần có sử dụng mã nguồn mở từ dự án nghiên cứu khác, mã nguồn mở có sử dụng thư viện tách từ tiếng Việt dự án VLSP Đây project mã nguồn mở, có độ xác mặt tách từ tiếng Việt cao, nên sử dụng để phục vụ vào mục đích nâng cao hiệu chương trình Giao diện chức sau: Hình 3-5 Giao diện chức xử lý với kho liệu Nhập đường dẫn file văn cần đánh giá, chọn “Browser”, chọn đường dẫn đến file cần mở Lưu ý file văn định dạng, ta cần xóa bỏ định dạng file trước tiến hành xử lý file văn Sau xử lý loại bỏ định danh, ta chọn vào nút “Tách từ”, nút gọi đến thư viện dự án VLSP, sau trả cho ta văn tách từ ghép danh từ Chọn phương pháp biểu diễn văn bước trên, chọn ngưỡng tương đồng văn cần đánh giá với tập văn mẫu có sở liệu 58 Cuối cùng, ta chọn “Kiểm tra chép” để xem kết quả, văn có độ tương tự với văn đánh giá lớn ngưỡng cho phép, đưa văn đó, độ tương đồng chúng 3.3.4 Xây dựng kho ngữ liệu Giao diện chức này: Hình 3-6 Giao diện chức lưu trữ kho ngữ liệu Khi sở liệu lớn, thư viện từ ta phong phú, độ xác việc tính độ tương tự cao Nhập vào đường dẫn file liệu cách chọn “Browser”, nội dung văn đổ richbox Sau ta sử dụng thuật tốn tách từ để tách file liệu vừa nhập vào 59 Hình 3-7 Giao diện thực chức tách từ Nhấn “Save to database” để lưu vào sở liệu, file liệu nhập vào có độ tương tự nhỏ độ tương tự cho phép 0.3 thơng báo “Thêm liệu thành cơng” Ngược lại, đưa thông báo “File bạn muốn lưu trữ có nội dung gần trùng với file sở liệu” Nhấn “Reset”, hệ thống cho phép nhập lại file Nhấn “Exit”, khỏi hệ thống Hình 3-8 Giao diện thực chức tách từ thành công 60 3.4 Kết thử nghiệm, đánh giá 3.4.1 Một số ví dụ cụ thể Đánh giá độ đo tương tự hai văn dựa vào độ đo cosine Ví dụ 1: Văn (Text1): Trận mưa giông với cường độ mạnh kéo dài chiều 4/6 gây điện, khơng xanh, người đường bị gió quật ngã Nhiều bảng hiệu, mái che, xe đạp, xe máy phương tiện thơ sơ khác vỉa hè bị gió thổi tung Văn (Text2): Với phát triển mạnh mẽ Internet thương mại điện tử, ngày người ta tận dụng ưu điểm email để ứng dụng vào công việc kinh doanh Internet hình thức mang lại hiệu tốt ===> Nhận xét: Độ tương tự hai văn theo phương pháp cosine: Cosine(Text1, Text2)=0.1155625 Về mặt thực tế, văn nói tin tức dự báo thời tiết, văn nói phát triển Internet Hai nội dung hoàn toàn khác nhau, khơng có từ trùng khơng có mối liên hệ mặt ý nghĩa Còn theo thực nghiệm máy, có độ tương tự hai văn tính theo cơng thức cosine Cosine(Text1, Text2)= 0.1155625 Độ đo tương đối hợp lý hai văn có dùng số từ biểu diễn giống nhau, ví dụ từ “mạnh”,… 61 Hình 3-9 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd1) Ví dụ 2: Văn (Text1): Quần thể danh thắng Tràng An hướng đến Di sản Thế giới Tràng An nằm thuộc dãy núi đá vôi Tam Điệp, khảo sát nhà khảo cổ khoa học cho thấy, Tràng An có số lượng hang động phong phú với nhiều hang khô hang nước, tạo thành cụm với lượng thạch nhũ đa dạng từ lòng hang mọc lên, từ vòm hang rủ xuống, kết cấu thành nhiều hình thù kỳ lạ tuỳ theo sức tưởng tượng du khách Tại có khoảng 30 thung, thung tranh thuỷ mặc Sự nguyên sơ vùng đất với kiến tạo địa chất tạo nên thảm thực vật đa dạng chủng loại nơi trú ngụ, cư trú loài chim thú, "mái nhà" chung cho loài động vật sinh sống phát triển Đến với quần thể danh thắng Tràng An, du khách ngồi thuyền nhỏ bé theo nước xanh qua hang, lung linh, huyền ảo; leo lên tận đỉnh núi; tới thắp hương miếu mạo, đền, chùa… Hành trình hết khoảng 2-4 giờ, tạo cho du khách cảm giác thích thú, ngạc nhiên, ngỡ ngàng đến ngắm cảnh non - nước vùng đất này… Ngoài giá trị danh thắng, cảnh quan, bảo tồn sinh vật… Người ta thấy chứng tồn người tiền sử cách ngày khoảng 10.000 năm nơi đây, thời kỳ nhà 62 Đinh Tiền Lê tận dụng điều kiện lợi thiên nhiên vùng để định cư, sinh sống đưa giá trị văn hoá nơi vượt khỏi khu vực, có tầm ảnh hưởng lớn Khu du lịch sinh thái Tràng An nằm kề cận với Khu di tích, lịch sử văn hố Cố Hoa Lư Khu du lịch Tam Cốc - Bích Động vốn tiếng trước đó, tạo thành quần thể danh thắng, di tích lịch sử, du lịch sinh thái mang tầm cỡ Quốc gia, quốc tế Bên cạnh di sản văn hoá vật thể di sản văn hoá phi vật thể người dân vùng: Lễ hội Cố đô Hoa Lư, Lễ hội đền Thái Vi… Văn (Text2): Giá trị lịch sử Tràng An Năm 2012, nhà địa chất phát 64 hang mái đá vùng lõi Tràng An Qua điều tra, thám sát cho thấy, di tích khảo cổ hang động tiền sử nét bật vùng lõi khu di sản Cộng đồng dân cư tiền sử Tràng An định cư hang động mái đá, phân bố tập trung thung lũng đầm lầy núi đá vôi, chịu tác động to lớn biến đổi cảnh quan môi trường đợt biển tiến, biển thoái Cư dân tiền sử nơi người tiếp cận khai thác biển Việt Nam, sáng tạo tổ hợp công cụ lao động đá vơi, trì lâu dài kỹ nghệ ghè đẽo, sớm nảy sinh kỹ thuật cưa, mài; chế tạo sử dụng phổ biến đồ gốm Các chứng tích văn hố khảo cổ tiền sử Tràng An phong phú đa dạng, nguồn sử liệu vật thật minh chứng cho biến đổi đặc biệt kinh tế, văn hoá, xã hội cộng đồng dân cư nơi tác động thay đổi mơi trường núi đá vơi, biến động khí hậu cổ, mực nước biển vùng nhiệt đới gió mùa Đây chứng tích điển hình cho cho loại hình cư trú liên tục hang động trước, sau biển tiến Đặc trưng người Việt cổ Tràng An truyền thống khai thác sử dụng nhuyễn thể biển cạn, truyền thống săn bắt đa tạp, theo phổ rộng, săn bắt nhiều lồi, lồi vật khơng dẫn đến huỷ diệt bày đàn động vật Truyền thống chế tác sử dụng công cụ đá vôi, nảy sinh kỹ thuật mài, cưa kỹ thuật làm đồ gốm trồng trọt thung lũng đầy 63 lầy nét riêng độc đáo, làm nên giá trị bật tồn cầu quần thể di tích khảo cổ nơi Có thể nghĩ rằng, hệ thống di tích khảo cổ tiền sử Tràng An chứa đựng độc chí chứng đặc biệt truyền thống văn hoá văn minh tồn nhân loại Nhận xét: Hai văn có nội dung khơng hồn tồn giống có số từ bị lặp lại hai văn Theo thực nghiệm máy độ tương tự tính theo độ đo cosine hai văn bản, biểu diễn văn theo phương pháp Boolean Cosine(Text1,Text2) = 0.3512863 Tức là, hai có số điểm chung định Hình 3-10 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd2) Kết hợp tốn tách từ Ở hai ví dụ trên, tơi áp dụng đơn xử lý hai văn bản, sau áp dụng thuật tốn biểu diễn văn độ đo cosine để tính độ tương đồng hai văn Tuy nhiên hiệu đem lại chưa cao, ví dụ tiếp theo, tơi áp dụng thêm thuật tốn tách từ để nâng cao độ xác cho việc tính độ tương tự hai văn Để nâng cao tính áp dụng vào tốn kiểm tra trùng lặp cụ thể, ví dụ kiểm tra trùng lặp luận văn, trùng lặp tập lớn,… Chức chương trình bổ sung sau: 64 Một văn đưa vào kiểm tra với tập văn sẵn có sở liệu Chọn độ đo Cosine cho văn bản, sau kiểm tra xem văn trùng với văn khác sở liệu việc kiểm tra độ đo cosine văn đưa vào kiểm tra với văn sở liệu (nếu độ đo cosine lớn, tức độ trùng hai văn cao, ngược lại hai văn có độ đo cosine nhỏ, hai văn khác nhau) Ví dụ 3: Hình 3-11 Kết tính độ đo VB mẫu Hình 3-12 So sánh nội dung văn kiểm tra với văn CSDL 65 3.4.2 Kết thử nghiệm đánh giá Cách tiến hành Để đánh giá độ tương tự tài liệu, sử dụng hai phương pháp: - Phương pháp 1: Con người đánh giá Tập tài liệu lưu sở liệu tập tài liệu cần kiểm tra đọc nội dung đánh giá độ tương tự hai tài liệu theo cảm tính - Phương pháp 2: Thực nghiệm máy Kết thực nghiệm Kết cho thấy việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác, chấp nhận 3.4.3 Đánh giá Sau tiến hành thử nghiệm chương trình số ví dụ cụ thể, rút số nhận xét sau: - Trường hợp 1: Độ đo Cosine lớn (tiến gần tới 1), hai văn giống tương đối nhiều - Trường hợp 2: Độ đo Cosine nhỏ (tiến gần 0), hai văn khác hoàn toàn - Trường hợp 3: Sử dụng văn bản, sau thay số từ đồng nghĩa văn đó, nội dung biểu đạt khơng có thay đổi kiểm tra chương trình coi hai từ hai từ khác nhau, cho độ đo cosine khác 1.0 Chương trình hiệu với cặp văn giống nhiều, khác nhiều Tuy nhiên, nhiều trường hợp, chương trình cho kết khơng xác, chẳng hạn: Văn (Text1): Nó bảo cậu khơng đến? Văn (Text2): Nó đến cậu khơng bảo? ==>Kết Cosine(Text1, Text2)=1.0 66 Hai văn trên, từ giống thứ tự bị đảo lộn Ở văn thứ nhất, động từ “bảo”, văn thứ 2, động từ “đến” Xét mặt ý nghĩa ngôn ngữ tiếng Việt, hai câu khác chương trình đo cho Cosine 1.0 Đây điều luận văn chưa làm được, chương trình tính độ tương tự hai văn bản, nhiên lại chưa xét đến cấu trúc từ, từ loại từ,… 3.5 Kết luận chương Ở trên, luận văn đề xuất chương trình hỗ trợ việc phát chép văn dựa độ đo Cosine Tùy vào tình khác mà người sử dụng sử dụng module khác chương trình để áp dụng vào việc phát chép văn Mỗi phương pháp sử dụng chương trình có ưu nhược điểm riêng, nhược điểm loại trừ cách sử dụng phương pháp khác nhược điểm để thay Trong chương trình sử dụng ba phương pháp: Phương pháp tính độ tương đồng văn sử dụng độ đo Cosine, Phương pháp tính độ tương đồng văn theo chủ đề vàPhương pháp tính độ tương đồng văn dựa vào mạng ngữ nghĩa Wikipedia Qua thực nghiệm cho thấy, việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác, chấp nhận Ngồi ra, chương trình hỗ trợ việc phát chép văn chức chính: Nhập trực tiếp hai văn bản, Nhập hai văn từ file, Xử lý với văn kho liệu Xây dựng kho ngữ liệu Có thể nói, chức gần đáp ứng triệt để nhu cầu người dùng Như vậy, thấy ứng dụng bước đầu đáp ứng yêu cầu toán đặt giao diện ứng dụng dễ hiểu, thân thiện với người dùng 67 KẾT LUẬN Với vấn đề thực tiễn ứng dụng, luận văn xây dựng chương trình kiểm soát trùng lặp văn dựa vào ba phương pháp: Phương pháp tính độ tương đồng văn sử dụng độ đo Cosine, Phương pháp tính độ tương đồng văn theo chủ đề vàPhương pháp tính độ tương đồng văn dựa vào mạng ngữ nghĩa Wikipedia Qua thực nghiệm cho thấy, việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác Vì thời gian hạn chế nên tính tiện dụng chương trình chưa cao chương trình sử dụng lý thuyết áp dụng nhiều thực tế, lý thuyết xử lý văn bản, biểu diễn văn dạng không gian véc-tơ, áp dụng kỹ thuật tách từ sử dụng nhiều việc giải phức tạp ngôn ngữ tiếng Việt.Ứng dụng đáp ứng u cầu tốn đặt ra, phát triển thêm để trở thành ứng dụng tin cậy việc đánh giá độ tương đồng văn bản, áp dụng việc phòng chống đạo văn ngành giáo dục Do xét mặt lý thuyết, đồng thời áp dụng độ đo tương đồng cosine để kiểm tra trùng lặp văn Chương trình có bước tiến định, kết không thật trội chương trình tương tự khác với số liệu dùng để huấn luyện chưa chuẩn hóa hồn tồn kết hoàn toàn chấp nhận Qua chương trình này, em nhận thấy để tăng hiệu chương trình việc ứng dụng lý thuyết phải ứng dụng nhiều lý thuyết kết hợp với để tăng hiệu 68 HƯỚNG PHÁT TRIỂN Các hướng cải tiến chương trình: - Số lượng tài liệu mẫu nhiều hơn, đảm bảo độ xác cao - Số liệu tài liệu mẫu lấy vào cần chọn lọc xác, tránh trùng lặp kho tài liệu mẫu - Sử dụng phương pháp phân tích câu có mức độ xác - Sử dụng phương pháp tính độ tương đồng câu áp dụng vào tốn tóm tắt đa văn Các hướng nghiên cứu tương lai: - Bổ sung thêm chế kiểm tra từ đồng nghĩa để có kết phân tách xác - Nghiên cứu kỹ thuật gán nhãn cho từ loại để làm tăng hiệu cho việc tính độ tương tự văn - Nghiên cứu thêm thuật toán tính độ đo tương đồng văn để nâng hiệu kiểm tra - Nghiên cứu phương án tích hợp so sánh với văn online cho phát trùng lặp xác - Nghiên cứu khác văn đơn đa văn từ áp dụng phương pháp tính độ tương đồng câu vào tóm tắt đa văn 69 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1]Trần Cao Đệ (2007) Độ tương tự ngữ nghĩa tiềm ẩn để phát chép tài liệu 14, Vĩnh Phúc [2]Nguyễn Thanh Hùng (n.d.).(2010) Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia Tp.HCM Xem nội dung đầy đủ tại: http://123doc.org//document/3362954-huong-tiep-can-moi-trong-viec-tach-tu-dephan-loai-van-ban-tieng-viet-su-dung-giai-thuat-di-truyen-va-thong-ke-treninternet.htm [3]Trần Vũ Mai (2009) Tóm tắt văn dựa vào trích xuất câu Luận văn thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội [4]Trần Thị Oanh (2008) Mơ hình tách từ, gán nhãn từ loại hướng tích hợp cho tiếng Việt, Đại học Cơng nghệ, Đại học Quốc gia Hà Nội [5]Đồn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn bản, Đại học Công nghệ, Đại học Quốc gia Hà Nội [6]Lê Thanh Hương, Nguyễn Thái Phương (2009) “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” Bộ Khoa học Công nghệ, viện Công nghệ thông tin [7]Nguyễn Kiên Trường (2005) Tiếp xúc ngôn ngữ Việt Nam (In lần thứ nhất), NXB Khoa học Xã hội Tài liệu tiếng Anh: [8]D Hand, H Mannila, P.Smyth, Principles of Data Minning, MIT Press, Cambridge, MA, 2001 [9]Micheal Mohler and Rada Mihalcea, Text-to-text Semantic Similarity for Automatic for Computation Linguistics (EACL 2009), Athens, Greence, March 2009 [10]Rada Mihalcea, Word Sense Disambiguation, Encyclopedia of Machine Learning Springer, 2007 70 [11]Ravi Sinha and Rada Mihalcea, Unsuperviser Graph-based Word Sense DisambiguationUsing Measures of Word Semantic Similarity, in Proceeding of the IEEE Internation Conference on Sematic Computing (ICSC 2007), Irviner, CA, September 2007 Nguồn Internet: [12] Vietnamese Natural Language Processing (2016),Đặc trưng tiếng Việt, From website: http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu- nhien/thuat-toan-tach-tu-tokenizer/dhac-trung-cua-tieng-viet [13]Bút chì số (2013), Tìm hiểu mơ hình khơng gian vector,From website: http://butchiso.com/2013/10/tim-hieu-ve-mo-hinh-khong-gian-vector.html [14]Christian S Perone (2011),Machine Learning :: Text feature extraction (tf-idf) – Part I, From website: http://blog.christianperone.com/2011/09/machine-learningtext-feature-extraction-tf-idf-part-i/ [15]Wikipedia (2016), Xử lý ngôn ngữ tự nhiên http://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng%C3%B4n_ng%E1% BB%AF_t%E1%BB%B1_nhi%C3%AAn [16]Việt Unicode (2016), vnTokenizer - Tách từ tiếng Việt tự động From website: http://vietunicode.sourceforge.net/forum/viewtopic.php?t=241 71 ... 1.5.3 Các mơ hình liên quan 25 1.6 Độ tương đồng văn phương pháp tính độ tương đồng văn 27 1.6.1 Độ tương đồng 27 1.6.2 Độ tương đồng văn 27 1.6.3 Các phương pháp. .. Chương 1 :Các phương pháp đo độ tương đồng văn bản: Giới thiệu tổng quan lý thuyết xử lý văn bản, phương pháp biểu diễn văn bản, phương pháp tách từ tiếng Việt, toán kiểm soát trùng lặp văn dựa vào... chưa có nhiều người quan tâm tới vấn đề phát văn trùng lặp Với đề tài luận văn Nghiên cứu phương pháp đo độ tương đồng văn ứng dụng phát trùng lặp văn bản mong đem đến nhìn cho người đọc hướng
- Xem thêm -

Xem thêm: Nghiên cứu phương pháp đo độ tương đồng văn bản và ứng dụng hát triển sự trùng lặp giữa các văn bản , Nghiên cứu phương pháp đo độ tương đồng văn bản và ứng dụng hát triển sự trùng lặp giữa các văn bản

Gợi ý tài liệu liên quan cho bạn