Nghiên cứu phương pháp đo độ tương đồng văn bản và ứng dụng hát triển sự trùng lặp giữa các văn bản

77 140 0
Nghiên cứu phương pháp đo độ tương đồng văn bản và ứng dụng hát triển sự trùng lặp giữa các văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG BIỂU vii DANH MỤC HÌNH VẼ .viii MỞ ĐẦU CHƯƠNG CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG ĐỒNG VĂN BẢN 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.1 Xử lý ngôn ngữ tự nhiên - natural language processing - NLP 1.1.2 Các bước xử lý 1.2 Tiền xử lý văn 1.2.1 Bước phân tích từ vựng 1.2.2 Bước loại bỏ từ dừng 1.2.3 Bước loại bỏ từ có tần số thấp 1.2.4 Bước loại bỏ tiền tố hậu tố 1.3 Các phương pháp biểu diễn văn 1.3.1 Mô hình logic 1.3.2 Mơ hình phân tích cú pháp 11 1.3.3 Mơ hình khơng gian véc-tơ 12 1.3.4 Mô hình Boolean 14 1.3.5 Phương pháp dựa miền tần số từ khóa (TF-Term Frequency) 14 1.3.6 Phương pháp dựa nghịch đảo tần số văn (IDF-Inverse Document Frequency) 15 1.3.7 Phương pháp TFxIDF 15 1.4 Thuật toán Tokenizer 17 1.4.1 Đặc trưng tiếng Việt 18 1.4.2 Thuật toán tách từ 20 iii 1.5 Mô hình tách từ tiếng Việt 23 1.5.1 Khái quát tách từ tiếng Việt 23 1.5.2 Ý tưởng 24 1.5.3 Các mơ hình liên quan 25 1.6 Độ tương đồng văn phương pháp tính độ tương đồng văn 27 1.6.1 Độ tương đồng 27 1.6.2 Độ tương đồng văn 27 1.6.3 Các phương pháp tính độ tương đồng văn 28 1.7 Kết luận chương 37 CHƯƠNG HỆ THỐNG PHÁT HIỆN SỰ TRÙNG LẶP GIỮA CÁC VĂN BẢN 38 2.1 Các yêu cầu việc phát trùng lặp văn 38 2.2 Xây dựng chương trình tách từ Tokenizer 39 2.2.1 Bước 1: Tiền xử lý số liệu 40 2.2.2 Bước 2: Tách câu 42 2.2.3 Bước 3: Tách từ 43 2.2.4 Bước 4: Biểu diễn văn 45 2.2.5 Bước 5: Tính độ đo văn 46 2.3 Xây dựng chương trình tính độ tương tự độ đo Cosine 47 2.3.1 Module tiền xử lý văn 48 2.3.2 Module cập nhật thư viện từ 49 2.3.3 Module biểu diễn véc-tơ đặc trưng văn 49 2.3.4 Tính độ tương tự văn dựa vào độ đo Cosine 51 2.3.5 Xây dựng sở liệu mẫu 52 2.4 Kết luận chương 53 CHƯƠNG CHƯƠNG TRÌNH THỰC NGHIỆM VÀ KẾT QUẢ 54 3.1 Môi trường cài đặt thử nghiệm 54 3.2 Chuẩn bị liệu 54 3.3 Một số giao diện chương trình 55 3.3.1 Nhập trực tiếp hai văn 55 3.3.2 Nhập hai văn từ file 56 iv 3.3.3 Xử lý với văn kho liệu 58 3.3.4 Xây dựng kho ngữ liệu 59 3.4 Kết thử nghiệm, đánh giá 61 3.4.1 Một số ví dụ cụ thể 61 3.4.2 Kết thử nghiệm đánh giá 66 3.4.3 Đánh giá 66 3.5 Kết luận chương 67 KẾT LUẬN 68 HƯỚNG PHÁT TRIỂN 69 TÀI LIỆU THAM KHẢO 70 v DANH MỤC TỪ VIẾT TẮT Từ viết tắt NND Tiếng Anh Tiếng Việt Near-Duplicate Detection Phát tái văn gần trùng LTRD Local Text Reuse Detection Phát tái sử dụng văn cục SE Search Engine Máy tìm kiếm CSDL Cơ sở liệu VSM Vector Space Model Mơ hình khơng gian véc-tơ TF Term Frequency Miền tần số IDF Inverse Document Frequency Nghịch đảo miền tần số CRF Conditional random fields Xác suất ngẫu nhiên có điều kiện LM Longest Matching MM Maximal Matching LDA Latent Dirichlet Allocation WCG Wikipedia Category Craph PL Path Length LC Leacock & Chodorow TBL Tranformation – base Learning LRMM Left Right Maximum Matching vi DANH MỤC CÁC BẢNG BIỂU Bảng 1-1 Biểu diễn văn theo mơ hình logic Bảng 1-2 Biểu diễn văn theo mơ hình khơng gian véc-tơ 13 Bảng 1-3 Biểu diễn văn theo mơ hình Boolean 14 vii DANH MỤC HÌNH VẼ Hình 1-1 Mơ hình khơng gian véc-tơ theo biểu diễn Christian S Perone [13] 13 Hình 1-2 Mơ hình N-Gram 26 Hình 1-3 Tính độ tương đồng văn dựa vào chủ đề ẩn 31 Hình 1-4 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 33 Hình 2-1 Các yêu cầu việc phát chép văn 39 Hình 2-2 Cấu trúc chương trình phát chép văn 40 Hình 2-3 Mơ hình tách từ văn tiếng Việt 44 Hình 2-4 Tài liệu xếp hạng giá trị Cosine giảm dần 47 Hình 3-1 Giao diện chương trình 55 Hình 3-2 Giao diện cho phép nhập trực tiếp hai văn 56 Hình 3-3 Giao diện nhập hai văn từ file 57 Hình 3-4 Giao diện kết sau nhập hai văn từ file 57 Hình 3-5 Giao diện chức xử lý với kho liệu 58 Hình 3-6 Giao diện chức lưu trữ kho ngữ liệu 59 Hình 3-7 Giao diện thực chức tách từ 60 Hình 3-8 Giao diện thực chức tách từ thành công 60 Hình 3-9 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd1) 62 Hình 3-10 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd2) 64 Hình 3-11 Kết tính độ đo VB mẫu 65 Hình 3-12 So sánh nội dung văn kiểm tra với văn CSDL 65 viii MỞ ĐẦU Trong thời đại công nghệ số nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Ở quy mô rộng hơn, thư viện điện tử ngày nhiều, tài liệu phát hành Internet nhiều lần thư viện điện tử khác nhau, trang Web khác Làm để phát chép tài liệu theo nghĩa tiêu cực? Làm ngăn chặn việc chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề nghiên cứu từ khoảng 10 năm qua Hiện tại, có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay khơng Tập hợp tài liệu nguồn đóng – tức tài liệu tập hợp trước thư viện điện tử - mở, chẳng hạn tập tài liệu văn internet Đã có số nghiên cứu đề xuất phương pháp khác để xác định xem đoạn văn số tài liệu có nằm tài liệu hay khơng Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi (string matching) Tuy nhiên, phương pháp so khớp chuỗi có hiệu việc chép “ngun văn” Nó khơng thể phát chép có sửa đổi đơi chút thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn Tổng quan tình hình nghiên cứu Hiện tượng văn trùng lặp tượng phổ biến đời thường Các văn hay đoạn văn nhiều nguyên nhân thường bị chép lại, chúng xuất nhiều nguồn khác Các blogger thường lấy tin tức từ báo điện tử; người gửi thư thường trích dẫn phần hay tồn thư trước; sinh viên viết luận văn chép số phần từ luận văn năm trước… Vì nhiều lý khác mà người ta muốn tìm phát văn trùng Ví dụ hệ thống lưu trữ liệu, văn trùng lặp làm tốn tài nguyên lưu trữ mà giá trị thông tin lại mang lại không nhiều Hay tổ chức làm việc liên quan đến quyền tác giả, họ cần tìm văn (tác phẩm văn chương, báo khoa học,…) có sử dụng lại cách trái phép tác phẩm trước Chính vậy, người ta quan tâm nhiều đến vấn đề phát văn trùng lặp Bài toán phát văn trùng lặp tốn khó Nếu văn hoàn toàn trùng (bị chép hồn tồn, khơng thay đổi) cần phép kiểm tra đơn giản ta phát Tuy nhiên, phát văn trùng lặp vấn đề khó nhiều Các dạng trùng lặp vô đa dạng Một văn chép tồn hay phần Các văn chép bị thay đổi (thêm, xóa bị xáo trộn) nằm vị trí văn Văn sau chép khác với văn cũ vài phần nhỏ Chính đa dạng việc chép văn mà có giải thuật hay kỹ thuật đo cách xác giống văn Tính cấp thiết, ý nghĩa khoa học thực tiễn đề tài Xuất phát từ trạng trùng lặp văn diễn cách ạt phân tích trên, tơi chọn đề tài “Nghiên cứu phương pháp đo độ tương đồng văn ứng dụng vào phát trùng lặp văn bản”làm đề tài nghiên cứu luận văn tốt nghiệp Trong báo cáo luận văn, tập trung trình bày nghiên cứu kiến thức xử lý văn bản, kết hợp nhiều phương pháp, có so sánh, đối chứng để tìm phương pháp phát trùng lặp văn Triển khai bước phân tích, xử lý để xây dựng chương trình phát chép văn bản, với bước kết hợp kỹ thuật mới, góp phần nâng cao hiệu việc phát thủ thuật tinh vi chép lại văn bản, giúp giảm áp lực vấn đề lưu trữ dư thừa, đồng thời bảo vệ nguồn tri thức quý giá bị chép cách công khai, diễn hàng ngày, hàng Bố cục luận văn Luận văn phần Mở đầu kết luận, bao gồm chương sau: Chương 1:Các phương pháp đo độ tương đồng văn bản: Giới thiệu tổng quan lý thuyết xử lý văn bản, phương pháp biểu diễn văn bản, phương pháp tách từ tiếng Việt, toán kiểm soát trùng lặp văn dựa vào thuật tốn tính độ tương tự hai văn Chương 2:Hệ thống phát trùng lặp văn bản:Áp dụng lý thuyết tìm hiểu chương vào toán cụ thể, giải toán kiểm sốt trùng lặp văn Chương 3: Chương trình thực nghiệm kết quả: Xây dựng module chính, thuật tốn, cài đặt trình bày kết thử nghiệm Khảo sát thực trạng ứng dụng phát trùng lặp văn Vấn đề phát văn trùng lặp vấn đề Trên giới, nhà nghiên cứu quan tâm đến vấn đề từ lâu Trong khoảng 10 năm trở lại đây, số lượng công trình nghiên cứu liên quan đến vấn đề nhiều Các kết nghiên cứu lĩnh vực phát văn trùng lặp áp dụng cho mục đích khác như: phân cụm văn (document clustering), truy xuất liệu có cấu trúc, phát SPAM… Tuy mới, Việt Nam chưa có nhiều người quan tâm tới vấn đề phát văn trùng lặp Với đề tài luận văn “Nghiên cứu phương pháp đo độ tương đồng văn ứng dụng phát trùng lặp văn bản” mong đem đến nhìn cho người đọc hướng tiếp cận nhằm giải vấn đề mẻ cấp thiết Giải toán Các kỹ thuật phát văn trùng lặp tồn phong phú, có nét chung bản: chúng chia văn thành đoạn nhỏ, dùng phép biến đổi (thường dùng hàm băm) để lấy “chữ ký” đoạn văn “Chữ ký” tồn văn xây dựng từ “chữ ký” phận Phép so sánh hai văn tiến hành việc đối sánh hai “chữ ký” văn Mức độ sai khác hai “chữ ký” thước đo cho sai khác hai văn Nói chung, kết so sánh xác, “chữ ký” văn phải biểu diễn nội dung văn nhiều Hiện có hai hướng tiếp cận việc phát văn trùng lặp: Phát văn gần trùng (Near-Duplicate Detection –NND) phát tái sử dụng văn cục (Local Text Reuse Detection – LTRD) Đây hai số phương pháp phát văn trùng lặp mà nhà nghiên cứu đưa Chúng kiểm nghiệm cho độ xác cao nhiều loại văn Ý tưởng phương pháp NND sử dụng hàm băm văn thành giá trị băm tương ứng với văn Giá trị băm “chữ ký” đại diện cho văn Các giá trị băm gọi dấu vân tay văn Hàm băm sử dụng simhash Đây hàm băm đặc biệt có tính chất với văn gần trùng dấu vân tay tương ứng chúng sai khác số lượng nhỏ bit Với tính chất này, việc đo độ giống hai văn đơn giản xác định số bit khác hai dấu vân tay tương ứng Khác với NND, LTRD, “chữ ký” văn tập dấu vân tay Mỗi dấu vân tay giá trị băm đoạn văn Việc so sánh văn thay so sánh tập dấu vân tay tương ứng Số lượng dấu vân tay chung tập định độ giống văn Điểm mạnh LTRD việc xác định mối quan hệ văn bản, phương pháp xác đoạn văn chung văn Để giải vấn đề quy mô tập văn SE (Search Engine), phương pháp phát văn trùng khác có cách làm khác nhau, tuỳ thuộc vào chất phương pháp Nhưng nhìn chung, phương pháp tìm cách tổ chức việc lưu trữ “chữ ký” văn cách tối ưu để cho với “chữ ký” văn số lượng “chữ ký” văn có tập chọn để so sánh Hình 3-3 Giao diện nhập hai văn từ file Đầu tiên, muốn chọn hai file văn nào, ta click “Browser” sau chọn đường dẫn đến file cần nhập Sau đó, tồn nội dung hai file hiển thị phần nội dung file 1, nội dung file Tiếp theo chọn phương pháp biểu diễn văn Cuối nhấn nút “Tính độ tương tự để xem kết Sim(document1, document2) Hình 3-4 Giao diện kết sau nhập hai văn từ file 57 3.3.3 Xử lý với văn kho liệu Phần có sử dụng mã nguồn mở từ dự án nghiên cứu khác, mã nguồn mở có sử dụng thư viện tách từ tiếng Việt dự án VLSP Đây project mã nguồn mở, có độ xác mặt tách từ tiếng Việt cao, nên sử dụng để phục vụ vào mục đích nâng cao hiệu chương trình Giao diện chức sau: Hình 3-5 Giao diện chức xử lý với kho liệu Nhập đường dẫn file văn cần đánh giá, chọn “Browser”, chọn đường dẫn đến file cần mở Lưu ý file văn định dạng, ta cần xóa bỏ định dạng file trước tiến hành xử lý file văn Sau xử lý loại bỏ định danh, ta chọn vào nút “Tách từ”, nút gọi đến thư viện dự án VLSP, sau trả cho ta văn tách từ ghép danh từ Chọn phương pháp biểu diễn văn bước trên, chọn ngưỡng tương đồng văn cần đánh giá với tập văn mẫu có sở liệu 58 Cuối cùng, ta chọn “Kiểm tra chép” để xem kết quả, văn có độ tương tự với văn đánh giá lớn ngưỡng cho phép, đưa văn đó, độ tương đồng chúng 3.3.4 Xây dựng kho ngữ liệu Giao diện chức này: Hình 3-6 Giao diện chức lưu trữ kho ngữ liệu Khi sở liệu lớn, thư viện từ ta phong phú, độ xác việc tính độ tương tự cao Nhập vào đường dẫn file liệu cách chọn “Browser”, nội dung văn đổ richbox Sau ta sử dụng thuật toán tách từ để tách file liệu vừa nhập vào 59 Hình 3-7 Giao diện thực chức tách từ Nhấn “Save to database” để lưu vào sở liệu, file liệu nhập vào có độ tương tự nhỏ độ tương tự cho phép 0.3 thơng báo “Thêm liệu thành công” Ngược lại, đưa thơng báo “File bạn muốn lưu trữ có nội dung gần trùng với file sở liệu” Nhấn “Reset”, hệ thống cho phép nhập lại file Nhấn “Exit”, khỏi hệ thống Hình 3-8 Giao diện thực chức tách từ thành công 60 3.4 Kết thử nghiệm, đánh giá 3.4.1 Một số ví dụ cụ thể Đánh giá độ đo tương tự hai văn dựa vào độ đo cosine Ví dụ 1: Văn (Text1): Trận mưa giông với cường độ mạnh kéo dài chiều 4/6 gây điện, khơng xanh, người đường bị gió quật ngã Nhiều bảng hiệu, mái che, xe đạp, xe máy phương tiện thô sơ khác vỉa hè bị gió thổi tung Văn (Text2): Với phát triển mạnh mẽ Internet thương mại điện tử, ngày người ta tận dụng ưu điểm email để ứng dụng vào cơng việc kinh doanh Internet hình thức mang lại hiệu tốt ===> Nhận xét: Độ tương tự hai văn theo phương pháp cosine: Cosine(Text1, Text2)=0.1155625 Về mặt thực tế, văn nói tin tức dự báo thời tiết, văn nói phát triển Internet Hai nội dung hồn tồn khác nhau, khơng có từ trùng khơng có mối liên hệ mặt ý nghĩa Còn theo thực nghiệm máy, có độ tương tự hai văn tính theo cơng thức cosine Cosine(Text1, Text2)= 0.1155625 Độ đo tương đối hợp lý hai văn có dùng số từ biểu diễn giống nhau, ví dụ từ “mạnh”,… 61 Hình 3-9 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd1) Ví dụ 2: Văn (Text1): Quần thể danh thắng Tràng An hướng đến Di sản Thế giới Tràng An nằm thuộc dãy núi đá vôi Tam Điệp, khảo sát nhà khảo cổ khoa học cho thấy, Tràng An có số lượng hang động phong phú với nhiều hang khô hang nước, tạo thành cụm với lượng thạch nhũ đa dạng từ lòng hang mọc lên, từ vòm hang rủ xuống, kết cấu thành nhiều hình thù kỳ lạ tuỳ theo sức tưởng tượng du khách Tại có khoảng 30 thung, thung tranh thuỷ mặc Sự nguyên sơ vùng đất với kiến tạo địa chất tạo nên thảm thực vật đa dạng chủng loại nơi trú ngụ, cư trú loài chim thú, "mái nhà" chung cho loài động vật sinh sống phát triển Đến với quần thể danh thắng Tràng An, du khách ngồi thuyền nhỏ bé theo nước xanh qua hang, lung linh, huyền ảo; leo lên tận đỉnh núi; tới thắp hương miếu mạo, đền, chùa… Hành trình hết khoảng 2-4 giờ, tạo cho du khách cảm giác thích thú, ngạc nhiên, ngỡ ngàng đến ngắm cảnh non - nước vùng đất này… Ngoài giá trị danh thắng, cảnh quan, bảo tồn sinh vật… Người ta thấy chứng tồn người tiền sử cách ngày khoảng 10.000 năm nơi đây, thời kỳ nhà 62 Đinh Tiền Lê tận dụng điều kiện lợi thiên nhiên vùng để định cư, sinh sống đưa giá trị văn hoá nơi vượt khỏi khu vực, có tầm ảnh hưởng lớn Khu du lịch sinh thái Tràng An nằm kề cận với Khu di tích, lịch sử văn hố Cố Hoa Lư Khu du lịch Tam Cốc - Bích Động vốn tiếng trước đó, tạo thành quần thể danh thắng, di tích lịch sử, du lịch sinh thái mang tầm cỡ Quốc gia, quốc tế Bên cạnh di sản văn hoá vật thể di sản văn hoá phi vật thể người dân vùng: Lễ hội Cố đô Hoa Lư, Lễ hội đền Thái Vi… Văn (Text2): Giá trị lịch sử Tràng An Năm 2012, nhà địa chất phát 64 hang mái đá vùng lõi Tràng An Qua điều tra, thám sát cho thấy, di tích khảo cổ hang động tiền sử nét bật vùng lõi khu di sản Cộng đồng dân cư tiền sử Tràng An định cư hang động mái đá, phân bố tập trung thung lũng đầm lầy núi đá vôi, chịu tác động to lớn biến đổi cảnh quan mơi trường đợt biển tiến, biển thối Cư dân tiền sử nơi người tiếp cận khai thác biển Việt Nam, sáng tạo tổ hợp công cụ lao động đá vơi, trì lâu dài kỹ nghệ ghè đẽo, sớm nảy sinh kỹ thuật cưa, mài; chế tạo sử dụng phổ biến đồ gốm Các chứng tích văn hoá khảo cổ tiền sử Tràng An phong phú đa dạng, nguồn sử liệu vật thật minh chứng cho biến đổi đặc biệt kinh tế, văn hoá, xã hội cộng đồng dân cư nơi tác động thay đổi môi trường núi đá vơi, biến động khí hậu cổ, mực nước biển vùng nhiệt đới gió mùa Đây chứng tích điển hình cho cho loại hình cư trú liên tục hang động trước, sau biển tiến Đặc trưng người Việt cổ Tràng An truyền thống khai thác sử dụng nhuyễn thể biển cạn, truyền thống săn bắt đa tạp, theo phổ rộng, săn bắt nhiều loài, loài vật khơng dẫn đến huỷ diệt bày đàn động vật Truyền thống chế tác sử dụng công cụ đá vôi, nảy sinh kỹ thuật mài, cưa kỹ thuật làm đồ gốm trồng trọt thung lũng đầy 63 lầy nét riêng độc đáo, làm nên giá trị bật toàn cầu quần thể di tích khảo cổ nơi Có thể nghĩ rằng, hệ thống di tích khảo cổ tiền sử Tràng An chứa đựng độc chí chứng đặc biệt truyền thống văn hoá văn minh tồn nhân loại Nhận xét: Hai văn có nội dung khơng hồn tồn giống có số từ bị lặp lại hai văn Theo thực nghiệm máy độ tương tự tính theo độ đo cosine hai văn bản, biểu diễn văn theo phương pháp Boolean Cosine(Text1,Text2) = 0.3512863 Tức là, hai có số điểm chung định Hình 3-10 Kết thử nghiệm tính độ đo cosine hai đoạn văn (vd2) Kết hợp toán tách từ Ở hai ví dụ trên, tơi áp dụng đơn xử lý hai văn bản, sau áp dụng thuật toán biểu diễn văn độ đo cosine để tính độ tương đồng hai văn Tuy nhiên hiệu đem lại chưa cao, ví dụ tiếp theo, tơi áp dụng thêm thuật tốn tách từ để nâng cao độ xác cho việc tính độ tương tự hai văn Để nâng cao tính áp dụng vào tốn kiểm tra trùng lặp cụ thể, ví dụ kiểm tra trùng lặp luận văn, trùng lặp tập lớn,… Chức chương trình bổ sung sau: 64 Một văn đưa vào kiểm tra với tập văn sẵn có sở liệu Chọn độ đo Cosine cho văn bản, sau kiểm tra xem văn trùng với văn khác sở liệu việc kiểm tra độ đo cosine văn đưa vào kiểm tra với văn sở liệu (nếu độ đo cosine lớn, tức độ trùng hai văn cao, ngược lại hai văn có độ đo cosine nhỏ, hai văn khác nhau) Ví dụ 3: Hình 3-11 Kết tính độ đo VB mẫu Hình 3-12 So sánh nội dung văn kiểm tra với văn CSDL 65 3.4.2 Kết thử nghiệm đánh giá Cách tiến hành Để đánh giá độ tương tự tài liệu, sử dụng hai phương pháp: - Phương pháp 1: Con người đánh giá Tập tài liệu lưu sở liệu tập tài liệu cần kiểm tra đọc nội dung đánh giá độ tương tự hai tài liệu theo cảm tính - Phương pháp 2: Thực nghiệm máy Kết thực nghiệm Kết cho thấy việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác, chấp nhận 3.4.3 Đánh giá Sau tiến hành thử nghiệm chương trình số ví dụ cụ thể, tơi rút số nhận xét sau: - Trường hợp 1: Độ đo Cosine lớn (tiến gần tới 1), hai văn giống tương đối nhiều - Trường hợp 2: Độ đo Cosine nhỏ (tiến gần 0), hai văn khác hoàn toàn - Trường hợp 3: Sử dụng văn bản, sau thay số từ đồng nghĩa văn đó, nội dung biểu đạt khơng có thay đổi kiểm tra chương trình coi hai từ hai từ khác nhau, cho độ đo cosine khác 1.0 Chương trình hiệu với cặp văn giống nhiều, khác nhiều Tuy nhiên, nhiều trường hợp, chương trình cho kết khơng xác, chẳng hạn: Văn (Text1): Nó bảo cậu khơng đến? Văn (Text2): Nó đến cậu khơng bảo? ==>Kết Cosine(Text1, Text2)=1.0 66 Hai văn trên, từ giống thứ tự bị đảo lộn Ở văn thứ nhất, động từ “bảo”, văn thứ 2, động từ “đến” Xét mặt ý nghĩa ngôn ngữ tiếng Việt, hai câu khác chương trình đo cho Cosine 1.0 Đây điều luận văn chưa làm được, chương trình tính độ tương tự hai văn bản, nhiên lại chưa xét đến cấu trúc từ, từ loại từ,… 3.5 Kết luận chương Ở trên, luận văn đề xuất chương trình hỗ trợ việc phát chép văn dựa độ đo Cosine Tùy vào tình khác mà người sử dụng sử dụng module khác chương trình để áp dụng vào việc phát chép văn Mỗi phương pháp sử dụng chương trình có ưu nhược điểm riêng, nhược điểm loại trừ cách sử dụng phương pháp khác khơng có nhược điểm để thay Trong chương trình sử dụng ba phương pháp: Phương pháp tính độ tương đồng văn sử dụng độ đo Cosine, Phương pháp tính độ tương đồng văn theo chủ đề vàPhương pháp tính độ tương đồng văn dựa vào mạng ngữ nghĩa Wikipedia Qua thực nghiệm cho thấy, việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác, chấp nhận Ngồi ra, chương trình hỗ trợ việc phát chép văn chức chính: Nhập trực tiếp hai văn bản, Nhập hai văn từ file, Xử lý với văn kho liệu Xây dựng kho ngữ liệu Có thể nói, chức gần đáp ứng triệt để nhu cầu người dùng Như vậy, thấy ứng dụng bước đầu đáp ứng yêu cầu toán đặt giao diện ứng dụng dễ hiểu, thân thiện với người dùng 67 KẾT LUẬN Với vấn đề thực tiễn ứng dụng, luận văn xây dựng chương trình kiểm sốt trùng lặp văn dựa vào ba phương pháp: Phương pháp tính độ tương đồng văn sử dụng độ đo Cosine, Phương pháp tính độ tương đồng văn theo chủ đề vàPhương pháp tính độ tương đồng văn dựa vào mạng ngữ nghĩa Wikipedia Qua thực nghiệm cho thấy, việc kiểm tra độ tương tự văn dựa vào độ đo cosine cài đặt thử nghiệm máy đem lại kết tương đối xác Vì thời gian hạn chế nên tính tiện dụng chương trình chưa cao chương trình sử dụng lý thuyết áp dụng nhiều thực tế, lý thuyết xử lý văn bản, biểu diễn văn dạng không gian véc-tơ, áp dụng kỹ thuật tách từ sử dụng nhiều việc giải phức tạp ngôn ngữ tiếng Việt.Ứng dụng đáp ứng yêu cầu tốn đặt ra, phát triển thêm để trở thành ứng dụng tin cậy việc đánh giá độ tương đồng văn bản, áp dụng việc phòng chống đạo văn ngành giáo dục Do xét mặt lý thuyết, đồng thời áp dụng độ đo tương đồng cosine để kiểm tra trùng lặp văn Chương trình có bước tiến định, kết khơng thật trội chương trình tương tự khác với số liệu dùng để huấn luyện chưa chuẩn hóa hồn tồn kết hồn tồn chấp nhận Qua chương trình này, em nhận thấy để tăng hiệu chương trình việc ứng dụng lý thuyết phải ứng dụng nhiều lý thuyết kết hợp với để tăng hiệu 68 HƯỚNG PHÁT TRIỂN Các hướng cải tiến chương trình: - Số lượng tài liệu mẫu nhiều hơn, đảm bảo độ xác cao - Số liệu tài liệu mẫu lấy vào cần chọn lọc xác, tránh trùng lặp kho tài liệu mẫu - Sử dụng phương pháp phân tích câu có mức độ xác - Sử dụng phương pháp tính độ tương đồng câu áp dụng vào tốn tóm tắt đa văn Các hướng nghiên cứu tương lai: - Bổ sung thêm chế kiểm tra từ đồng nghĩa để có kết phân tách xác - Nghiên cứu kỹ thuật gán nhãn cho từ loại để làm tăng hiệu cho việc tính độ tương tự văn - Nghiên cứu thêm thuật tốn tính độ đo tương đồng văn để nâng hiệu kiểm tra - Nghiên cứu phương án tích hợp so sánh với văn online cho phát trùng lặp xác - Nghiên cứu khác văn đơn đa văn từ áp dụng phương pháp tính độ tương đồng câu vào tóm tắt đa văn 69 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1]Trần Cao Đệ (2007) Độ tương tự ngữ nghĩa tiềm ẩn để phát chép tài liệu 14, Vĩnh Phúc [2]Nguyễn Thanh Hùng (n.d.).(2010) Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia Tp.HCM Xem nội dung đầy đủ tại: http://123doc.org//document/3362954-huong-tiep-can-moi-trong-viec-tach-tu-dephan-loai-van-ban-tieng-viet-su-dung-giai-thuat-di-truyen-va-thong-ke-treninternet.htm [3]Trần Vũ Mai (2009) Tóm tắt văn dựa vào trích xuất câu Luận văn thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội [4]Trần Thị Oanh (2008) Mơ hình tách từ, gán nhãn từ loại hướng tích hợp cho tiếng Việt, Đại học Cơng nghệ, Đại học Quốc gia Hà Nội [5]Đoàn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn bản, Đại học Công nghệ, Đại học Quốc gia Hà Nội [6]Lê Thanh Hương, Nguyễn Thái Phương (2009) “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” Bộ Khoa học Công nghệ, viện Công nghệ thông tin [7]Nguyễn Kiên Trường (2005) Tiếp xúc ngôn ngữ Việt Nam (In lần thứ nhất), NXB Khoa học Xã hội Tài liệu tiếng Anh: [8]D Hand, H Mannila, P.Smyth, Principles of Data Minning, MIT Press, Cambridge, MA, 2001 [9]Micheal Mohler and Rada Mihalcea, Text-to-text Semantic Similarity for Automatic for Computation Linguistics (EACL 2009), Athens, Greence, March 2009 [10]Rada Mihalcea, Word Sense Disambiguation, Encyclopedia of Machine Learning Springer, 2007 70 [11]Ravi Sinha and Rada Mihalcea, Unsuperviser Graph-based Word Sense DisambiguationUsing Measures of Word Semantic Similarity, in Proceeding of the IEEE Internation Conference on Sematic Computing (ICSC 2007), Irviner, CA, September 2007 Nguồn Internet: [12] Vietnamese Natural Language Processing (2016),Đặc trưng tiếng Việt, From website: http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu- nhien/thuat-toan-tach-tu-tokenizer/dhac-trung-cua-tieng-viet [13]Bút chì số (2013), Tìm hiểu mơ hình khơng gian vector,From website: http://butchiso.com/2013/10/tim-hieu-ve-mo-hinh-khong-gian-vector.html [14]Christian S Perone (2011),Machine Learning :: Text feature extraction (tf-idf) – Part I, From website: http://blog.christianperone.com/2011/09/machine-learningtext-feature-extraction-tf-idf-part-i/ [15]Wikipedia (2016), Xử lý ngôn ngữ tự nhiên http://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng%C3%B4n_ng%E1% BB%AF_t%E1%BB%B1_nhi%C3%AAn [16]Việt Unicode (2016), vnTokenizer - Tách từ tiếng Việt tự động From website: http://vietunicode.sourceforge.net/forum/viewtopic.php?t=241 71 ... 1.5.3 Các mơ hình liên quan 25 1.6 Độ tương đồng văn phương pháp tính độ tương đồng văn 27 1.6.1 Độ tương đồng 27 1.6.2 Độ tương đồng văn 27 1.6.3 Các phương pháp. .. Chương 1 :Các phương pháp đo độ tương đồng văn bản: Giới thiệu tổng quan lý thuyết xử lý văn bản, phương pháp biểu diễn văn bản, phương pháp tách từ tiếng Việt, toán kiểm soát trùng lặp văn dựa vào... chưa có nhiều người quan tâm tới vấn đề phát văn trùng lặp Với đề tài luận văn Nghiên cứu phương pháp đo độ tương đồng văn ứng dụng phát trùng lặp văn bản mong đem đến nhìn cho người đọc hướng

Ngày đăng: 22/03/2018, 18:57

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan