Báo cáo tìm các tập tài liệu tương tự bigdata

Thông tin tài liệu

BÁO CÁO môn Khai phá tập dữ liệu lớn của đại học Khoa học tự nhiên. Sử dụng các quy trình Phương pháp Shinging, Minhashing, Locality Sensitive Hashing, khái niệm của độ đo Jaccard. Đề tài xác định độ tương tự của văn bản với các văn bản khác trong một tập tài liệu lớn, một trong những ứng dụng của Bigdata

ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI KHOA TOÁN – CƠ – TIN HỌC _ BÁO CÁO NHẬP MÔN KHAI PHÁ CÁC TẬP DỮ LIỆU LỚN ĐỀ TÀI TÌM CÁC TẬP DỮ LIỆU TƯƠNG TỰ Teacher: Cao Văn Chung Students: Lương Thị Thu Hương - 19000439 Ngô Phương Thảo - 19000488 MỤC LỤC MỞ ĐẦU CHƯƠNG I : TỔNG QUAN Bài tốn tìm kiếm văn tương tự tập văn lớn Ý nghĩa việc tìm tập liệu tương tự Tương tự Jaccard CHƯƠNG II : PHƯƠNG PHÁP SHINGLING Giới thiệu k-Shingles Chọn kích thước Shingle Hashing Shingles Shingles xây dựng từ Words CHƯƠNG III : PHƯƠNG PHÁP MINHASHING 10 Giới thiệu 10 Thuật toán MinHash 10 Sự giống Minhashing Jaccard 11 Minhash Signatures 12 CHƯƠNG IV : PHƯƠNG PHÁP LOCALITY SENSITIVE HASHING 13 Giới thiệu 13 Phương pháp LSH cho Minhash Signatures 13 Phân tích phương pháp LSH 14 CHƯƠNG V : TỔNG KẾT 16 TÀI LIỆU THAM KHẢO 17 MỞ ĐẦU Trước đây, biết đến liệu có cấu trúc (structure data) Ngày nay, với kết hợp liệu internet, xuất dạng liệu khác Big data (Dữ liệu lớn) Dữ liệu từ nguồn như: hồ sơ hành chính, giao dịch điện tử, dịng trạng thái, chia sẻ hình ảnh, bình luận, tin nhắn chúng ta, nói cách khác chúng liệu sản sinh qua q trình chia sẻ thơng tin trực tuyến liên tục người sử dụng Dữ liệu lớn đề cập đến liệu thông tin mà xử lý xử lý thông qua hệ thống phần mềm truyền thống Dữ liệu lớn liệu có cấu trúc phi cấu trúc lớn cần xử lý kỹ thuật phân tích nâng cao kỹ thuật trừu tượng để khám phá mẫu ẩn tìm mối tương quan chưa biết giúp cải thiện tiến trình đưa định Một vấn đề khai thác liệu lớn khám phá liệu để tìm mục tương tự với Trong thời đại công nghệ số nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Vậy phải làm để ngăn chặn vấn nạn để chúng không trở nên ngày tệ hơn? Hiện có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay không Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi, thực có hiệu việc chép “nguyên văn” Trong báo cáo này, chúng em trình bày phương pháp để tìm tập liệu tương tự Cụ thể tìm kiếm văn tương tự tập văn có khối lượng liệu lớn CHƯƠNG I : TỔNG QUAN Bài tốn tìm kiếm văn tương tự tập văn lớn Tìm mục tương tự liệu vấn đề với khai phá liệu Phương pháp Shingling sử dụng để giải vấn đề tìm tài liệu, văn bản, hình ảnh âm tương tự (gọi chung tài liệu), dựa tập liệu lớn Sau đó, liệu lớn nén dựa mức độ giống chúng phân biệt với đối tác nén chúng cách sử dụng Min Hashing Nếu muốn tránh so sánh tất tài liệu với so sánh tài liệu có xác suất cao trùng lặp nên sử dụng phương pháp Locality-Sensitive Hashing (LSH) Trong báo cáo này, chúng em trình bày phương pháp sử dụng Locality Sensitive Hashing để tìm kiếm văn tương tự tập văn Phương pháp thực qua ba bước Bước Shingling, bước chuyển đổi tập liệu văn thiết lập đại diện văn ID, sau đến bước Min Hashing chuyển đổi tập hợp liệu lớn thành signatures giữ tính chất đặc trưng ban đầu tập liệu Bước cuối sử dụng phương pháp Locality-Sensitive Hashing để tập trung so sánh cặp signatures trùng lặp cho kết với xác suất cao Ý nghĩa việc tìm tập liệu tương tự Ban đầu, xem xét số vấn đề khai thác liệu phù hợp với mơ hình khai thác cho tập hợp tương tự Chúng ta xem trang web dạng tập hợp từ chứa đó, hai trang có nhóm từ giống nhau, chúng chủ đề Ví dụ: Mọi người tạo hồ sơ liệu họ nhiều trang web khác Google, Amazon, Facebook, muốn biết hai ghi đề cập đến cá nhân nhu cầu làm phát sinh vấn đề gọi giải thực thể, xác định tập hợp ghi đề cập đến cá nhân Để xem vấn đề, nhiều trang web yêu cầu số điện thoại bạn cung cấp số điện thoại cố định trang web, số điện thoại di động bạn trang web khác, không cung cấp số trang web thứ ba nhập sai số bạn trang web thứ tư Tuy nhiên vượt qua lỗi cách coi ghi tập hợp cặp giá trị thuộc tính Các ghi có cặp giá trị thuộc tính tương tự khơng giống hệt đại diện cho cá nhân ghi hợp để kết hợp thông tin chúng Chúng ta tập trung vào ứng dụng quan trọng cụ thể, tìm tài liệu tương tự mặt từ vựng sưu tập lớn tài liệu chẳng hạn web Các trang web phản chiếu thường gần giống nhau, chúng khác thông tin trang chủ trang liên kết đến trang phản chiếu khác Các cơng cụ tìm kiếm sử dụng kỹ thuật giống kỹ thuật mà học để chúng không hiển thị nhiều số trang web nhân Một ứng dụng khác việc tìm kiếm tài liệu tương tự mặt từ vựng tìm kiếm văn đạo văn Ví dụ người gửi thư rác lấy trang web bạn, cung cấp cho trang URL đặt quảng cáo xung quanh Người đạo văn thơng minh lấy phần tài liệu đạo văn, xếp lại phần thay đổi từ Chúng ta muốn tìm thấy cặp tài liệu sưu tập lớn web mà không cần phải so sánh tất cặp tài liệu Hay vài ứng dụng khác liên quan đến trang web Google News tổng hợp câu chuyện Một báo viết Associated Press phân phát cho hàng nghìn tờ báo trang tin tức trực tuyến Mỗi người thực sửa đổi, cắt ngắn câu chuyện, bao quanh quảng cáo… Điều quan trọng người tổng hợp nhận hai trang web nói đến câu chuyện chúng đến từ gốc chúng sửa đổi đáng kể Tương tự Jaccard Để tiếp cận toán, cần tập trung vào khái niệm độ tương tự văn tập liệu văn Một tài liệu đại diện mục tập liệu văn lớn giống tài liệu phụ thuộc vào giao điểm mục Dựa điều này, ta tìm kiếm mục gần với xem Để phân tích tương đồng này, chúng em phân tích điều tra dựa Tương tự Jaccard Độ giống Jaccard hai tập hợp tỷ lệ giá trị giao điểm tập hợp với giá trị liên hợp Cụ thể, độ tương tự Jaccard tập S T thể dạng SIM(S,T), tính theo cơng thức sau: S ∩T SIM(S,T) = S ∪ T Tức tỷ số kích thước giao điểm S T với kích thước giao hội chúng Khía cạnh tương tự văn mà đề cập tương đồng mức độ ký tự văn giống ý nghĩa văn Đó lý nên xét tất ký tự có tài liệu Tìm kiếm điểm tương đồng văn có ứng dụng khác nhau, số ứng dụng bao gồm tìm kiếm văn lặp lại, văn tương tự phát đạo văn Ví dụ: Nếu có hai câu từ tóm tắt giấy: India is one of the epicentres of the global diabetes mellitus pandemic Diabetes mellitus occurs commonly in the older patient and is frequently undiagnosed Vì vậy, từ khơng dừng tài liệu là: {'diabetes', 'epicentres', 'global', 'india', 'mellitus', 'one', 'pandemic'} {'commonly', 'diabetes', 'frequently', 'mellitus', 'occurs', 'older', 'patient', 'undiagnosed'} Có hai từ chung (diabetes, mellitus) tổng cộng có 13 từ Vậy số tương tự Jaccard hai tài liệu 2/13 = 15% CHƯƠNG II : PHƯƠNG PHÁP SHINGLING Giới thiệu Cách hiệu để biểu diễn tài liệu dạng tập hợp, với mục đích xác định tài liệu tương tự mặt từ vựng xây dựng từ tài liệu tập hợp chuỗi ngắn xuất Nếu làm vậy, tài liệu chia sẻ phần ngắn câu chí cụm từ có nhiều thành phần chung tập hợp chúng, câu xuất theo thứ tự khác hai tài liệu Một phương pháp hiệu để xác định tài liệu văn tương tự Shingling Trong phương pháp này, tài liệu hiển thị dạng Có nghĩa tạo cách sử dụng tài liệu Các bao gồm chuỗi ngắn chọn từ tài liệu Những chuỗi ngắn gọi Shingling Điều có nghĩa shingles chọn tài liệu đặt liên quan đến tài liệu Sử dụng độ tương tự Jaccard này, tính mức độ tương tự chúng Shingling trình bày vào năm 1997 Broder cộng Thuật toán Shingling dựa tập hợp từ (token) chồng lên (giả sử k token) Trong Shingling, tất chuỗi từ từ liền kề trích xuất Qua đó, tài liệu D lấy tập SD Đó việc chuyển đổi tài liệu thành tập hợp shingle (có thể k-gram) độc (tức chuỗi kề k tokens) Sự giống hai tài liệu đo cách sử dụng hệ số Jaccard vectơ shingle Các tài liệu có độ tương đồng cao coi gần trùng lặp Xem xét trình tự từ tài liệu Tập hợp shingle cấu thành tập đặc trưng tài liệu Shingling kiểm tra trùng lặp giữ lại phần ngữ cảnh tài liệu Tuy nhiên có vấn đề xảy lưu trữ tập shingle lớn, việc kiểm tra trùng lặp trở nên khó khăn khơng khả thi thực tế k-Shingles Tài liệu chuỗi ký tự Định nghĩa k-shingle cho tài liệu chuỗi có độ dài k tìm thấy tài liệu Sau đó, ta liên kết với tài liệu tập hợp k-shingles xuất nhiều lần tài liệu Có số tùy chọn liên quan đến cách xử lý khoảng trắng (trống, tab, dòng mới, v.v.) Có thể hợp lý thay chuỗi gồm nhiều ký tự khoảng trắng khoảng trống Bằng cách đó, ta phân biệt shingles bao gồm hai từ trở lên với từ khơng có Ví dụ 1: Giả sử tài liệu D chuỗi ‘abcdabd’ chọn k = Sau đó, tập shingles cho D {ab, bc, cd, da, bd} Lưu ý chuỗi ab xuất hai lần D, xuất lần dạng shingle Một biến thể shingling tạo túi, thay bộ, shingling xuất kết nhiều lần xuất tài liệu Ví dụ 2: Nếu sử dụng k = 9, loại bỏ hồn tồn khoảng trắng, thấy số điểm tương đồng từ vựng câu "The plane was ready for touchdown" "The quarterback scored a touchdown" Tuy nhiên, giữ lại trống, có shingles “touch and touch down”, thứ hai có ô “touch down” Nếu loại bỏ khoảng trống, hai có “touch” Chọn kích thước Shingle Chúng ta chọn k số muốn Tuy nhiên, chọn k nhỏ, mong đợi hầu hết chuỗi ký tự k xuất hầu hết tài liệu Nếu vậy, có tài liệu có shingle-sets có độ tương đồng Jaccard cao, tài liệu khơng có câu chí cụm từ giống Một ví dụ cực đoan, sử dụng k = 1, hầu hết trang Web có hầu hết ký tự phổ biến ký tự khác, hầu hết trang Web có độ tương đồng cao Độ lớn k phụ thuộc vào độ dài tài liệu điển hình độ lớn tập hợp ký tự điển hình Vì k nên chọn đủ lớn để xác suất shingle định xuất tài liệu cụ thể thấp Hashing Shingles Thay sử dụng chuỗi trực tiếp shingles, chọn hàm băm ánh xạ chuỗi có độ dài k tới số nhóm coi số nhóm kết shingle Tập hợp đại diện cho tài liệu sau tập hợp số nguyên số nhóm nhiều k-shingles xuất tài liệu Chẳng hạn, xây dựng tập hợp 9-shingles cho tài liệu sau ánh xạ lớp số shingles tới số nhóm khoảng từ đến 32 - Do đó, lớp shingle biểu thị bốn bytes thay chín Dữ liệu khơng nén mà thao tác (băm) shingles thao tác máy đơn từ Lưu ý phân biệt tài liệu tốt sử dụng 9shingles băm chúng xuống bytes so với sử dụng 4-shingles, không gian sử dụng để biểu diễn shingle Nếu sử dụng 4shingles, hầu hết chuỗi bytes không thể tìm thấy tài liệu điển hình Do đó, số lượng hiệu shingles khác nhiều so với 232 - Shingles xây dựng từ Words Một dạng thay Shingle a cho thấy hiệu vấn đề xác định báo tương tự Điểm khác biệt khai thác vấn đề văn viết theo phong cách khác so với yếu tố khác thường xuất trang có văn Tuy nhiên, vấn đề tìm kiếm văn tương tự, người ta thấy việc xác định shingle từ theo sau hai từ tiếp theo, chúng có phải từ hay khơng, tạo thành tập hợp shingle hữu ích Ưu điểm cách tiếp cận văn sau đóng góp nhiều shingle cho tập hợp đại diện cho trang Web yếu tố xung quanh Nhớ lại mục tiêu tập tìm trang có viết, yếu tố xung quanh Bằng cách thiên vị tập hợp shingle có lợi cho báo, trang có báo tài liệu xung quanh khác có độ tương đồng Jaccard cao trang có tài liệu xung quanh có báo khác 10 CHƯƠNG III : PHƯƠNG PHÁP MINHASHING Giới thiệu MinHash cách tiếp cận với khả sử dụng nhớ không phụ thuộc vào độ dài tài liệu đồng thời cung cấp phương thức tốt để tính tốn độ tương đồng Cách tiếp cận dựa việc băm tài liệu tập cố định hash dạng chữ kí thơ tài liệu Việc làm có lợi điểm lớn: Về lưu trữ tài liệu yêu cầu không gian lưu trữ O(1) mặt độ phức tạp tính tốn trùng lặp cặp tài liệu đem so sánh O(1) Các đặc trưng mà muốn xây dựng cho tập hợp bao gồm kết số lượng lớn phép tính, chẳng hạn vài trăm phép tính, phép tính “minhash” ma trận đặc trưng Để minhash tập hợp đại diện cột ma trận đặc trưng, chọn hoán vị hàng Giá trị minhash cột số hàng đầu tiên, theo thứ tự hốn vị, cột có Thuật tốn MinHash giúp giá trị xấp xỉ giá trị Jaccard Similarity hai tập liệu Ưu điểm MinHash: - Có chiều dài đầu cố định - Không phụ thuộc vào chiều dài đầu vào Để tính giá trị xấp xỉ Jaccard Similarity (MinHash signatures), ta tính MinHash hai tập data, giá trị hash, sau đếm giá trị trùng chuỗi hash chia chiều dài giá trị hash, giá trị xấp xỉ giá trị Jaccard Similarity Sử dụng Minhash cải thiện lớn việc tính tốn trùng lặp cặp tài liệu Nhưng thực tế phải đối mặt với vấn đề truy vấn việc trùng lặp tài liệu với tập tài liệu có sẵn, áp dụng phương pháp độ phức tạp thời gian tính tốn trở nên tuyến tính O(n) Chúng ta phải thu thập tất liệu từ tin xác định tất trùng lặp trang tin, số lượng tin tức phải xử lý trùng lặp lên đến hàng triệu trang, điểm dường Minhash trở nên hạn chế tốc độ Thuật toán MinHash Ý tưởng thuật toán: 11 h(x) = (ax+b) Trong đó: h(x) hàm hash x số nguyên đầu vào, a b hai số chọn ngẫu nhiên với điều kiện a b < x c số nguyên tố chọn ngẫu nhiên, với điều kiện c lớn x Cách thuật toán thực sau: Với văn bản, chạy thuật tốn hash 10 lần, ta có số a b ngẫu nhiên nên 10 lần chạy cho kết khác nhau, lấy giá trị hash nhỏ (do thuật tốn có tên Minhash) làm thành phần MinHash signature Lặp lại q trình 10 lần, có MinHash signature với 10 giá trị Sự giống Minhashing Jaccard Có mối liên hệ đáng ý tương đồng Minhashing Jaccard minhash Xác suất mà hàm minhash hoán vị ngẫu nhiên hàng tạo giá trị cho hai tập hợp với độ tương tự Jaccard tập hợp Để biết sao, cần hình dung cột hai tập hợp Nếu giới hạn thân cột tập hợp S1 S2, hàng chia thành ba lớp: Loại X hàng có hai cột Hàng loại Y có cột cột Loại Z hàng có hai cột Vì ma trận thưa thớt nên hầu hết hàng thuộc loại Z Tuy nhiên, tỷ lệ số hàng loại X loại Y xác định SIM(S1, S2) xác suất mà h(S1) = h(S2) Giả sử có x hàng loại X y hàng loại Y Khi SIM(S1, S2) = x/(x + y) Lý x kích thước S1 ∩ S2 x + y kích thước S1 ∪ S2 Bây giờ, xem xét xác suất mà h(S1) = h(S2) Nếu tưởng tượng hàng hoán vị ngẫu nhiên tiến hành từ xuống, xác suất gặp hàng loại X trước gặp hàng loại Y x/(x + y) Nhưng hàng từ xuống hàng loại Z hàng loại X chắn h(S1) = h(S2) Mặt khác, hàng hàng loại Z mà gặp hàng loại Y, tập hợp có lấy hàng làm giá trị minhash Tuy nhiên, 12 tập hợp có hàng chắn có số hàng danh sách hốn vị Do đó, biết h(S1) khác h(S2) lần gặp hàng loại Y Chúng kết luận xác suất mà h(S1) = h(S2) x/(x + y), tương tự Jaccard S1 S2 Minhash Signatures Một tập hợp tập hợp biểu diễn ma trận đặc trưng M chúng Để biểu diễn tập hợp, chọn ngẫu nhiên số n hốn vị hàng M Có lẽ 100 hoán vị vài trăm hoán vị đủ Gọi hàm minhash xác định hoán vị h1, h2, , hn Từ cột đại diện cho tập hợp S, xây dựng chữ ký minhash cho S, vectơ [h1(S), h2(S), , hn(S)] Do đó, tạo từ ma trận M ma trận chữ ký, cột thứ i M thay chữ ký minhash cho (tập hợp) cột thứ i Ma trận chữ ký có số cột M có n hàng Ngay M không biểu diễn rõ ràng, dạng nén phù hợp với ma trận thưa thớt (ví dụ: theo vị trí số nó), ma trận chữ ký nhỏ nhiều so với M điều bình thường Khơng thể hốn vị rõ ràng ma trận đặc trưng lớn Ngay việc chọn hoán vị ngẫu nhiên hàng triệu hàng tỷ hàng tốn thời gian việc xếp hàng cần thiết nhiều thời gian May mắn thay, mơ tác động hốn vị ngẫu nhiên hàm băm ngẫu nhiên ánh xạ số hàng tới nhiều nhóm số hàng Hàm băm ánh xạ số nguyên 0, 1, , k - tới số nhóm từ đến k-1 thường ánh xạ số cặp số nguyên vào nhóm để trống nhóm khác Tuy nhiên, khác biệt khơng quan trọng u cầu dài lớn khơng có q nhiều va chạm Chúng ta trì giả thuyết hàm băm h “hoán vị” hàng r sang vị trí h(r) theo thứ tự hốn vị Do đó, thay chọn n hốn vị ngẫu nhiên hàng, chọn n hàm băm chọn ngẫu nhiên h1, h2, , hn hàng Chúng ta xây dựng ma trận chữ ký cách xem xét hàng theo thứ tự định chúng Đặt SIG(i, c) phần tử ma trận chữ ký cho hàm băm thứ i cột c Ban đầu, đặt SIG(i, c) thành ∞ cho tất i c Chúng ta xử lý hàng r cách làm sau: Tính h1(r), h2(r), , hn(r) Đối với cột c, làm sau: a Nếu c có hàng r, khơng làm 13 b Nếu c có hàng r, với i = 1, 2, , n đặt SIG(i, c) thành giá trị nhỏ giá trị SIG(i, c) hi(r) CHƯƠNG IV : PHƯƠNG PHÁP LOCALITY SENSITIVE HASHING Giới thiệu Mặc dù sử dụng minhashing để nén tài liệu lớn thành chữ ký số trì giống dự kiến cặp tài liệu nào, khơng thể tìm thấy cặp có độ tương đồng lớn cách hiệu Lý số lượng cặp tài liệu q lớn, khơng có q nhiều tài liệu Nếu mục tiêu tính tốn độ giống cặp, khơng thể làm để giảm bớt cơng việc, tính song song giảm thời gian trôi qua Tuy nhiên, thường muốn cặp giống tất cặp nằm giới hạn độ tương tự Nếu vậy, cần tập trung ý vào cặp có khả giống mà khơng cần điều tra cặp Có lý thuyết chung cách cung cấp tiêu điểm vậy, gọi Locality sensitive hashing (LSH) tìm kiếm lân cận Lý thuyết chung cho phương pháp LSH băm thành phần nhiều lần cho thành gần giống băm vào mảng chung Sau đó, phép băm, cặp kết nối với nhóm coi cặp ứng cử viên Để tìm tài liệu văn tương tự tập liệu văn bản, ta cần xét cặp ứng cử viên Trong toán phát văn giống mà ta giải quyết, tất tài liệu văn tập liệu không xét, tài liệu không liên quan bỏ qua, từ hạn chế nhiều chi phí tối ưu hóa phương pháp giải tốn Phương pháp LSH cho Minhash Signatures Nếu ta có minhash signatures items tập liệu, ta áp dụng phương pháp LSH cách chia ma trận signatures thành b dải cho dải bao gồm r hàng (n = br) Sau dải ta chọn hàm băm hàm vector cung cấp nhiều nhóm sử dụng r số nguyên với số lượng lớn hàm băm cho chúng Chúng ta sử dụng hàm băm cho tất dải, sử dụng mảng riêng để băm dải để cột có vector tương tự khơng kết nối với nhóm dải khác 14 Ví dụ: Hay ví dụ bên cho thấy thành phần ma trận signatures bao gồm 12 dòng chia thành dải dải có hàng: 15 Trong hình trên, cột thứ hai thứ tư dải hiển thị vectơ [0, 2, 1] chúng kết nối với nhóm phép băm dải Do đó, thực tế cột có giống ba dải khác hay khơng, cặp cột coi cặp ứng cử viên Hơn nữa, hai cột không phù hợp dải có hội trở thành cặp ứng cử viên ba dải khác Trên thực tế, chúng giống nhóm khác Ở mức độ nào, hai cột giống giống số dải Do đó, phương pháp trực tiếp “match” cột tương tự lại với với xác suất cao so với cặp khác Phân tích phương pháp LSH Giả sử ta sử dụng b dải, dải chứa r hàng giả sử cặp tài liệu văn có Jaccard Similarity với giá trị s Ta biết khả minhash signatures cho tài liệu văn dòng định ma trận signatures phù hợp với s Khả tài liệu (hoặc tốt signatures chúng) cặp ứng cử viên tính tốn sau: Khả signatures tất dòng từ dải thẳng hàng với sr Khả signatures dịng từ dải khơng thẳng hàng với – sr Khả signatures tất dịng từ dải khơng thẳng hàng với (1 – sr)b 16 Khả signatures dải tất dịng dải thẳng hàng với – (1- sr)b Bất kể số b r có giá trị đồ thị hàm số f(s) = – (1 – s r)b có dạng đường cong sau: Ta có khái niệm “giới hạn ngưỡng” (threshold limit), số lượng cặp văn tương tự s trình tăng dần biểu đồ đạt đến giới hạn cao Số lượng giới hạn ngưỡng giúp ta xác định chất lượng phát tương đồng Chất lượng tương đồng phụ thuộc vào hai giá trị false positive false negative Giới hạn ngưỡng hàm số b r giá trị tính xấp xỉ t = [(1/b)] ^ (1/r) Ví dụ: b = 16 r = 4, ngưỡng xấp xỉ s = ½, mũ 1/16 ½ Trong phương pháp LSH, có hai khả xảy false positive false negative Các kết false positive cặp khác băm vào nhóm false negative cặp tương tự khơng gửi đến nhóm Có nghĩa kết false negative cặp bị nhầm lẫn không coi cặp ứng viên Như trình bày trên, khả hai cặp có Jaccard Similarity s trở thành cặp ứng cử viên – [(1 – s r)b Bản chất bên đồ thị hàm số f(s) = – [(1 – sr)]b cho ta biết tính từ đến giới hạn ngưỡng (t) kết số lượng false positive cặp có Jaccard Similarity nhỏ t khơng coi cặp ứng viên Trong hình biểu diễn đồ thị hàm f(s) với khu vực liên quan đến số lượng false positive false negative 17 Ví dụ: Giả sử có 100,000 cột ma trận M (100k docs) Chọn b = 20 dải r = số nguyên/dải Tìm cặp tài liệu giống s = 0.8 Lời giải: ● Ta có: sim(C1, C2) = 0.8 ● Xác suất C1, C2 giống dải cụ thể: (0.8)5 = 0.328 ● Xác suất C1, C2 không giống tất 20 dải: (1-0.328) 20 = 0.00035 Chúng ta tìm thấy 99.965% cặp tài liệu thực giống CHƯƠNG V: KẾT QUẢ THỰC NGHIỆM Đầu tiên, chúng em thực tải tài liệu từ driver lên, chúng em sử dụng tài liệu chứa 497 file doc báo trang báo: Sau đó, import thư viện cần dùng, dùng hàm tiền xử lý văn tài liệu loại bỏ khoảng trống, Hàm calculate_join_grams chuyển đổi tài liệu thành tập hợp shingle: 18 Hàm create_permutations dùng để tạo hoán vị: Đầu phương pháp Shingling: Đầu phương pháp Minhashing: 19 Đầu phương pháp LSH: chúng em chia thành 20 dải hàng Các đoạn văn có độ tương tự cao đưa vào bucket: Cuối cùng, chúng em truyền vào đoạn văn, xét với độ tương tự 80% tìm báo yêu cầu: helo CHƯƠNG V : TỔNG KẾT Trong viết tại, trước tiên chúng em xem xét số phương pháp tìm tài liệu tương tự từ liệu khổng lồ Phương pháp nghiên cứu phương pháp shingling vấn đề tương tự biến thành vấn đề dựa tập hợp Sau đó, để tránh so sánh, tất cặp tài liệu xem xét phương pháp dựa lọc Các phương pháp bao gồm lọc dựa độ dài lập mục tiền tố Trong phương pháp này, cặp tương tự có xác suất cao so sánh Sau xem xét phương pháp này, phương pháp tìm kiếm tài liệu tương tự dựa lặp lại shingle ký tự tài liệu trình bày Trong kết thực tế, người ta phương pháp trình bày cần so sánh để tìm tài liệu tương tự so với phương pháp trước 20

Ngày đăng: 25/06/2023, 14:53

Xem thêm: Báo cáo tìm các tập tài liệu tương tự bigdata

Báo cáo tìm các tập tài liệu tương tự bigdata

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan