PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ

53 202 0
PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 113 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội, năm 2016 Footer Page of 113 Header Page of 113 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến người thầy PGS TS Hoàng Xuân Huấn dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp hoàn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin bày tỏ lòng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tôi xin cảm ơn tất Anh, Chị bạn chia sẻ, giúp đỡ, trao đổi, góp ý trình học tập Tôi xin gửi lời biết ơn tới bố mẹ, gia đình người thân tạo điều kiện tốt để hội lựa chọn đường Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn Footer Page of 113 Header Page of 113 LỜI CAM ĐOAN Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan công trình nghiên cứu không chép Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn Footer Page of 113 Header Page of 113 MỤC LỤC MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tương tự 1.4.1 Cấu trúc liệu 1.4.2 Các kiểu liệu 1.4.3 Độ đo tương tự 11 1.5 Các phương pháp thuật toán phân cụm liệu 13 1.5.1 Phương pháp phân cấp 14 1.5.2 Phương pháp phân hoạch 16 1.5.3 Phương pháp dựa mật độ 17 1.5.4 Phương pháp dựa lưới 19 Chương II LÝ THUYẾT TẬP THÔ 21 2.1 Giới Thiệu 21 2.2 Các khái niệm 22 2.2.1 Hệ thống thông tin 22 2.2.2 Bảng định (Decision Table) 23 2.2.3 Quan hệ không phân biệt 24 2.2.4 Các khái niệm xấp xỉ tập thô 25 2.3 Rút gọn thuộc tính hệ thống thông tin 27 2.4 Ma trận phân biệt hàm phân biệt 29 2.5 Hàm Thành Viên Thô 30 Chương III ÁP DỤNG THUẬT TOÁN PHÂN CỤM THÔ VÀO BÀI TOÁNPHÂN CỤM NGƯỜI DÙNG TRÊN WEB 32 3.1 Giới Thiệu 32 3.2 Bài Toán 33 3.3 Dữ liệu 34 3.4 Độ đo tương tự 34 3.5 Thuật toán phân cụm thô 36 3.6 Kết thử nghiệm với 𝛿 = 0.8 𝜎 = 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 TÀI LIỆU THAM KHẢO 46 Footer Page of 113 Header Page of 113 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở liệu DBSCAN Density – Based Spatial Clustering of Applications with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm liệu RelSim Relative similarity S3M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatistical Information Grid approach Footer Page of 113 Header Page of 113 DANH MỤC HÌNH VẼ Hình 1.1 Mô vấn đề phân cụm liệu Hình 1.2 Các bước trình phân cụm liệu Hình 1.3 Tiêu chuẩn phân cụm Hình 1.4 Phân loại kiểu liệu dựa kích thước miền Hình 1.5 Phân loại kiểu liệu dựa hệ đo 10 Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 15 Hình 1.7 Hai cụm tìm thuật toán DBSCAN 19 Hình 1.8 Hai cụm liệu tìm nhờ DBSCAN 19 Hình 1.9 Ba tầng liên tiếp cấu trúc STING 20 Hình 2.1 Mô tả tập xấp xỉ miền 26 Hình 3.1 Ví dụ liệu chuyển hướng Web 39 Hình 3.2 Ma trận tương tự cách sử dụng số liệu đề xuất với p = 0,5 40 ̅ (𝑻i) 40 Hình 3.3 Kết 𝑹 Hình 3.4 Tập xấp xỉ hạn chế-tương tự 41 Hình 3.5 Họ cụm cuối đưa 42 Hình 3.6 Kết xấp xỉ 42 Hình 3.7 Kết xấp xỉ thứ hai 43 Hình 3.8 Kết xấp xỉ thứ ba 43 Footer Page of 113 Header Page of 113 DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số 11 Bảng 2.1 Hệ Thống Thông Tin 22 Bảng 2.2 Ví dụ bảng định 23 Bảng 2.3 Ví dụ cho bảng thông tin 29 Bảng 2.4 Ma trận phân biệt biểu diễn sau: 30 Bảng 3.1 Mô tả bảng liệu MSNBC 33 Bảng 3.2 Kết thực nghiệm với 𝜹 = 0.8 𝝈 = 44 Footer Page of 113 Header Page of 113 MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng công nghệ tri thức, ứng dụng rộng rãi đa dạng ngành khoa học sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tượng có độ tương đồng cao vào cụm, đối tượng thuộc cụm khác có độ tương đồng thấp so với đối tượng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phương pháp giải khác như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lưới Thông thường, thông tin giới xung quanh không xác, không đầy đủ, không chắn chồng chéo Đó vấn đề gặp phải phân cụm liệu Phân cụm chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tượng phân thành cụm khác nhau, đối tượng thuộc xác cụm, ngược lại phân cụm mềm đối tượng thuộc nhiều cụm đối tượng có độ thuộc với cụm Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thô phát triển tảng toán học vững chắc, cung cấp công cụ hữu ích để giải toán phân tích liệu, phát luật, nhận dạng… Đặc biệt thích hợp với toán phân tích khối lượng liệu lớn, chứa đựng thông tin mơ hồ, không chắn Mục đích phân tích liệu dựa lý thuyết tập thô nhằm đưa xấp xỉ để biểu diễn đối tượng phân lớp cách chắn tri thức có sẵn Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc, xấp xỉ chứa tất đối tượng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thô thuật toán phân cụm thô đề xuất áp dụng phân cụm liệu Footer Page of 113 Header Page of 113 Cấu trúc luận văn chia làm ba chương sau: Chương 1: Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phương pháp phân cụm Chương 2: Lý thuyết tập thô Trình bày tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính không phân biệt xấp xỉ tập hợp Chương 3:Áp dụng thuật toán phân cụm thô vào toán phân cụm người dùng Web Dựa lý thuyết tập thô áp dụng thuật toán phân cụm thô phân cụm người dùng Web( chuyển hướng Web người dùng) Footer Page of 113 Header Page 10 of 113 CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, cácmẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấpthông tin, tri thức hữu ích cho việc định Phân cụm nhìn từ góc độ tự nhiên việc bình thường mà làm thực hàng ngày Ví dụ phân loại học sinh lớp; phân loại đất đai; phân loại tài sản; phân loại sách thư viện;… Cụm liệu tập hợp đối tượng có tính chất tương tự mức độ tập liệu Ở mức nhất, người ta đưa định nghĩa phân cụm liệu (PCDL) sau:[3] “Phân cụm liệu kỹ thuật khai phá liệu (Data mining), nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thông tin, tri thức hữu ích cho định.” Quá trình PCDL trình phân chia tập liệu ban đầu thành cụm liệu phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định theo phương pháp phân cụm Hình 1.1 Mô vấn đề phân cụm liệu Footer Page 10 of 113 Header Page 39 of 113 32 Chương III ÁP DỤNG THUẬT TOÁN PHÂN CỤM THÔ VÀO BÀI TOÁNPHÂN CỤM NGƯỜI DÙNG TRÊN WEB 3.1 Giới Thiệu Phân cụm bước khởi đầu phân tích liệu Phân cụm nghiên cứu lĩnh vực học máy nhận dạng mẫu đóng vai trò quan trọng ứng dụng khai thác liệu thăm dò liệu khoa học, thông tin khai thác văn Nó đóng vai trò quan trọng ứng dụng sở liệu không gian, phân tích web, quản lý quan hệ khách hàng, tiếp thị, Sinh học, điện toán nhiều lĩnh vực khác có liên quan Các thuật toán Phân cụm phân loại sử dụng nguyên tắc phân loại khác dựa vấn đề quan trọng cấu trúc thuật toán, chất cụm hình thành, sử dụng tính năng, Nói chung, thuật toán phân nhóm chia thành hai loại – Partitional(phân vùng) phân cấp Các thuật toán Partitional xây dựng phân vùng sở liệu 𝐷 𝑛 đối tượng vào tập hợp cụm 𝑘, với 𝑘 tham số đầu vào cho thuật toán Để thiết lập giá trị 𝑘, số kiến thức miền yêu cầu mà không may sẵn cho nhiều ứng dụng Các nhóm liên tục kết hợp dựa độ đo khoảng cách, có nhóm lại kết thúc Trong phân chia phân nhóm theo cấp bậc, bắt đầu với việc tất liệu cụm lớn chia chúng thành cụm nhỏ dựa độ đo khoảng cách Một cụm thô định nghĩa cách tương tự tập thô Xấp xỉ cụm thô chứa đối tượng mà thuộc nhóm Xấp xỉ cụm thô chứa đối tượng nhóm thành viên Các cụm khác Lợi việc sử dụng thô không giống kỹ thuật khác, lý thuyết tập thô không yêu cầu thông tin trước liệu khả thống kê chức thành viên lý thuyết tập mờ Footer Page 39 of 113 Header Page 40 of 113 33 Trong chương này, trình bày thuật toán phân cụm phân cấp sử dụng xấp xỉ dựa lý thuyết tập thô Kết phương pháp trả cụm thô đối tượng thành viên nhiều cụm.[7] 3.2 Bài Toán Áp dụng thuật toán phân cụm thô vào phân cụm người dùng web(chuyển hướng người dùng web) Với người dùng cho ta đối tượng liệu bao gồm tập hợp thứ tự lần duyệt web người dùng Trong luận văn trích trọn n trình tự(n đối tượng người dùng) ngẫu nhiên từ liệu mô tả bảng 3.1[7] với 𝑛 : 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000 Kết thực nghiệm trình bày phần 3.6 Bảng 3.1 Mô tả bảng liệu MSNBC Tổng số liệu Số người sử dụng 989.818 Số lần thăm tối thiểu Số lần thăm tối đa 500 Số lượng thăm trung bình người 5,7 lần dùng Dữ liệu từ kho lưu trữ liệu UCI [http://kdd.ics.uci.edu/] Internet Information Server (IIS) bao gồm ghi cho msnbc.com tin tức liên quan đến phần msn.com Mỗi chuỗi liệu tương ứng với lượt xem người dùng khoảng thời hai mươi bốn Mỗi kiện chuỗi tương ứng với yêu cầu người sử dụng cho trang Yêu cầu không ghi lại mức độ tốt chi tiết cấp độ loại trang xác định người quản trị trang web Đây 17 trang cụ thể: ‘frontpage’, ‘news’, ‘tech’, ‘local’, ‘opinion’, ‘on-air’, ‘misc’, ‘weather’, ‘health’, ‘living’, ‘business’, ‘sports’, ‘summary’, ‘bbs’ (bulletin board service), ‘travel’, ‘msn-news’ and ‘msn-sports’ Bảng 3.1 cho thấy đặc tính liệu Mỗi loại trang đại diện số nguyên nhãn Ví dụ, ‘frontpage’ mã hoá 1, ‘news’ 2, ‘tech’ 3, vv Mỗi hàng mô tả số truy cập người dùng Footer Page 40 of 113 Header Page 41 of 113 34 3.3 Dữ liệu Phân nhóm đáng tin cậy phiên người dùng web đạt hai nội dung thứ tự lượt ghé thăm trang xem xét Bằng cách này, hai chuyến thăm trang người sử dụng thực tế sở thích yêu cầu người sử dụng nắm bắt Hầu hết phương pháp tiếp cận khai thác web không sử dụng tính chất phiên người dùng Thường mô hình hóa phiên chiều không gian vector trang web Các n - không gian vector nhị phân, cho biết trang web cụ thể truy cập hay không phiên Các vector mang theo thông tin liên quan đến việc đếm tần số lượt ghé thăm trang web phiên Vì vậy, tùy thuộc vào chất giá trị liên kết với không gian n, phân tích hạn chế người dùng thực Nói chung, thuật toán phân nhóm sử dụng hai hàm khoảng cách hay chức tương tự để so sánh cặp trình tự Nhiều người số số liệu cho trình tự không hoàn toàn đủ điều kiện số liệu nhiều lý Trong phần sau, giới thiệu ngắn gọn độ đo tương tự 𝑆 𝑀 [7] Độ đo xem xét thiết lập trình tương tự hai chuỗi Trong chương trình bày kỹ thuật phân nhóm cho trình tự sử dụng khái niệm hạn chế - tương tự xấp xỉ Ý tưởng tìm tập hợp tính mà nắm bắt thông tin chuỗi liệu nội dung thông tin Những tính dự báo vào không gian xấp xỉ Hạn chế - tương tự kỹ thuật xấp xỉ áp dụng để có xấp xỉ cụm thô yếu tố thuộc nhiều cụm 3.4 Độ đo tương tự trình tự (𝑺𝟑 𝑴)[7] Một chuỗi tạo thành từ tập hợp mục xảy thời gian hay xảy khác, là, vị trí không thiết phải liên quan với thời gian Có thể nói chuỗi tập có thứ tự tập tin Thông thường, chuỗi ký hiệu S= (a1,a2, ,an), với a1,a2, ,an tập hợp mục đặt chuỗi S Chiều dài chuỗi định nghĩa số lượng tập mục có trình tự, ký hiệu |S| Để tìm mẫu trình tự, cần thiết để không nhìn vào mục có trình tự mà thứ tự xuất chúng Một biện pháp Footer Page 41 of 113 Header Page 42 of 113 35 mới, gọi trình tự thiết lập độ đo tương tự (𝑆3𝑀) giới thiệu cho lĩnh vực an ninh mạng Độ đo 𝑆3𝑀 bao gồm hai phần: Một định lượng thành phần chuỗi (bộ tương tự) định lượng tính chất Trình tự giống định lượng số lượng tương tự theo thứ tự xuất tập mục hai chuỗi Chiều dài dãy chung dài (LLCS) chiều dài chuỗi dài với định khía cạnh tương tự hai chuỗi Ví dụ, với hai chuỗi 𝐴 𝐵, tương tự đo sau: 𝑆𝑒𝑞𝑆𝑖𝑚(𝐴, 𝐵) = 𝐿𝐿𝐶𝑆(𝐴,𝐵) max(|𝐴|,|𝐵|) Bộ tương tự (độ đo tương tự Jaccard) định nghĩa tỷ lệ với số tập mục phổ biến số lượng tập mục chung hai chuỗi Như vậy, cho hai chuỗi 𝐴 𝐵, tập tương tự đo sau: |𝐴∩𝐵| 𝑆𝑒𝑡𝑆𝑖𝑚(𝐴, 𝐵)= |𝐴 ∪𝐵| Xem xét hai trình tự 𝐴 𝐵, 𝐴 = (a, b, c, d) 𝐵 = (d, c, b, a) Bây giờ, bi độ đo tập tương tự cho hai trình tự 1, thành phần chúng Nhưng thấy chúng không tất tương tự xem xét thứ tự xuất tập mục Khía cạnh xác thành phần trình tự giống Nơi thành phần tương tự 0,25 cho trình tự 𝐿𝐿𝐶𝑆 theo dõi vị trí xuất tập mục trình tự Cho hai trình tự, 𝐶 = (a, b, c, d) 𝐷 = (b, a, k, c, t, p, d), 𝐿𝐿𝐶𝑆(𝐶, 𝐷) sau chuẩn hóa, thành phần trình tự tương đồng lượt 0,43 Sự tương tự thiết lập cho hai trình tự 0,57 Hai ví dụ minh họa cho cần thiết phải kết hợp tương đồng trình tự thành phần tương đồng vào chức Do đó, 𝑆3𝑀 biện pháp cho hai trình tự 𝐴 𝐵 cho bởi: 𝑆 𝑀(𝐴, 𝐵)= p* 𝐿𝐿𝐶𝑆(𝐴,𝐵) max(|𝐴|,|𝐵|) |𝐴∩𝐵| + q*|𝐴 ∪𝐵| Với 𝑝 + 𝑞 = p, 𝑞 ≥ 0, 𝑝 𝑞 xác định trọng lượng tương đối đưa cho trật tự xảy ( trình tự tương đồng) nội dung (tập tương tự), tương ứng Trong ứng dụng thực tế, định thông số Các LLCS hai chuỗi tìm thấy cách tiếp cận động lập trình Ở đây, 𝑝 + 𝑞 = 𝑝, 𝑞 ≥ 𝑝 𝑞 xác định trọng lượng tương đối đưa cho trật tự Footer Page 42 of 113 Header Page 43 of 113 36 xảy (tương tự) nội dung (thiết lập tương tự), tương ứng Trong ứng dụng thực tế, người sử dụng định thông số này[7] 𝑆 tập hợp chuỗi hữu hạn tạo từ tập hợp biểu tượng, ∑ Cho R tập số thực sau 𝑆𝑖𝑚(𝑠i, 𝑠j): 𝑆 x 𝑆 = 𝑅 gọi số tương đồng trình tự 𝑠i, 𝑠j ∈ 𝑆 có đủ đặc tính sau đây: (1) Non negativity( không âm): 𝑆𝑖𝑚(𝑠i, 𝑠j) ≥0 với ∀𝑠i, 𝑠j ∈ 𝑆 (2) Symmetry(tính đối xứng): 𝑆𝑖𝑚(si, sj) = 𝑆𝑖𝑚(𝑠j, 𝑠i) ≥ với ∀𝑠i, 𝑠j ∈ 𝑆 (3) Normalization(tiêu chuẩn hóa): 𝑆𝑖𝑚(𝑠i, 𝑠j) ≤1 với ∀𝑠i, 𝑠j ∈ 𝑆 3.5 Thuật toán phân cụm thô Trong nhiều ứng dụng khai thác liệu, thuộc tính lớp hầu hết đối tượng không khác biệt không rõ ràng Mơ hồ liệu thu hút nhà toán học, triết học, lý luận học gần nhà khoa học máy tính Lý thuyết tập thô phương pháp để giải mơ hồ Khái niệm cốt lõi lý thuyết tập thô mối quan hệ không phân biệt có tính chất phản xạ, đối xứng bắc cầu Tính không phân biệt phân vùng không gian vào lớp tương đương, tạo thành hạt Cho 𝑋 ⊆ 𝑈 mối quan hệ 𝜏 ⊆ 𝑋 𝑥 𝑈 mối quan hệ dung sai U, 1, 𝜏 phản xạ, có nghĩa 𝑥 ∈ 𝑈, 𝑥 𝜏 𝑥 2, τ đối xứng, nghĩa cho cặp 𝑥, 𝑦 ∈ 𝑈, 𝑥 𝜏 𝑦 = 𝑦 𝜏 𝑥 Định nghĩa xấp xỉ tập dễ dàng xây dựng sử dụng lớp khoan dung Để làm điều này, thay lớp dung sai cho lớp indiscernibility định nghĩa xấp xỉ Như vậy, xấp xỉ dung sai tập hợp 𝑋 vũ trụ 𝑈 định nghĩa định nghĩa sau: Định nghĩa 1[7]: Cho 𝑋 ⊂ 𝑈 mối quan hệ dung sai nhị phân R xác định 𝑈 Xấp xỉ 𝑋, ký hiệu 𝑅(𝑋) xấp xỉ 𝑋, ký hiệu 𝑅(𝑋) tương ứng quy định sau: 𝑅(𝑋) = {𝑥 ∈ 𝑋, R(𝑥) ⊆ 𝑋} Footer Page 43 of 113 Header Page 44 of 113 37 𝑅(𝑋) = ⋃𝑥∈𝑋 𝑅(𝑥) Đề xuất thuật toán phân sử dụng tập thô cho phân nhóm giao dịch sử dụng web Cho 𝑥 i ∈ 𝑈 giao dịch người dùng bao gồm chuỗi lượt ghé thăm trang web Đối với phân nhóm giao dịch sử dụng, ban đầu giao dịch thực cụm Để cho cụm thứ i 𝐶 i = {𝑥 i} Rõ ràng, 𝐶 i tập hợp 𝑈 Xấp xỉ 𝐶 i, ký hiệu 𝑅(𝑋), tập hợp giao dịch tương tự 𝑥 i, là, sử dụng truy cập trang web xi truy cập trang web khác có mặt giao dịch thuộc 𝑅(𝑋) Đối với giá trị ngưỡng không âm 𝛿 ∈ (0, 1] hai đối tượng 𝑥, 𝑦 ∈ 𝑈, mối quan hệ nhị phân 𝜏 U kí hiệu 𝑥 𝜏 𝑦 xác định 𝑥 𝜏 𝑦 𝑆𝑖𝑚(𝑥, 𝑦) ≥ 𝛿 Mối quan 𝑅 quan hệ dung sai 𝑅 có phản xạ đối xứng không bắc cầu Xấp xỉ 𝑅(𝑋) có tập hợp đối tượng giống 𝑥 i Vì vậy, xấp xỉ đối tượng 𝑥 i định nghĩa sau: Định nghĩa [7]: Đối với giá trị ngưỡng không âm cho 𝛿 ∈ (0, 1] 𝑋 = {𝑥 1, 𝑥 2, …, 𝑥 n}, 𝑋 ⊆ 𝑈 xấp xỉ là: 𝑅({𝑥 i}) = {𝑥 j|𝑆𝑖𝑚(𝑥 i,𝑥 j) ≥ 𝛿} Một số tập từ xấp xỉ chia sẻ yếu tố (còn gọi phần tử ranh giới) Các yếu tố ranh giới hướng đến trình phân nhóm Các yếu tố chia sẻ, tạo sau xấp xỉ đầu, thành viên tiềm tập hình thành xấp xỉ thứ hai cao Điều định cách tính toán cường độ yếu tố chia sẻ cho tất cụm thuộc Điều đo cách sử dụng tham số gọi giống tương đối Giá trị thứ hai giống xấp xỉ cao tính toán điều kiện tương tự tương đối Đối với hai giao 𝑋, 𝑌 ∈ 𝑈 Sự giống tương đối 𝑋 𝑌 với cho : 𝑅𝑒𝑙𝑆𝑖𝑚(𝑥 i,𝑥 j) = Footer Page 44 of 113 |𝑅(𝑥𝑖)∩𝑅(𝑥𝑗)| |𝑅(𝑥𝑖)−𝑅(𝑥𝑗)| Khi 𝑅(𝑋) ⊈ 𝑅(𝑌) Header Page 45 of 113 38 Bây xác định đề xuất hạn chế tương tự -xấp xỉ định nghĩa sau đây: Định nghĩa 3.[7] Cho 𝑋 = {𝑥 1, 𝑥 2, …, 𝑥 n}, 𝑋 ⊆ 𝑈 Cho giá trị không âm cố định σ ∈ (0, 1], hạn chế tương tự-xấp xỉ xi cho bởi: 𝑅𝑅({𝑥 i}) = { 𝑥 j ∈ ⋃𝑥𝑙∈𝑅(𝑥𝑖) 𝑅(𝑥𝑙)|𝑅𝑒𝑙𝑆𝑖𝑚( 𝑥 i,𝑥 j) ≥ σ } Khi 𝑅(𝑥 i) ⊈ 𝑅(𝑥 j) Nói cách khác, tất trình tự 𝑥 j thuộc giống xấp xỉ yếu tố 𝑅(𝑥 i) tương đối tương tự 𝑥 i bị hạn chế (hoặc sáp nhập) vào giống xấp xỉ 𝑥 i Lặp lại trình tính toán hạn chế tương tự-xấp xỉ tiếp cho 𝜎 hai hạn chế tương tự-xấp xỉ liên tiếp cũ Ở đây, 𝛿 tham số người dùng định nghĩa gọi tương tự tương đối, sử dụng để hợp hai lần xấp xỉ cho hình thành thứ hai cao xấp xỉ 𝜎 người dùng xác định ngưỡng tham số sử dụng để xác định giống hai đối tượng sử dụng để tìm xấp xỉ Các hạn chế tương tự-xấp xỉ tính cho tất giao dịch 𝑈 Thuật toán đầy đủ cho tính toán tập thô dựa phân nhóm đưa thuật toán Không giống thuật toán truyền thống khác, cách tiếp cận nhiều hai giao dịch kết hợp để tạo thành cụm Ngoài ra, số lượng tính toán xấp xỉ cho tương tự giảm số lần lặp lại tăng lên Vì vậy, phân nhóm thô đề xuất hội tụ nhanh Thuật toán Phân cụm dựa tập thô Input: 𝑇: Một tập hợp 𝑛 trình tự ∈ 𝑈 Threshold(ngưỡng) 𝛿 ∈ (0, 1] Tương tự tương đối 𝜎 ∈ (0, 1] Output: Số cụm𝐶 Footer Page 45 of 113 Header Page 46 of 113 39 Begin Step 1: Xây dựng ma trận tương tự sử dụng độ đo 𝑆3𝑀 Step 2: Đối với 𝑥 i ∈ 𝑈, Tính Si= 𝑅(𝑥 i) sử dụng định nghĩa cho cho ngưỡng 𝛿 Step 3: Cho 𝑈𝑆 = ⋃i𝑆i, 𝐶 = ∅ Step 4: Với 𝑆i∈ 𝑈𝑆 Tính ràng buộc tương tự-xấp xỉ S’ sử dụng định nghĩa cho tương đối 𝜎 if𝑆i = 𝑆i’ 𝐶 = 𝐶 ∪ 𝑆 i’ 𝑈𝑆 = 𝑈𝑆 \ {𝑆i} endif Step 5: Lặp lại bước đến 𝑈𝑆 = ∅ Step 6: Trả 𝐶 End - Độ phức tạp thuật toán: 𝑂(𝑁2𝑙𝑜𝑔2𝐿) + 𝑂(𝑁/|𝑅|) + 𝑂(𝑁𝑙𝑜𝑔𝑘) Ví dụ: Ta có 10 người dùng với người dùng trình tự chuyển hướng web cho hình sau: Hình 3.1 Ví dụ liệu chuyển hướng Web Footer Page 46 of 113 Header Page 47 of 113 40 Hình 3.2 Ma trận tương tự cách sử dụng số liệu đề xuất với p = 0,5 Xét 10 chuỗi liệu hình.3.1 Bảng tương tự tính toán cách sử dụng ma trận tương tự 𝑆3𝑀 với 𝑝 = 0,5 (Hình 3.2) Sự giống xấp xỉ ngưỡng giá trị 𝛿 = 0.2 cho 𝑅(𝑇i) với i = 1, 2, …,10 đây: Hình 3.3 Kết 𝑹(𝑻i) Trong bước đầu tiên, giống xấp xỉ thứ hai xấp xỉ 𝑇1 cho 𝑅𝑅′(𝑇1) = {𝑇1, 𝑇3, 𝑇5, 𝑇6, 𝑇8} Bây giờ, hạn chế tương tự-xấp xỉ áp dụng 𝑅𝑅′sử dụng Định nghĩa với 𝜎 = Có thể thấy có yếu tố 𝑇1, 𝑇5 𝑇6 đủ điều kiện để 𝑅𝑅′(𝑇1) Ví dụ, xem xét yếu tố 𝑇3, 𝑅(𝑇1) ∩ 𝑅(𝑇 3) = {𝑇6} 𝑅(𝑇1) − 𝑅(𝑇 3) = {𝑇1,𝑇5} Như vậy, giống quan hệ cực 𝑇1 𝑇3 là: 𝑅𝑒𝑙𝑆𝑖𝑚(𝑥 i,𝑥 j) = Footer Page 47 of 113 |𝑅(𝑇1)∩𝑅(𝑇3)| |𝑅(𝑇1)−𝑅(𝑇3)| = < 𝜎 𝑇3 không sáp nhập vào 𝑅(𝑇1) Header Page 48 of 113 41 Như vậy, Tập xấp xỉ hạn chế-tương tự đưa hình sau: Hình 3.4 Tập xấp xỉ hạn chế-tương tự Trong tập tập in đậm xấp xỉ liên tiếp giống Ví dụ: 𝑅(𝑇1) = 𝑅𝑅(𝑇1) = {𝑇1,𝑇5,𝑇6} Như vậy, giống xấp xỉ thứ ba tính cho yếu tố có tương tự liên tiếp xấp xỉ không giống Như vậy, T6 cần xem xét cho giống xấp xỉ thứ ba 𝑅𝑅𝑅(𝑇6) = {𝑻3, 𝑻6, 𝑻8} Footer Page 48 of 113 Header Page 49 of 113 42 Do thay đổi hạn chế-tương xấp xỉ cho tất yếu tố,thuật toán hội tụ Họ cụm cuối đưa hình sau: Hình 3.5 Họ cụm cuối đưa Kết thử nghiệm với ví dụ trên: Hình 3.6 Kết xấp xỉ Footer Page 49 of 113 Header Page 50 of 113 43 Hình 3.7 Kết xấp xỉ thứ hai Hình 3.8 Kết xấp xỉ thứ ba Footer Page 50 of 113 Header Page 51 of 113 44 3.6 Kết thử nghiệm với 𝜹 = 0.8 𝝈 = Với trích trọn số lượng mẫu n ngẫu nhiên từ liệu mô tả bảng 3.1 thu kết bảng sau Bảng 3.2 Kết thực nghiệm với 𝜹 = 0.8 𝝈 = Số lượng mẫu(n) Kết số cụm trả sau hạn chế xấp xỉ 100 38 Cụm 200 80 Cụm 300 120 Cụm 400 149 Cụm 500 174 Cụm 1000 287 Cụm 2000 467 Cụm 3000 653 Cụm 4000 824 Cụm 5000 965 Cụm Footer Page 51 of 113 Header Page 52 of 113 45 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết Luận Lý thuyết tập thô, ban đầu đề xuất Pawlak vào năm 1982, thu hút nhiều nhà nghiên cứu từ miền khác dẫn đến ứng dụng thành công lĩnh vực khác toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu dựa lý thuyết tập thô lĩnh vực nghiên cứu rộng lớn đầy triển vọng Chính vậy, với đề tài “Phân cụm thô liệu tuần tự”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: Tìm hiểu tổng quan phân cụm liệu, giới thiệu số khái niệm liên quan phân cụm liệu Tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính không phân biệt xấp xỉ tập hợp Dựa thuyết tập thô thuật toán phân cụm thô áp dụng vào toán phân cụm người dùng web (chuyển hướng người dùng web) Mặc dù cố gắng nỗ lực hết mình, thời gian nghiên cứu trình độ thân có hạn nên luận văn tránh khỏi thiếu sót hạn chế, mong nhận ý kiến đóng góp để luận văn đạt kết tốt Hướng Phát Triển Trong thời gian tới, cố gắng tìm hiểu nhiều phương pháp phân cụm liệu, đặc biệt phương pháp phân cụm dựa lý thuyết tập thô cố gắng mở rộng ứng dụng thuật toán phân cụm thô vào nhiều toán thực tế Xây dựng cải tiến thuật toán phân cụm thô áp dụng vào toán với liệu lớn hay mang tính thực tiễn cảnh báo tắc đường… Footer Page 52 of 113 Header Page 53 of 113 46 TÀI LIỆU THAM KHẢO Tiếng việt [1] Đỗ Mai Hường (2007),Một số vấn đề liên quan đến lý thuyết tập thô Luận văn thạc sĩ [2] Hoàng Văn Dũng (2007),Khai phá liệu web kỹ thuật phân cụm Luận văn thạc sĩ [3] Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu Luận văn thạc sĩ [4] Phạm Văn Long (2012), Khai phá liệu theo tiếp cận tập thô định - ứng dụng phân lớp khiếu học sinh Luận văn thạc sĩ Tiếng anh [5] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [6] Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques - Second Edition, Hacours Science and Technology Company, USA [7] Pradeep Kumar, P Radha Krishna,, Raju S Bapi, Supriya Kumar De(2007): Rough clustering of sequential data [8] Ivo Düntsch & Günther Gediga (2000), Rough set data analysis: A road to noninvasive knowledge discovery [9] Zdzislaw Pawlak (1991), ROUGH SETS Theoretical Aspects of Reasoning about Data, Institute of Computer Science, Warsaw University of Technology Một số trang web [10] http://documents.tips/documents/ly-thuyet-tap-tho-va-cac-khai-niem.html [11] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf Footer Page 53 of 113 ... gặp phải phân cụm liệu Phân cụm chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tượng phân thành cụm khác nhau, đối tượng thuộc xác cụm, ngược lại phân cụm mềm đối... I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, cácmẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấpthông tin, tri... VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tương tự 1.4.1 Cấu trúc liệu

Ngày đăng: 25/03/2017, 12:09

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan