tìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trình

56 20 0
tìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trình

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TỐN KHAI PHÁ QUY TRÌNH LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ HỒNG HẠNH TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TỐN KHAI PHÁ QUY TRÌNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THƠNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành Hà Nội - 2016 i LỜI CAM ĐOAN Tác giả xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân Tác giả đƣợc hƣớng dẫn khoa học PGS.TS Nguyễn Trí Thành, khơng chép lại ngƣời khác Trong tồn nội dung luận văn, điều trình bày cá nhân đƣợc tổng hợp nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tác giả xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Thị Hồng Hạnh ii LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới thầy PGS.TS Nguyễn Trí Thành, ngƣời thầy trực tiếp hƣớng dẫn tận tình đóng góp ý kiến q báu cho em suốt trình thực luận văn tốt nghiệp Em xin gửi lời cảm ơn đến thầy cô giáo Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, tận tâm truyền đạt kiến thức quý báu làm tảng cho em công việc sống Qua đây, em xin cảm ơn sinh viên Nguyễn Duy Kiên – Trƣờng Đại học Công nghệ Hà Nội hỗ trợ giúp đỡ em mặt kỹ thuật Cuối cùng, em xin đƣợc cảm ơn cha mẹ, ngƣời thân, ban bè đồng nghiệp em Sở Nông nghiệp PTNT tỉnh Hƣng Yên, ngƣời bên em, khuyến khích động viên em sống học tập HỌC VIÊN Nguyễn Thị Hồng Hạnh iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi MỞ ĐẦU CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH 1.1 Khai phá quy trình 1.1.1 Sự cần thiết KPQT 10 1.1.2 Mục tiêu KPQT 11 1.1.3 Mơ hình quy trình nhật ký kiện 11 1.1.4 Các toán KPQT 12 1.1.5 Các khía cạnh KPQT 13 1.1.6 Các ứng dụng KPQT 14 1.1.7 Một số thách thức lĩnh vực KPQT 14 1.2 Khía cạnh tổ chức KPQT 15 1.3 Bài tốn tốn khai phá khía cạnh tổ chức 18 1.3.1 Trong thực tế 18 1.3.2 Trong luận văn 18 1.4 Ý nghĩa luận văn 20 1.4.1 Về mặt khoa học 20 1.4.2 Về mặt thực tiễn 21 CHƢƠNG CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH 22 2.1 Cộng đồng mạng xã hội 22 2.1.1 Nguyên nhân hình thành cộng đồng MXH 22 2.1.2 Các loại cộng đồng MXH 23 2.1.3 Các loại cấu trúc cộng đồng 23 2.2 Các phƣơng pháp phát cộng đồng 24 2.2.1 Ứng dụng 24 2.2.2 Các loại giải thuật 25 2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo 28 2.4 Lựa chọn giải thuật tìm kiếm 30 iv CHƢƠNG ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG CHÉO VÀO BÀI TOÁN KPQT 34 3.1 Phƣơng pháp nghiên cứu 34 3.1.1 Tính hiệu đề xuất 34 3.1.2 Định dạng liệu đầu vào độ đo: 35 3.2 Giải pháp thực 37 3.2.1 Đề xuất mơ hình giải 37 3.2.2 Các bƣớc thực 38 CHƢƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46 4.1 Công cụ, môi trƣờng thực nghiệm 46 4.1.1 Phần cứng 46 4.1.2 Phần mềm tập liệu đầu vào 46 4.2 Chƣơng trình thực nghiệm 47 4.3 Kết thực nghiệm đánh giá 48 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI 51 TÀI LIỆU THAM KHẢO 52 v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT I II 10 11 Chữ viết tắt Tiếng việt CNTT HTTT KCTC KPQT MHQT MXH Tiếng anh B2B BPNN CRM EPC ERP NMI SCM UPGMA WFM XES XML Chú giải Công nghệ thông tin Hệ thống thông tin Khía cạnh tổ chức Khai phá quy trình Mơ hình quy trình Mạng xã hội Busines - to - Business Back - propagation neural network Customer Relationship Management Event - driven Process Chain Systems for Enterprise Resource Planning Normalized mutual information Supply Chain Management Unweighter Pair - Group Method using Arithmetic averages Workflow Management eXtensible Event Stream EXtensible Markup Language vi DANH MỤC CÁC BẢNG Bảng 2.1 So sánh loại cấu trúc cộng đồng 24 Bảng 2.2 Các phƣơng pháp tính khoảng cách hai cụm 26 Bảng 3.1 Bảng mơ tả thuộc tính phần liệu kiện 36 Bảng 3.2 Thứ tự thực nhiệm vụ ngƣời trƣờng hợp 40 Bảng 3.3 Ma trận 𝑀𝑕 mối quan hệ 40 Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 41 Bảng 3.5 Danh sách đỉnh kề 42 Bảng 3.6 Ma trận 𝑀𝑠 độ tƣơng tự 43 Bảng 3.7 Tính mật độ phân vùng ngƣỡng cắt t=1 43 Bảng 3.8 Tính mật độ phân vùng ngƣỡng cắt t=0.7(KN1) 44 Bảng 3.9 Tính mật độ phân vùng ngƣỡng cắt t=0.7(KN2) 44 Bảng 3.10 Danh sách cộng đồng đƣợc tìm thấy 45 Bảng 4.1 Chi tiết số phần cứng hệ điều hành 46 Bảng 4.2 Thông tin phần mềm tập liệu đầu vào 46 Bảng 4.3 Đánh giá kết chƣơng trình thực nghiệm 48 Bảng 4.4 Đánh giá chất lƣợng cộng đồng 50 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Tổng quan KPQT 10 Hình 1.2 Q trình phát mơ hình quy trình từ nhật ký kiện 11 Hình 1.3 Các tốn KPQT 13 Hình 1.4 Các ứng dụng KPQT lĩnh vực 14 Hình 1.5 Mơ hình tổ chức đƣợc phát từ nhật ký kiện 19 Hình 2.1 Các loại cấu trúc cộng đồng 24 Hình 2.2 Các phƣơng pháp phân cụm thứ bậc 26 Hình 3.1 Một phần mã nguồn liệu nhật ký kiện 35 Hình 3.2 Mơ hình áp dụng giải tìm kiếm cộng đồng vào KPQT 37 Hình 3.3 Thơng tin q trình xử lý cố đƣợc lƣu tệp BPI2013.xes 39 Hình 3.5 Định dạng liệu txt lƣu đồ thị 40 Hình 3.4 Đồ thị đƣợc xây dựng từ ma trận kề 41 Hình 3.6 Quá trình phân cụm thứ bậc từ dƣới - lên 43 Hình 3.8 Các cộng đồng đỉnh chồng chéo 44 Hình 4.1 Kết chƣơng trình thực nghiệm 47 MỞ ĐẦU Trong môi trƣờng cạnh tranh nay, yếu tố cốt lõi tổ chức, doanh nghiệp truy cập thông tin, nghiệp vụ cách nhanh chóng, hiệu đạt chi phí tối ƣu Kinh doanh thơng minh bao gồm công nghệ công cụ để chuyển đổi liệu thơ thành thơng tin có nghĩa có ích cho mục đích phân tích kinh doanh, ứng dụng công nghệ để chuyển liệu doanh nghiệp thành hành động Với gia tăng hệ thống tích hợp thơng tin từ q trình kinh doanh nhƣ WFM, ERP, CRM, SCM B2B, … tạo cách thức tiếp cận việc phân tích liệu lớn (big data) Khai phá quy trình (KPQT) kinh doanh hay KPQT cầu nối quan trọng khai phá liệu với quản lý trình kinh doanh [12] Các kỹ thuật giúp trích lọc thơng tin có giá trị hay thơng tin mà doanh nghiệp cần từ tập nhật ký kiện đƣợc lƣu hệ thống tích hợp thông tin, giúp bổ sung vào tiếp cận có để quản lý quy trình kinh doanh Bài tốn KPQT gồm ba tốn nhằm cải thiện quy trình kinh doanh để mở rộng mơ hình quy trình (MHQT) cần bổ sung ba khía cạnh: tổ chức, thời gian trƣờng hợp[1] Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị nhƣ khai phá mạng xã hội, khai phá luật phân phối nguồn tài nguyên, …[8] Trong đó, khai phá mạng xã hội bao gồm kỹ thuật khai phá đƣợc sử dụng rộng rãi, cho phép phát mạng xã hội (MXH) phòng, đơn vị, cá nhân tham gia vào quy trình kinh doanh từ nhật ký kiện Việc phân tích đánh giá mối quan hệ giúp nhà quản lý có nhìn xác quy trình có tổ chức họ Trong mơ hình MXH, đỉnh đại diện cho phịng, đơn vị hay ngƣời, mối quan hệ đỉnh đƣợc biểu diễn dƣới dạng cạnh Vấn đề chồng chéo nhiệm vụ ngƣời tham gia vào quy trình thách thức mang tính thời doanh nghiệp Hậu vấn đề mang lại thiệt hại kinh tế quy trình kinh doanh hoạt động thông suốt Với doanh nghiệp quy mơ lớn, mơ hình MXH kích thƣớc lớn bao gồm nhiều đỉnh mật độ kết nối đỉnh dày đặc Để tìm đƣợc ngƣời có chồng chéo nhiệm vụ MXH có kích thƣớc lớn tốn khó, đƣợc khoa học quan tâm, nghiên cứu Để giải thách thức trên, tác giả đề xuất phƣơng pháp áp dụng giải thuật tìm kiếm cộng đồng vào tốn khái phá quy trình Ý tƣởng đề xuất sử dụng kỹ thuật KCTC để phát mơ hình MXH từ tập nhật ký kiện Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm cộng đồng có cấu trúc chồng chéo Hiệu đề xuất giúp đơn giản hóa cấu trúc mạng tức chia mạng có kích thƣớc lớn thành mạng có kích thƣớc nhỏ kết nối chặt chẽ [7] Do mục tiêu luận văn tìm cộng đồng chồng chéo nên Tác giả tập trung vào giải thuật tìm kiếm cộng đồng chồng chéo, loại cấu trúc cộng đồng xuất phổ biến thực tế Các nhiệm vụ Luận văn thực hiện: Nghiên cứu tổng quan lĩnh vực KPQT giải thuật tìm kiếm cộng đồng MXH năm gần Phát biểu tốn KCTC đề xuất mơ hình giải tốn Xây dựng chƣơng trình thực nghiệm dựa mơ hình đề xuất luận văn đánh giá kết thu đƣợc Bố cục luận văn bao gồm phần mở đầu, bốn chƣơng nội dung, phần kết luận phƣơng phát triển tƣơng lai, danh mục tài liệu tham khảo Chương Tổng quan KPQT: Giới thiệu tổng quan KPQT, trình bày chi tiết vấn đề liên quan đến khía cạnh tổ chức phân tích phƣơng pháp phát MXH từ nhật ký kiện Phần Chƣơng phát biểu toán cần xử lý đƣa phƣơng pháp giải Từ đó, có nhận định ý nghĩa thực tiễn, ý nghĩa khoa học luận văn Chương Các giải thuật tìm kiếm cộng đồng MXH: Giới thiệu loại giải thuật tìm kiếm đặc biệt giải thuật tìm kiếm cộng đồng chồng chéo Sau đó, Tác giả lựa chọn giải thuật tìm kiếm cộng đồng chồng chéo áp dụng vào tốn KPQT Phân tích chi tiết giải thuật Phân vùng theo cạnh nhóm tác giả Ahn et al đƣa vào năm 2010 [4] Chương Áp dụng giải thuật tìm kiếm cộng đồng vào tốn KPQT: Đề xuất mơ hình giải toán đƣa định dạng liệu đầu vào độ đo đƣợc sử dụng mơ hình Phân tích chi tiết bƣớc thực mơ hình Kết q trình tìm cộng đồng cạnh có cấu trúc phân cấp, tƣơng ứng cộng đồng đỉnh có cấu trúc chồng chéo Chương Kết thực nghiệm đánh giá: Đƣa yêu cầu liệu, phần cứng, phần mềm mã nguồn cần thiết để xây dựng chƣơng trình thực nghiệm theo mơ hình đề xuất Dựa bảng số liệu thu đƣợc sau chạy chƣơng trình với tệp liệu dùng làm mẫu thử nghiệm, tác giả sử dụng tiêu chuẩn độ đo để phân tích chi tiết thơng số bảng Từ đó, đánh giá kết thu đƣợc dựa vào phân tích 40 Peter Sara Mike Peter Sara Mike Bảng 3.2 Thứ tự thực nhiệm vụ người trường hợp 𝑀𝑕 ma trận sinh sau sử dụng độ đo Handover of work Trong đó: i, j ngƣời tham gia vào quy trình; 𝑀𝑕 𝑖, 𝑗 phần tử ma trận 𝑀𝑕 Ta có: 𝑀𝑕 𝑖, 𝑗 = số lần ngƣời i chuyển giao nhiệm vụ j ngƣợc lại ngƣời 𝑖 j khơng có chuyển giao nhiệm vụ (i,j) Ellen Mike Peter Sara Sean Sue Ellen 7 0 Mike Peter 5 Sara Sean 4 Sue 0 Bảng 3.3 Ma trận 𝑀𝑕 mối quan hệ Bảng 3.3 ma trận thể mối quan hệ ngƣời tham gia vào quy trình Giá trị phần tử ma trận thể số lần chuyển giao công việc hai ngƣời, giá trị phần tử ma trận = 0, thể hai ngƣời khơng có chuyển giao cơng việc Số lần chuyển giao thể tƣơng tác nhiều hay hai ngƣời trình thực hoạt động Bƣớc Lƣu đồ thị: Cách thức lƣu tệp txt: Hình 3.5 Định dạng liệu txt lưu đồ thị 41 + Đồ thị đƣợc lƣu tệp txt, dƣới dạng danh sách cạnh Mỗi cạnh đƣợc coi dòng tệp + Các đỉnh phải đƣợc đánh số thứ tự số số tự nhiên cách cách Đƣợc xếp lần lƣợt theo thứ tự Ví dụ: Ký hiệu: Đỉnh 0: [Ellen]; Đỉnh 1: [Mike]; Đỉnh 2: [Pete]; Đỉnh 3: [Sara]; Đỉnh 4: [Sean]; Đỉnh 5: [Sue] Bƣớc Xây dựng ma trận kề: Gọi 𝑀𝑎 ma trận đỉnh kề đƣợc xây dựng danh sách cạnh bƣớc Trong đó: 𝑀𝑎 (i,j)= Đỉnh 1 1 đỉ𝑛𝑕 𝑖 𝑘ề 𝑣ớ𝑖 đỉ𝑛𝑕 𝑗 𝑛𝑔 ượ𝑐 𝑙ạ𝑖 1 1 1 1 1 1 1 1 1 1 1 0 1 Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 Trong bảng 3.4, giá trị phần trận 𝑀𝑎 bao gồm hai loại giá trị thể mối quan hệ hai đỉnh đồ thị + Mơ hình đồ thị vô hƣớng, không trọng số đƣợc xây dựng từ ma trận đỉnh kề: Nếu đỉnh 𝑀𝑎 𝑖, 𝑗 = 1, có cạnh kết nối đỉnh i j, ngƣợc lại khơng có cạnh kết nối hai đỉnh Hình 3.4 Đồ thị xây dựng từ ma trận kề 42 Bƣớc Áp dụng giải thuật tìm kiếm cộng đồng: Ma trận đỉnh kề đƣợc lƣu dƣới dạng ma trận thƣa hay danh sách liên kết làm đầu vào cho giải thuật Phân vùng theo cạnh Đỉnh Đỉnh kề 1,2,3 0,2,3,4,5 0,1,3,4,5 0,1,2,4,5 1,2,3 1,2,3 Bảng 3.5 Danh sách đỉnh kề + Xây dựng ma trận độ tƣơng tự cạnh: Tính độ tƣơng tự cặp cạnh (Công thức Chƣơng 2) Ví dụ: độ tƣơng tự cạnh 0-1 cạnh 0-2, đƣợc tính theo cơng thức: S − 1, − = |𝑛 + ∩𝑛 + | = =1 |𝑛 + ∪𝑛 + | Trong đó: 𝑛+ , 𝑛+ tập đỉnh kề tƣơng ứng đỉnh 𝑛+ = 0, 1, 2, 3, 4, ; 𝑛+ = 0, 1, 2, 3, 4, ; + Tiến hành gom cụm: Sử dụng kỹ thuật gom cụm từ dƣới - lên phƣơng thức kết nối đơn để gom hai cụm Hai cụm có độ tƣơng tự lớn đƣợc gom lại thành cụm Quá trình đƣợc lặp lại tất cạnh thuộc vào cụm C0 C0 C1 C2 C3 C1 C2 C3 0-1 0-2 0-3 1-2 1-3 2-3 1-4 2-4 3-4 1-5 2-5 3-5 0-1 1 0.7 0.7 0.6 0 0.6 0 0-2 1 0.7 0.7 0.6 0 0.6 0-3 1 0.7 0.7 0 0.6 0 0.6 1-2 0.7 0.7 1 0.7 0.7 0.7 0.7 1-3 0.7 0.7 1 0.7 0.7 0.7 0.7 2-3 0.7 0.7 1 0.7 0.7 0.7 0.7 1-4 0.6 0 0.7 0.7 1 0.6 0 2-4 0.6 0.7 0.7 1 0.6 3-4 0 0.6 0.7 0.7 1 0 0.6 1-5 0.6 0 0.7 0.7 0.6 0 1 2-5 0.6 0.7 0.7 0.6 1 43 3-5 0 0.6 0.7 0.7 0 0.6 1 Bảng 3.6 Ma trận 𝑀𝑠 độ tương tự C4 C2 C3 C0 C1 C2 C3 C0 0.7 0.6 0.6 C1 0.7 0.7 0.7 C2 C2 0.6 0.7 0.6 C3 C3 0.6 0.7 0.6 C4 c3 C5 C4 C2 C3 C4 0.7 0.7 C2 0.7 0.6 C3 0.7 0.6 C5 c3 C6 C5 C3 C5 0.7 C3 0.7 C6 Hình 3.6 Quá trình phân cụm thứ bậc từ - lên + Tìm ngƣỡng cắt lƣợc đồ: Đồ thị gồm đỉnh 12 cạnh Gọi t ngƣỡng cắt lƣợc đồ cho trƣớc * Tại t=1, ta có 04 phân vùng: Phân vùng Cạnh Số đỉnh Số cạnh Mật độ 3−(4−1) P1 0-1;0-2;0-3 D1=4∗(4−1) =0 P2 1-2;1-3;2-3 3 D2=3∗(3−1) =1 P3 1-4;2-4;3-4 D3=4∗(4−1) − (4−1) 3−(3−1) − (3−1) 3−(4−1) P4 1-5;2-5;3-5 − (4−1) 3−(4−1) D4=4∗(4−1) − (4−1) Bảng 3.7 Tính mật độ phân vùng ngưỡng cắt t=1 Mật độ phân vùng trung bình: 𝐷𝑡=1 = 12 + ∗ + + = 0.25 =0 =0 44 * Tại t=0.7 Khả 1: phân vùng: P3, P4, P5 Phân Cạnh Số Số vùng cạnh đỉnh P5 0-1;0-2;0-3;1-2;1-3;2-3 Mật độ 6−(4−1) D5=4∗(4−1) − (4−1) = =1 Bảng 3.8 Tính mật độ phân vùng ngưỡng cắt t=0.7(KN1) Mật độ phân vùng trung bình: 𝐷1𝑡=0.7 = 12 Khả 2: ta có phân vùng P1, P4, P6 Phân vùng Cạnh P6 ∗ + + = 0.5 Mật độ Số Số cạnh đỉnh 1-2;1-3;2-3;1-4;2-4;3-4 6−(4−1) D6=4∗(4−1) − (4−1) = =1 Bảng 3.9 Tính mật độ phân vùng ngưỡng cắt t=0.7(KN2) Mật độ phân vùng trung bình: 𝐷2𝑡=0.7 = 12 + + ∗ = 0.5 Kết luận: Tại ngƣỡng cắt lƣợc đồ 𝑡 = 0.7, giá trị mật độ phân vùng trung bình đạt cực đại 𝐷 = 0.5 + Kết quả: Từ cộng đồng cạnh đƣợc tìm thấy, ta tìm đƣợc cộng đồng đỉnh tƣơng ứng Ellen Mike Pete Sue Sara Sean Hình 3.8 Các cộng đồng đỉnh chồng chéo Cộng đồng I Cộng đồng cạnh 0-1;0-2;0-3; 1-2;1-3;2-3 Cộng đồng đỉnh 0, 1, 2, Cộng đồng ngƣời Ellen, Mike, Peter, Sara 45 II 1-4;2-4;3-4 1,2, 3, Mike, Peter, Sara, Sean III 1-5;2-5;3-5 1, 2, 3, Mike, Peter, Sara, Sue Bảng 3.10 Danh sách cộng đồng tìm thấy Bƣớc Đánh giá chất lƣợng cộng đồng: + Đối với cộng đồng cạnh: Ahn et al sử dụng cơng thức tính mật độ phân vùng nhằm đánh giá chất lƣợng cộng đồng cạnh Giá trị mật độ phân vùng - ≤ 𝐷 ≤ 1, giá trị D gần giá trị cộng đồng cạnh đƣợc phát có chất lƣợng tốt, cộng đồng cạnh có giá trị 𝐷 ≤ 0, thƣờng khơng có giá trị để khai thác vào mục đích cụ thể Trong đó: 𝐷 = 1: cộng đồng đƣợc phát đồ thị đầy đủ 𝐷 = 0: cộng đồng 𝐷 < 0: cộng đồng mạng khơng có kết nối nối 𝐷=− : giá trị nhỏ cộng đồng có hai cạnh khơng kết Trong ví dụ: Mật độ phân vùng trung bình 𝐷 = 0.5 ngƣỡng cắt 𝑡 = 0.7 → Các cộng đồng cạnh có kết nối mạnh → Các cộng đồng đỉnh tƣơng ứng có chồng chéo lớn + Đối với cộng đồng đỉnh: Những cộng đồng có giá trị khai thác cộng đồng khơng tầm thƣờng (Nontrivial community) [4], có chứa từ ba đỉnh trở lên Trong ví dụ: Cả ba cộng đồng (I), (II), (III) cộng đồng khơng tầm thƣờng có tổng số đỉnh ≥ Số lƣợng đỉnh chồng chéo thuộc vào cộng đồng không tầm thƣờng 3, tƣơng ứng Mike, Peter, Sara Sự tƣơng tác ba ngƣời với ngƣời khác quy trình thƣờng xuyên, thể vai trò quan trọng họ quy trình 46 CHƢƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Công cụ, môi trƣờng thực nghiệm Để thực trình thực nghiệm, Tác giả sử dụng cấu hình phần cứng, phần mềm, tập liệu nhƣ sau: 4.1.1 Phần cứng: STT Thiết bị/ Hệ điều hành CPU RAM HDD OS Chỉ số Intel Core i3 M370 2.40 GHz 4096 MB 320 GB Window Ultimate 32 bit Bảng 4.1 Chi tiết số phần cứng hệ điều hành 4.1.2 Phần mềm tập liệu đầu vào: TT Tên công cụ Chức Cơng cụ lập trình Window, Unix hỗ trợ ngƣời dùng lập trình https://netbeans.org Java, … NetBeans IDE 8.0.2 Là chƣơng trình thực giải thuật tìm kiếm Mã nguồn mở Link Clustering cộng đồng theo phân vùng cạnh Ahn et al Nguồn tải https://github.com/fozziethebe at/S-Space Tập liệu đầu Là tệp xes sử dụng http://www.processmining.org; vào làm đầu vào chƣơng http://data.4tu.nl trình Bảng 4.2 Thơng tin phần mềm tập liệu đầu vào - Quá trình xây dựng chương trình: + Tải cơng cụ lập trình NetBeans IDE 8.0.2 cài đặt + Viết mã nguồn tiền xử lý tệp XES nhằm xây dựng mơ hình MXH đồ thị vô hƣớng, không trọng số + Xây dựng ma trận kề từ danh sách đỉnh, diễn dƣới dạng ma thƣa (Sparse Matrix) làm đầu vào cho chƣơng trình Link Clustering Ma trận thƣa ma trận phần tử có giá trị > (Wikipedia) Điều giúp tiết kiệm dung 47 lƣợng nhớ cải thiện thời gian chạy chƣơng trình Để thực chạy đƣợc chƣơng trình này, thêm thƣ viện junit chƣơng trình 4.2 Chƣơng trình thực nghiệm Các thơng tin đƣợc hiển thị chƣơng trình thực nghiệm: thông tin đầu vào tệp xes bao gồm số trƣờng hợp, số kiện, số ngƣời tham gia vào quy trình; hiển thị danh sách đỉnh kề bao gồm ký hiệu đỉnh, số lƣợng đỉnh cạnh; hiển thị danh sách cộng đồng tìm thấy bao gồm danh sách cộng đồng mà đỉnh thuộc vào Hình 4.1 Kết chương trình thực nghiệm 48 4.3 Kết thực nghiệm đánh giá Sau cài đặt chƣơng trình, luận văn thực thử nghiệm với 04 tệp liệu định dạng XES Kết cụ thể nhƣ sau: Thông tin kết đầu Thông tin MXH Thông tin tệp XES Số đỉnh chồng chéo Giá trị mật độ trung bình 0.5 0.36 1 576 499 767 0.035 Tệp liệu Số Trƣờng hợp Số Sự kiện Số Ngƣời tham gia Số Đỉnh Số Cạnh Số cộng đồng cạnh Chapter1.xes 10 142 6 12 3 Số cộng đồng chồng chéo đỉnh Chapter5.xes 1391 15078 8 14 4 Chapter6.xes 87 522 5 4 BPI2013.xes 1484 13288 442 442 781 576 576 Số cộng đồng đỉnh Thời gian chạy (giây) Số cộng đồng không tầm thƣờng Bảng 4.3 Đánh giá kết chương trình thực nghiệm * Trong bảng kết quả, khía cạnh cần quan tâm: - Số người tham gia vào quy trình: Nếu có ngƣời tham gia vào quy trình, kết phân cụm khơng có ý nghĩa nhiều thực tế Đối với tệp liệu thu đƣợc chuyên trang http://www.processmining.org có số lƣợng ngƣời tham gia dƣới 10 ngƣời, kết cộng đồng chồng chéo khơng có giá trị khai thác cao phân tích đánh giá chồng chéo nhiệm vụ Khía cạnh cịn có ý nghĩa đánh giá mức độ quan trọng ngƣời quy trình - Mật độ kết nối đỉnh MXH: Với mạng có số cạnh xấp xỉ số đỉnh tức khả tƣơng tác đỉnh mạng thấp, kỹ thuật khai phá sinh kết khơng có giá trị mặt thực tế - Kích thước cộng đồng tìm ra: Các cộng đồng có giá trị khai thác cộng đồng khơng tầm thƣờng có từ ba đỉnh trở lên [4], số lƣợng loại cộng đồng phụ thuộc lớn vào mật độ kết nối MXH Nếu MXH có mật độ kết nối thƣa, đỉnh bị phân tách nên số lƣợng cộng đồng chứa đỉnh trở lên số lƣợng cộng đồng khơng có giá trị khai thác nhiều - Số lượng đỉnh chồng chéo: Một đỉnh thuộc vào nhiều cộng đồng không tầm thƣờng thể tầm quan trọng đỉnh đồ thị hay cá nhân 10 13 49 hoạt động quy trình Một đồ thị có số lƣợng đỉnh chồng chéo thuộc cộng đồng không tầm thƣờng lớn, khả xảy chồng chéo nhiệm vụ ngƣời tham gia vào quy trình lớn - Mật độ phân vùng trung bình: Trong luận văn, Tác giả sử dụng giá trị mật độ phân vùng trung bình D để đánh giá chất lƣợng cộng đồng cạnh, từ có nhận xét chất lƣợng chồng chéo cộng đồng đỉnh Nếu giá trị D nhỏ, cộng đồng cạnh có kết nối thấp Chất lƣợng cộng đồng cạnh tốt, thể phân tách giải thuât tối ƣu tƣơng ứng với cộng đồng cạnh cộng đồng đỉnh có chồng chéo lớn * Các đánh giá cụ thể: Tệp liệu Đánh giá - Giá trị 𝐷 ≥ 0.5 → Chất lƣợng phân tách tốt, cộng đồng cạnh có kết nối mạnh, tƣơng ứng cộng đồng đỉnh có chồng chéo lớn - Số lƣợng đỉnh = số lƣợng cạnh → Mật độ kết nối dày - Số lƣợng cộng đồng không tầm thƣờng chiếm 100% Chapter1.xes - Số lƣợng ngƣời tham gia < 10 ngƣời →  Có khả chồng chéo nhiệm vụ ngƣời tham gia vào quy trình cao Tuy nhiên, số lƣợng ngƣời tham gia ít, nên kết chồng chéo khơng có giá trị khai thác cao thực tế, mà kết phù hợp với việc nhận xét tầm quan trọng cá nhân quy trình - Giá trị

Ngày đăng: 01/08/2020, 21:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan