Khai phá dữ liệu cho dự báo di chuyển trong mạng không dây (TT)

27 363 0
Khai phá dữ liệu cho dự báo di chuyển trong mạng không dây (TT)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 A MỞ ĐẦU Sự đời mạng nội không dây (Wireless Local Area Network – WLAN) tạo điều kiện thuận lợi cho người sử dụng thiết bị di động truy cập ứng dụng mạng Internet lúc nơi trì kết nối Internet họ di chuyển vùng phủ sóng Trước đây, WLAN thường triển khai phạm vi địa lý hẹp quán cà phê, nhà hàng, khách sạn, trung tâm thương mại,… Tuy nhiên, với phát triển nhanh chóng thiết bị di động điện thoại Internet (VoIP phone hay IP phone, iPhone ), điện thoại thông minh (smart phones), máy tính bảng (iPad), máy nghe nhạc (iPod),… phát triển công nghệ mạng không dây tạo điều kiện thuận lợi cho việc mở rộng phạm vi vùng phủ sóng gọi mạng nội không dây phạm vi rộng (Wide Wireless Local Area Networks - WWLANs) hay mạng nội không dây công cộng (Public Wireless Local Area Networks – PWLANs) WWLANs thường quan tâm xây dựng thành phố lớn, New York, London, Paris, St Cloud, …và trường đại học, trường đại học Dartmouth, Học viện kỹ thuật Massachusetts (Massachusetts Institute of Technology – MIT), đại học Florida, … Tại Việt Nam, thành phố du lịch Hội An, Đà Nẵng, Huế, Hải Phòng, … phủ sóng Wi-fi miễn phí nhằm đáp ứng nhu cầu truy cập Internet lúc cho hàng ngàn người dân thành phố khách du lịch Riêng thành phố Hồ Chí Minh thí điểm lắp đặt WWLAN tuyến xe buýt nhằm thu hút người dân thành phố sử dụng loại phương tiện công cộng [nguồn: http://vnreview.vn] Bên cạnh đó, số trường đại học triển khai WWLAN phục vụ cho hàng ngàn cán bộ, giảng viên sinh viên như: ĐH Công nghiệp TPHCM, ĐH Quốc gia TPHCM, ĐH Việt Đức, ĐH Kiểm sát Hà Nội, ĐH Tài kế toán Quảng Ngãi, … Một mạng nội không dây công cộng thường bao gồm hàng trăm điểm truy nhập mạng (Access Point – AP) phục vụ cho hàng ngàn người sử dụng thiết bị di động thời điểm Trong hệ thống mạng WWLAN, AP có vùng phủ sóng từ vài chục mét (indoor AP) đến vài trăm mét (outdoor AP) Do bán kính phủ sóng AP nhỏ nên nút di động (Mobile Node – MN) di chuyển, thường qua nhiều vùng phủ sóng nhiều AP khác Vì WWLAN phải phục vụ nhiều thiết bị di động chúng thường xuyên thay đổi điểm kết nối mạng nên hệ thống mạng thường phát sinh vấn đề Quản lý vị trí Cấp phát tài nguyên mạng cho thiết bị di động Dự báo di chuyển nút di động mạng không dây xác định điểm truy nhập mạng mà nút di động kết nối trình di chuyển xung quanh vùng phủ sóng Theo đó, dự báo di chuyển cung cấp cho hệ thống mạng tri thức di chuyển MN tri thức nhu cầu sử dụng tài nguyên mạng tương lai AP Với tri thức vậy, dự báo di chuyển hỗ trợ giải vấn đề quản lý vị trí cấp phát tài nguyên mạng Trong thập niên qua, toán dự báo di chuyển thiết bị di động mạng không dây thu hút nhiều quan tâm cộng đồng nghiên cứu Cho đến nay, có nhiều công trình khảo sát phương pháp kỹ thuật sử dụng dự báo di chuyển Kết khảo sát cho thấy phần lớn chế dự báo đề xuất năm gần dựa khai phá liệu (data mining) Do đặc trưng liệu di chuyển người dùng di động có nhiều nhiễu, không đầy đủ biến đổi liên tục, nên kỹ thuật khai phá mẫu (sequential pattern mining) cho thích hợp thu hút nhiều quan tâm nghiên cứu Tuy nhiên, công trình trước tồn hai vấn đề sau:  Trong công trình trước đây, thuộc tính thời gian liệu di chuyển bị loại bỏ sau sử dụng để tạo mẫu di chuyển hợp lệ không sử dụng trình khai phá mẫu di chuyển phổ biến Do đó, chế dự báo di chuyển chưa khai thác giá trị thời điểm di chuyển trình thực dự báo Trong đó, hành vi di chuyển người thường có mối quan hệ mạnh với thời gian biểu họ Nghĩa là, vào số thời điểm cố định ngày, người thường xuất số nơi cố định  Hạn chế thứ hai công trình trước sử dụng hành vi di chuyển khứ cá nhân người dùng di động để dự báo di chuyển tương lai họ Trong trường hợp người sử dụng gia nhập vào hệ thống mạng thay đổi hành vi di chuyển, liệu di chuyển cá nhân họ không nhiều Do đó, chế không dự báo thành công trường hợp Mục tiêu phạm vi luận án Mục tiêu luận án nghiên cứu giải pháp khai thác tri thức ẩn chứa liệu di chuyển để nâng cao độ xác chế dự báo di chuyển mạng không dây Luận án tập trung vào hai chủ đề sau đây:  Nghiên cứu cách khai thác đồng thời hai đặc trưng không gian thời gian liệu di chuyển nhằm nâng cao độ xác dự báo Để đạt mục tiêu này, luận án đề xuất cách biểu diễn mẫu di chuyển theo hai thuộc tính không gian thời gian Cách biểu diễn sau áp dụng để đề xuất chế dự báo di chuyển dựa khai phá mẫu không gian – thời gian  Nghiên cứu cách khai thác đặc trưng di chuyển theo nhóm người dùng di động đề xuất giải pháp dự báo cho di chuyển thiếu thông tin Để đạt mục tiêu này, trước hết luận án định nghĩa độ đo tương tự nhằm xác định mức độ giống hành vi di chuyển người dùng di động Độ đo tương tự sau áp dụng để phát triển giải pháp phân nhóm liệu di chuyển người dùng di động Dựa giải pháp phân nhóm, luận án đề xuất chế dự báo di chuyển nhằm khắc phục tình trạng thiếu thông tin liệu di chuyển cá nhân Những đóng góp luận án Luận án đề xuất chế dự báo di chuyển dựa khai thác đặc trưng liệu di chuyển nhằm nâng cao độ xác dự báo, bao gồm:  Mô hình biểu diễn di chuyển thiết bị di động mạng không dây theo thuộc tính không gian thời gian Mô hình công bố Tạp chí Southeast-Asian Journal of Sciences, 2012 báo cáo Hội nghị quốc tế International Conference in Mathematics and Applications – ICMA, Thailand, 2011  Cơ chế dự báo di chuyển dựa khai phá mẫu không gian – thời gian Cơ chế dự báo khai thác giá trị thuộc tính thời gian bốn giai đoạn trình dự báo di chuyển Kết nghiên cứu công bố kỷ yếu Hội nghị quốc gia lần nghiên cứu Cơ Ứng dụng (FAIR’05), 2011, Tạp chí Journal of Communication and Computer (JCC), 2012 Tạp chí International Journal of Computer Science and Telecommunications (IJCST), 2012  Độ đo tương tự mẫu di chuyển nhằm khai thác đặc trưng di chuyển theo nhóm liệu di chuyển Độ đo tương tự kết hợp có trọng số theo hai thuộc tính không gian thời gian mẫu di chuyển Luận án lập luận chứng minh tính đắn độ đo tương tự kiểm định thực nghiệm Độ đo công bố Tạp chí International Journal of Computer Networks & Communications (IJCNC), 2012 (DBLB) Tạp chí Khoa học Công Nghệ Viện Khoa học Công nghệ Việt Nam, 2013  Thuật toán gom nhóm hành vi di chuyển người dùng di động mạng không dây dựa độ đo tương tự đề xuất luận án Hiệu thuật toán gom nhóm đánh giá thực nghiệm nhiều tham số khác thông qua nhiều phương pháp đo chất lượng gom nhóm chuẩn Kết nghiên cứu công bố kỷ yếu Hội nghị quốc gia lần nghiên cứu Cơ Ứng dụng (FAIR’06), 2013 Tạp chí International Journal of Innovative Computing, Information and Control (IJICIC), 2013, (Scopus| SJR impact factor = 0.812)  Cơ chế dự báo di chuyển dựa nhóm hành vi di chuyển tương tự Cơ chế khai thác giống hành vi di chuyển người dùng di động nhằm khắc phục thiếu thông tin liệu di chuyển cá nhân Kết nghiên cứu công bố kỷ yếu Hội nghị quốc tế International Conference on Context-Aware Systems and Applications – ICCASA, 2013, Lecture Notes of ICST (Springer) kỷ yếu Hội nghị quốc tế Science and Information Conference – SAI, London, 2015 (IEEE Xplore) Tạp chí Journal of Communications and Networks (JCN), 2015 (ISI, impact factor = 1.007) Bố cục luận án Về cấu trúc, luận án trình bày chương, có phần mở đầu, phần kết luận, phần công trình công bố liên quan đến luận án, tài liệu tham khảo phần phụ lục Chương trình bày tổng quan vấn đề liên quan đến dự báo di chuyển mạng không dây sở lý thuyết cho giải pháp đề xuất chương lại luận án Chương tập trung nghiên cứu đề xuất cách biểu diễn mẫu di chuyển theo hai thuộc tính không gian thời gian liệu di chuyển Với cách biểu diễn mẫu di chuyển vậy, chương đề xuất chế dự báo di chuyển dựa khai phá mẫu không gian – thời gian Phần lại chương xây dựng liệu kiểm thử, phương pháp đánh giá thực nghiệm kịch thực nghiệm, cài đặt thực nghiệm tập liệu mô để phân tích đánh giá hiệu việc sử dụng đồng thời hai thuộc tính không gian thời gian vào dự báo di chuyển Hiệu chế dự báo đề xuất đánh giá so sánh với công trình liên quan thực nghiệm Trong chương 3, luận án đề xuất độ đo tương tự cho mẫu di chuyển nhằm xác định mức độ giống chúng Độ đo tương tự sau áp dụng để đề xuất giải pháp gom nhóm mẫu di chuyển Dựa giải pháp gom nhóm, luận án đề xuất chế dự báo di chuyển với mục tiêu khai thác đặc trưng di chuyển theo nhóm người sử dụng thiết bị di động nhằm khắc phục thiếu thông tin liệu di chuyển cá nhân Hiệu giải pháp đề xuất chương đánh giá thực nghiệm so sánh với công trình liên quan Do đó, phần lại chương trình bày tập liệu kiểm thử, phương pháp đánh giá thực nghiệm kịch thực nghiệm, kết thực nghiệm B NỘI DUNG Chương – Tổng quan dự báo di chuyển mạng không dây 1.1 Tổng quan chế dự báo di chuyển Loại tri thức kỹ thuật Đặc điểm Hạn chế sử dụng Tôpô giao thông, tôpô đường đi, … - Dựa vào tôpô hay đồ khái niệm không gian cảnh mạng hay tôpô thay đổi Bản đồ khái niệm để tính xác suất di chuyển không gian - Không dự báo tốt ngữ - Yêu cầu tập hợp xử lý từ vị trí đến vị trí lượng thông tin lớn - Thích hợp cho hệ thống mạng ổn định có qui mô nhỏ Tri thức ngữ Độ mạnh tín hiệu cảnh nhận - Dựa vào độ mạnh tín - Làm tăng lưu lượng mạng hiệu để theo dõi (tracking) AP liên tục gửi tín hiệu liên tục khoảng cách chứa thông tin khoảng cách MN AP lân cận - Số vị trí dự báo thường - Độ mạnh tín hiệu nhận nhiều dự báo không lớn nghĩa theo hướng di chuyển MN gần AP, có khả MN di chuyển đến AP Hành vi di chuyển khứ Mô hình xác suất - Sự di chuyển MN - Sử dụng tài nguyên tính toán từ AP đến AP khác lớn mô hình chuyển trạng thái - Dựa vào ma trận xác - Cần huấn luyện lại mô hình định kỳ - Không khai thác thông suất chuyển trạng thái để tin di chuyển theo nhóm dự báo chuyển trạng thái MN Phân tích thống kê - Phân tích liệu di - Khó mở rộng thêm đặc điểm ngữ cảnh - Không thích nghi với liệu chuyển để rút trích tri không đầy đủ biến đổi thức hành vi di chuyển liên tục - Kết phân tích thường lớn trừu tượng Phân lớp Thích hợp cho hệ Phải huấn luyện lại mô hình thống mạng ổn định có thêm liệu hay loại bỏ quy mô nhỏ liệu cũ Gom nhóm Sử dụng đặc điểm di Kết dự báo không tốt chuyển theo nhóm liệu di chuyển có tỷ lệ người dùng di động để di chuyển ngẫu nhiên cao tiên đoán di chuyển tương lai Khai phá Khai phá Thích nghi tốt với liệu mẫu tuần di chuyển có tỷ lệ di thời gian mẫu di chuyển tự chuyển ngẫu nhiên cao - Chưa khai thác thuộc tính - Không dự báo tốt liệu Đề xuất giải pháp đáp ứng di chuyển cá nhân không đầy liệu thời gian thực sử dụng đủ khai phá mẫu Khai phá Sử dụng thuộc tính thời mẫu tuần gian giai đoạn khai gian giai đoạn tự không phá mẫu di chuyển phổ trình dự báo di chuyển gian – thời biến gian - Chỉ khai thác thuộc tính thời - Không dự báo tốt liệu Sử dụng ràng buộc thời di chuyển cá nhân không đầy gian để sinh tập chuỗi di đủ chuyển có nghĩa 1.2 Độ đo tương tự cho liệu di chuyển 1.2.1 Các khái niệm độ đo tương tự Cho S tập hợp khác rỗng, hàm số d: S  S  R gọi mêtric (metric) S d thỏa tính chất sau: Tiên đề (tính phản xạ - self-identity): với x thuộc S, d(x, x) = Tiên đề (tính dương – positivity): với x, y thuộc S, x ≠ y, d(x, y) > Tiên đề (tính đối xứng – symmetry): với x, y thuộc S, d(x, y) = d(y, x) Tiên đề (tính bất đẳng thức tam giác - triangle inequality): với x, y, z thuộc S, d(y, z) ≤ d(y, x) + d(x, z) Độ đo tương tự (similarity measure) hai đối tượng liệu độ sai khác (dissimilarity) đối tượng liệu với đối tượng liệu lại Độ sai khác tính dựa hàm số d Nếu hàm số d thỏa tính chất phản xạ, dương đối xứng (các tiên đề 1, 2, 3) độ đo tương tự nửa mêtric hay bán mêtric (semi-metric) Nếu hàm số d thỏa tính chất phản xạ, đối xứng bất đẳng thức tam giác (các tiên đề 1, 2, 4) độ đo tương tự giả mêtric hay gần mêtric (pseudo-metric) Nếu hàm số d thỏa tính chất phản xạ đối xứng (các tiên đề 1, 3) độ đo tương tự nửa giả mêtric hay nửa gần mêtric (semipseudo-metric) 1.2.2 Tổng quan độ đo tương tự Việc xác định mức độ tương tự mẫu đường đóng vai trò quan trọng việc khai thác di chuyển giống đối tượng di chuyển Mặc dù có nhiều độ đo đề xuất để tính độ tương tự mẫu đường phần lớn tính dựa khoảng cách Ơ-clit (Euclidean distance) Tuy nhiên, có số độ đo đề xuất cho không gian mạng thay cho không gian Ơclit chưa quan tâm thuộc tính thời gian liệu đường Một số độ đo sử dụng khoảng cách mạng (network distance) tính toán dựa đồng thời thuộc tính không gian thời gian Tuy nhiên, yếu tố thời gian phản ảnh thông qua khía cạnh thời khoảng hai vị trí liên tiếp tương ứng hai mẫu thứ tự vị trí tương ứng hai mẫu, chưa quan tâm đến thời điểm hai vị trí tương ứng hai mẫu 1.3 Mở rộng thuật toán gom nhóm k-means Với ưu điểm đơn giản độ phức tạp tính toán thấp, thuật toán gom nhóm kmeans ngày trở nên phổ biến Độ phức tạp thuật toán k-means O(n.k.l) với k số lượng nhóm sinh ra, n số phần tử tập liệu cần phân hoạch l số lần lặp vòng lặp while thuật toán Với độ phức tạp tính toán đa thức, thuật toán k-means thường đề xuất sử dụng cho tập liệu lớn Tuy nhiên, thuật toán k-means kinh điển tập trung vào liệu định lượng (numerical data, gọi liệu số) sử dụng khoảng cách Ơ-clit để đo độ tương tự đối tượng liệu Nhiều công trình nghiên cứu chứng minh không hiệu sử dụng khoảng cách Ơ-clit để đo độ tương tự đối tượng liệu định tính (categorical data, gọi liệu phân loại) Hơn nữa, thuật toán k-means kinh điển đề xuất cho miền giá trị định lượng nên khó áp dụng trực tiếp cho miền giá trị định tính hầu hết ứng dụng khai phá liệu Để khắc phục hạn chế này, nhiều nhóm nghiên cứu đề xuất giải pháp để áp dụng k-means cho miền giá trị định tính Trong đó, số công trình đề xuất chuyển miền giá trị định tính sang miền giá trị định lượng Cách tiếp cận đơn giản nhiên dẫn đến ngữ nghĩa khái niệm định tính Một cách tiếp cận khác xây dựng độ đo tương tự cho liệu định tính sử dụng độ đo tương tự để phân nhóm đối tượng liệu, điển hình k-modes krepresentatives Tuy nhiên, giải pháp gom nhóm tạo phân hoạch không ổn định nhóm có nhiều trung vị k-modes khởi tạo đại diện nhóm ngẫu nhiên k-representatives 1.4 Tập liệu kiểm thử Mặc dù hệ thống mạng WWLAN phổ biến phần lớn chúng phát triển theo phát triển thành phố / trường đại học Do đó, sơ 10 đồ bố trí tổng thể điểm truy nhập mạng APs hệ thống mạng WWLAN thường thay đổi theo thời gian Hơn nữa, lý bảo mật hệ thống mạng nên nhà quản trị hệ thống phải có trách nhiệm bảo mật sơ đồ bố trí tổng thể điểm truy nhập mạng Vì tiếp cận sơ đồ bố trí tổng thể điểm truy nhập mạng hệ thống mạng thực tế nên phần lớn nhóm nghiên cứu tự xây dựng tập liệu kiểm thử từ hệ thống mạng mô Mặt khác, nhằm khảo sát mức độ ảnh hưởng tỷ lệ di chuyển ngẫu nhiên liệu di chuyển độ xác dự báo chế đề xuất, luận án cần xây dựng tập liệu kiểm thử theo tỷ số ngẫu nhiên khác Tỷ số ngẫu nhiên tỷ lệ số đường ngẫu nhiên tổng số đường tập Với tập liệu thực (real dataset), số đường ngẫu nhiên tập cố định khó nhận diện nên việc điều chỉnh tỷ số ngẫu nhiên cho tập liệu kiểm thử thực khó thực Từ lý trên, luận án thực đánh giá đề xuất thực nghiệm tập liệu kiểm thử mô Tập liệu kiểm thử tập đường thiết bị di động xung quanh vùng phủ sóng hệ thống mạng Do đó, để xây dựng tập liệu kiểm thử, trước hết luận án mô hệ thống mạng có vùng phủ sóng (coverage region) bao gồm số lượng điểm truy nhập mạng (APs) cụ thể sơ đồ bố trí điểm truy nhập cụ thể Hệ thống mạng biểu diễn đồ thị di chuyển có số nút cấu trúc mạng lưới nút tương ứng với số điểm truy cập mạng sơ đồ bố trí điểm truy cập mạng hệ thống Dựa đồ thị di chuyển, luận án xây dựng sinh liệu để sinh tập đường mô tả qua nút đồ thị nhằm mô di chuyển xung quanh vùng phủ sóng hệ thống mạng mô Cách xây dựng tập liệu kiểm thử nhiều công trình nghiên cứu trước thực 1.5 Phương pháp đánh giá thực nghiệm Để đảm bảo tính xác, ngẫu nhiên khách quan, luận án tính toán tiêu chí đánh giá thông qua phương pháp kiểm thử chéo (n-folds cross-validation) 13 định danh tất tế bào vùng phủ sóng tập cạnh E biểu diễn lân cận hai tế bào tương ứng Hình 2.1 Vùng phủ sóng (a) đồ thị di chuyển tương ứng (b) 2.1.2 Định nghĩa mẫu di chuyển luật di chuyển Vì mục tiêu luận án phân tích hành vi di chuyển hàng ngày người dùng di động nên luận án đề xuất chia chu kỳ thời gian ngày (24 giờ) thành n khoảng thời gian [ai, bi] nhau, thời khoảng [ai, bi] gán nhãn thời gian ti Khi đó, ngày có tập nhãn thời gian T = { t1, t2, … ti, … tn} với tính chất ti < tj i < j, ≤ i, j ≤ n Ký hiệu c định danh tế bào vùng phủ sóng mà MN kết nối vào thời điểm t, luận án định nghĩa điểm (point) sau: Định nghĩa 2.1 Ký hiệu C T tập định danh tế bào tập nhãn thời gian Cặp có thứ tự p = (c, t), c  C t  T, gọi điểm Ký hiệu P tập tất điểm, P = C × T = {(c, t) | c  C t  T} Hai điểm pi = (ci, ti) pj = (cj, tj) gọi ci = cj ti = tj Điểm pi = (ci, ti) gọi điểm trước điểm pj = (cj, tj) ti < tj, ký hiệu (ci, ti) < (cj, tj) pi < pj Ví dụ: điểm (8, t5) điểm trước điểm (2, t7) t5 < t7 Định nghĩa 2.2 Một đường (trajectory) thiết bị di động định nghĩa chuỗi có thứ tự hữu hạn điểm không gian C × T, với pj = (cj, tj) cho ≤ j ≤ k hai tế bào hai điểm liền kề lân cận vùng phủ sóng Một đường gồm k điểm gọi mẫu di chuyển (sequential mobility pattern) chiều dài k ký hiệu k-pattern 14 Chú ý thứ tự tăng dần điểm đường xếp theo nhãn thời gian ti điểm Định nghĩa 2.3 Một mẫu di chuyển B = gọi mẫu di chuyển (sub-pattern) mẫu di chuyển A = , với bj điểm, ký hiệu B  A, tồn số nguyên ≤ i1 < … < im ≤ n cho bk = aik, cho tất k, với ≤ k ≤ m Và đó, A gọi mẫu di chuyển cha (super-pattern) B Định nghĩa 2.4 Cho sở liệu giao tác D = {S1, S2, …, SN} chứa N mẫu di chuyển Độ phổ biến (support) mẫu di chuyển S tỷ lệ phần trăm số giao tác chứa S tổng số giao tác sở liệu giao tác D, nghĩa là: support( S )  Si | S  Si , Si  D N  100 (2.1) Định nghĩa 2.5 Cho ngưỡng hỗ trợ tối thiểu (minimum support threshold), suppmin, mẫu di chuyển S định nghĩa mẫu di chuyển phổ biến S có độ phổ biến thỏa mãn: support(S) ≥ suppmin (2.2) Định nghĩa 2.6 Một luật di chuyển có dạng R: A  B, đó, A B hai mẫu di chuyển phổ biến A  B = Khi đó, A B gọi phần đầu phần đuôi luật Vì luật di chuyển R: A  B sinh từ mẫu di chuyển phổ biến A  B, độ phổ biến luật di chuyển độ phổ biến mẫu di chuyển A  B Định nghĩa 2.7 Cho sở liệu giao tác D = {S1, S2, …, SN} chứa N mẫu di chuyển Độ phổ biến luật kết hợp R: A  B tỷ lệ phần trăm số giao tác chứa A  B tổng số giao tác sở liệu giao tác D, nghĩa là: (2.3) support( A  B )  Si | A  B  Si , Si  D N  100  support( A  B ) Định nghĩa 2.8 Cho luật di chuyển R: A  B, độ tin cậy luật (confidence value) định nghĩa công thức: 15 confidence ( R)  support(A  B)  100 support( A) (2.4) 2.2 Dự báo di chuyển dựa khai phá mẫu không gian – thời gian 2.2.1 Sinh sở liệu giao tác Để khai phá mẫu di chuyển phổ biến từ liệu di chuyển, trước hết luận án rút trích tất mẫu di chuyển có nghĩa từ tập tin nhật ký di chuyển (log file) cá nhân MN Mẫu di chuyển có nghĩa chuỗi vị trí mà MN kết nối vào phiên di chuyển, gọi giao tác hợp lệ (valid transaction) Tập tất giao tác hợp lệ theo thứ tự thời gian gọi sở liệu giao tác (transactional database) Để khắc phục vấn đề kết nối hay thiếu liệu lịch sử di chuyển, luận án đề xuất sử dụng ràng buộc thời gian vị trí kết nối MN nhằm tạo chuỗi di chuyển có nghĩa Ràng buộc thời gian giới hạn khoảng thời gian hai vị trí giao tác Nghĩa là, khoảng thời gian hai vị trí kết nối liên tục MN liệu di chuyển vượt ngưỡng thời gian tối đa, ký hiệu gapmax, giao tác hợp lệ sinh Ký hiệu tj tj+1 thời điểm MN kết nối vào vị trí liên tục tj+1 - tj ≤ gapmax 2.2.2 Khai phá mẫu di chuyển không gian-thời gian Luận án khảo sát, đánh giá ưu nhược điểm số thuật toán khai phá tập/mẫu phổ biến điển Apriori biến thể nó, GSP, SPADE, FP-Growth PrefixSpan Nhóm thuật toán dựa nguyên lý Apriori duyệt lại CSDL nhiều lần nên thích hợp cho hệ thống khai phá tương tác (thường xuyên thay đổi độ phổ biến) khai phá CSDL tăng dần (thường xuyên thêm giao tác mới) Đồng thời, nhóm thuật toán khuyến nghị nên áp dụng mẫu CSDL có độ dài ngắn CSDL có kích thước nhỏ Trong đó, nhóm thuật toán dựa phương pháp phát triển mẫu thích hợp cho CSDL lớn chuỗi liệu dài Tuy nhiên, chi phí cho việc xây dựng lại không gian tìm kiếm cao nên nhóm giải thuật không hiệu áp dụng cho hệ thống khai phá tương tác khai phá CSDL tăng dần 16 Luận án phân tích hành vi di chuyển hàng ngày người nên phiên di chuyển người thực ngày Do đó, mẫu di chuyển CSDL giao tác luận án có độ dài thường ngắn Vì CSDL giao tác luận án xây dựng từ lịch sử di chuyển hàng ngày tất người sử dụng gia nhập vào hệ thống mạng nên CSDL thường xuyên thêm giao tác Từ phân tích trên, nhóm thuật toán dựa nguyên lý Apriori tỏ thích hợp để khai phá tất mẫu di chuyển phổ biến không gian-thời gian từ CSDL giao tác D luận án Tuy nhiên, để có kết đánh giá thực nghiệm hiệu sử dụng nhóm thuật toán khai phá mẫu phổ biến, luận án đề xuất cài đặt hai nhóm thuật toán (1) dựa nguyên lý Apriori (2) dựa phương pháp phát triển mẫu Cả hai thuật toán mở rộng hai thuộc tính không gian thời gian nhằm khai phá tất mẫu di chuyển phổ biến không gian-thời gian từ sở liệu giao tác D 2.2.3 Rút trích luật di chuyển theo trọng số thời gian Giả sử S mẫu di chuyển phổ biến, tất luật di chuyển sinh từ mẫu di chuyển phổ biến S là: A  (S-A) với tất A  S A ≠  Mỗi luật di chuyển có độ tin cậy (confidence) tính theo Định nghĩa 2.7 Tất luật di chuyển có độ tin cậy lớn ngưỡng tin cậy tối thiểu confmin chọn gọi luật di chuyển phổ biến (frequent mobility rules) Luận án đề xuất luật ri gán giá trị trọng số wi dựa thuộc tính thời gian Trọng số luật tính theo thủ tục sau Ký hiệu MinDate MaxDate ngày (first date) ngày cuối (last date) tập tin nhật ký di chuyển MN Ký hiệu RuleDate ngày xác định thông qua giá trị thuộc tính thời gian điểm cuối phần đuôi luật Luận án đề xuất cách tính giá trị trọng số luật Công thức (2.5) weight ( R)  RuleDate  MinDate  100 MaxDate  MinDate (2.5) 17 2.2.4 Dự báo di chuyển dựa luật di chuyển Luật di chuyển phổ biến rút trích từ liệu di chuyển người dùng di động, mô tả hành vi di chuyển thường ngày họ Do đó, luật di chuyển phổ biến sử dụng để tiên đoán di chuyển tương lai người dùng di động Như phân tích trên, luật di chuyển rút trích từ tập liệu di chuyển khứ xa quan trọng luật di chuyển rút trích từ tập mẫu di chuyển Do đó, luật di chuyển có thời gian tồn lâu phản ánh hành vi di chuyển người dùng di động Theo đó, luật di chuyển có thời gian tồn lâu cho dù chúng có độ phổ biến độ tin cậy cao không ưu tiên chọn để dự báo có khả hành vi di chuyển người thay đổi so với trước Để giải vấn đề này, luận án đề xuất tính điểm so khớp luật di chuyển với đường cần dự báo dựa độ phổ biến, độ tin cậy trọng số thời gian luật Chương – Dự báo dựa nhóm hành vi di chuyển 3.1 Độ đo tương tự cho mẫu di chuyển Luận án đề xuất độ đo tương tự STPS (Spatial and Temporal Pattern Similarity) dựa hai nhân tố sau đây:  Số tế bào chung hai mẫu di chuyển: hai mẫu di chuyển có nhiều tế bào chung chúng giống không gian  Thời điểm kết nối vào tế bào chung hai mẫu di chuyển: Hai mẫu di chuyển có thời điểm kết nối vào tế bào gần chúng giống thời gian Định nghĩa 3.1 Cho P tập mẫu di chuyển, hàm số f: P  P  [0,1], ánh xạ từ cặp mẫu di chuyển sang số thực đoạn 1, gọi độ đo tương tự P f thỏa tính chất sau: (i) Tính phản xạ: với Pi  P f(Pi, Pi) = 0; (ii) Tính đối xứng: với Pi,Pj  P f(Pi, Pj) = f(Pj, Pi); Dựa vào khái niệm độ đo tương tự trình bày Phần 1.2.1, độ đo tương tự nửa mêtric hay bán mêtric (semi-metric) 18 Độ đo tương tự theo không gian Định nghĩa 3.2 Ký hiệu g: P  P  R hàm số xác định số tế bào có mẫu Pa mẫu Pb Theo đó, g biểu diễn công thức sau g ( Pa , Pb )  card ({cai | cai  Pa , cai  Pb }) (3.1) Mệnh đề 3.1 (i)  g(Pa, Pb)  L(Pa), với L(Pa) chiều dài mẫu di chuyển Pa; (ii) g(Pa, Pa) = 0, với Pa  P; (iii) g(Pa, Pb) = L(Pa), Pa Pb chung tế bào Định nghĩa 3.3 dspace(Pa, Pb) hai mẫu di chuyển Pa Pb định nghĩa sau: d space( Pa , Pb )  g ( Pa , Pb )  g ( Pb , Pa ) L( Pa )  L( Pb ) (3.2) Mệnh đề 3.2 dspace(Pb, Pb) độ đo tương tự gọi độ tương tự theo không gian Độ đo tương tự theo thời gian Định nghĩa 3.4 Giả sử Pa = Pb = hai mẫu di chuyển, với cai, cbj  V tai, tbj  T với i, j Nếu hai mẫu Pa Pb có tế bào chung dtime(Pa, Pb) hai mẫu di chuyển Pa Pb tính công thức sau: d time ( Pa , Pb )  tai  tbj n ,m với cai = cbj  k i 1, j 1 max( tai , tbj ) (3.3) với k số tế bào chung Pa Pb Mệnh đề 3.3 dtime(Pb, Pb) độ đo tương tự gọi độ đo tương tự theo thời gian Độ đo tương tự kết hợp không gian thời gian Định nghĩa 3.5 Một hàm u: [0,1]  [0,1]  [0,1] gọi hàm kết hợp, ký hiệu com-function, thỏa mãn điều kiện sau: (1) min(s, h)  u(s, h)  max(s, h); (2) u(s1, h)  u(s2, h) s1  s2; 19 (3) u(s, h1)  u(s, h2) h1  h2 Mệnh đề 3.4 Hàm u: [0,1]  [0,1]  [0,1] định nghĩa công thức: u(x, y) = wspacex + wtimey với wspace + wtime = (3.4) hàm kết hợp Định nghĩa 3.6 d(Pa, Pb) hai mẫu di chuyển Pa Pb định nghĩa công thức sau: d(Pa, Pb) = wspace dspace(Pa, Pb) + wtime dtime(Pa, Pb) với wspace + wtime = (3.5) đó, dspace(Pa, Pb) dtime(Pa, Pb) độ đo tương tự theo không gian theo thời gian hai mẫu di chuyển Pa Pb Mệnh đề 3.5 d(Pa, Pb) độ đo tương tự, hàm kết hợp gọi độ đo tương tự kết hợp 3.2 Gom nhóm hành vi di chuyển thiết bị di động 3.2.1 Thuật toán gom nhóm mẫu di chuyển không gian – thời gian Mục đích thuật toán gom nhóm phân hoạch tập mẫu di chuyển thành k nhóm cho mẫu di chuyển nhóm giống so với mẫu nhóm khác Thuật toán gom nhóm mẫu di chuyển SMPC (Similarity Mobility Pattern based Clustering) đề xuất luận án mở rộng phương pháp k-means cho liệu định tính (categorical data) Sự mở rộng tập trung vào cải tiến thủ tục khởi tạo nhằm hạn chế tối ưu cục xây dựng thủ tục cập nhật trung tâm nhóm nhằm tăng độ phân biệt nhóm thông qua việc gán mẫu vào nhóm gần Trong thuật toán gom nhóm SMPC, k trung tâm nhóm ban đầu chọn thủ tục khởi tạo trình bày Phần 3.2.2 thay cho việc khởi tạo cách ngẫu nhiên k-means truyền thống Sau chọn giá trị khởi tạo cho k trung tâm nhóm, mẫu di chuyển tập liệu gán vào nhóm gần theo nghĩa giống trung tâm nhóm k trung tâm nhóm trình bày thủ tục Phần 3.2.3 Sau tất mẫu di chuyển tập liệu gán vào nhóm tương ứng, trung tâm nhóm phải cập nhật 20 lại theo thủ tục trình bày Phần 3.2.3 Dựa vào giá trị cập nhật trung tâm nhóm, mẫu di chuyển tập liệu cần gán lại vào nhóm gần Thủ tục cập nhật trung tâm nhóm gán lại mẫu vào nhóm gần lặp lại không mẫu di chuyển gán lại nhóm sau chu kỳ kiểm tra toàn tập liệu 3.2.2 Khởi tạo thuật toán gom nhóm mẫu di chuyển dựa độ đo tương tự Ký hiệu P = { P1, P2, …, Pn} tập mẫu di chuyển k số nguyên dương đặc tả số nhóm cần phân hoạch Ký hiệu ci trung tâm nhóm khởi tạo thứ i, với  i  k C = {c1, c2, …, cl} tập l trung tâm nhóm khởi tạo tại, với  l  k Định nghĩa 3.7 Trung tâm nhóm khởi tạo mẫu di chuyển Pi chọn từ tập liệu cho giá trị tổng sau đạt cực đại: l Di   d ( Pi , c j ) (3.6) j 1 d(Pi, cj) độ đo tương tự kết hợp mẫu di chuyển Pi trung tâm nhóm khởi tạo cj Định nghĩa 3.6 Thủ tục khởi tạo phác họa sau: Trung tâm nhóm khởi tạo thứ c1 chọn cách ngẫu nhiên từ tập liệu; Với mẫu Pi tập liệu, Pi  c1,  i  n, tính độ tương tự d(Pi, c1) mẫu Pi trung tâm nhóm khởi tạo c1; Trung tâm nhóm khởi tạo thứ hai c2 mẫu di chuyển Pi chọn từ tập liệu cho d(Pi, c1) đạt giá trị lớn Ký hiệu l số trung tâm nhóm khởi tạo Với mẫu Pi tập liệu, Pi  C, tính tổng độ tương tự Di Pi l trung tâm nhóm khởi tạo C theo công thức Định nghĩa 3.7 Trung tâm nhóm khởi tạo cl+1 mẫu Pi cho Di đạt giá trị lớn Nếu l < k gán C = C  cl+1, l = l+1 lặp lại bước Ngược lại dừng 21 3.2.3 Gán mẫu vào nhóm cập nhật trung tâm nhóm Ký hiệu P = { P1, P2, …, Pn} C = {c1, c2, …, ck} tập mẫu di chuyển tập trung tâm nhóm Mỗi nhóm đại diện trung tâm nhóm cj với  j  k mục tiêu việc gom nhóm cố gắng gán mẫu di chuyển Pi với  i  n vào nhóm cj cho Pi giống cj tốt Theo đó, thủ tục gán mẫu phác thảo sau: Với mẫu Pi  P , Pi  C, tính độ tương tự d(Pi, cj) mẫu Pi trung tâm nhóm cj  C; Chọn cj cho d(Pi, cj) đạt giá trị nhỏ nhất; Gán mẫu Pi vào nhóm đại diện cj Sau tất mẫu gán vào nhóm tương ứng, trung tâm nhóm cần phải cập nhật lại Trung tâm nhóm X mẫu di chuyển nhóm X cho tổng độ tương tự với tất mẫu di chuyển lại X lớn Theo sau phần mô tả thủ tục cập nhật trung tâm nhóm Định nghĩa 3.8 Ký hiệu X = { P1, P2, …, Pm} nhóm Trung tâm nhóm X mẫu di chuyển Pi  X cho giá trị tổng sau đạt cực tiểu: m m j 1 j 1 Oi   Oij   d ( Pi , Pj ) (3.7) đó, Pj  Pi với j,  j  m d(Pi, Pj) độ đo tương tự kết hợp hai mẫu Pi Pj Định nghĩa 3.6 Thủ tục cập nhật trung tâm nhóm tóm tắt sau: Với mẫu Pi nhóm X, khởi tạo tổng độ tương tự Pi tất mẫu lại X: Oi = 0; Cộng d(Pi, Pj) vào tổng Oi: Oi = Oi + d(Pi, Pj) với Pj  X, Pj  Pi Chọn mẫu Pi cho Oi có giá trị nhỏ làm trung tâm nhóm X 3.3 Dự báo di chuyển dựa nhóm hành vi tương tự Trong phần này, luận án đề xuất giải pháp dự báo dựa hành vi di chuyển theo nhóm nhằm khắc phục thiếu thông tin liệu di chuyển cá nhân Cơ chế dự báo bao gồm giai đoạn: (1) khai phá tập mẫu di chuyển phổ 22 biến từ liệu di chuyển tất thiết bị di động hệ thống mạng; (2) gom nhóm tập mẫu di chuyển phổ biến dựa độ tương tự chúng; (3) xác định đường người sử dụng cần dự báo thuộc nhóm di chuyển nào; (4) sử dụng luật di chuyển sinh từ nhóm để dự báo vị trí kết nối cho người sử dụng 3.3.1 Khai phá gom nhóm tập mẫu di chuyển phổ biến Mặc dù người di chuyển tự không luôn di chuyển ngẫu nhiên Hành vi di chuyển họ thường theo qui luật định tùy thuộc vào hoạt động hàng ngày họ Ví dụ, kế hoạch ngày từ nhà đến quan từ ký túc xá đến phòng nghiên cứu, … Nhìn chung, di chuyển người thường bao gồm hai loại: di chuyển thường xuyên di chuyển ngẫu nhiên Di chuyển thường xuyên di chuyển lặp lại hàng ngày người sử dụng nên hữu ích cho việc dự báo di chuyển tương lai họ Trong đó, di chuyển ngẫu nhiên di chuyển tùy hứng nên giá trị dự báo di chuyển Tỷ lệ di chuyển ngẫu nhiên liệu di chuyển dùng để dự báo cao ảnh hưởng chất lượng dự báo Hơn nữa, di chuyển ngẫu nhiên gây ảnh hưởng đến kết gom nhóm hành vi di chuyển Do trước gom nhóm hành vi di chuyển để dự báo, luận án loại bỏ tất di chuyển ngẫu nhiên cách khai phá tập mẫu di chuyển phổ biến Quá trình khai phá thực trình bày Phần 2.2.2 Chương Sau khai phá từ liệu di chuyển tất thiết bị di động hệ thống mạng, tập mẫu di chuyển phổ biến sử dụng để phân nhóm dựa độ tương tự chúng Quá trình gom nhóm mẫu di chuyển thực theo thuật toán SMPC Những mẫu di chuyển tương tự gom vào nhóm Do đó, sử dụng mẫu di chuyển nhóm để dự báo di chuyển tương lai đường P Nghĩa là, để dự báo vị trí kết nối P, luận án xác định P thuộc nhóm di chuyển sử dụng luật di chuyển sinh từ nhóm để dự báo Thủ tục xác định nhóm di chuyển đường trình bày phần 23 3.3.2 Xác định nhóm di chuyển đường Gọi P đường cần dự báo vị trí kết nối tương lai, A = {X1, X2, …, Xi, …, Xk} tập k nhóm di chuyển sinh C = {c1, c2, …, ck} tập k trung tâm nhóm tương ứng với k nhóm tập A Đường P gọi thuộc nhóm di chuyển Xi P tương tự mẫu di chuyển Xi Vì nhóm di chuyển Xi đại diện trung tâm nhóm ci nên P thuộc Xi độ tương tự P trung tâm nhóm ci lớn Vì đường P trung tâm nhóm ci mẫu di chuyển nên độ tương tự chúng tính theo Định nghĩa 3.6 3.3.3 Dự báo di chuyển dựa nhóm hành vi tương tự Vì mối quan hệ bạn bè, đồng nghiệp, … nên hành vi di chuyển người dùng di động mạng thường theo nhóm Do đó, chế dự báo đề xuất sử dụng qui luật di chuyển nhóm đối tượng có hành vi tương tự để dự báo cho người dùng gia nhập vào hệ thống mạng thay đổi hành vi di chuyển Sau xác định nhóm di chuyển đường cần dự báo, luận án sử dụng tập luật di chuyển sinh từ nhóm để dự báo vị trí kết nối đường Quá trình rút trích tập luật di chuyển từ nhóm mẫu di chuyển phổ biến trình bày Phần 2.2.3 Tương tự, thủ tục dự báo dựa tập luật di chuyển trình bày Phần 2.2.4 Sự cần thiết việc sử dụng nhóm hành vi di chuyển tương tự để dự báo đánh giá thông qua thực nghiệm Phần 3.6 C KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mục tiêu luận án tập trung nghiên cứu hai vấn đề chính: (i) Nghiên cứu cách biểu diễn mẫu di chuyển đề xuất giải pháp khai thác giá trị thuộc tính thời gian nhằm nâng cao độ xác dự báo; (ii) Nghiên cứu cách khai thác đặc trưng di chuyển theo nhóm người dùng di động đề xuất giải pháp dự báo cho di chuyển thiếu thông tin Để đạt hai mục tiêu đặt trên, luận án thực năm đóng góp sau: 24 Đề xuất cách biểu diễn mẫu di chuyển thiết bị di động mạng không dây Cách biểu diễn sau áp dụng để khai phá đặc trưng không gian thời gian liệu di chuyển dự báo di chuyển Đề xuất chế dự báo di chuyển thiết bị di động dựa khai phá mẫu không gian – thời gian Trong chế dự báo này, luận án đề xuất giải pháp khai thác giá trị thuộc tính thời gian liệu di chuyển Qua đó, luận án đặc trưng thời gian có đóng góp quan trọng vào độ xác dự báo Đề xuất độ đo tương tự nhằm ước lượng mức độ giống mẫu di chuyển Độ đo định nghĩa kết hợp có trọng số theo hai thuộc tính không gian thời gian mẫu di chuyển, bao gồm hai độ đo thành phần: (i) độ đo tương tự không gian; (ii) độ đo tương tự thời gian Đề xuất phương pháp gom nhóm mẫu di chuyển thiết bị di động mạng không dây dựa độ đo tương tự Thuật toán gom nhóm mở rộng k-means kinh điển cho miền liệu định tính (categorical data) khắc phục hạn chế không ổn định k-modes Đề xuất chế dự báo di chuyển cho người dùng người dùng có thay đổi hành vi di chuyển thường ngày Trong chế này, luận án khai thác giống hành vi di chuyển nhóm người sử dụng thiết bị di động nhằm khắc phục thiếu thông tin liệu di chuyển cá nhân Vì sử dụng nhóm di chuyển tương tự nên chế giảm xác suất không dự báo (no-prediction) thiếu thông tin di chuyển Hướng phát triển Từ nghiên cứu kết đạt được, luận án đề nghị số vấn đề cần nghiên cứu sau: Vấn đề “người dùng mới” vấn đề điển hình hệ thống hướng người dùng, điển hình hệ thống tư vấn (recommendation systems) Luận án đề xuất giải pháp dự báo di chuyển cho người dùng 25 mới, nhiên dựa liệu di chuyển tương tự người dùng khác Cần mở rộng giải pháp cách sử dụng thông tin đa dạng người dùng nghề nghiệp, nơi ở, nơi công tác, mối quan hệ bạn bè, người thân Luận án tập trung nghiên cứu mở rộng thuật toán gom nhóm k-means cho liệu định tính giải pháp hạn chế không ổn định chế k-means nên chưa nghiên cứu cách xác định giá trị k hiệu Cho đến nay, nhiều công trình nghiên cứu đề xuất giải pháp xác định k hiệu Việc nghiên cứu áp dụng giải pháp vào thuật toán gom nhóm luận án vấn đề nghiên cứu hỗ trợ nâng cao chất lượng gom nhóm mẫu di chuyển Dựa chế dự báo đề xuất, nghiên cứu xây dựng hệ thống dự báo di chuyển cho hệ thống mạng nội không dây công cộng thực tiễn 26 DANH MỤC CÔNG TRÌNH CÔNG BỐ TẠP CHÍ KHOA HỌC [1].Thuy Van T.Duong and Dinh Que Tran, “A fusion of data mining techniques for predicting movement of mobile users”, Journal of Communications and Networks (JCN), Accepted, to appear, 2015 (ISI, impact factor = 1.007) [2] Thuy Van T.Duong and Dinh Que Tran, “Clustering Mobility Patterns in Wireless Networks with a Spatiotemporal Similarity Measure”, International Journal of Innovative Computing, Information and Control (IJICIC), Vol.9, No.11, pp 4263-4284, 2013 (Scopus | SJR impact factor = 0.812) [3] Thuy Van T.Duong, Dinh Que Tran and Cong Hung Tran, “Discovering Movement Similarity of Mobile Users in Wireless Networks”, Journal of Science and Technology 51 (4A), Vietnam Academy of Science and Technology, pp 30-43, 2013 [4] Thuy Van T.Duong, Dinh Que Tran and Cong Hung Tran, “A Weighted Combination Similarity Measure for Mobility Patterns in Wireless Networks”, International Journal of Computer Networks & Communications (IJCNC), Vol.4, No.3, pp 21-35, India, 2012 (DBLB) [5] Thuy Van T.Duong and Dinh Que Tran, “An Effective Approach for Mobility Prediction in Wireless Network based on Temporal Weighted Mobility Rule”, International Journal of Computer Science and Telecommunications (IJCST), Vol 3, Issue 2, pp 29-36, London, UK, 2012 [6] Cong Hung Tran, Thuy Van T.Duong and Dinh Que Tran, “Future Location Prediction in Wireless Network Based on Spatiotemporal Data mining”, Journal of Communication and Computer (JCC), Vol 9, No 4, pp.473-480, USA, 2012 [7] Thuy Van T.Duong, Dinh Que Tran, “Modeling mobility in wireless network with spatiotemporal state”, Southeast-Asian Journal of Sciences, Vol 1, No 27 1, pp 113-125, 2012 (Proc of the International Conference in Mathematics and Applications – ICMA, pp 147-155, Thailand, 2011) HỘI NGHỊ KHOA HỌC [8].Duong, T.-V.T., Dinh Que Tran, “Mobility Prediction based on collective movement behaviors in Public WLANs”, In Proc of Science and Information Conference (SAI), pp 1003 – 1010, 2015, London (IEEE Xplore) [9] Thuy Van T.Duong, Dinh Que Tran and Cong Hung Tran, “Data Mining Assisted Resource Management in Wide WLANs”, In Proc of International Conference on Context-Aware Systems and Applications (ICCASA), 2014 Lecture Notes of ICST (LNICST), Vol 128 (Springer) [10] Thuy Van T.Duong, Dinh Que Tran and Cong Hung Tran, “A Mobility Prediction Model Based on Group Behaviors in Wireless Networks”, In Proc of the 6th National Symposium on Fundamental and Applied IT Research (FAIR), pp 10-17, 2013 [11] Thuy Van T Duong, Dinh Que Tran, Cong Hung Tran, “Spatiotemporal Data Mining for Mobility Prediction in Wireless Network”, In Proc of the 5th National Symposium on Fundamental and Applied IT Research (FAIR), pp 224-235, 2011 [...]... báo sự di chuyển tương lai của họ Trong khi đó, di chuyển ngẫu nhiên là sự di chuyển tùy hứng nên không có giá trị trong dự báo di chuyển Tỷ lệ di chuyển ngẫu nhiên trong dữ liệu di chuyển được dùng để dự báo càng cao thì càng ảnh hưởng chất lượng dự báo Hơn nữa, di chuyển ngẫu nhiên có thể gây ảnh hưởng đến kết quả gom nhóm hành vi di chuyển Do đó trước khi gom nhóm hành vi di chuyển để dự báo, luận... Pi sao cho Oi có giá trị nhỏ nhất làm trung tâm của nhóm X 3.3 Dự báo di chuyển dựa trên nhóm hành vi tương tự Trong phần này, luận án đề xuất một giải pháp dự báo dựa trên hành vi di chuyển theo nhóm nhằm khắc phục sự thiếu thông tin của dữ liệu di chuyển cá nhân Cơ chế dự báo này bao gồm 4 giai đoạn: (1) khai phá tập mẫu di chuyển phổ 22 biến từ dữ liệu di chuyển của tất cả thiết bị di động trong. .. người dùng di động và đề xuất giải pháp dự báo cho những di chuyển thiếu thông tin Để đạt được hai mục tiêu đặt ra như trên, luận án đã thực hiện được năm đóng góp mới như sau: 24 1 Đề xuất một cách biểu di n mẫu di chuyển của thiết bị di động trong mạng không dây Cách biểu di n này sau đó được áp dụng để khai phá các đặc trưng không gian và thời gian của dữ liệu di chuyển trong dự báo di chuyển 2 Đề... báo được (noprediction)” như một lần dự báo sai  Độ đo chính xác (Precision): Số lần dự báo đúng chia cho tổng số lần dự báo được thực hiện thành công Nghĩa là độ đo chính xác bỏ qua trường hợp không dự báo được” Vì độ đo chính xác (precision measure) không xét trường hợp không dự báo được” nên độ đo này thích hợp cho việc đánh giá độ chính xác dự báo trong trường hợp dữ liệu di chuyển không đầy đủ... báo, luận án loại bỏ tất cả di chuyển ngẫu nhiên bằng cách khai phá tập mẫu di chuyển phổ biến Quá trình khai phá này được thực hiện như đã trình bày trong Phần 2.2.2 của Chương 2 Sau khi khai phá từ dữ liệu di chuyển của tất cả thiết bị di động trong hệ thống mạng, tập mẫu di chuyển phổ biến được sử dụng để phân nhóm dựa trên độ tương tự giữa chúng Quá trình gom nhóm mẫu di chuyển được thực hiện theo... một cơ chế dự báo sự di chuyển của thiết bị di động dựa trên khai phá mẫu không gian – thời gian Trong cơ chế dự báo này, luận án đã đề xuất các giải pháp khai thác giá trị của thuộc tính thời gian trong dữ liệu di chuyển Qua đó, luận án chỉ ra rằng đặc trưng thời gian có đóng góp quan trọng vào độ chính xác dự báo 3 Đề xuất một độ đo tương tự nhằm ước lượng mức độ giống nhau giữa các mẫu di chuyển Độ... hệ thống mạng; (2) gom nhóm tập mẫu di chuyển phổ biến dựa trên độ tương tự giữa chúng; (3) xác định đường đi hiện tại của người sử dụng cần dự báo thuộc nhóm di chuyển nào; (4) sử dụng luật di chuyển được sinh ra từ nhóm đó để dự báo vị trí kết nối kế tiếp cho người sử dụng 3.3.1 Khai phá và gom nhóm tập mẫu di chuyển phổ biến Mặc dù con người di chuyển tự do nhưng không ai luôn luôn di chuyển ngẫu... xuất một cơ chế dự báo di chuyển cho người dùng mới hoặc người dùng có sự thay đổi về hành vi di chuyển thường ngày Trong cơ chế này, luận án khai thác sự giống nhau về hành vi di chuyển của các nhóm người sử dụng thiết bị di động nhằm khắc phục sự thiếu thông tin của dữ liệu di chuyển cá nhân Vì sử dụng nhóm di chuyển tương tự nên cơ chế này có thể giảm xác suất không dự báo được (no-prediction) do thiếu... Đánh giá dựa vào mức độ tương ứng của các phân hoạch (r): đo mức độ tương ứng giữa các nhóm được sinh ra bởi thuật toán gom nhóm cần đánh giá và các lớp đã được gán trước trong tập dữ liệu kiểm thử Chương 2 – Dự báo di chuyển dựa trên khai phá mẫu không gian – thời gian 2.1 Biểu di n di chuyển trong mạng không dây 2.1.1 Biểu di n vùng phủ sóng Tương tự như các công trình trước đây, luận án biểu di n vùng... đoán sự di chuyển tương lai của người dùng di động Như phân tích ở trên, những luật di chuyển được rút trích từ tập dữ liệu di chuyển trong quá khứ xa sẽ kém quan trọng hơn những luật di chuyển mới được rút trích từ tập mẫu di chuyển hiện tại Do đó, những luật di chuyển có thời gian tồn tại càng lâu thì càng ít phản ánh hành vi di chuyển hiện tại của người dùng di động Theo đó, những luật di chuyển ... áp dụng để khai phá đặc trưng không gian thời gian liệu di chuyển dự báo di chuyển Đề xuất chế dự báo di chuyển thiết bị di động dựa khai phá mẫu không gian – thời gian Trong chế dự báo này, luận... lai họ Trong đó, di chuyển ngẫu nhiên di chuyển tùy hứng nên giá trị dự báo di chuyển Tỷ lệ di chuyển ngẫu nhiên liệu di chuyển dùng để dự báo cao ảnh hưởng chất lượng dự báo Hơn nữa, di chuyển. .. xuất cách biểu di n mẫu di chuyển theo hai thuộc tính không gian thời gian liệu di chuyển Với cách biểu di n mẫu di chuyển vậy, chương đề xuất chế dự báo di chuyển dựa khai phá mẫu không gian –

Ngày đăng: 01/12/2015, 11:29

Tài liệu cùng người dùng

Tài liệu liên quan