GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT KHÔNG TẬP TRUNG KẾT HỢP MẠNG TH-VT SEMINAR MÔN HỌC CÔNG NGHỆ TRI THỨC TÊN ĐỀ TÀI : GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE GIẢNG VIÊN: GS.TSKH. HOÀNG KIẾM SINH VIÊN THỰC HIỆN: LÝ THÀNH KHÓA: 3 Tp. Hồ Chí Minh – 09/2014 MỤC LỤC 1 1. ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT 2 1.1 Bài toán phân loại kẹt xe 3 1.1.1 Vấn đề bài toán 4 1.1.2 Các đại lượng ảnh hưởng đến trạng thái của luồng giao thông 5 1.1.3 Lý thuyết về luồng giao thông 6 1.2 Bài toán dự báo kẹt xe 7 1.2.1 Vấn đề bài toán 8 1.2.2 Một số hướng giải quyết 9 2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP GIẢI QUYẾT CÁC BÀI TOÁN 10 2.1 Kỹ thuật gom cụm dữ liệu ( Clustering ) 11 2.1.1 Gom cụm là gì ? 12 2.1.2 Các thuật toán gom cụm 13 2.1.2.1 Thuật toán K-Means 14 2.1.2.2 Thuật toán K-Medoids 15 2.1.2.3 Thuật toán ISODATA 16 2.1.2.4 Thuật toán Phân cấp 17 2.1.2.5 Thuật toán dựa trên mô hình 18 2.1.2.6 Thuật toán dựa trên lưới 19 2.1.2.7 Thuật toán DBSCAN 20 2.1.2.8 Các thuật toán gom cụm mờ 21 2.2 Các mô hình gom cụm mờ (Fuzzy clustering models) 22 2.2.1 Mô hình Fuzzy C-Mean(FCM) 23 2.2.2 Mô hình Fuzzy C-Elliptotype (FCE) 24 2.2.3 Mô hình Fuzzy C-Mixed Prototype (FCMP) 25 2.2.4 Mô hình Fuzzy Clustering Fuzzy Merging (FCFM) 26 2.3 Các hệ thống mờ (Fuzzy system) 27 2.4 Cách tạo một hệ thống điều khiển mờ 28 2.5 Cơ sở lý thuyết của Xích Markov 29 3. ỨNG DỤNG CÁC KỸ THUẬT ĐỂ GIẢI QUYẾT BÀI TOÁN ĐẶT RA.30 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 3.1 Ứng dụng mô hình Xích Markov để dự báo tình trạng giao thông 31 3.1.1 Bài toán 1 32 3.1.2 Bài toán 2 33 3.1.3 Bài toán 3 34 3.2 Ứng dụng mô hình gom cụm FCMP (Fuzzy C-Mixed Prototype) để phân lớp giao thông 35 3.2.1 Vấn đề bài toán 36 3.2.2 Hướng giải quyết bài toán 37 4. KẾT LUẬN, HƯỚNG PHÁT TRIỂN 38 5. TÀI LIỆU THAM KHẢO 39 Lý Thành ( CH0601069 ) 3 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 1. ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT 1.1 BÀI TOÁN PHÂN LOẠI KẸT XE 1.1.1 VẤN ĐỀ BÀI TOÁN Mục tiêu của bài toán là phân lớp dữ liệu đặc trưng của luồng giao thông trong một thời điểm tại một hệ thống đo đạt được thiết lập tại một số vị trí nào đó trên đường như : tại các giao lộ. Thông thường người ta phân loại trạng thái của luồng giao thông thành 4 loại : • Trạng thái thưa và bình thường: giao thông ổn định, những người điều khiển xe không bị ảnh hưởng bởi các xe khác. • Trạng thái hơi đông: giao thông bình thường, nhưng việc lái xe bị ảnh hưởng nặng bởi các phương tịên giao thông khác. • Trạng thái đông: trạng thái không ổn định, có thể dẫn đến kẹt xe. • Trạng thái kẹt xe: hệ thống giao thông bị quá tải, các xe không thể lưu thông hoặc lưu thông chậm. Dựa trên sự phân loại trạng thái của luồng giao thông chúng ta sẽ sử dụng kỹ thuật gì để phân lớp dữ liệu giao thông ? 1.1.2 CÁC ĐẠI LƯỢNG ẢNH HƯỞNG ĐẾN TRẠNG THÁI CỦA LUỒNG GIAO THÔNG Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các giao lộ) trong một khoảng thời gian t. Mật độ (k): số lượng xe trên một đoạn đường có chiều dài xác định. Vận tốc (v): vận tốc trung bình của xe khi đi qua điểm quan sát trong một khoảng thời gian t. Mục đích của ta là xác định trạng thái của luồng giao thông tại giao lộ dựa trên các đại lượng q, k, v. 1.1.3 LÝ THUYẾT VỀ LUỒNG GIAO THÔNG Các đại lượng liên quan đến luồng giao thông: • Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các ngã tư) trong một khoản thời gian t. • Mật độ (k): số lượng xe trên một đoạn đường có chiều dài xác Lý Thành ( CH0601069 ) 4 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe định. • Vận tốc (v): vận tốc trung bình của khi đi qua điểm quan sát trong một khoảng thời gian t. • Vận tốc v là đại lượng phụ thuộc vào k, v= v(k) bởi vì để đảm bảo an toàn giao thông các phương tiện giao thông cần phải giảm tốc độ trong trường hợp đường đang rơi vào trạng thái hơi đông, phương trình q=v*k được sử dụng trong trường hợp trạng thái thưa hoặc bình thường. • Đồ thị liên hệ giữa q và k được gọi là biểu đồ cơ sở (Fundamental diagram). • Trong biểu đồ hình bên, những điểm nằm gần với các đường thẳng cho biết trạng thái thưa tương ứng với mật độ giao thông là thấp, trong trường hợp mật độ cao (k lớn ) thì chỉ có rải rác một vài điểm trên biểu đồ chỉ ra rằng trạng thái giao thông là đông. • Người ta định nghĩa 4 khoảng vận tốc để phân loại tương ứng cho 4 trạng thái giao thông : thưa, hơi đông, đông và kẹt xe. • Mức độ hiệu quả của việc phân lớp phụ thuộc vào việc định nghĩa các khoảng vận tốc hợp lý. Sở dĩ chọn đại lượng vận tốc để phân loại là vì vận tốc của các phương tiện giao thông bị ảnh hưởng trực tiếp từ trạng thái của luồng giao thông, nghĩa là vận tốc của các phương tiện giao thông trong trạng thái đông sẽ nhỏ hơn nhiều so với vận tốc của phương tiện này trong trạng thái thưa. • Vấn đề đặt ra là làm thế nào để phân loại được trạng thái của luồng giao thông dựa vào đại lượng vận tốc trung bình của phương tiện giao thông ? Sử dụng phương pháp gom cụm mờ (Fuzzy clustering), cụ thể là thuật toán Fuzzy C-mixed để giải quyết bài toán này. Thuật toán Fuzzy Clustering sẽ được trình bày chi tiết trong phần phương pháp giải quyết các bài toán. Lý Thành ( CH0601069 ) 5 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 1.2 BÀI TOÁN DỰ BÁO KẸT XE 1.2.1 VẤN ĐỀ BÀI TOÁN • Dự báo lưu lượng xe xảy ra tại một địa điểm nào đó trong khoảng thời gian t. • Trên các đường phố hay xa lộ, người ta sẽ gắn các thiết bị đo đạt để tính toán số lượng xe đi qua trong khoảng thời gian 15 phút. Với qui định như vậy trong một ngày chúng ta sẽ có tổng cộng 24 x 4 = 96 thời điểm để xác định số lượng xe tại địa điểm X. • Ví dụ: Số lượng xe tại ngã tư Đường Cách Mạng Tháng Tám và Phạm Văn hai tại các thời điểm trong ngày thứ 6 được cho trong bảng sau: o 0h00 : o 0h15’: o 0h30’: o 0h45’: o 1h00 : o 1h15 : o … : • Với các giá trị trong bảng này ta sẽ xây dựng được biểu đồ biểu diễn số lượng xe. • Vấn đề đặt ra là làm thế nào để hệ thống dự báo có thể tính toán được giá trị của 96 thời điểm trong ngày dựa vào các nhân tố ảnh hưởng đến nó. 1.2.2 MỘT SỐ HƯỚNG GIẢI QUYẾT • Sử dụng một số phương pháp gom cụm mờ để giải quyết bài toán này. Ví dụ như: FCM - Fuzzy C-mean FCE - Fuzzy C-Ellipse FCMP - Fuzzy C-Mixed Prototype • Sử dụng cơ sở lý thuyết Xích Markov. Lý Thành ( CH0601069 ) 6 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP GIẢI QUYẾT CÁC BÀI TOÁN 2.1 KỸ THUẬT GOM CỤM DỮ LIỆU (CLUSTERING) • Gom cụm dữ liệu là phương pháp phân hoạch tập hợp dữ liệu thành nhiều tập con C sao cho mỗi tập con c ⊂ C chứa các phần tử có những tính chất giống nhau theo tiêu chuẩn nào đó, mỗi tập con c được gọi là một cụm. • Như vậy quá trình gom cụm là một quá trình phân các phần tử q ∈ Q vào trong các cụm c ⊂ C. • Nguyên lý thường được dùng để gom cụm dữ liệu là nguyên tắc cực tiểu khoảng cách (thường là khoảng cách Euclide). • Các kỹ thuật gom cụm dữ liệu: - Gom cụm cổ điển: • Thuật toán K-Means. • Thuật toán K-Medoids. • Thuật toán ISODATA. - Gom cụm mờ: • Thuật toán Fuzzy C-Mean. • Thuật toán Fuzzy C-Ellipse. • Thuật toán Fuzzy C-Mixed. 2.1.1 GOM CỤM LÀ GÌ ? • Gom cụm là một tiến trình gom nhóm các vector đặc trưng vào trong các cụm. • Gom các đối tượng dữ liệu tương tự với một đối tượng khác trong cùng cụm. • Gom các đối tượng dữ liệu không tương tự với các đối tượng trong cụm khác. • Mục tiêu của gom cụm : để gom tập các đối tượng thành các Lý Thành ( CH0601069 ) 7 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe nhóm. • Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưa được gán nhãn. • Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các điểm nằm trong cùng một cụm. • Một số ứng dụng tiêu biểu của gom cụm như: - Xem xét phân bố dữ liệu. - Tiền xử lý cho các thuật toán khác. - Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thị thích hợp. - Phân loại đất theo công năng hoặc thực tế sử dụng đề có chính sách quy hoạch phù hợp. - Phân loại nhà theo vị trí, giá trị - Phân loại khách hàng để có chính sách bảo hiểm hợp lý. - Phân loại bệnh nhân. • Một số phương pháp gom cụm tốt nếu đạt được tính chất sau: - Có độ tương tự cao trong cùng cụm. - Có độ tương tự thấp giữa các cụm. - Có khả năng phát hiện các mẫu ẩn. - Có khả năng làm việc hiệu quả với lượng dữ liệu lớn. - Có khả năng làm việc với nhiều loại dữ liệu khác nhau. - Có khả năng khám phá ra các cụm có phân bố theo các dạng khác nhau. - Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập. - Có khả năng làm việc với nhiễu và mẫu cá biệt. - Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu. - Làm việc tốt trên cơ sở dữ liệu có số chiều cao. - Chấp nhận các ràng buộc do người dùng chỉ định. - Có thể hiểu và sử dụng được kết quả gom cụm. Lý Thành ( CH0601069 ) 8 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe • Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán gom cụm theo các phương pháp chính sau: - Các phương pháp phân hoạch. - Các phương pháp phân cấp. - Các phương pháp dựa trên mật độ. - Các phương pháp dựa trên mô hình. - Các phương pháp dựa trên lưới. • Có thể dùng ma trận dữ liệu để mô hình hoá bài toán gom cụm. Ma trận biểu diễn không gian dữ liệu gồm n đối tượng theo p thuộc tính. Ma trận này biểu diễn mối quan hệ đối tượng theo thuộc tính. 2.1.2 CÁC THUẬT TOÁN GOM CỤM 2.1.2.1 THUẬT TOÁN K-MEANS • Giới thiệu: Một phương pháp tiếp cận phân hoạch là xác định trước số cụm cần có, chẳng hạn là k, sau đó xếp từng điểm dữ liệu vào một trong k cụm sao cho độ phân biệt trong các cụm là thấp nhất. Vấn đề đặt ra là với một không gian dữ liệu có số chiều và số phần tử lớn thì thời gian thực hiện tăng rất nhanh theo luật bùng nổ tổ hợp. Với k cho trước có thể có (kn-(k-1)n 1) khả năng phân hoạch khác nhau. Đây là con số quá lớn nếu n là khá lớn do đó hầu như không thể thực hiện được. Vì vậy gom cụm phân hoạch phải là những thuật toán nhanh và có sử dụng heuristic để đạt được giải pháp gom cụm đủ tốt (nhưng không nhất thiết là tối ưu). Trong thuật toán này, các đối tượng (mẫu huấn luyện hay mẫu cần phân lớp) thường được ánh xạ vào không gian n chiều Rn . Như vậy, một mẫu x bất kỳ được Lý Thành ( CH0601069 ) 9 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe mô tả bằng 1 vector (a1(x), a2(x), … an(x)), trong đó, ar(x) là giá trị của thuộc tính thứ r của đối tượng x. Những đối tượng lân cận nhất của một đối tượng được xác định dựa trên một độ đo khoảng cách được chọn nào đó (thường là độ đo khoảng cách Euclide). • Tư tưởng của thuật toán K-means: Ý tưởng chính của thuật toán này là áp dụng nguyên lý người láng giềng gần nhất hoặc khoảng cách ngắn nhất theo định luật III Newton, nghĩa là phần tử nào gần điểm tâm của cụm ci hơn so với các cụm cj sẽ được gom về cụm ci. Đầu vào của thuật toán K-Means: Số các cụm k, và CSDL có n số điểm (đối tượng) trong không gian dữ liệu. Thuật toán K-Means gồm 4 bước: Bước 1: Phân hoạch đối tượng thành k tập con/cụm. Bước 2: Tính các điểm hạt giống centroid (trung bình của các đối tượng trong cụm) cho từng cụm trong phân hoạch hiện hành. Bước 3: Gán mỗi đối tượng cho cụm có centroid gần nhất. Bước 4: Quay về bước 2, chấm dứt khi không còn phép gán mới. • Ưu và nhược điểm của thuật toán K-Means: Ưu điểm: Đây là một phương pháp: - Đơn giản. - Hiệu quả. - Tự tổ chức. - Được sử dụng trong tiến trình khởi tạo trong nhiều thuật toán khác. - Có thể scalable trong khi xử lý dữ liệu lớn. Lý Thành ( CH0601069 ) 10 [...]... loại và dự báo kẹt xe (a) (b) Hình 11.Ví dụ 2 áp dụng k-NN 1NN (a) Lý Thành ( CH0601069 ) (b) 24 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 5NN (c) (d) (e) (f) 20NN Hình 12 Vùng quyết định khi sử dụng k-NN với các giá trị k khác nhau Lý Thành ( CH0601069 ) 25 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe Hình 12 thể hiện vùng quyết định... CH0601069 ) 31 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe Hai loại kỹ thuật gom cụm phân lớp • Gộp-agglomerative (từ dưới lên) • Phân chia -divisive (từ trên xuống) 2.1.2.5 THUẬT TOÁN DỰA TRÊN MÔ HÌNH • Đây là thuật toán dựa trên sự phù hợp giữa dữ liệu và các mô hình toán học • Ý tưởng của thuật toán này là : Dữ liệu phát sinh từ một sự kết hợp nào đó của các phân phối... hợp với các phân tích gom cụm ứng dụng trong không gian (phân loại sao, thiên hà ) • Ngoài ra còn có các thuật toán khác như:( STING, WAVECLUSTER, CLIQUE) Cvc Gom cụm bằng thuật toán dựa trên lưới 2.1.2.7 THUẬT TOÁN DBSCAN • Thuật toán DBSCAN gồm các bước sau: Bước 1: Chọn một điểm p bất kỳ thuộc không gian dữ liệu D Lý Thành ( CH0601069 ) 33 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại... này sẽ tạo thành một nút của cây phân cấp Lý Thành ( CH0601069 ) 34 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 3 Phân hoạch cụm được chọn bằng thuật toán DBSCAN 4 Nếu tất cả các cụm tạo được đều có độ phân biệt nội tại đủ thấp hoặc đã đạt được số cụm cần thiết thì dừng Các cụm còn lại tại thời điểm kết thúc thuật toán tạo thành các nút lá của cây phân cấp 5 Giảm bán... ) 29 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe - Các cụm được là hình cầu được xác định bởi hàm khoảng cách - Giá trị K phụ thuộc vào những tham số do người sử dụng qui định và nó cũng không phải là những giá trị tốt nhất - Cụm trung bình thường không phải là mẫu tốt nhất cho một cụm 2.1.2.4 THUẬT TOÁN PHÂN CẤP • Tạo phân cấp cụm, chứ không phải phân hoạch các đối... kê ( Thuật toán COBWEB, CLASSIT, AUTOCLASS) 2 Tiếp cận mạng nơron (học cạnh tranh, bản đồ tự cấu trúc SOM) Lý Thành ( CH0601069 ) 32 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 2.1.2.6 THUẬT TOÁN DỰA TRÊN LƯỚI • Ý tưởng thuật toán này là dùng các cấu trúc dữ liệu dạng lưới với nhiều cấp độ phân giải những ô lưới có mật độ cao sẽ tạo thành những cụm • Thuật toán dựa.. .Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe - Hiệu suất tương đối:O(tkn), với n là số đối tượng , k là số cụm, t là số lần lặp Thông thường k,t . TH-VT SEMINAR MÔN HỌC CÔNG NGHỆ TRI THỨC TÊN ĐỀ TÀI : GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH. pháp giải quyết các bài toán. Lý Thành ( CH0601069 ) 5 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 1.2 BÀI TOÁN DỰ BÁO KẸT XE 1.2.1 VẤN ĐỀ BÀI TOÁN • Dự báo. 3 Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe 1. ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT 1.1 BÀI TOÁN PHÂN LOẠI KẸT XE 1.1.1 VẤN ĐỀ BÀI TOÁN Mục tiêu của bài toán là phân

GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe

Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe

TÊN ĐỀ TÀI : GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE

Ý tưởng của thuật toán:

Quá trình gom cụm xảy ra theo các giai đoạn là gom cụm, tách cụm, trộn cụm.

Quá trình gom cụm và trộn cụm được thực hiện xen kẽ lẫn nhau.

Dữ liệu nhập

Dữ liệu xuất

Bảng gía trị nhập cho các tốc độ như sau:

- Bước 2: Xác định và đặt tên cho giá trị xuất mờ.

Bảng giá trị xuất cho phanh như sau:

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan