Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li

91 555 0
Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠT H Ọ C Q U Ố C G IA H À NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Kiêu Thu Hãng PHÁT HIỆN LUẬT VẰTIỂN x LÝ Dữ LIỆU THEO TIẾP CẬN TẬP THÔ VÀ ỨNG DỤNG ROSETTA PHẤT HIỆN LUẬT TRONG BÀI TOÁN X LÝ Dữ LIỆU XUẤT NHẬP CẢNH N ẹ n h : C ổ n g n g h ệ t h ò n g lin M ã s ố : 1 LUẬN VÃN THẠC s ỉ NGƯỜI LỈUỚNG DẪN K I I O A HỌC: TS Hà Quang Tlniỵ I H O C Q U Ổ C G*A H A N Õ ' \ K o m Hà N ội - 0 r ' VIE! MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO TIẾP CẬN TẬP THÔ 1.1 Tổng quan tập thỏ 1.1.1 Khái niệm hộ thông tin 1.1.2 Khái niệm bảng định 1.1.3 Tính khơng phân biệt hộ thông tin 1.1.4 Khái niệm tập thô, tập xấp xỉ 1.1.5 Độ xác độ thơ 1.1.6 Sự phụ thuộc thuộc tính 1.1.7 Khái quát phụ thuộc hàm dựa lý thuyết tập thô 1.2 Luật theo tiếp cận tập th ô 1.2.1 Luật kết hợp 1.2.2 Mẫu hệ thống thông tin 1.2.3 Mối liên hộ mẫu luật theo tiếp cận tập thô 1.4 Kết luận chương CHƯƠNG TIỀN XỬ LÝ DỮLIỆU VÀ TÌM TẬP RÚT GỌN THEO TIÊP CẬN TẬP THÔ VỚI BỘ CÔNG c ụ ROSETTA 2.1 Bộ công cụ ROSETTA 2.1.1 Giới thiệu công cụ ROSETTA 2.1.2 Các thành phần ROSETTA 2.1.3 Các đặc trưng ROSETTA 2.2 Tìm tập rút gọn theo tiếp cận tập thô 2.2.1 Tiêu chuẩn cho rút gọn tốt 2.2.2 Tập thuộc tính rút gọn 2.2.3 Cách tiếp cận suy luận logic để rút gọn liệu 2.3 Các luật định tối thiểu 2.4 Tiền xử lý liệ u 2.4.1 Dữ liệu đầy đủ 2.4.2 Dữ liệu không đầy đủ 2.5 Kết luận chương CHƯƠNG ÚNG DỤNG BỘ CÔNG c ụ ROSETTA ĐỂ g iả i q u y ế t b i TOÁN XỬ LÝ DỮ LIỆU XUẤT NHẬP CẢNH 3.1 Bài toán 3.1.1 Phát biểu toán 3.1.2 Phân tích toán 3.1.3 Một số đặc trưng 3.2 Tiền xử lý liệu 3.2.1 Giới thiệu phương pháp tiền xử lý chọn 3.2.2 Thực nghiệm tiền xử lý 3.2.3 Đánh giá thực nghiệm 3.3 Tìm tập rút gọn 3.3.1 Thử nghiệm 3.3.2 Đánh giá 3.4 Sinh luật 3.5 Kết luận chương KẾT LU Ậ N TÀI LIỆU THAM KHẢO CÁC KÝ HIỆU, VIẾT TẮT VÀ GIẢI THÍCH Ý NGHĨA Ký hiệu, viết tắt dl A, B D Giải thích ý nghĩa Hệ thơng tin hay bảng định Tập thuộc tính hệ thơng tin Tập thuộc tính định hệ thơng tin Một thuộc tính điều kiện tập thuộc tính điều kiện a V, u RED hệ thông tin Tập giá trị thuộc tính điều kiện Tập đối tượng (tập tổng thể) hộ thông tin Tập rút gọn Tập rỗng CỊ Bị chứa Chứa E Thuộc (là phần tử của) > Lớn Nhỏ * u, n Ixl card (X) hay 11X11 Khác Phép hợp, giao tập hợp Tồn tai Trị tuyệt đối X Số lượng phần tử có X MỞ ĐẦU Với tốc độ tin học hoá nhanh vài thập kỷ qua, hầu hết tổ chức cá nhân thu thập lưu trữ khối lượng liệu khổng lồ sở liệu họ Lúc đó, việc hiểu chúng vượt xa khả người Dữ liệu thu thập sở liệu trở thành liệu “bị chôn vùi” - xem xét Các định thường thực dựa vào trực giác người tạo định mà không dựa vào liệu giàu thơng tin có sẩn sở liệu Đơn giản người tạo định khơng có cơng cụ để trích rút tri thức có giá trị Các kỹ thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi tri thức chuyên môn thành biểu diễn tri thức máy Các thao tác thiên tính chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý lớn Tình lúc mơ tả “ Giàu liệu nghèo thông tin” Lý thuyết tập thô Pavvlak đề xuất vào đầu năm 1980 xem cách tiếp cận để phát tri thức “tạo thành sở vững cho ứng dụng khai phá liệu Chúng ta chứng kiến phát triển nhanh việc nghiên cứu lý thuyết tập thô ứng dụng chúng giới Cho đến nay, có hàng ngàn báo cơng bố tập thô ứng dụng chúng Lý thuyết tập thô áp dụng thành công nhiều lĩnh vực y học, dược học, ngân hàng, tài chính, phân tích thị trường Các kết thú vị đạt nhận dạng giọng nói âm Tiếp cận tập thơ đóng vai trò quan trọng nhiều ứng dụng kỹ thuật máy chẩn đoán, khoa học vật liệu, Lý thuyết tập thơ có mối liên hệ với phương pháp suy luận logic, thống kê, mạng nơron, hình thái tốn học Nó bổ sung cho phương pháp khác sử dụng kết hợp với cách tiếp cận khác tập mờ, thuật toán di truyền, phương pháp thống kê, mạng nơron Trong lý thuyết tập thô, liệu biểu diễn thông qua hộ thông tin, hay bảng định; ý tưởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hộ "không phân biệt được" Từ bảng liệu lớn với liệu dư thừa, khơng hồn hảo, liệu liên tục, hay liệu biểu diễn dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức từ loại liệu nhằm phát quy luật tiềm ẩn từ khối liệu Tri thức biểu diễn dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lượng thông tin đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Nhằm thu hẹp nhiều xác thơng tin, ý tưởng “rút gọn” sử dụng phép loại bỏ thông tin dư thừa, không cần thiết mà giữ ý nghĩa Sau tìm quy luật chung biểu diễn liệu, người ta tính tốn độ mạnh, độ phụ thuộc thuộc tính hệ thơng tin Với lợi điểm quan trọng lý thuyết tập thô, giành thời gian để nghiên cứu tìm hiểu lý thuyết Luận văn sâu tìm hiểu ý tưởng cở sở toán học lý thuyết tập thô, từ hiểu biết lý thuyết ứng dụng thực tế tập thô lĩnh vực khai phá liệu Thơng qua tìm hiểu khai thác công cụ ROSETTA (do Aleksander h m cộng thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính thơng tin trường đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn đưa số đề xuất ứng dụng thử nghiệm lý thuyết tập thơ vào việc hỗ trợ định tốn xử lý liệu xuất nhập cảnh phát đối tượng số khách xuất nhập cảnh quan công tác Phương pháp nghiên cứu chủ yếu luận văn khảo sát, phân tích nội đung báo khoa học lý thuyết tập thô ứng dụng công bố vào năm gần Luận văn trình bày gồm có phần mở đầu, ba chương phần kết luận Trong luận văn chúng tơi sử dụng ví dụ thống toán xử lý liệu xuất nhập cảnh từ đầu đến cuối luận văn, tốn chúng tơi thử nghiệm hệ thống thực tế quan cơng tác Để đảm bảo tính bảo mật hệ thống đưa ví dụ cụ thể vào luận văn thay đổi thuộc tính giá trị cho phù hợp Trong chương một, chúng tơi trình bày khái niệm lý thuyết tập thô như: hệ thông tin, bảng định, khái niệm không phân biệt được, tập xấp xỉ trên, tập xấp xỉ dưới, miền biên, giới thiệu luật kết hợp, trình khám phá mẫu từ bảng định Nội dung chương tổng hợp từ tài liệu [1, 2, 3, 4, 5, 6, 7, 8, 9, 15, 20, 21] Trong chương hai, luận văn tập trung giới thiệu công cụ ROSETTA, thành phần, đặc trưng ROSETTA Các vấn đề ma trận phân biệt hàm phân biệt kết hợp với giải thuật Johnson hệ thống ROSETTA để tìm tập giá trị rút gọn hộ thông tin từ trích rút luật định vấn đề tiền xử lý liệu theo tiếp cận tập thô Nội dung chương tổng hợp từ tài liệu [2, 12, 16, 17, 18,22] Trong chương ba, từ kết nghiên cứu trình bày chương chương hai, thông qua công cụ ROSETTA, đề xuất việc ứng dụng phương pháp thuật tốn cơng cụ ROSETTA vào thực tế toán xử lý liệu xuất nhập cảnh quan công tác đồng thời chương đề xuất việc ứng dụng luật kết hợp theo tiếp cận tập thô vào toán thực tế nhận số luật tương đối xác hợp lý CHƯƠNG TỔNG QUAN VỂ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO TIẾP CẬN TẬP THỒ 1.1 TỔNG QUAN VÊ TẬP THƠ 1.1.1 Khái niệm hệ thơng tin Trong nhiều lĩnh vực, việc thu thập thông tin nhu cầu cần thiết Các khái niệm lý thuyết tập thơ phát biểu có hệ thống với tính khái qt cao, để có hiểu biết sâu sắc trực quan lý thuyết, bắt đầu nghiên cứu từ bảng liệu Bảng liệu cịn gọi bảng thơng tin, hệ thông tin hay hệ thống thồng tin - giá trị Cột bảng gán nhãn thuộc tính, hàng gán đối tượng mục nhập bảng giá trị thuộc tính Bảng gọi hệ thơng tin (iníormation system) [1, 3, 4, 5] Định nghĩa 1.1 Hệ thông tin cặp cA = (A,U) u tập hữu hạn khác rỗng đối tượng gọi tập vũ trụ (universe) A tập hữu hạn khác rỗng thuộc tính Với thuộc tính a e A, có tương ứng tập Va, gọi tập giá trị (miên) a Ký hiệu a: u -> Va với a e A Ví du 1.1.1: Một hệ thông tin gồm đối tượng (Xj, x2, x3, x4, x5, x6) thuộc tính (Md_xn, Nghe_nghiep, Qt_hnay, XXety X, x2 x4 Md_xn Du lich Thuong mai Thuong mai Du lich Thuong mai Du lích Nghe_nghiep Qt_hnay Thuong nhan Malaysia Nhan vien Malaysia Thuong nhan My Thuong nhan Viet nam Nhan vien Malaysia Thuong nhan Ucraina Bảng 1.1.1 Hệ thông tin XXet Cam Cam Cam Khong Khong Cam Mỗi hàng bảng xem thông tin khách xuất nhập cảnh riêng biệt Ví dụ khách x2 mơ tả bảng tập thuộc tính - giá 10 trị sau đây: {(Md_xn, Thuong mai), (Nghe_nghiep, Nhan vien), (Qt_hnay, Malaisia), (XXet, Cam)} Chúng ta quan sát tập thuộc tính chia tập tất đối tượng bảng thành lớp có đặc trưng, tức khối đối tượng mà chúng phân biệt khn khổ liệu sẵn có Ví dụ, bảng khách Xj, x4, x6 phân biệt thuộc tính Md_xn, chúng có giá trị thuộc tính Tương tự khách x2 x5 khơng phân biệt theo thuộc tính Md_xn, Nghe_nghiep, Vì vậy, tập thuộc tính sinh quan hệ tương đương chia tập đối tượng thành lớp tương đương Mỗi lớp tương đương bao gồm đối tượng có đặc trưng tương ứng Những lớp tương đương xem tập sơ cấp, chúng viên gạch xây dựng lý thuyết tập thô 1.1.2 Khái niệm bảng định Như ta biết, kết việc phân lớp nhiều ứng dụng định phân lớp Pawlak z phát triển số khía cạnh liên quan đến tập thơ bảng định Chúng ta rằng, bảng định dạng đặc biệt hệ thông tin [1,4, 21] Định nghĩa 1.2 Bảng (hệ) định hệ thơng tin có dạng c4 = (U, A u {d}), đó: - u tập hữu hạn trạng thái, - A tập thuộc tính, - dr\ A = ệ thuộc tính định Các thuộc tính thuộc A gọi thuộc tính điều kiện hay điều kiện Bảng 1.1.1 thể ví dụ bảng định, tập khách coi tập trạng thái; tập A thuộc tính {Md_xn, Nghe_nghiep, Qt_hnay, X Xet} Thuộc tính định XXet giá trị thơng tin liên quan đến thuộc tính in nghiêng (trong bảng đây) để dễ phân biệt 11 Md_xn Nghe_nghiep Qt_hnay XXet *1 x2 Du lich Thuong nhan Thuong mai Nhan vien Malaysia Cam x3 Thuong mai Thuong nhan My Cam x4 Du lich Thuong nhan Viet nam Khong Thuong mai Nhan vien Malaysia Khong Du lich Thuong nhan Ucraina Cam *6 Malaysia Cam Bảng 1.1.2 Bảng định N hận xét: Loại trừ việc tách tập thuộc tính làm hai tập thuộc tính điều kiện thuộc tính định bảng định, tồn tương ứng khái niệm định nghĩa Bảng định Hệ thông tin tương ứng thể bảng đây: Hệ thông tin Bảng định Tập đối tượng Tập trạng thái Hàm định Ánh xạ biểu diễn thông tin Luật định Hàm thơng tin Thuộc tính Thuộc tính Miền giá trị Miền giá trị Bảng 1.1.3 Bảng so sánh Hệ thơng tin - Bảng định 1.1.3 Tính không phân biệt hệ thông tin 1.1.3.1 Khái niệm tính khơng phàn biệt Một hệ định (bảng định) biểu diễn tất tri thức mơ hình (mẫu) Bảng khơng lớn, phần dư thừa theo hai trường hợp Các đối tượng giống không phân biệt xuất nhiều lần, số thuộc tính dư thừa Như biết, quan hệ R có ba tính chất phản xạ, đối xứng bắc cầu gọi quan hệ tương đương Quan hệ tương đương R phân hoạch tập vũ trụ u thành lớp tương đương Lớp tương đương phần tử xeU , kí hiệu [x], chứa tất đối tượng 3Í6 Ư mà xRỵ 78 CHƯƠNG ỨNG DỤNG BỘ CÔNG c ụ ROSETTA ĐỂ GIẢI QUYẾT BÀI TOÁN XỬ LÝ D ữ LIỆU XUẤT NHÂP CẢNH 3.1 BÀI TOÁN 3.1.1 Phát biểu toán Lưu lượng khách xuất nhập cảnh, khách cấp hộ chiếu thị thực vào Việt Nam hàng ngày lớn liệu nhân thân khách thường khơng đầy đủ, để phát đối tượng số khách nhiều thời gian công sức cán nghiệp vụ Bài toán đặt xây dựng hệ thống xử lý liệu xuất nhập cảnh để phát đối tượng vi phạm quy chế xuất nhập cảnh 3.1.2 Phân tích tốn Trong thực tế để phát đối tượng số khách tham gia hoạt động xuất nhập cảnh đòi hỏi phải thận trọng, định sai ảnh hưởng trực tiếp đến quyền lợi trị người dân ảnh hưởng tới quan hộ đối ngoại nhà nước khách người Nước ngồi, Việt kiều Trong thơng tin nhân thân đối tượng khách xuất nhập cảnh thường không đầy đủ giống hệt nhau, nhiều trường hợp phân biệt được, gặp trường hợp cán nghiệp vụ thường phải sử dụng biện pháp nghiệp vụ để xác định đối tượng Vì vậy, việc nghiên cứu xây dựng hệ thống tiền xử lý liệu trợ giúp định việc cần thiết cấp bách, khuôn khổ luận văn đưa luận quan trọng hướng tới giải pháp tổng thể ứng dụng thuật toán ROSETTA vào xây dựng hệ thống thực tế 79 3.1.3 Một sô đặc trưng Trong thực tê sơ liệu lưu trữ thông tin khách xuất nhập cảnh lưu trữ mô tả dạng bảng định bao gồm nhiều thuộc tính điêu kiện mơ tả khách xuất nhập cảnh sô thuộc tính định kết đối chiếu khách xuất nhập cảnh với đối tượng quản lý Như xem xét thuộc tính mơ tả khách xuất nhập cảnh ta thấy thơng tin giống hệt lại có kết kiểm tra đối chiếu khác (đây trường hợp khơng phân biệt được) Bài tốn đặt tìm mối quan hệ tiềm ẩn thuộc tính điều kiện thuộc tính định bảng định - Cấu trúc liệu mô thông tin khách xuất nhập cảnh sử dụng toán Cấu trúc bảng Xuất nhập cảnh Tên trường MUC DICH QT_HNAY NGHE NGHIEP NOLSINH DĨA CHI DEN TU XEM_XET Mơ tả Mục đích xuất nhập cảnh Quốc tịch Nghề nghiệp Thông tin nơi sinh khách xuất nhập cảnh Đia Viêt Nam Xuất nhập cảnh đến nước Xem xét xem khách có phải đối tượng hay không Kiểu dư liêu V ARCHAR2(40) NUMBER(4) VARCHAR2(40) VARCHAR2(60) V ARCHAR2( 100) NUMBER(4) NUMBER(l) Trong bảng thông tin lưu trữ thông tin khách xuất nhập cảnh Các thông tin mô tả khách lưu trữ ghi với nhiều thuộc tính bảng định Các thuộc tính ghi có đặc thù độ quan trọng khác 80 3.2 TIỀN XỬ LÝ DỮ LIỆU 3.2.1 Giới thiệu phương pháp tiền xử lý chọn Do thông tin nhân thân khách đối tượng xuất nhập cảnh thường khơng đầy đủ cần phải có bước tiền xử lý liệu nhằm đưa đến kết mong muốn Chúng giả sử trường hợp khách trùng với 234 đối tượng nghi ngờ sau: MSIMH 218 219 220 221 222 223 224 225 226 227 226 229 230 231 232 233 234 DL TW DL TW A GIANG DL L XUYEN SAI GON BEN TRE DL TQ JAPAN DL DL QT_HHAY Irdonexia Indonexia Indonexia Dan mach AUS Dan mach Dan rrach Uc Uc ■■ Uc Uc AUS Dan mach Dan mach DL MD_XIJC Phong vien Hũi nghi Lao dong Tham than Lao dong Thuong mai Lao dong Lao dong Vientro Vien tro Vien tro Vien tro Dau tu MGHEIIGHIEP Tu si Ki su Giao su Ki su Ki su Tu si Ki su Thucng nhan Ki su Cong nhan Ki su Thuong nhan Ki su Tu si Thuong nhan Ki su I I DEII_TU XXET Hong Kong Nghi ngo llg h ĩ ngo Nghi ngo Nghi ngo llg h i ngo llg h i ngo llg h i ngo llg h i ngo llg h i ngo Nghi ngo Nghi ngo Indonexia Indonexia Dan mach Dan mach Dan mach Dan mach Nhat Ban Nhat Ban Nhai Ban llg lũ ngo lig h i ngo Nghi ngo llg h i ngo Nghi ngo Nghi ngo Mil ROSETTA đưa số phương pháp tiền xử lý liệu Toolkit như: - Xoá bỏ ghi thiếu giá trị thuộc tính 81 Xoa_bghi IISIIIH 165 1G6 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 SAI GON JP TW DL DL TW TW DL TW TW DL DL TW DL LXUYEN SAI ỠON TQ QT_HIIAY M D XIIC HGHE_IIGfllE p AUS Tiep thi Tiep thi Tiep thi Tiep thi Tiep thi Tiep Ihi Phong vien Phong vien Phong vien Phong vien Phong vien Hoi nghi Lao dong Lao dong Lao dong Lao dong Vien tro Lam cong Lam cong Lam cong Lam cong Lam cong Lam cong Lam cong Ki su Ki su Ki su Tu si ỡiao su Ki su Tu si Thuong nhan Cong nhan Tu si Japan Hong Kong Hong Kong Hong Kong Ma cao Ma cao Ma cao Ma cao Ma cao Indcnexia Indcnexia Danmach Dan mach Uc Uc Dan mach DEIỈ_TU XXET llg h i ngo My My —-llghi - nao "— My llg h ĩ ngo My Nghĩ nga My Nghĩ ngo Trung Quac lig h i nga Ma cao llg h i ngo Trung Quoc Nghi ngo Trung Quoc Nghi ngo Trung Quoc Mghi ngo Hong Kong llg h i ngo Indonexia Nghi ngo Indonexia llg h i ngo Nghi ngo Dan mach Dan mach llg h i ngo Dan mach Nghi ngo Nhat Ban Mghĩ ngo ấ< MI LÚC tập đối tượng lại 181 ghi, ghi thiếu giá trị bị loại bỏ - Bổ sung giá trị vào ghi có thuộc tính có giá trị thiếu Bosung_gtri 218 219 220 221 NSIIIH QT._HIIAY MD_XHC DL TW Indonexia Phong vien Du lích DL TW 222 223 A GIANG 224 225 226 DL L XUVEN DL 227 228 SAI GON BEN TRE 229 23Ũ DL DL TQ 231 232 233 234 DL Indonexia Irdonexia Dan mach AUS Dan mach Dan mach Uc Uc Uc Uc AUS Dan mach Dan mach Hoi nghi Lao dong Tham than Lao dong Thuong mai Lao dong Du lích Lao dong Vien tro Vien tro IIGHE_IIGHIE p DEII_TU Tu si Ki su Giao su Ki su Ki su Hong Kong Nhat Ban Indonexia Indonexia Nhai Ban Tu si Ki su Thuong nhan Dan mech Nhat Ban Dan mach Ki su Cong nhan Nhai Ban Dan mach Nhat Ban Nghi ngo Nghĩ ngo Nghi ngo Dan mach Nhst Ban Ntiat Ban Nghi ngo llg h ĩ ngo llg h i ngo Du lich Ki su Thuong nhan Ki su Tu si XXET Nghi Nghi llg h ĩ Nghi llg h i llg h i ầ ngo ngo ngo ngo ngo ngo tlg h i ngo llg h i ngo JAPAN DL Trung Quoc Vien tro Vien tro Thuong nhan Trung Quoc Du lích Ki su Nhsrt Ban Nhait Ban llg h ĩ ngo Nghi ngo DL DL Dau tu Cong nhan Nhat Ban Nghi ngo ¥i Ở phương pháp với thuộc tính có giá trị kiểu xâu giá trị thiếu thay giá trị xuất nhiều tập giá trị thuộc tính 82 đó, với thuộc tính kiểu số giá trị thiếu thay giá trị trung bình tập tất tập giá trị thuộc tính - TỔ hợp hố liệu: Mở rộng giá trị thiếu cho ghi (đối tượng) thành tập giá trị Một đối tượng mở rộng thành vài đối tượng bao phu tất trường hợp xảy (tổ hợp giá giá trị thiếu đối tượng HSINH QT_HNAY MDXNC NGHENGHIEP DEN_TU XXET 18494 18495 19496 18497 18498 18499 18500 18501 DL DL DL DL DL DL DL DL DL DL DL DL 18502 18503 18504 DL DL DL DL DL DL Tham than Tham than Tham than Tham than Tham than Tham than Tham than Tham than Tham than Tham than Tham than Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Ki su Nga Viet Nam Trung Quoc Hong kong Ucraina Han quoc Macao An da Phap Nghi ngo Nghi ngo Nghi ngo Nghi ngo Nghi nga Nghi nga Nghi nga Nghi nga Nghi nga Nghi nga Nghi ngo Nghi nga Nghi ngo Nghi ngo Nghi ngo Nghi nga 18505 18506 18507 18508 18509 ! dl ■ DL DL _ DL DL DL DL DL DL DL DL Di ■ DL DL Tham than Tham than Tham than Tham than Tham than ' EN Indonexia Dai Loan Uc Canada Hong Kong Ma cao I - T _2' Ịấ Sau dùng phương pháp số lượng ghi tăng lên 18.509 ghi Ưu nhược điểm phương pháp theo góc độ nghiệp vụ: - Phương pháp xoá bỏ ghi thiếu giá trị thuộc tính: Ưu điểm: Loại bỏ ghi khơng có khả xem xét, khơng tốn thời gian công sức Nhươc điểm: Dễ bị lọt đối tượng - Phương pháp bổ sung giá trị vào ghi có thuộc tính có giá trị thiếu Ưu điểm : Có thêm thơng tin để xem xét Nhươc điểm: Khó phân biệt đối tượng, khơng phù hợp với thực tế chẳng hạn có đối tượng người nước ngồi khơng thể bổ sung thơng tin nơi sinh Hà Nội vào ghi đối tượng 83 - Phương pháp tổ hợp hoá liệu: Ưu điểm; Có thể phát đối tượng Nhươc điểm: Tốn nhiều thời gian công sức để xem xét 3.2.2.Thực nghiệm tiền xử lý Trong thực tẽ môi xử lý đối tượng nghi ngờ thường phải thực thủ cơng xố bỏ ghi có thuộc tính có giá trị thiếu, hầu hết thuộc tính bị thiếu thơng tin nhiều, chí có thơng tin bị viết tắt q trình thu thập thông tin không đầy đủ Từ bước thử nghiệm nhu cầu cần thiết công việc thực tế, xây dựng modul cài đặt vào hệ thống xử lý liệu vận hành theo phương pháp loại bỏ ghi có thuộc tính bị thiếu giá trị Tuy nhiên, modul xây dựng loại bỏ ghi có nhiều thuộc tính thiếu giá trị (ví dụ: 3/5 thuộc tính) Vì thực tế thuộc tính cịn lại khơng đủ để định có phải đối tượng thực hay không 3.2.3 Đánh giá thực nghiệm Qua thời gian vận hành thử nghiệm modul nhận thấy việc xây dựng công cụ phục vụ cho việc xử lý đối tượng cần thiết hiệu giảm công sức thời gian cán xử lý mà cịn đưa vào thử nghiệm có hiệu ý tưởng phương pháp tiền xử lý liệu Toolkit ROSETTA 3.3 TÌM TẬP RÚT GỌN Để xác định khách xuất nhập cảnh có phải đối tượng hay không cần dựa vào nhiều yếu tố, hệ thống vận hành sử dụng số yếu tố để đối chiếu thông tin khách xuất nhập cảnh đối tượng thông qua phần mềm máy tính kết đối chiếu trả giá trị kiểm tra kiểu số ỉà tỷ lệ trùng lặp thông tin khách với đối tượng, kết kiểm tra [1,1] đối tượng cịn kết kiểm tra nằm khoảng [0.56,0.99] đối tượng nghi ngờ cần phải xem xét, phần 84 xét đến đối tượng thuộc khoảng [0.56,0.99] để tìm tập thuộc tính cốt yếu, vấn đề đặt thuộc tính có thực côt yêu không ? cần phải bổ sung thuộc tính ? thuộc tính nao la khơng cân thiêt ? vân đê đưa nghiên cứu từ nhiều năm chưa có giải pháp hữu hiệu thực Trong luận van chung tơi đê xuất giải pháp tìm tập rút gọn nghía tìm tập thuộc tính cân thiết dùng để xác định đối tượng số khách xuất nhập cảnh thuộc diện nghi ngờ sử dụng thuật tốn Johnson cơng cụ ROSETTA 3.3.1 Thử nghiệm Trong thực tẽ có nhiều trường hợp thơng tin khách giống có kết đôi chiếu khác nhau, ta xét bảng định sau: KQ_DOICHIEU NSINH 1003 1ŨŨ4 1ŨŨ5 1006 1007 ỉ- lín líx l KET.QUA QT_HNAY MD_XHC NGHE_NGHIEP DENTU HCM Japan Thuong mai Thuong nhan My Phũ thong [0.58.0.97] TW JP TW HCM Japan Tiep thi Tiep thi Tiep thi Tiep thi Tiep thi Thuong mai Tham Ihsn Lam cong Lam cong Lam cong Lam cong Lam cong Lam cong Ki su My Pho thong Pho thong Pho thong Pho thong Pho thũng Pho thong Pho thong (0.68,0.78] [0.58,0.87] [0.58,0.17] [0.68,0.97] [0.68,0.97] [0.68,0.97] [0.78,0.93] Pho thong [0.78,0.93] SEL HCM Hong Kong Hang Kang Hong Kong Ma cao Ma cao Ma cao My My My Trung Quoc 1010 SG TQ Ma cao Thuong mai Ki su Ma cao Trung Quoc Trung Quoc 1011 HCM Japan Thuong mai Thuong nhan My Cong vu [0.58,0.83] 1012 TW CHINA Ma cao Tham than Ki su Trung Quoc Du lích Hong Kong Hong Keng Hong Keng Pho thong Pho thong [0.64,0.951 [0.64,0.951 Cong vu Pho thong [0.59,0.95] [0.59,0.95] 1008 1009 Hong Kong Ma cao Bao chi Tu si Phong vien 1015 CHINA NHAT Hong Kong Tham than Ki su 1016 HCM Japan Thuong mai Thuong nhan My Ngoai giao [0.58,0.76] Phong vien Cong vu [0.59,0.95] Nhan vien Dai Loan Hong Keng Ki SU Indonexia Cong vu Pho thang [0.59,0.95] [0.59,0.95] 1013 1014 1017 1018 1019 JP NHAT KR Dai Loan Indonexia Indonexia Bao chi Hoi nghi Thuong mai V Ta giả sử thuộc tính để xem xét {Noi_sinh, Qt_hnay, Md_xnc, Nghe_nghiep, Den_tu}, xem xét giá trị thuộc tính chưa xem xét đến giá trị thuộc tính { Loai_hc} {Ket_qua} ta thấy 85 đối tượng 1002, 1011 1016 hoàn toàn giống khó phân biệt được, ta phải xem xét thêm số thuộc tính khác, trương hợp ta xem xét thêm thuộc tính Loai_hc giá trị thc tính giúp cho việc phân biệt đối tượng dễ dàng Như việc cố định thuộc tính đê đơi chiếu có phải giải pháp tốt cho việc phát đối tượng, gặp phải trường hợp cần phải có thuộc tính xác định xác đối tượng Sau ta xét đến kết đối chiếu thông tin khách xuất nhập cảnh đối tượng thấy ghi thứ 1002 có kết đối chiếu cao: [0.58, 0.97], ghi 1011 có kết đối chiếu: [0.58, 0.83], ghi 1016 có kết đối chiếu: [0.58, 0.76]; ghi thứ 1002 đối tượng cần xử lý Tất nhiên thực tế công tác xử lý liệu xuất nhập cảnh cịn có nhiều yếu tố khác để xác định đối tượng mà không tiện nêu Sau xem xét kết đối chiếu bảng định biểu diễn ta thử nghiệm cơng cụ ROSETTA tìm tập rút gọn thuộc tính tối thiểu dùng để xác định đối tượng Chúng tiến hành thử nghiệm 1019 ghi thu kết sau: ■ REDUCT EDE x Reduct {NSINH, QT_HNAY, MD_XNC, NGHE_NGHIEP, DEN_TU, LOAI_HC} |t< Jẩ - * I 3.3.2 Đánh giá Như vậy, ta thấy việc thử nghiệm đạt kết tốt kết thử nghiệm công cụ ROSETTA kết kinh nghiệm nhau, việc xác định đối tượng rõ ràng cần phải xem xét thêm thuộc tính liên 86 quan khác ví dụ cần phải thêm thuộc tính LOAI_HC để xác định đối tượng Với kết thử nghiệm trên, mạnh dạn đề xuất áp dụng ROSETTA vào công việc phân tích liệu thực tế đồng thời đưa luận quan trọng việc tìm tập thuộc tính cốt yếu giúp cho việc phát đối tượng số khách xuất nhập cảnh ngày tốt 3.4 Sinh luật Sinh luật kết hợp từ tập rút gọn Kết tập luật sinh thể sau: ■ S intI l u a t U Rule 243 244 245 246 247 246 245 250 251 252 253 254 255 256 257 258 ® Iá NSINH(NIUZILAN) AND QT_HINJAY(Thai land) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND ŨẼN_TLXDSA) AND LOAJ_HC(Ptio 1h NSINH(ANH) AND QT_HNAY(Thai land) AND MD_XN(Ou lích) AND NGHE_NGHIEP(Noi tro) AND DEN_TU(USA) AND LOAI_HC(Pho thcng) -» K NSINH(NHAT) AND QT_HNAY(My) AND MD_XN(Tham than) AND NGHE_NGHIEP(Cnng nhan) AND DEN_TU(USA) AMD LOAI_HC(Ptw Ihong) JAY(TL) AND MD_XN(Du lich) AND NGHE NGHIEP(Cong nhan) AND DEN_TU(Undefined) AND LOAI_HC(Pho thong) -» KET_QUA([Ũ.58,0.98|) NSINH(NHAT) AND QT_HNAY(TL"J AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngaỉ AND LOAI_HC(Pho thang) -» KE NSINHỆAN GIANG] AND QT_HNAY(TL) AND MD_XN(Du lích) AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Ngs) AND LOAI_HC(PHo Ihorg] NSINH(JP) AND QT_HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_TIJ(Nga) AND LOAI HC(Ptio Ihong) -> KE1 NSINH(VN) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhari) AND DEN_TU(Ngâ) AND LOAI_HC(Phoiriong) -» KET_ NSINH(NHAT) AND Q Ĩ HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Corg nhan] AND DEN_TU(Viet Nam) AND LOAI_HC(PtTO thong) ■ NSINH(TH) AND QT HNAY(TL) AND MD_XN(Thflm than) AND NGHE_NGHEP(Cong nhar) AND DEN_TU(Viet Nam) AND LOAI_HC(Pho Itiorg) NSINH(JP) AND QT_HNAV(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhan) AND DEN_7U(Thaỉ Lan) AND LOAI_HC(Phn thong) K NSINH(JP) AND QT HNAY(TL) AND MD_XN(Du lich) AND NGHE_NGHIEP(Undefined) AND DEN_TU(Trung Quoc) AND LQAI_HC(Phc thong) -» NSINH(JP) AND Qĩ I h NAV(Hong Kongl AND MD_XN(Du lích) AND NGHE_NGHIEP(Ccng nhen) AND DEN_TU(Hong toong) AND LOAI_HC(Pho NSINH(JP) AND QT_HNAY(Bi] AND MD_XN(Du lichỊ AND NOHE_NGHIEP(Cong nhan) AND DEN TU(Bi) AND LOAI_HC(Pho thong) -» KET^QU NSINH(JP) AND QT HNAY(Bi) AND MD_XN(Du lich) AND NGHE_NGHIEP(Cong nhar) AND DEN_[U(Viet Nam) AND LOAI_HC(Ftio thcrg) -> K NSINH(TVV) AND QT HNAY(Bi) AND MD XN(Du lích] AND NGHE_NGHIEP(Cong nhan) AND DEN_TU(Viet Nam) AND LOAI_HC(Pho thong) -» V < Trong thực tế cán xử lý gặp phải trường hợp có kết kiểm tra đối chiếu khách đối tượng vi phạm nằm khoảng [0.56,0.99] cán xử lý phải sử dụng biện pháp nghiệp vụ để định Kết tập luật kết hợp tìm tương đối xác phù hợp với nghiệp vụ thực tế, từ chúng tơi để xuất việc xây dựng công cụ hỗ trợ giúp cán nghiệp vụ định xác định đối tượng (gọi hệ hỗ trợ định xử lý liệu) Ví dụ cán nghiệp vụ sử dụng “Hệ hỗ trợ định xử lý liệu” đặt câu hỏi dạng “Khách có nơi sinh Bỉ, mục đích xuất nhập cảnh Du lịch, nghề nghiệp công nhân, đến từ Hồng Kông, loại hộ chiếu Phổ thơng” kết nhận có the khách xuất nhập cảnh với thông tin xác định đối tượng vi phạm quy định xuất nhập cảnh, lúc khách khơng cấp hộ chiêu, thị 87 thực không xuất cảnh nhập cảnh Việt Nam Khi dựa vào kết trả lời từ công cụ “Hỗ trợ định xử lý liệu” kinh nghiêm nghiệp vụ mình, cán nghiệp vụ hồn tồn đưa định nhanh chóng 3.5 KẾT LUẬN CHƯƠNG 3: Trong chương này, tiến hành thử nghiệm phương pháp tiền xử lý liệu, thuật toán Johnson tìm tập rút gọn cơng cụ ROSETTA tốn thực tế quan cơng tác Từ thử nghiệm cho thấy việc áp dụng phương pháp thuật toán ROSETTA vào tốn thực tế quan trọng hữu ích, toán xử lý đối tượng xuất nhập cảnh việc áp dụng thuật tốn khơng làm giảm thời gian công sức cán xử lý liệu mà áp dụng tiến khoa học kỹ thuật vào công tác quản lý xuất nhập cảnh đấu tranh với loại tội phạm quan công an 88 KẾT LUẬN Thơng qua việc tìm hiểu nghiên cứu số tài liệu khoa học phát tri thức, luận văn với đề tài “Phát luật tiền xử lý liệu theo tiếp cận tập thô ứng dụng ROSETTA phát luật toán xử lý liệu xuất nhập cảnh” tập trung nghiên cứu lý thuyết tập thô ứng dụng, khảo sát khai thác cổng cụ ROSETTA Aleksander h m cộng nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính thơng tin trường đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng Luận vãn thực kết sau đây: - Trình bày cách tổng quan lý thuyết tập thơ bước q trình khám phá luật theo cách tiếp cận tập thô, ứng dụng từ mẫu luật phát theo tiếp cận tập thô, vấn đề tiền xử lý liệu - Rút gọn số lượng lớn lớp tương đương hệ thông tin Do vậy, đơn giản hố tiến trình khai phá liệu Kết kéo theo số luật phát giảm đi, song đảm bảo bao trùm tập tất đối tượng có bảng - Đưa phương pháp để rút gọn liệu từ hệ thông tin theo cách tiếp cận tập thô - Luận văn tiến hành ứng dụng thử nghiệm phương pháp thuật toán ROSETTA vào toán xử lý liệu xuất nhập cảnh quan cơng tác Phân tích, nêu đặc trưng tính chất thơ tốn q trình xử lý liệu, để từ đưa luận quan trọng hướng tới giải pháp tổng thể ứng dụng ROSETTA vào xây dựng hệ thông thực tế - Luận văn đề xuất xây dựng công cụ “Hô trợ quyét định xử lý liệu” từ luật tìm để giải tính thơ tốn xử lý liệu xuất nhập cảnh nhằm cải thiện thời gian công sức cán nghiệp 89 Hướng Luận văn nghiên cứu hoàn thiện modul tiền xử lý liệu xây dựng trình thực luận văn thời xây dựng tài liệu liên quan đến tập thuộc tính cốt yếu sử dụng trình phát đối tượng từ đề xuất với cấp lãnh đạo giải pháp xây dựng thuật tốn đối chiếu thơng tin khách đối tượng xuất nhập cảnh nhằm cải thiện thời gian cồng sức cán xử lý liộu Lĩnh vực khám phá tri thức sở dừ liệu ứng dụng rộng rãi nhiều nước cổng nghiệp tiên tiến nội dung trọng tâm công nghệ tri thức Tiếp cận tập thô lĩnh vực tỏ công cụ hữu hiệu Việc khai thác công cụ (chẳng hạn ROSETTA) toán thực tế cho thấy khả ứng dụng rộng rãi nhiều lĩnh vực Đây hướng mà tác giả luận văn định hướng nghiên cứu triển khai thời gian tới 90 TÀI LIỆU THAM KHẢO Tài liêu tiếĩi£ Vỉêt: [1] Hả Quang Thuỵ (1996) Một s ố vấn đề không gian xấp : tập thô hệ thơng tin Luận án Phó Tiến sĩ Khoa học Toán Lý ĐHKHTN 1996 Tài liêu tiếne A nh: [2] Aleksander Discemibility and Rough Sets m Medicme: Tooỉs and Applications Knovvledge Systems Group, Dept of Computer and Iníormation Science, Norwegian University of Science and Technology, Trondheim, Norway [3] Andrzej Skowron, Cecylia Rauszer (1991) The Discemibilitỵ maừices and íunctions ừì míormation sỵstems [4] Andrzej Skowron/ Nữig Zong (2000) Rough SetsừĩKDD Tutorial Notes [5] Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron(2000) A Rough SetPerspective on Data andKnowIedge [6] Jan Komorovvski, Zdzislaw Pawlak, Lech Polkowski/ Andrzej Skowron (2000) Rough sets:A tutoriaỉ [7] Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998) Discovery of Data Pattems wiửi Application to Decomposition and Classiíication Probỉems [8] Theresa Beauboueí, Frederick E.Peữy, Gurdial Arora bứormation - theoretic measures o f uncertamty for rough setsâiìd rough reỉational databases [9] Laurentiu B Cristoíor (May 8, 2000) A Rough Sets Based Generaỉừation Functìonal Dependencies [10] Nguy en, H.S., Skowron, A., (1997), "Booỉean Reasoning For Peatuie Exừaction P ro b ỉe m ổ Proceedings of the lũth International Symposium on Foundations of Intelligent Systems, 117-126 91 [11] Nguy en, s H., (2003), "On The Decision Tabỉe With Maxũnal Number Oí Reducư, Electronic Notes in Theoretical Computer Science 82 (No.4) [12] Nguyen, s H., Nguyen, H.S., (1996), "Some Eấicient Aỉgorithms ForRough Set Methodổ', Proceedings IPMU’96 (Iníormatìon Processing and Management under Uncertainty), Granada, Spaừi, 1451-1456 [13] Nguyen, s H., Polkovvski, L., Skovvron, A.; Synak, p., Wrúblewski, }., (1996), "Searchúĩg For Approximate Description Of Decỉsion ClasseỂ', Proc Of The Fourth International Workshop On Rough Sets, Fuzzy Sets and Machine Discovery, RSFD’96, Tokyo, 153-161 [14] R.Agrawal and R Srikant (1993) Fast algorithms for association rules in large databases In Proceedings of tìie 20th International Coníerence on Very Large Data Basese, pages 478-499 [15] Rekesh Agrawal, John Sher Paralleỉ mừìừig of Association Rules IBM Almaden Research Center, 1996 [16] Jan Komorowski, Aleksander hm, Andrzej Skovvron (2003) A Software System íorRough Data Analỵsỉs [17] Jerzy w Grzymala-Busse (2004) Thiee Approaches to Missùìg Attiibute Vaỉues- A Rough Set Perspectíve Department of Electrical Engineering and Computer Science University of Kansas, Lawrenc6, KS 66045, USA and Institute of Computer Science Polish Academy of Sciences, 01-237 Warsaw, Poland, November 1-4, 2004 [18] Ulf Carlin Mừùngmedical data wỉth rough sets Knowledge Systems Group Department of Computer and Iníormation Science Faculty of Physics, 92 Iníormatics and Mathematics The Norvvegian University of Science and Technology N-7034 Trondheim, Norway, February 23,1998 [19] Pavvlak, z., (2000), "Rough Sets A nd Theừ Applications", Computatíonal Intelligence In Theory And Practice, Sprmger-Verlag, 73-91 [20] Wojciech p Ziarko (Ed., 1994) Rough Sets, Fuzzỵ Sets and Knowỉedge Discovery Proceedings of the International VVorkshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993 Springer-Verlag [21] Zdzislaw Pawlak (1997) Rough Set approach to knowledge-based decision support [22] Xiaohua Hu, Regina Saskatchewan (June 1995) Knowỉedge Discoverỵ ỉn Databases: An Attribute-Oríented Rough setApproach ... 1.2.3 Mối li? ?n hệ mẫu luật theo tiếp cận tập thơ Trong q trình khám phá tri thức, mục tiêu việc phân tích li? ??u theo cách tiếp cận tập thơ tìm mảu hay luật từ li? ??u (các li? ??u biểu diễn dạng hệ thông... việc phân tích li? ??u theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hộ "không phân biệt được" Từ bảng li? ??u lớn với li? ??u dư thừa, khơng hồn hảo, li? ??u li? ?n tục, hay li? ??u biểu diễn... số luật tương đối xác hợp lý 9 CHƯƠNG TỔNG QUAN VỂ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO TIẾP CẬN TẬP THỒ 1.1 TỔNG QUAN VÊ TẬP THÔ 1.1.1 Khái niệm hệ thông tin Trong nhiều lĩnh vực, việc thu thập thông

Ngày đăng: 19/12/2015, 03:20

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • MỞ ĐẦU

  • CHƯƠNG 1 TỔNG QUAN VỀ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO TIẾP CẬN TẬP THÔ

  • 1.1. TỔNG QUAN VỀ TẬP THÔ

  • 1.1.1. Khái niệm hệ thông tin

  • 1.1.2. Khái niệm bảng quyết định

  • 1.1.3. Tính không phân biệt được trong hệ thông tin

  • 1.1.4. Khái niệm tập thô, tập xấp xỉ

  • 1.1.5. Độ chính xác và độ thô

  • 1.1.6. Sự phụ thuộc của thuộc tính

  • 1.1.7. Khái quát phụ thuộc hàm dựa trên lý thuyết tập thô

  • 1.2. LUẬT THEO TIẾP CẬN TẬP THÔ

  • 1.2.1. Luật kết hợp

  • 1.2.2. Mẫu trong hệ thống thông tin

  • 1.2.3. Mối liên hệ giữa mẫu và luật theo tiếp cận tập thô

  • 1.4. KẾT LUẬN CHƯƠNG 1

  • CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU VÀ TÌM TẬP RÚT GỌN THEO TIẼP CẬN TẬP THÔ VỚI BỘ CÔNG CỤ ROSETTA

  • 2.1. BỘ CÔNG CỤ ROSETTA

  • 2.1.1. Giới thiệu bộ công cụ

  • 2.1.2. Các thành phần cơ bản của ROSETTA [2]

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan