TÌM HIỂU VÀ ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI

26 877 0
TÌM HIỂU VÀ ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG BÀI THU HOẠCH MÔN CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG TÌM HIỂU VÀ ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI GIẢNG VIÊN HƯỚNG DẪN GS.TSKH HOÀNG KIẾM HỌC VIÊN NGUYỄN SỬ VIỆT MSHV: CH1101156 TPHCM 05-2012 THỰC HIỆN MỤC LỤC 2/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu, phát tri thức(data mining) sở liệu trình tìm kiếm rút trích thơng tin tiềm ẩn có giá trị hữu ích từ tập sở liệu lớn Việc rút trích tri thức giúp cho doanh nghiệp, cơng ty…, đánh giá, dự báo số kết xảy tương lai, từ đưa số giải pháp, sách… nhằm nâng cao hiệu kinh doanh công tác 1.2 tổ chức, quản lý doanh nghiệp công ty… Các bước trình khai phá liệu Qui trình khai phá tri thức bao gồm bước sau: Xác định toán Thu thập tiền xử lý liệu KHAI PHÁ DỮ LIỆU Phát Chiết xuất tri thức biểu kết đánh giá Chiết xuất tri thức Hình 1.1 Quá trình phát tri thức từ sở liệu 1.2.1 Xác định toán Sử dụng tri thức phát Quá trình xác định lĩnh vực cần khai phá tri thức như: kinh doanh, tài chính, ngân Chiết xuất tri thức hàng, nhân sự, …Mỗi lĩnh vực khác có tri thức kỹ thuật khai phá khác 1.2.2 Thu thập tiền xử lý liệu Đây bước quan trọng tốn nhiều thời gian trình khai phá tri thức, liệu thu thường chứa nhiều thơng tin, thuộc tính lại khơng đầy đủ, khơng thống nhất, có nhiều lỗi giá trị đặt biệt Ví dụ: tuổi nhân viên= ”0”, lương= -2.000.000 Dữ liệu có tính chất mâu thuẩn với nhau: VD Tuổi =50, ngày sinh=”12/09/2000’ Giai đoạn bao gồm bước sau: 3/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Q trình xử lý liệu thơ(gốc) nhằm cải thiện chất lượng liệu, liệu thơ(có cấu trúc, bán cấu trúc, phi cấu trúc) thường đưa vào hệ thống xử lý để tạo thành liệu chất lượng(tính xác, tính hành, tính tồn vẹn tính quán) - Tính xác(accuracy): giá trị ghi nhận với giá trị thực Tính hành(currency/timeliness): giá trị ghi nhận không bị lỗi thời Tính tồn vẹn(completeness): tất giá trị dành cho biến/ thuộc tính điều - ghi nhận Tính quán(consistency): tất giá trị liệu điều biểu diễn tất trường hợp Các kỹ thuật tiền xử lý liệu: - Làm liệu (data cleaning/cleansing): làm liệu vấn đề bậc nhà kho liệu, trình làm bao gồm bước sau: o Điền giá trị thiếu tự động: việc điền giá trị tay vô vị khơng thể thực hiện, giá trị cịn thiếu điền cách tự động, giá trị thiếu thay :  Hằng số chung, ví dụ: “khơng biết”,  Thay giá trị trung bình thuộc tính lớp  Thay giá trị có nhiều khả nhất, suy từ công thức Bayesian, định thuật giải o Các phương pháp khử nhiễu:  Phương pháp chia giỏ(binning): xếp chia liệu vào giỏ độ sâu, khử nhiễu giá trị trung bình, trung tuyến, biên giỏ… 4/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt   Gom nhóm(Clustering): phát loại bỏ khác biệt Kết hợp kiểm tra máy tính người(computer/human inspection): Phát giá trị nghi ngờ - kiểm tra người  Phương pháp hồi qui(Regression): đưa liệu vào hàm hồi qui Chọn lọc, tích hợp liệu (data integration): trộn liệu (merge data) từ nhiều nguồn, tập tin khác vào kho liệu, chọn lọc liệu thật cần thiết cho tiến trình khai thác liệu Quá trình chọn lọc bao gồm bước sau: o Sơ đồ tập hợp liệu:  Làm để thực thể từ nhiều nguồn liệu trở nên tương xứng, ví dụ: US=USA, MSNV=MaNhanVien,… o Loại bỏ liệu dư thừa, trùng lắp:  Một thuộc tính thừa suy từ thuộc tính khác  Cùng thuộc tính có nhiều tên CSDL khác  Một số mẫu tin liệu bị lặp lại  Dùng phép phân tích tương quan: R=0: X Y không tương quan R>0: tương quan thuận X↑↔Y↑ R Trong đó: U: tập vũ trụ đóng, tập giới hạn N đối tượng Q: tập thuộc tính {q1, q2, … qn } V = ∪q∈Q Vq : Vq giá trị q f:U × Q → V hàm định hay hàm biểu diễn thông tin, cho f(x, q) ∈ Vq với q∈Q , x∈U Ví dụ hệ thống thơng tin: Cho tập liệu MEDICAL sau: 9/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Đ ố i t ợ n g U X X X X X X X X X X Các thuộc tính C 0 1 1 2 C L H H L L H H L L H U = {x1, x2, , x10} Q = {q1, q2, q3} = {c1, c2, d} Vc1={0,1,2} Vc2={L,H} Vd = {0,1} f(x1,c1) = D 0 0 1 1 2.2 Bảng định Hệ thống thông tin S biểu diễn bảng định Q tách thành C D, C∪D=Q C∩D=∅ C tập điều kiện D tập định Ví dụ xét tập liệu MEDICAL sau: Đối tượn g U X1 X2 X3 X4 Các thuộc tính điều kiện C1 0 C2 L H H L Các thuộc tính định D 0 0 10/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt X4 31-45 1-25 Yes X5 46-60 26-49 No X6 16-30 26-49 Yes X7 46-60 26-49 No Tập xấp xỉ: Một số tính chất tập xấp xỉ: A-xấp xỉ AX = {x | 2.5 Luật định * * Tập điều kiện C xác định từ tập U: C ={X1,X2,…Xr} Tập định D* xác định từ tập U: D*={Y1,Y2,…Yl} [x]A ⊆ X} Mỗi lớp Yi(i=1,2, l) xác định luật định, luật định thứ i biểu diễn A-xấp xỉ ĀX = {x | Phát biểu dạng logic sau: Nếu (tập điều kiện) (tập định) [x]A A={Age, Tập luật định lớp Yj ∈D* với (j=1,2,…,l), ký hiệu: ∩ X ≠ 0} LEMS} 12/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Ví dụ luật định: Cho hệ thống thông tin với thuộc tính điều kiện thuộc tính định sau: Tập thuộc tính định D={d} với Vd={Tốt, Xấu} Phân vùng Tập vũ trụ U thành: D*={Y1, Y2} Y1={x1, x5, x6} Y2={x2, x3, x4 , x7, x8} DesD(Y1)= (d= Tốt) DesD(Y2)= (d= Xấu Tập thuộc tính điều kiện A={Động cơ} Phân vùng U quan hệ tương đương IND(A) là: A*=U/IND(A)={{x1},{x2, x3, x4},{x5, x6, x7, x8}} DesA(X1)= (Động = propane) DesA(X2)= (Động = diesel) DesA(X3)= (Động = gasoline) Luật định dựa lớp Y1 với định chuyên gia Tốt: Luật định: Nếu (Động cơ= propane) (d=Tốt) Nếu (Động cơ= propane) (d=Tốt) 13/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Luật định dựa lớp Y2 với định chuyên gia Xấu: Luật định: Nếu (Động cơ= diesel) (d=Xấu) Nếu (Động cơ= gasoline) (d=Xấu) Nếu Tập thuộc tính định: D= {d}, Vd= {Tốt, Xấu} Tập thuộc tính điều kiện: A= {Động cơ, Kích thước} Thì: L1: Nếu (ĐC=propane) (KT=nhỏ) (d=Tốt) L2: Nếu (ĐC=gasoline) (KT=nhỏ) (d=Tốt) L3: Nếu (ĐC=gasoline) (KT=trung) (d=Tốt) L4: Nếu (ĐC=diesel) (KT=trung) (d=Xấu) L5: Nếu (ĐC=diesel) (KT=lớn) (d=Xấu) L6: Nếu (ĐC=gasoline) (KT=nhỏ) (d=Xấu) L7: Nếu (ĐC=gasoline) (KT=lớn) (d=Xấu) Chương ỨNG DỤNG KHAI THÁC DỮ LIỆU GIAO THƠNG VẬN TẢI Thơng tin dự án quản lý hổ sơ ISO Sở GTVT TPHCM Nhằm nâng cao hiệu công tác quản lý, rút ngắn thời gian giải hồ sơ, minh bạch việc xây dựng giải thủ tục hành chính, UBND TPHCM đầu tư xây dựng phần mềm dùng chung, ứng dụng sở ban ngành như: Sở giao thông vận tải, Sở xây dựng, Sở tài nguyên 14/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt mơi trường… Trong dự án triển khai sở GTVT TPHCM bao gồm giai đoạn, giai đoạn từ năm 2008- 2010, giai đoạn từ năm 20112012 Phần mềm tập trung vào việc quản lý thủ tục hành như: vận tải công nghiệp, giao thông thủy, khai thác hạ tầng, công viên xanh, hồ sơ dự án… Vấn đề đặt phòng vận tải công nghiệp thuộc sở GTVT, số lương hồ sơ xin phép thủ tục như: thẩm định tuyến, cấp sổ nhật trình, phù hiệu, cấp phép kinh doanh vận tải,…Số lương xe ô tô đăng ký hoạt động lên tới 39285(số lương thống kê tính đến ngày 06/05/2012) Mỗi xe ô tô đăng ký loại hình kinh doanh như: xe bus, xe taxi, xe hợp đồng, xe chạy tuyến cố định, xe du lịch xe công ten nơ Yêu cầu đặt doanh nghiệp vận tải muốn khai thác sở liệu để tìm mối quan hệ “hiệu xe” ,”số ghế” “loại hình kinh doanh” nhằm hỗ trợ nâng cao hiệu kinh doanh doanh nghiệp Ví dụ hiệu xe “MERCEDES” loại hình kinh doanh xe “du lịch” hay xe chạy tuyến cố định… Hiệu xe “TRANSINCO” có số ghế 45 chổ thì loại hình kinh doanh “xe bus” hay “xe chạy tuyến cố định”… 15/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt 3.2 Mơ hình sở liệu quan hệ(trích từ hệ thống) VTDB_DM_HIEUXE: Lưu trữ thơng tin danh mục loại hiệu xe như: MERCEDES, TOYOTA, THACO, FORD… Danh sách cột ST T Tên cột HieuXeID MaHieuXe TenHieuXe MoTa Active Kiểu liệu varchar(20) nvarchar(50) nvarchar(200) nvarchar(1000 ) char(1) Mô tả Khóa table Mã hiệu xe Tên hiệu xe Thơng tin mơ tả hiệu xe Cho biết hiệu xe cịn sử dụng hay không? VTDB_DM_LOAIHINHXE: Lưu thông tin loại hình kinh doanh như: xe bus, xe du lịch, xe taxi, xe chạy tuyến cố định,… Danh sách cột ST T Tên cột Kiểu liệu LoaiHinhXeID MaLoaiHinhXe TenLoaiHinhXe MoTa varchar(20) nvarchar(50) nvarchar(200) nvarchar(1000 ) char(1) Active LoaiHinhKinhDoanhI D varchar(20) Mô tả Khóa table Mã loại hình xe Tên loại hình xe Thơng tin mơ tả loại hình Cho biết loại hình xe cịn sử dụng hay khơng? Khóa ngoại cho biết xe thuộc loại hình kinh doanh gì? VTDB_XE: Lưu trữ thông tin xe đăng ký với sở, thông tin bao gồm: biển số xe, hiệu xe, số ghế, năm sản xuất, tên đăng ký, tên đơn vị, loại hình kinh doanh,… ST T Tên cột XeID BienSoXe HieuXeID Kiểu liệu Mô tả varchar(20) nvarchar(50) varchar(20) Khóa table Biển số xe Khóa ngoại tham chiếu đến table VTDB_DM_HIEUXE 16/21 Cơng nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt SoGhe NamSanXuat TenDangKy SoTheoDoi LoaiHinhXeID Int Int nvarchar(500) Int varchar(20) Số ghế xe Năm sản xuất xe Tên đăng ký xe Số theo dõi Khóa ngoại tham chiếu đến table VTDB_DM_LOAIHINHXE DonViID varchar(20) 10 11 12 NamXeCaiTao NgayTao ThietBiTheoDoiHanhTrin h MaHoaSoGhe Int Datetime Char(1) 13 3.3 Int Khóa ngoại tham chiếu đến table VTDB_DM_DONVI Năm xe tu sửa Ngày tu sửa Xe có thiết bị theo dõi hay khơng? Field mã hóa số ghế Các bước khai phá liệu 3.3.1 Thu thập tiền xử lý liệu Hiện thông tin lưu trữ danh mục hiệu xe không thống với nhau, có nhiều tên bị trùng, ta cần chuẩn hóa loại bỏ tên bị trùng, ví dụ Cùng hiệu xe “Sài Gịn Bus” có nhiều tên gần giống với như: “SAI GON BUS”, “SÀI GỊN BUS”, “SÀI GỊN-BUS”, “SÀIGỊNBUS”, ” SAIGONBUS”,… Mã hóa liệu: xét liệu danh mục xe ô tơ ta thấy số chổ xe có giá trị từ đến 80 Giả sử ta quan tâm đến xe có số ghế sau: STT Số ghế Giá trị mã hóa 0 and TenLoaiHinhXe is not null phân vùng tập vũ trụ U thành tập Y1,Y2 tương ứng với tập D OPEN pCurD FETCH NEXT FROM pCurD INTO @TenLoaiHinhXe,@LoaiHinhXeID WHILE @@FETCH_STATUS = BEGIN select x.BienSoXe,TenLoaiHinhXe from VTDB_XE x left join VTDB_DM_LOAIHINHXE lhx on lhx.LoaiHinhXeID=x.LoaiHinhXeID where x.LoaiHinhXeID=@LoaiHinhXeID FETCH NEXT FROM pCurD INTO @TenLoaiHinhXe,@LoaiHinhXeID END CLOSE pCurD DEALLOCATE pCurD Procedure dùng để phân vùng tập thuộc tính điều kiện{Hiệu xe} create PROCEDURE [dbo].[CaoHoc_TapDieuKien1] AS select distinct TenHieuXe, x.HieuXeId from VTDB_XE x left join VTDB_DM_HIEUXE hx on hx.HieuXeID=x.HieuXeID where x.HieuXeID is not null and X.LoaiHinhXeID is not null and x.SoGhe>0 and TenHieuXe is not null declare @HieuXeID varchar(50) declare @TenHieuXe nvarchar(100) DECLARE pCurHX CURSOR LOCAL FOR select distinct TenHieuXe, x.HieuXeId from VTDB_XE x left join VTDB_DM_HIEUXE hx on hx.HieuXeID=x.HieuXeID where x.HieuXeID is not null and X.LoaiHinhXeID is not null and x.SoGhe>0 and TenHieuXe is not null OPEN pCurHX FETCH NEXT FROM pCurHX INTO @TenHieuXe,@HieuXeID WHILE @@FETCH_STATUS = BEGIN select x.BienSoXe,TenHieuXe from VTDB_XE x left join VTDB_DM_HIEUXE hx on hx.HieuXeID=x.HieuXeID where x.HieuXeID=@HieuXeID FETCH NEXT FROM pCurHX INTO @TenHieuXe,@HieuXeID END CLOSE pCurHX DEALLOCATE pCurHX 19/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt Source code visual basic net minh họa phép toán giao tập hợp(2 phân vùng) với nhau: For i As Integer = To dsQuyetDinh.Tables(0).Rows.Count - Dim contactTable As DataTable = dsQuyetDinh.Tables(i) For j As Integer = To dsDieuKien1.Tables(0).Rows.Count - Dim contacts = contactTable.AsEnumerable.Intersect(dsDieuKien1.Tables(j) AsEnumerable(), DataRowComparer.Default) 'tìm thấy luật If contacts.Count > Then Dim dsSC As DataSet dsSC = DataProder.ExecuteQuery("CaoHoc_DoHoTro " & "N'" & dsDieuKien1.Tables(0).Rows(j 1).Item("TenHieuXe") & "',N'" & dsQuyetDinh.Tables(0).Rows(i 1).Item("TenLoaiHinhXe") & "'") If CInt(dsSC.Tables(0).Rows(0).Item("S")) >= CInt(txtDoPB.Text) And CInt(dsSC.Tables(1).Rows(0).Item("C")) >= CInt(txtDoTC.Text) Then Dim lvi As New ListViewItem tempValue = tempValue + lvi.Text = tempValue Dim strLuat As String = "Nếu hiệu xe " & dsDieuKien1.Tables(0).Rows(j - 1).Item("TenHieuXe") & " loại hình xe " & dsQuyetDinh.Tables(0).Rows(i 1).Item("TenLoaiHinhXe") lvi.SubItems.Add(strLuat) lvi.SubItems.Add(dsSC.Tables(0).Rows(0).Item("S") "%") lvi.SubItems.Add(dsSC.Tables(1).Rows(0).Item("C") & "%") lvLuatKetHop.Items.Add(lvi) End If End If Next Next 20/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỀN  Kết luận Lý thuyết tập thô nội dung mà tác giả học bậc đại học, nhiên kiến thức dừng lại việc tìm hiểu lý thuyết, chưa có áp dụng thực tế Vì mà mục tiêu thu hoạch muốn áp dụng lý thuyết tập thô để khai thác sở liệu thực tế Qua tác giả hiểu số vấn đề khó khăn như: thao tác sở liệu lớn, thời gian truy xuất sở liệu, kỹ thuật thu thập tiền xử lý liệu Tác giả xin cam đoan tất liệu điều lấy thực tế từ phần mềm triển khai sở giao thông vận tải TPHCM Một dự án mà tác giả với Công ty TNHH phát triển phần mềm FPT triển khai từ năm 2008 đến năm 2011 Nhân em xin gởi lời cám ơn chân thành sâu sắc đến Thầy Hồng Kiếm, mặt dù thời gian mơn học khơng nhiều Thầy mang lại cho em kiến thức vơ vùng bổ ích, giúp cho em vận dụng giải vấn đề khó khăn công việc hàng ngày  Hướng phát triển Tiếp tục tìm hiểu nghiên cứu sâu lý thuyết tập thô kỹ thuật đánh giá luật nhằm tìm tri thức thật có ý nghĩa, tiếp tục tiền xử lý thu thập liệu giao thơng để áp dụng vào thực tế THÔNG TIN LIÊN HỆ HỖ TRỢ DỮ LIỆU TEST [1] Trần Thị Trâm Anh, tổ trưởng tổ tin học, văn phịng Sở giao thơng vận tải TPHCM, điện thoại: 3.82.45.217, di động: 090.80.13.410 TÀI LIỆU THAM KHẢO [1].Bài giảng môn công nghệ tri thức ứng dụng GS.TSKH Hoàng Kiếm, trường ĐH CNTT TPHCM [2].Bài giảng mơn khai thác liệu(datamining) PGS.TS Lê Hồi Bắc, trường ĐH KHTN TPHCM [3].Bài giảng môn khai thác liệu(datamining) Ths Nguyễn Hoàng Tú Anh, trường ĐH KHTN TPHCM [4].Bài giảng môn khai thác liệu(datamining) PGS.TS Đỗ Phúc, trường ĐH CNTT TPHCM 21/21 Công nghệ tri thức ứng dụng – Học Viện: Nguyễn Sử Việt ... HIỂU LÝ THUYẾT VỀ TẬP THƠ 2.1 Nội dung Lý thuyết tập thơ Zdzislaw Pawlak phát triển vào năm 1980-1992 áp dụng mơ hình sở liệu quan hệ Hiện lý thuyết tập thô nhiều nhà khoa học nghiên cứu áp dụng. .. năm 20112012 Phần mềm tập trung vào việc quản lý thủ tục hành như: vận tải công nghiệp, giao thông thủy, khai thác hạ tầng, công viên xanh, hồ sơ dự án… Vấn đề đặt phịng vận tải cơng nghiệp thuộc... áp dụng thực tế Vì mà mục tiêu thu hoạch muốn áp dụng lý thuyết tập thô để khai thác sở liệu thực tế Qua tác giả hiểu số vấn đề khó khăn như: thao tác sở liệu lớn, thời gian truy xuất sở liệu,

Ngày đăng: 10/04/2015, 16:27

Từ khóa liên quan

Mục lục

  • Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • 1.1. Khai phá dữ liệu

    • 1.2. Các bước của quá trình khai phá dữ liệu

    • 1.2.1. Xác định bài toán

    • 1.2.2. Thu thập và tiền xử lý dữ liệu

    • 1.2.3. Khai phá dữ liệu, chiết xuất tri thức

    • 1.2.4. Phát biểu kết quả và đánh giá tri thức

    • 1.2.5. Sử dụng tri thức đã phát hiện

    • 1.3. Luật kết hợp

    • 1.3.1. Khái niệm

    • 1.3.2. Một số vấn đề liên quan đến luật kết hợp.

    • 1.3.2.1. Độ hỗ trợ(Support)

    • 1.3.2.2. Độ tin cậy(Confidence)

    • 1.3.2.3. Ví dụ về độ hỗ trợ và độ tin cậy

    • Chương 2. TÌM HIỂU LÝ THUYẾT VỀ TẬP THÔ

      • 2.1. Nội dung

      • 2.2. Bảng quyết định

      • 2.3. Quan hệ tương đương

      • 2.4. Quan hệ không tương đương

      • 2.5. Luật quyết định

      • Chương 3. ỨNG DỤNG KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI

        • .1. Thông tin về dự án quản lý hổ sơ ISO tại Sở GTVT TPHCM

        • 3.2. Mô hình cơ sở dữ liệu quan hệ(trích từ hệ thống)

Tài liệu cùng người dùng

Tài liệu liên quan