... Giớithiệukhaiphá text GiớithiệukhaipháwebGiớithiệukhaiphá text Khái niệm Sự cần thiết khaiphá text Đặc trưng khaiphá text Các toán khaiphá text Một ví dụ toán khaiphá ... biểu khái niệm khaipháliệu Nội dung Khaiphá text = Khaipháliệu + Xử lý ngôn ngữ tự nhiên - XLNNTN (Natural Language Processing: NLP) Các toán chungkhaipháliệu cho liệu đặc thù ... Web Phân cụm Web Phân lớp Web Trích rút thông tin, Quảng cáo tối ưu hóa Web Lọc cộng tác lọc nội dung Phân tích web log Khaiphá sử dụng web Mạng xã hội WebWeb ngữ nghĩa Khaiphá quan điểm Web...
... “Bibliography Webgraph Papers” by Dragomir R Radev 16 01: http://clair.si.umich.edu/~radev/webgraph/webgraph-bib.html 5/2005 5/2007 5/2008 1/ 2009 8/2009 4/2 010 11 /2 010 496 12 12 13 61 1457 14 71 1542 16 01 ... động người Web có tính ngẫu nhiên Là nội dung nghiên cứu thời Bibliography Webgraph Papers Dragomir R Radev, 03/4/2 010 Toàn 2007 2008 2009 15 42 12 7 61 36 To 04 /10 2007 -10 13 237 So many webgraph ... Processing (IALP 2009): 15 2 -15 5, Dec 7-9, 2009, Singapore, http://www.computer.org/portal /web/ csdl/doi /10 .11 09/IALP.2009.39 41 Một số công cụ nguồn mở Chuyển từ trang Web sang văn Bộ phân...
... sơ khai “các thành phần giống nhau”, “nghịch đảo khoảng cách”, Phổ biến tính độ đo cosin góc hai vector: không yêu cầu chuẩn hóa n (v1 , v2 ) sim(d1 , d ) = = v1 v2 ∑w 1i i =1 n ∑w i =1 1i * w12 ... Nội dung Giớithiệu Phân tích văn Biểu diễn Text Lựa chọn đặc trưng Thu gọn đặc trưng Biểu diễn WebGiớithiệu Biểu diễn văn Phù hợp đầu vào thuật toán khaipháliệu Tác động tới ... (2002): 14 - 21 11 Phương pháp lựa chọn từ Luhn58 Bài toán Input: Cho tập văn bản: coi tất văn miền ứng dụng; ngưỡng trên, ngưỡng dương Output: Tập từ dùng để biểu diễn văn tập Giải pháp ...
... Cora 16 MÁY TÌM KIẾM CORA 17 SƠ BỘ QUÁ TRÌNH PHÁT TRIỂN MÁY TÌM KIẾM • 19 94 – – – – • 19 97 (khi xuất Google) – – • Máy tìm kiếm WWWW (WWW Worm) McBryan Index chừng 11 0.000 trang web 3 /19 94-4 /19 94: ... kiếm khu vực Bắc Mỹ năm 2 010 tăng trưởng 14 % từ 14 ,6 tỷ đô la Mỹ năm 2009 lên 16 ,6 tỷ đô la Mỹ năm 2 010 (Chris Sherman (2 010 ) The State Of Search Engine Marketing 2 010 , http://searchengineland.com/the-state-of-search-engine-marketing-2 010 -38826 ... URL webpage đưa cho crawler phân tán Crawlers Storeserver URLserver Anchor Các crawler - crawling webpage gửi cho StoreServer StoreServer - nén lưu webpage lên đĩa (vào kho chứa) Indexer 10 11 ...
... (precision, recall) có ρ= 1/ 10=0 .1; π =1/ 1 =1; f1 = 2*0 .1/ (0 .1+ 1.0)= 0 .18 – – Theo phương án (accurary, error rate) có accurary=0.99 91; error rate = 9 /10 000 = 0.0009 Được coi xác ! f1 thể việc đánh giá ... biểu diễn Web đóng vai trò quan trọng KPDL Web: ChươngChương Các chương: phát biểu toán số thuật toán KPDL điển hình Bài toán phân lớp Web Đầu vào Tập lớp C1, C2, …, Ck tài liệu d thuộc ... No Yes Married 50K No Yes Married 50K No 10 No Married 15 0K Yes 11 No Single 40K No 12 No Married 15 0K Yes 13 No Married 80K Yes 14 No Single 40K No 15 B Refund No Married 80K Yes Phân lớp: Quá...
... Web server log 15 2 .15 2.98 .11 - - [16 /Nov/2005 :16 :32:50 -0500] "GET … HTTP /1. 1" 200 15 2 .15 2.98 .11 - - [16 /Nov/2005 :16 :32:50 -0500] "GET /gps.html HTTP /1. 1" 200 15 2 .15 2.98 .11 - - [16 /Nov/2005 :16 :32:50 ... BÀIGiẢNGKHAIPHÁDỮLIỆUWEBCHƯƠNGGIỚITHIỆUCHUNG PGS TS HÀ QUANG THỤY HÀ NỘI 10 -2 010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giớithiệukhaiphá text Giớithiệukhaiphá ... quan 25 BÀIGiẢNGKHAIPHÁDỮLIỆUWEB CHƢƠNG KHAIPHÁ SỬ DỤNG WEB VÀ KHAIPHÁ CẤU TRÚC WEB PGS TS HÀ QUANG THỤY HÀ NỘI 10 -2 010 TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Khai phá...
... (Project closing) Chu kỳ phát triển hệ thống Ý tưởng/ khả thi Kế hoạch Phân tích Ngun tắc Thiết kế Mã hóa Kiểm tra (test) Phát triển hệ thống Triển khai Bảo trì Triển khai hệ thống Sản phẩm ... dịch vụ hay kết Vì quản lý dự án quan trọng? • Sự thật: • 16 % dự án IT thành cơng (đạt mục tiêu giới hạn thời gian, ngân sách) • 31% dự án phải bị hủy bỏ chưa đạt đến điểm kết thúc • 84% dự ... Chậm 10 0% Nhanh Chậm Thời gian Điểm bắt đầu Khởi đầu Triển khai Kết thúc Điểm kết thúc Chu kỳ sống dự án Khởi đầu dự án Lập kế hoạch dự án (Project Initiating) (Project planning) Triển khai...
... 2005 7 /12 /2 014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan khaipháliệu 7 /12 /2 014 Chương 2: Luật kết hợp Chương 3: Phân lớp liệuChương 4: Chuỗi phổ biến Chương 5: Gom cụm liệuChương ... thi máy 7 /12 /2 014 www.lhu.edu.vn Chương Tổng quan Nội dung Các khái niệm Các giai đoạn khaiphá tri thức Ứng dụng khaipháliệu Các kỹ thuật khaipháChương Tổng quan Các khái niệm Dữliệu (Data): ... khổng lồ Dữliệu từ Internet Theo báo cáo IBM, có 80% liệukhai thác, 20% lại ẩn Database tri thức quý giá 7 /12 /2 014 www.lhu.edu.vn Chương Tổng quan Khaipháliệu gì? Khaipháliệu (Datamining)...
... Vinamilk 2% lúa mì ID giao tác T1 T2 T3 T4 T5 Mat hang {11 1, 12 1, 211 , 2 21} {11 1, 211 , 222, 323} {11 2, 12 2, 2 21, 411 } {11 1, 12 1} {11 1, 12 2, 211 , 2 21, 413 } trắng Yomost 12 1= sữa - 2% - Vinamilk Một ... D 12 34 12 3 12 12 4 13 12 35 12 45 12 5 13 4 13 5 14 15 23 14 5 24 13 45 234 25 2345 235 34 35 245 45 345 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori Cấp 12 345 12 34 12 3 12 4 12 13 12 5 14 12 35 12 45 13 45 ... D :1 A:2 E :1 C :1 D :1 D :1 E :1 null E :1 B :1 A:2 C :1 E :1 C :1 D :1 D :1 E :1 Những giao tác có bao gồm item E E :1 Thuật toán FP-Tree (New) Header table null B :1 A:2 C :1 E :1 C :1 D :1 D :1 E :1 E :1 Với nhánh...
... 60 70 80 90 10 0 11 0 12 0 13 0 14 0 15 0 • Với : – 10 15 0 thời điểm xảy kiện – s = (D, 10 ), (C, 20), …, (A, 15 0) – A, B, C D loại kiện (ở tín hiệu báo động) – Ts (thời điểm bắt đầu) = 10 and Te ... chuyển 10 giây Chiều dài chuỗi 70 giây (10 -80) Chương Episodes luật Episode THUẬT TOÁN WINEPI Bằng cách trượt cửa sổ, có 11 cửa sổ (U1-U 11) : U2 U1 U 11 • D C A B 10 20 30 40 D A B 50 60 70 C 80 90 ... ví dụChương Episodes luật Episode THUẬT TOÁN MINEPI IF D THEN C WITH [0] [10 ] 0.00 (0/2) [0] [20] 0.50 (1/ 2) [0] [40] 1. 00 (2/2) IF D A THEN C WITH [40] [40] 0.50 (1/ 2) [20] [40] 1. 00 (1/ 1) IF...
... tranh Phát gian lận phát mẫu bất thường (ngoại lai) Ứng dụng khác Khaiphá Text (nhóm mới, email, tài liệu) khaipháWeb Khaipháliệu dòng Phân tích DNA liệu sinh học March 18 , 2 013 35 ... chuỗi thời gian Dữliệu dòng Dữliệu đa phương tiện Dữliệu không đồng thừa kế CSDL Text & WWW March 18 , 2 013 50 Kiểu liệu phân tích /khai phá 8/2009 http://www.kdnuggets.com/polls/2 010 /data-types-analyzed.html ... LONDON, 18 / 01/ 2007 Nguồn: http://www.crisp-dm.org/Process/index.htm (13 /02/2 011 ) March 18 , 2 013 24 Mô hình tích hợp DM-BI [WW08] Chu trình phát triển tri thức thông qua khaipháliệu Wang,...
... Chương 1: Tổng quan khaipháliệu Chương 2: Các vấn đề tiền xử lý liệu Chương 3: Hồi qui liệu Chương 4: Phân loại liệu Chương 5: Gom cụm liệu Chương 6: Khaiphá luật kết hợp Tài liệu ... dụng khaipháliệu để có định tốt Sử dụng giải thuật công cụ khaipháliệu để phát triển ứng dụng khaipháliệu Được chuẩn bị kiến thức để nghiên cứu lĩnh vực khaipháliệu Đánh giá Bài tập ... pháliệu Giải thích tác vụ khaipháliệu phổ biến hồi qui, phân loại, gom cụm, khaiphá luật kết hợp Nhận dạng vấn đề liệu giai đoạn tiền xử lý cho tác vụ khaipháliệu Hiểu cách sử dụng khai...
... trình Khaipháliệu Web, NXB Giáo dục, 2009 CHƯƠNG 2: KHAIPHÁ LUẬT KẾT HỢP 2 .1 MỘT SỐ KHÁI NIỆM CƠ BẢN 2.2 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT APRIORI 2.3 SINH LUẬT KẾT HỢP TỪ CÁC TẬP PHỔ BIẾN 2 .1 MỘT ... dài k +1 cách kết hợp hai tập phổ biến li lj ∈ Fk có độ dài k trùng k -1 mục đầu tiên: c = li + lj = {i1, i2,…, ik -1, ik, ik’} Với li = {i1, i2,…, ik -1, ik}, lj = {i1, i2,…, ik -1, ik’}, i1 ≤ i2 ... 2 .1. 4 Bài toán khaiphá luật kết hợp Input: Cơ sở liệu giao dịch D Các giá trị ngưỡng minsup, minconf Output: Tất luật mạnh Để giải toán khaiphá luật kết hợp thường trải qua hai pha: Pha 1: ...
... lý sở liệu Tích hợp Web: kết nối ứng dụng với công nghệ Web tích hợp Oracle WebServer Phần 1: Giớithiệu Oracle Các phiên Phiên (năm 19 77), Phiên (năm 19 79) Phiên (năm 19 83), ... (19 84) Phiên phát hành năm 19 85 (SQLNet: hệ thống khách/chủ (client/server)) Phiên phát hành năm 19 88 (Sequence, thao tác ghi trễ) Oracle7 phát hành năm 19 92 (SQL*DBA) Năm 19 99 Oracle giớithiệu ... thiệu Oracle8i (i:internet) Năm 20 01- 2002: phiên Oracle9i (Release 1& 2) Năm 2004-2005: phiên Oracle10g (g:Grid) (Release 1& 2) Năm 2008 – 2009: Phiên 11 g Phần 1: Giớithiệu Oracle Các sản phẩm Oracle...
... TP.HCM 4 -17 Mạng MODBUS New Modbus RS485 standard schematic Maximum length of bus Maximum number of stations (without repeater) Maximum length of tap links 10 00 m at 19 200 bps 32 ( 31 slaves) ... common for the master Line terminator 12 0 Ω - 0,25Wm in series with 1nF 10 V Yes (Common) connected to the PG Common polarity Khoa Điện – Điện tử - ĐHBK TP.HCM 4 -18 Mạng CAN CAN (Controller Area ... 4-3 Mạng MODBUS MODBUS Serial line RS485: mạng sử dụng chế master/ Slave, tốc độ truyền 1, 200 đến 11 5Kbps với giá thành thấp Application Modbus Presentation Session Transport Network Link Physical...