...
LUẬN VĂN
Khai phádữliệu từ
website việc làm
Đồ án tốt nghiệp: Khaiphádữliệu từ website việc làm
18
cầu song song hoá và xử lý phân tán là cần thiết bởi kích thƣớc dữliệu ... sát dữliệu Đặc
biệt phát hiện tri thức và khaiphádữliệu rất gần gũi với lĩnh vực thống kê, sử
dụng các phƣơng pháp thống kê để mô hình dữliệu và phát hiện các mẫu, luật
Ngân hàng dữliệu ... vực liên quan đến phát hiện tri thức và khaiphádữliệu
Phát hiện tri thức và khaiphádữliệu liên quan đến nhiều ngành, nhiều lĩnh
vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán...
... selection), biến đổi dữliệu (data transformation).
− Khaiphádữliệu (Data mining): xác định nhiệm vụ khaiphádữliệu
và lựa chọn kĩ thuật khaiphádữ liệu. K
ết quả cho ta một nguồn tri
thức thô. ...
− Chuẩn bị dữliệu (Data preparation), bao gồm các quá trình làm
sạch dữliệu (data cleaning), tích hợp dữliệu (data integration),
chọn dữliệu (data selection), biến đổi dữliệu (data transformation). ... trữ một khối lượng dữliệu lớn. Trong kho dữliệu
lớn đó không phải thông tin nào cũng có ích. Vì vậy để khai thác được những
tri thức có ích đó các phương pháp Khaiphádữliệu ra đời. Chúng...
... không phải là tập dữliệu mà phải rút ra đƣợc cấu trúc các nhóm dữliệu
trong tập dữ liệu. Điều then chốt là phân tích xem tập dữliệu có bộc lộ một
khuynh hƣớng gom nhóm dữliệu hay không. Các ... phần của
vector dữliệu bị thiếu thì nhất định phải loại bỏ chúng.
Dữliệu rơi rải: Là những dữliệu khác biệt nhiều với những dữliệu khác.
Trong trình diễn bản đồ, mỗi dữliệu rơi rải chỉ ... vector dữliệu nhiều chiều
nào, hoặc là bản thân dữliệu hoặc là các vector mang ý nghĩa mô tả nào đó về
tập dữliệu
Hạn chế của việc áp dụng những phƣơng pháp này trong khai thác dữliệu
là...
... khaiphádữliệuWeb và máy tìm kiếm. 4
1.1. KhaiphádữliệuWeb 4
1.1.1. Tổng quan về khaiphádữliệuWeb 4
1.1.2 Các bài toán được đặt ra trong khaipháWeb 5
1.1.3 Các lĩnh vực của khai ... lĩnh vực của khaiphádữliệuWeb 6
1.1.3.1 Khaiphá nội dung Web (Web content mining): 6
1.1.3.2. Khaiphá cấu trúc web (web structure mining): 6
1.1.3.3 Khaiphá sử dụng web (web usage mining). ... Sự bế tắc 44
Chương 1. Tổng quan về khaiphádữliệuWeb và máy
tìm kiếm
1.1. KhaiphádữliệuWeb
1.1.1. Tổng quan về khaiphádữliệuWeb
Ngày nay, sự phát triển nhanh chóng của mạng Internet...
... khaiphádữliệuWeb 4
1.1.2 Các bài toán được đặt ra trong khaipháWeb 5
1.1.3 Các lĩnh vực của khaiphádữliệuWeb 6
1.1.3.1 Khaiphá nội dung Web (Web content mining): 6
1.1.3.2. Khaiphá ...
khai phá Web. Người ta thường phân khaipháweb thành 3 lĩnh vực chính: khaiphá
nội dung web (web content mining), khaiphá cấu trúc web (web structure mining) và
khai phá việc sử dụng web ... trang Web một cách tự động và lưu vào các kho chứa cục bộ.
Mục lục
Mục lục 1
Chương 1. Tổng quan về khaiphádữliệuWeb và máy tìm kiếm. 4
1.1. KhaiphádữliệuWeb 4
1.1.1. Tổng quan về khai...
... trong Khaiphádữliệu
1.2 Khaiphádữliệuweb
1.2.1 DữliệuWeb và nhu cầu khai thác thông tin
16
Tương tự như việc xây dựng bộ dữliệu mẫu ở mục 3.3, tôi
tiếp tục sử dụng phương pháp ... cái nhìn khái quát về khaiphádữ liệu, khaiphádữliệu web,
các hướng tiếp cận và ứng dụng của kháiphádữ liệu.
1.1 Khaiphádữliệu
1.1.1 Các dạng dữliệu
1.1.1.1 Fulltext
1.1.1.2 Hypertext ... dung của các
website trên internet, qua đó xây dựng một website tổng hợp thông
tin.
Phương pháp nghiên cứu của luận văn, nghiên cứu lý thuyết về khai
phá dữ liệu, khaiphádữliệu web, lý thuyết...
... toán cơ bản trong khaiphá text
Một ví dụ về bài toán khaiphá text
Xu hướng nghiên cứu khaiphá Text
3
Một số đặc điểm của khaiphá Web
Web quá lớn để tổ chức thành kho dữ liệu
Tăng kích ... tác và lọc nội dung
Phân tích web log và Khaiphá sử dụng web
Mạng xã hội trên Web
Web ngữ nghĩa
Khai phá quan điểm trên Web
Các vấn đề về hệ thống Web
Reproduced from Ullman & ... chung của khaiphádữ liệu
Như đã trình bày trong khaiphádữ liệu
Quy trình tối giản
Tiền xử lý
Công cụ của Xử lý ngôn ngữ tự nhiên
Mô hình cấu trúc văn bản
Biểu diễn văn bản
Phù...
... trình khaiphá sử dụng Web
Quá trình khaiphá sử dụng Web [Coo00]
Input: Dữliệu sử dụng Web
Output: Các luật, mẫu, thống kê hấp dẫn
Các bước chủ yếu:
Tiền xử lý dữ liệu
Khám phá mẫu
Phân ... người truy nhập Web vào địa chỉ Url1 thì cũng vào địa
chỉ Url2 trong một phiên truy nhập web
sự kết hợp giữa “Url 1”
với “Url 2”. Khaiphádữliệu sử dụng Web (lấy dữliệu từ file log ... năng tự động phân lớp Web hay không ?
2. Khaiphá cấu trúc trang Web
Cấu trúc trang Web
Trang Web được viết theo ngôn ngữ trình bày Web: chẳng
hạn HTML, XML
Trang web được tổ chức dưới...
... Natural Sciences and Technology,
1(2): 173-180, 2006.
Phát hiện quan hệ ngữ nghĩa
37
Các mức: Hình vị, Cú pháp, Ngữ nghĩa, Diễn ngôn, Phát ngôn (?), Tri
thức
Roxana Girju (2008). Semantic Relations:Discovery ... bộ công cụ xử lý
Nhóm KPLD phát triển (PXHiếu, NCTú, NTTrang)
Bộ công cụ xử lý Text trên Java: JtextPro (http://jtextpro.sourceforge.net/) và
JwebPro http://jwebpro.sourceforge.net/)
Phần ... Relations:Discovery and Applications
Bibliography Webgraph Papers
Dragomir R. Radev, 03/4/2010
So many webgraph research papers.
Some previous versions of “Bibliography Webgraph Papers” by
Dragomir R. Radev
1601:...
... khác
15
=
>+
=
0:0
0:)log())log(1(
ij
ij
i
ij
tf
tf
df
m
tf
BÀI GIẢNG KHAIPHÁDỮLIỆU WEB
CHƯƠNG 5. BIỂU DIỄN WEB
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 02-2011
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
1
Luật Zipt: ước lượng trang web được chỉ số
Ước ... tương tự nội dung văn bản
So sánh hai túi từ
19
Giới thiệu
Biểu diễn văn bản
Là bước cần thiết đầu tiên trong xử lý văn bản
Phù hợp đầu vào của thuật toán khaiphádữ liệu
Tác động tới ... lượng khaiphávăn bản. ? Giảm đặc trưng đi
là tăng chất lượng: có các đặc trưng “nhiễu”
Hoặc cả hai mục tiêu trên
Hai tiếp cận điển hình
Tiếp cận lọc
Tiếp cận bao gói
Với dữliệu văn...
... song thực hiện
–
không tải bội trang web
50
6.1. BÀI TOÁN TÌM KIẾM VĂN BẢN
•
Nguồn tài nguyên
–
D = {d
i
: các văn bản}
–
cho trước: trong CSDL
–
văn bản web trên Internet: cần thu thập về (máy ... trang web từ các site khác nhau trên Internet
–
lưu giữ vào kho lưu trữ (phục vụ bộ tạo chỉ mục)
–
làm tương nội dung các trang web được lưu trữ
•
Hoạt động
–
khai thác cấu trúc liên kết web
–
lần ... URLserver
-
gửi danh sách URL
webpage sẽ đưa về cho
các crawler phân tán.
2. Các crawler
-
crawling webpage về
gửi cho StoreServer.
3. StoreServer
-
nén và lưu webpage lên
đĩa (vào kho chứa)....
... độ chính xác π, các độ đo F
1
và F
β
FPTP
TP
+
=
ρ
TNTP
TP
+
=
π
BÀI GIẢNG KHAIPHÁDỮLIỆU WEB
CHƯƠNG 7. PHÂN LỚP WEB
PGS. TS. HÀ QUANG THỤY
HÀ NỘI 10-2010
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC ... dung
Giới thiệu phân lớp Web
Phân lớp học giám sát
Phân lớp học bán giám sát
2
Thuật toán SVM
Tập dữliệu học: D= {(X
i
, C
i
), i=1,…n}
C
i
Є {-1,1} xác định dữliệu dương hay âm
Tìm ... lớp văn bản
Phân lớp văn bản vào lớp AI : trí tuệ nhân tạo
Dựa vào các từ khóa có trong văn bản: System, Process,
Timetable (Phân tích miền ứng dụng)
Ví dụ cây quyết định và sử dụng
Kết luận: ...