... các văn bản.
MÔ HÌNH TỔNG QUÁT HÓA CÁC BƢỚC XÂY DỰNG BẢN ĐỒ VĂNBẢN
35
43
CHƢƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN
BẢN ĐỒ VĂNBẢN TỰ TỔ CHỨC.
4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂNBẢN ... phần của
vector dữliệu bị thiếu thì nhất định phải loại bỏ chúng.
Dữliệu rơi rải: Là những dữliệu khác biệt nhiều với những dữliệu khác.
Trong trình diễn bản đồ, mỗi dữliệu rơi rải chỉ ... BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG…………
Luận văn
Khai phádữliệuvănbảntiếng
Việt với bản đồ tự tổ chức
27
Khi vector Rn(t) là đầu vào cho SOM, ở bƣớc...
... hình Khaiphádữliệuvănbản với bản đồ tự
tổ chức trong tiếngViệt
Từ kết quả của đề tài, những hướng nghiên cứu sau có thể tiếp tục:
1. Khám phá và quản lý tri thức trên bản đồ văn bản. ...
Luận văn
Khai phádữliệuvănbảntiếng
Việt với bản đồ tự tổ chức
29
2.2 Tiền xử lý.
Trích tách các đặc trƣng là bƣớc quan trọng nhất trong phân tích khám phá
dữ liệu cũng ... vector dữliệu nhiều chiều
nào, hoặc là bản thân dữliệu hoặc là các vector mang ý nghĩa mô tả nào đó về
tập dữliệu
Hạn chế của việc áp dụng những phƣơng pháp này trong khai thác dữliệu
là...
...
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ NGỌC ANH
NGHIÊN CỨU CÔNG NGHỆ KHAIPHÁDỮLIỆUVĂN BẢN,
ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ
CẦM TAY (PDAS & SMARTPHONES) ... chính của chương này được tổng hợp các nội dung cơ bản của [28].
Phiên bản chi tiết của thuật toán RTDM do luận văn đề xuất. Ngoài ra, luận
văn cũng đưa ra một số nhận xét, ý tưởng có thể dùng ... tức bao gồm 4 bước sau: (1) nhóm các
trang html, (2) xác định mẫu chung, (3) khớp dữliệu và (4) gán nhãn dữ liệu.
Hình sau minh hoạ cho các bước này:
Hình 5: Các bước trích xuất tin tức...
... riêng cũng
như khaiphádữliệu nói chung
3
CHƯƠNG 1
TỔNG QUAN VỀ KHAIPHÁDỮLIỆUVĂNBẢN
1.1. Phát hiện tri thức trong cơ sở dữliệu và khaiphádữliệu
Khai phádữliệu (Data Mining) ...
1.2. Khaiphádữliệuvănbản
- Khaiphádữliệuvănbản là việc trích ra, lấy ra các thông tin
có ích, chưa được biết đến còn tiềm ẩn trong các kho dữliệuvănbản lớn.
- Khaiphádữliệuvăn ...
- Những nghiên cứu về khaiphádữliệuvănbản và các bài
toán ứng dụng.
- Khaiphádữliệuvănbản có nhiều hướng tiếp cận: Naïve
Bayes, Cây quyết định, Phương pháp Support vector machine,...
... đây:
Trích lọc dữliệu
Tiền xử lý dữliệu
Biến đổi dữliệu
Khaiphádữliệu
Đánh giá và biểu diễn tri thức
1.2. Khaiphádữliệuvănbản
- Khaiphádữliệuvănbản là việc trích ... cơ sở dữliệu và khaiphádữliệu
Khai phádữliệu (Data Mining) là quá trình phát hiện những tri thức hữu ích
ẩn chứa trong cơ sở dữliệu hay các kho chứa thông tin khác. Khaiphádữliệu là ... dấu. Khaiphádữliệu trong đó
có lĩnh vực khaiphádữliệuvănbản là một lĩnh vực khoa học liên ngành mới
xuất hiện gần đây nhằm đáp ứng nhu cầu này. Nhiều kỹ thuật khaiphádữliệuvăn
bản...
... những
thao tác cơ bản sau:
Tìm hiểu bài toán khaiphádữliệuvănbản
6
1.1 Khái niệm khaiphádữliệuKhaiphádữliệu – Data mining: Là một bƣớc của tiến trình khaiphá tri
thức (KDD) ... hiểu bài toán khaiphádữliệuvănbản
43
Hình 22 – Giao diện trang lấy link RSS tự động
Hình 23 – Giao diện trang tin tức lấy về
Tìm hiểu bài toán khaiphádữliệuvănbản
39
... hình hóa dữliệu
Tìm hiểu bài toán khaiphádữliệuvănbản
37
Bảng Group: chứa thông tin về nhóm tin của mỗi ngƣời sử dụng
Bảng 4 - Bảng Group (nhóm tin tức)
Bảng UserBlog:...
...
Như ta đã thấy bài toán tổ chức lưu trữ và xử lý tài liệuvănbảntiếngviệt được
giải quyết bằng phương pháp gián tiếp – phương pháp trí tuệ nhân tạo và sử dụng một số
nguyên tắc sáng ... HỌC CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN PHƯƠNG PHÁP LUẬN
SÁNG TẠO KHOA HỌC
(Giải pháp tổ chức lưu trữ và xử lý tài liệ
u
văn bảntiếngviệt có ngữ nghĩa)
Giảng viên phụ trách ... về phương pháp này chính là tìm hiểu về kỹ thuật
lập trình trên máy tính.
Các nguyên lý áp dụng trong phương pháp trực tiếp :
Nguyên lý 1: Chuyển đổi dữliệu bài toán thành dữliệu của chương...
... CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ðẦU 8
CHƯƠNG 1.
KHAI PHÁDỮLIỆU 12
1.1.
Tổng quan khaiphádữliệu 12
1.1.1
Dữ liệu 14
1.1.2
Tiền xử lý dữliệu 16
1.1.3
Mô hình khai ... ñể phát hiện ra tri thức từ
dữ liệu ñược gọi là khaiphádữliệu (data mining). [9]
Khai phádữliệu là sự tìm kiếm thông tin mới, có giá trị và không tầm
thường trong một khối lượng dữliệu ... hệ thống khaiphádữliệu có
thể ñiều khiển ñược tất cả các loại dữ liệu. Thực tế CSDL có sẵn thường là
CSDL quan hệ và hệ thống khaiphádữliệu cũng thực hiện hiệu quả việc khai
phá tri thức...
... văn
Luận văn tập trung trình bày các phương pháp tối ưu kích thước dữliệu ứng dụng
trong bài toán phân loại vănbảntiếng Việt. Phương pháp phân loại vănbản sử dụng
trong luận văn là phương pháp ... trong vănbản và tần xuất vănbản (số các vănbản trong
tập dữliệu huấn luyện có chứa từ đó).
3.3 Đặc điểm của TiếngViệt và ảnh hưởng trong phân loại văn
bản
(Trung tâm từ điển học Việt Nam, ... niệm.
Nếu truy vấn một vănbản điều này được xem như một vănbản thu nhỏ và so sánh
văn bản này với tất cả vănbản trong không gian khái niệm.
Chuyển vănbản
j
d
thành vănbản
)
j
d
trong không...
...
phần sau:
Chương 1 – Khaiphádữ liệu: Tìm hiểu các chức năng khaiphádữ liệu.
Chương 2 – Một số thuật toán khaiphádữ liệu. Nghiên cứu trên hai
kiểu khai phá: Khaiphá luật kết hợp - một ... nghĩa về Khaiphádữliệu như sau: Khaiphádữliệu là
quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị ñược
lấy từ tập dữliệu cho trước. [9]
Hay, Khaiphádữliệu là ... CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ðẦU 8
CHƯƠNG 1.
KHAI PHÁDỮLIỆU 12
1.1.
Tổng quan khaiphádữliệu 12
1.1.1
Dữ liệu 14
1.1.2
Tiền xử lý dữliệu 16
1.1.3
Mô hình khai...
... LSI/SVD) khi dữliệuvăn
bản được tách thành các từ.
Sơ đồ tổng quan Hệ thống phân loại vănbảntiếngViệt
Dữ liệuvăn
bản huấn luyện
Xử lý dữliệuvăn
bản huấn luyện và
biểu diễn văn bản
Ma ... văn bản
Ma trận Term-Doc
huấn luyện
Huấn luyện Phân loại
Dữ liệuvănbản
kiểm thử
Xử lý dữliệuvăn
bản kiểm thử và
biểu diễn văn bản
Ma trận Term-
Doc kiểm thử
Kết quả phân
loại
Đồ thị ... trang http://
vnexpress.net. Tập tài liệu này được chia
lấy ngẫu nhiên 60% được dùng làm dữ
liệu huấn luyện, 40% được dùng làm dữ
liệu kiểm thử (test):
Phương pháp LDA/GSVD (tiếp)
(2) Ma trận...
... Từ một vănbản in trên giấy, máy tính chuyển thành
một tệp vănbản trên máy tính.
- Tóm tắt văn bản: Từ một vănbản dài, máy tính tóm tắt thành vănbản ngắn
hơn với những nội dung cơ bản nhất.
- ... 2009.
Học viên
Lưu Văn Tăng
4
Luận văn tốt nghiệp
Chương 2. Các công cụ phân tích vănbảntiếng Việt
Trong chương này em giới thiệu một số công cụ phân tích vănbản
tiếng Việt đã có áp dụng ... một vănbảntiếngViệt bất kỳ. Hãy phân tách vănbản đó ra thành
các đơn vị câu độc lập.
Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu
trong một vănbảntiếng Việt...
... bày tổng
quan về khaiphádữ liệu, bao gồm sự cần thiết, khái
niệm và các bước xây dựng một hệ thống khaiphá
dữ liệu, kiến trúc điển hình của một hệ thống khai
phá dữliệu và vấn đề bán ... doanh nghiệp và khaiphá
dữ liệu dần trở thành thành phần chính để thực
thi nhiệm vụ khaiphá tri thức. Được đánh giá
sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai
phá dữliệu sẽ ngày càng ... tài “Nghiên cứu kỹ
thuật khaiphádữliệu và ứng dụng trong hệ
thống bán sách trực tuyến”.
Khóa luận được chia thành 4 chương:
- Chương 1: Tổng quan về khaiphá
dữ liệu.
- Chương 2: Một số...
... sung kho dữliệu
gồm các vănbản được gán nhãn mẫu, làm
tăng chất lượng bộ gán nhãn. Kho dữliệu
này cũng đặc biệt hữu ích cho việc nghiên
cứu văn phạm tiếng Việt. Việc nghiên cứu
văn phạm ... chúng tôi
sử dụng tập dữliệu gồm bảng âm tiết tiếng
Việt (khoảng 6700 âm tiết) và từ điển từ
vựng tiếngViệt (khoảng 30.000 từ). Các từ
điển được lưu dưới dạng các tệp vănbản có
định d
ạng ... phát triển công nghệ
nhận dạng, tổng hợp và xử lí ngôn ngữ tiếng
Việt& quot;, nhóm nghiên cứ
u đã triển khai các
công việc xây dựng kho ngữ liệutiếngViệt
bao gồm từ điển từ vựng và kho văn...