Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao.
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘ TƯƠNG
ĐỒNG NGỮ NGHĨA
GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công nghệ thông tin
HÀ NỘI - 2008
2 ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘ TƯƠNG
ĐỒNG NGỮ NGHĨA
GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công nghệ thông tin
Cán bộ hướng dẫn:
PGS TS Hà Quang Thụy
Cán bộ
đồng hướng dẫn:
Thạc Sỹ Đặng Thanh
Hải HÀ NỘI - 2008
3 Lời cảm ơn
Tôi
xin
gửi
lời
cảm
ơn
và biết
ơn
sâu
sắc nhất tới
Phó Giáo sư Tiến
sĩ
Hà
Quang Thụy
và Thạc sỹ
Đặng Thanh
Hải đã chỉ bảo
và hướng dẫn tận tình cho tôi
trong suốt quá trình nghiên cứu Khoa học
và quá trình thực hiện khoá luận này.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học
tập
và nghiên cứu tại trường Đại họ c Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các
bạn sinh viên
trong nhóm nghiên
cứu “Khai phá dữ liệu
và khám phá tri thức” đã giúp đỡ,
ủng hộ
và động viên tôi
trong quá trình nghiên cứu
và làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ,
Nghiên cứu sinh Nguyễn Cẩm Tú
và Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi
rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận.
Cuối cùng, tôi muốn gửi lờ i cảm ơn
và biết ơn vô hạn tới bố, mẹ, anh trai,
tất cả
bạn bè
và những người thân yêu của tôi.
Xin chân thành cảm ơn!
Sinh viên
Hoàng Minh Hiền
4
Tóm tắt nội
dung Hiện nay,
tóm tắt văn bản là một bài toán có tính
ứng dụng thực tiễn cao.
Tóm tắt văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội
nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị
Coling/ACL
(Computational Linguistics/Association for Computational Linguistics ),
của
các trung tâm nghiên cứu như IBM, Microsoft…
Khóa luận với đề tài “Độ tương
đồng ngữ nghĩa
giữa hai câu và ứng dụng trong bài
toán
tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp
tóm tắt văn bản; độ
tương
đồng câu và các phương pháp để tính toán độ tương
đồng câu. Từ đó, trên cơ sở về
một số kết quả nghiên cứu đã có về độ đo tương
đồng câu và v ề Hidden Topic, khóa luận
đề xuất một mô hình
tóm tắt văn bản đơn có sử
dụng Hidden Topic để tính toán độ tương
đồng ngữ nghĩa
giữa hai câu.
5 Mục lục
Tóm tắt nội
dung . 4
Mục lục
.5
Danh sách bảng
7
Danh sách hình vẽ
8
Bảng ký hiệu
và từ viết
tắt 9
Mở đầu
10
Chương 1. Tổng quan về
tóm tắt văn bản và độ tương
đồng câu . 12
1.1. Đặt
vấn đề
12
1.2. Nền tảng kiến thức
13
1.2.1. Data Mining
.13
1.2.2. Text Mining
.13
1.2.3. Web Mining
.14
1.3.
Tóm tắt văn bản .15
1.4. Độ tương
đồng giữa hai câu 16
Chương 2. Bài toán
tóm tắt văn bản và một số phương pháp
tóm tắt văn bản 18
2.1. Bài toán
tóm tắt văn bản 18
2.1.1. Định nghĩa
tóm tắt .18
2.1.2. Phân loại
tóm tắt văn bản .19
2.1.3.
Tóm tắt văn bản đơn
21
2.2. Các phương pháp
tóm tắt văn bản đơn
21
2.2.1. Phương pháp Word frequencies
.22
2.2.2. Phương pháp của Edmundson
.23
2.2.3.
Tóm tắt văn bản tự
động sử
dụng trích chọn
câu hai bước
26
6 Chương 3. Độ tương
đồng câu và phương pháp tính độ tương
đồng câu 32
3.1. Độ tương
đồng .32
3.2. Độ tương
đồng câu 32
3.3. Phương pháp để đo độ tương
đồng câu .33
3.3.1. Phương pháp tính độ tương
đồng câu sử
dụng WordNet corpus
.33
3.3.2. Phương pháp tính độ tương
đồng câu sử
dụng Hidden Topic
.39
Chương 4. Đề xuất mô hình
tóm tắt và kết quả thực nghiệm
. 46
4.1. Đề xuất mô hình
tóm tắt 46
4.2. Thiết kế mô hình thử nghiệm
47
4.3. Kết quả thực nghiệm
.47
Kết luận
và hướng phát triển của khóa luận
50
Tài liệu tham khảo
. 51
7 Danh sách bảng
Bảng 1. Các kết quả so sánh các độ đo
.37
Bảng 2.
Trọng số của từng
câu trong văn bản [không
dùng Hidden Topic]
48
Bảng 3.
Trọng số của từng
câu trong văn bản [dùng Hidden Topic]
.49
8 Danh sách hình vẽ
Hình 1. Mô hình chung của một hệ thống
tóm tắt văn bản . 15
Hình 2. Giá trị trung bình của các phương pháp
. 26
Hình 3. Hệ thống
tóm tắt sử
dụng phương pháp trích chọn
câu hai bước
. 27
Hình 4. So sánh
giữa phương pháp Two-step
và các phương pháp khác (Title)
31
Hình 5. So sánh
giữa phương pháp Two-step
và các phương pháp khác ( không
sử
dụng Title)
31
Hình 6. Lược đồ tính toán độ tương
đồng câu 34
Hình 7. Hệ thống cây phân cấp ngữ nghĩa
36
Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp)
. 40
Hình 9. Mô hình sinh cho LDA
. 41
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu
42
Hình 11. Quá trình khởi tạo lấy mẫu lại
43
Hình 12. Quá trình đọc các tham số đầu ra
. 44
Hình 13. Nội
dung một
văn bản đơn tiếng Việt
47
9 Danh sách các từ viết
tắt WAP
:
Wireless Application Protocol
PDA
:
Personal digital assistant
SMS :
Short Message Service
LDA :
Latent Dirichlet Allocation
IR
:
Information Retrieval
TF :
Term Frequency
IDF :
Inverted document frequency
10 Mở đầu
Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó
khiến người
dùng trở nên bối rối do không đủ thời gian đọc
tất cả
văn bản.
Tóm tắt văn bản tự
động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa
học.
Tóm tắt văn bản có thể được
ứng dụng để
tóm tắt các
bản tin với định dạng WAP
hoặc SMS cho các thiết bị PDA, điện thoại di động.
Trong máy tìm kiếm,
ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người
dùng dựa vào đó để
chọn nhưng kết quả phù hợp với mong muốn của mình . Những
ứng dụng đa dạng
và phong phú của
tóm tắt văn bản khẳng định sự cần thiế t của việc xây
dựng một hệ thống
tóm tắt văn bản tự
động hiệu quả.
Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương
pháp giải quyết bài toán
tóm tắt văn bản một cách hiệu quả. Để tiếp cận mục tiêu này,
khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương
đồng câu sử
dụng WordNet corpus;
Đồng thờ i, khóa luận nghiên cứu, đề xuất phương pháp tính
toán độ tương
đồng câu sử
dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm
tăng tính ngữ nghĩa
trong tính toán độ tương
đồng câu mà không cần
dùng tới một mạng
ngữ nghĩa hay một corpus nào khác.
Nội
dung của khóa luận được chia thành các chương như sau:
Chương 1. Tổng quan về bài toán
tóm tắt văn bản và độ tương
đồng câu: Đề cập tới
nhu
cầu của
ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán
tóm tắt. Phần
này cũng giới thiệu những nội
dung cơ
bản nhất của bài toán
tóm tắt văn bản và độ tương
đồng ngữ nghĩa
giữa hai câu.
Chương 2. Bài toán
tóm tắt văn bản và một số phương pháp
tóm tắt văn bản: Trình
bày cụ thể về bài toán
tóm tắt văn bản bao g ồm định nghĩa
tóm tắt, phân loại
tóm tắt, cách
đánh giá một
văn bản tóm tắt và một số phương pháp
tóm tắt văn bản.
Chương 3. Độ đo tương
đồng câu và phương pháp tính độ tương
đồng câu. Chương
này giới thiệu về độ tương đồng, độ tương
đồng câu và hai phương pháp khác nhau để
tính độ tương
đồng câu: Phương pháp tính độ tương
đồng câu sử
dụng WordNet corpus
[...]... báo,
bản tin, thư, báo cáo …) Với cách phân loại này,
tóm tắt văn bản là bài báo sẽ khác với
tóm tắt thư,
tóm tắt báo cáo khoa học do những đặc trưng
văn bản quy định - Định dạng
văn bản:
tóm tắt văn bản free-form,
tóm tắt văn bản có
cấu trúc Với
văn bản có
cấu trúc,
tóm tắt văn bản thường sử
dụng một mô hình học đã xây
dựng từ trước - Kích thước nguồn:
tóm tắt đa
văn bản,
tóm tắt văn bản đơn Một vài... kê
và phương pháp dựa trên quan hệ ngữ nghĩa
giữa tập các từ
trong hai câu đó [9][16] 17 Chương 2 Bài toán
tóm tắt văn bản và một số phương pháp
tóm tắt văn bản 2.1 Bài toán
tóm tắt văn bản 2.1.1 Định nghĩa
tóm tắt Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một
văn bản mà không mất đi nội
dung chính của
văn bản [18].Bài toán
tóm tắt văn bản có đầu vào là
văn bản nguồn
và một... thường)
trong khi rất khó làm cho máy hiểu những điều này [2] 18 2.1.2 Phân loại
tóm tắt văn bản Có nhiều cách phân loại
tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc
tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại
tóm tắt như dựa vào input, output, mục đích
tóm tắt [9] Nếu dựa vào input ta có
tóm tắt đa
văn bản, đơn
văn bản;
tóm tắt miền cụ thể
và tóm tắt. .. engine
Tóm tắt văn bản được
ứng dụng ngày một rộng rãi
Tóm tắt văn bản có thể
ứng dụng trong tóm
tắt các
bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di
động Trong máy tìm kiếm,
ứng dụng tóm
tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người
dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay,
tóm tắt văn bản được sự quan tâm đặc biệt
trong các... thể
tóm tắt sử
dụng thêm
câu truy
vấn để đưa ra nội
dung của
bản tóm tắt Cách làm này có ưu điểm là
văn bản kết quả sẽ cho nội
dung gần với mong muốn của người sử
dụng hơn Quá trình
tóm tắt cụ thể sẽ xét mối liên hệ, sự tương
đồng giữa các thành phần
trong văn bản với
câu truy
vấn để tìm ra các phần quan
trọng trong văn bản Tuy nhiên, với
tóm tắt một
văn bản đơn không sử
dụng truy vấn, quá trình
tóm tắt. .. tương
đồng giữa các thành phần của
văn bản với nhau Điều này dẫn đến một
vấn đề là chưa thể kết luận ngay các thành phần quan
trọng của
văn bản để có thể trích rút, đưa vào
tóm tắt 2.2 Các phương pháp
tóm tắt văn bản đơn Những năm 50-70,
tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để
tóm tắt các
văn bản khoa học Những năm 80, người ta sử
dụng trí tuệ nhân tạo để
tóm tắt các
văn bản ngắn, các
bản. .. đầu vào là một
văn bản, đầu ra là một đoạn mô tả ngắn gọn nội
dung chính của
văn bản đầu vào đó
Tóm tắt văn bản đơn là bước đệm cho việc xử lý,
tóm tắt đa
văn bản và các bài toán
tóm tắt phức tạp hơn
Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (ví dụ : doc, txt)… Những phương pháp
tóm tắt văn bản ra đời đầu tiên đều là các phương pháp
tóm tắt cho
văn bản. .. Headline;
tóm tắt hỗ trợ các thiết bị cầm tay;
tóm tắt đa phương tiện Chiến lược
tóm tắt văn bản phổ biến nhất
vẫn là trích rút các phần quan
trọng (các
câu)
trong văn bản rồi sắp xếp chúng theo thứ tự
trong văn bản Bên cạnh đó,
tóm tắt văn 21
bản cũng bao gồm cả việc đơn giản hóa
câu bằng cách thu ngắn
câu lại, xóa đi các phần không quan
trọng trong câu để làm cho
văn bản ngắn gọn hơn Người ta thường sử
dụng. .. vào đối tượng đọc
tóm tắt thì
tóm tắt cho chuyên gia khác cách
tóm tắt cho các đối tượng đọc thông thường -
Tóm tắt sử
dụng trong IR sẽ khác với
tóm tắt phục vụ cho việc sắp xếp 19 - Dựa trên mục đích
tóm tắt, còn có thể chia ra thành
tóm tắt Indicative
và tóm tắt Informative
Tóm tắt Indicative chỉ ra loại của thông tin, ví dụ như là “alert” Còn
tóm tắt Informative chỉ ra nội
dung của thông tin -
Tóm. .. sử
dụng các thông tin có
trong văn bản để trích rút các phần quan
trọng (các
câu)
trong văn bản Cách tiếp cận truyền thống này chủ yếu dựa trên các phương pháp heuristic Những thông tin
trong văn bản có thể là tần số từ
trong văn bản, đầu đề của
văn bản, vị trí
câu, cụm từ gợi ý, … Trích rút các phần quan
trọng trong văn bản là kỹ thuật phổ biến được sử
dụng trong tóm
tắt văn bản Trên thế giới cũng đã . đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng câu và. 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản 2.1. Bài toán tóm tắt văn bản 2.1.1. Định nghĩa tóm tắt Tóm tắt văn bản là quá trình