Thông tin tài liệu
LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM
THÔNG TIN TRÊN INTERNET
Chương I : Giới thiệu sản phẩm
MỤC LỤC
CHƯƠNG I : GIỚI THIỆU SẢM PHẨM…………………………………………1
I.1. MỞ
ĐẦU………………………………………………………………………………….1
I.2. MỘT VÀI VÍ DỤ ỨNG
DỤNG………………………………………………………2
CHƯƠNG II : LÝ THUYẾT CHUNG…………………………………………… 3
II.1. PHÂN LOẠI NGUỒN THÔNG
TIN……………………………………………….3
II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường
xuyên……………………………………………………………………
………….….4
II.1.2. Các trang Web thông tin có cấu trúc không được cập nhật thường
xuyên……………………………………………………………………
….5
II.1.3. Các trang Web thông tin có cấu trúc lỏng lẻo……………………….…6
II.2.
WEBMINING……………………………………………………………………………
6
II.2.1. Thu thập thông tin (Information Retrieval) ………………… 7
II.2.2. Bóc tách thông tin (Information Extraction) ………………….7
II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) ………… 8
II.2.4. Phân
tích………………………………………………………………….…8
II.3.
XLM……………………………………………………………………………………
…8
CHƯƠNG III : NGHIÊN CỨU GIẢI PHÁP…………………………………….10
III.1. THU THẬP THÔNG
TIN………………………………………………………….11
III.1.1.Các loại
URL…………………………………………………………… 11
III.1.2. Giải pháp sử
lý……………………………………………………… 12
III.2. BÓC TÁCH THÔNG
TIN……………………………………………… 12
III.2.1. Quy luật dùng để bóc tách thông tin………………………… 20
III.2.2. Phương án kỹ
thuật………………………………………………… 24
III.2.3. Kênh tin và kênh tin đa thức………………………………………
29
III.3. HIỆN THỰC HOÁ GIẢI
PHÁP………………………………………………… 31
- 2 -
Chương I : Giới thiệu sản phẩm
III.3.1. Khả năng tương tác người và máy trong quá trình tạo kênh
tin…………………………………………………………………………
……33
III.3.2. Các chức năng khác của hệ thống………………………………35
III.4. KHẢ NĂNG ỨNG DỤNG VÀ MỞ RỘNG………………
……………………36
CHƯƠNG IV : SO SÁNH VỚI CÁC HỆ THỐNG KHÁC………………………37
CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH………………….38
V.1. YÊU CẦU HỆ
THỐNG……………………………………………………… … 38
V.2. CHỌN KÊNH TIN………………………………………………………….
……… 39
V.3.LẤY THÔNG TIN VỀ CÁC BÀI
BÁO…………………………………………… 40
V.4. XEM BÁO TRỰC TUYẾN
………………………………………………………… 41
V.5. XEM CÁC BÀI BÁO ĐÃ
LƯU………………………………………………………42
V.6. CHỈNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI
BÁO……………………….43
V.7. TÌM KIẾM BÀI
BÁO………………………………………………………………….43
V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN
MỚI…………………………………….44
CHƯƠNG VI : KẾT LUẬN…………………………………………………………44
GIỚI THIỆU SẢN PHẨM 4
I.1.MỞ ĐẦU 4
I.2.MỘT VÀI VÍ DỤ ỨNG DỤNG 5
LÝ THUYẾT CHUNG 6
II.1.PHÂN LOẠI NGUỒN THÔNG TIN 6
II.1.1.Các trang Web thông tin có cấu trúc được cập nhật thường xuyên 7
II.1.2.Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên 7
II.1.3.Các trang Web thông tin có cấu trúc lỏng lẻo 8
II.2.WEBMINING 8
II.2.1.Thu thập thông tin (Information Retrieval) 9
II.2.2. Bóc tách thông tin (Information Extraction) 10
II.2.3.Tổng hợp và tổng quát hoá dữ liệu (Generation) 10
II.2.4.Phân tích 10
II.3.XML 11
NGHIÊN CỨU
GIẢI PHÁP 12
III.1.THU THẬP THÔNG TIN 13
III.1.1.Các loại URL 13
III.1.2. Giải pháp xử lý 14
III.2.BÓC TÁCH THÔNG TIN 21
III.2.1. Quy luật dùng để bóc tách thông tin 22
III.2.2.Phương án kỹ thuật 26
- 3 -
Chương I : Giới thiệu sản phẩm
III.2.3.Kênh tin và kênh tin đa mức 31
III.3.HIỆN THỰC HÓA GIẢI PHÁP 33
III.3.2.Khả năng tương tác người - máy trong quá trình tạo kênh tin 35
III.3.3.Các chức năng khác của hệ thống 37
III.4.KHẢ NĂNG ỨNG DỤNG VÀ MỞ RỘNG 38
SO SÁNH vỚi CÁC HỆ THỐNG KHÁC 39
HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH 40
KẾT LUẬN 46
CHƯƠNG I
GIỚI THIỆU SẢN PHẨM
GIỚI THIỆU SẢN PHẨM
Tên sản phẩm
Ứng dụng của sản phẩm
I.1.MỞ ĐẦU
Bạn đã bao giờ tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người đều có
đầy đủ thông tin, riêng bạn lại không có những thông tin cần thiết thì cuộc sống sẽ ra
sao chưa?
Hơn mọi thứ khác, nhu cầu truyền tải thông tin vượt qua thời gian và không gian
luôn được nhân loại chú ý tới, từ những tiếng trống của thổ dân Châu Phi cho tới những
thông điệp điện tử đang được truyền đi với tốc độ ánh sáng trên khắp địa cầu. Không
cần đến tận nơi, bạn vẫn có thể biết ở cách xa hàng ngàn dặm đang diễn ra chuyện gì,
không cần phải gặp mặt, những người bạn ở hai nửa địa cầu vẫn có thể trao đổi thông
tin với nhau, Internet đã đưa thông tin tới mọi nhà.
Thế nhưng, hãy thử tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người
đều có đầy đủ những thông tin mà mình cần, còn riêng bạn lại ngập lụt trong một biển
thông tin nhiều đến nỗi không sao xử lý hết được thì sẽ thế nào?
Càng ngày bạn càng cần phải thu thập thông tin ở nhiều lĩnh vực cùng một lúc
và đã bao giờ bạn phát chán lên vì không biết phải làm gì khi có quá nhiều thông tin
chưa? Đã bao giờ bạn cảm thấy chán ngán khi trong tay mình có danh sách của hàng
chục, hàng trăm tờ báo điện tử, diễn đàn, search engine, rồi các website thông tin về đủ
mọi lĩnh vực, nhưng lại không thể đủ thời gian để cập nhật dù chỉ là lướt qua hết các
nguồn tin này chưa? Có thể có và cũng có thể là chưa.
Hệ thống của tôi ra đời với một tiêu chí vô cùng đơn giản “Mang lại cho người
sử dụng thông tin và chỉ những thông tin mà họ cần”. Thông tin bạn cần nhất khi
muốn xem lướt qua các tờ báo điện tử là gì? Có thể chỉ là tiêu đề bài báo và vài dòng
tóm tắt qua nội dung của bài báo đó. Thông tin bạn cần nhất khi lướt qua một diễn đàn
là gì? Có thể chỉ là tên bài viết và tác giả của bài viết đó. Cũng như vậy đối với một
trang Web cung cấp thông tin về giá cả chứng khoán. Bạn cần chỉ số chứng khoán của
các công ty chứ đâu cần phải rối tinh lên vì các thông tin không cần thiết nằm trong
trang Web đó Nhưng có phải là hệ thống của tôi sẽ chỉ mang đến cho bạn thông tin về
tiêu đề cùng với phần tóm tắt của các tin tức trên rất nhiều các trang báo điện tử trong
và ngoài nước, hay tên bài viết và tác giả của các chủ đề trên rất nhiều các diễn đàn trao
đổi thông tin, hay đơn thuần chỉ là các chỉ số chứng khoán, … không thôi?
- 4 -
Chương I : Giới thiệu sản phẩm
Không, tất nhiên không chỉ có vậy, hệ thống của tôi được xây dựng như là một
giải pháp tổng quát để thu thập và tách thông tin từ bất cứ nguồn tin nào trên
Internet. Với sự cố gắng nỗ lực hết mình trong phạm vi giới hạn của kiến thức, tôi cũng
đã cung cấp cho bạn một cơ chế tương tác trực quan giữa người và máy để xác định
thông tin cần bóc tách mà ngay cả những hệ thống có chức năng tương tự như Novobot,
WebFerret hay Copernic cũng rất khó khăn hay hầu như không thể cung cấp cho bạn
được. Tính khả mở của hệ thống đã được chuyển giao từ những người tạo ra hệ thống
vào tay người sử dụng. Hệ thống của tôi giờ đây đã cung cấp đầy đủ các chức năng để
bạn có thể thu thập và tách các thông tin từ bất cứ nguồn tin nào và việc quyết định cần
thu thập những thông tin gì là tùy vào chính bạn chứ không còn cứng nhắc như các
hệ thống trước đây nữa.
Hãy để công việc thu thập thông tin lại trở nên dễ dàng và tiện dụng cùng với hệ
thống của tôi cho dù trước mắt bạn là một biển thông tin hỗn độn và khổng lồ như
Internet .
I.2.MỘT VÀI VÍ DỤ ỨNG DỤNG
Đặc điểm nổi bật nhất là hệ thống của tôi có tính mở rất cao. Những thông tin
mà hệ thống mang lại cho bạn chỉ phụ thuộc vào ý muốn của chính bạn chứ không bị
gò bó trong một phạm vi nhất định nào đó như là những chương trình tương tự khác. Có
thể ra một vài ứng dụng nhỏ sau đây :
Nếu bạn là người hay quan tâm đến những tin tức nóng hổi về kinh tế, chính trị,
thể thao, hãy sử dụng chương trình của tôi để tạo ra các kênh tin kết nối đến các trang
báo điện tử ở khắp nơi trên thế giới, và bạn sẽ có đầy đủ những thông tin mà mình cần.
Việc đọc lướt qua các tiêu đề tin tức từ các bài báo sau khi đã được thu thập và phân
chia thành các chủ đề khác nhau, rồi mới quyết định xem chi tiết bài báo nào sẽ giúp
bạn có một cái nhìn tổng quát hơn, nhanh chóng và tiết kiệm thời gian, tiền bạc hơn so
với việc phải dùng trình duyệt đi tới từng trang web, vào từng chủ đề, xem tiêu đề tin,
rồi mới tới được nội dung bài viết.
Nếu bạn là một doanh nghiệp cần quan tâm đến những tin tức về kinh tế, về thị
trường, về những mặt hàng bạn đang kinh doanh, hay nếu bạn là một người làm công
tác nghiên cứu đang cần những thông tin, số liệu liên quan đến lĩnh vực chuyên môn
của mình, hay nếu bạn là một nhà báo đang cần những tin tức "thời sự" nhất để viết
bài, thì tại sao lại không thử sử dụng hệ thống của tôi, tất cả những gì bạn cần hệ
thống của tôi sẽ giúp bạn có.
Nếu bạn cần tìm kiếm thông tin, chương trình của tôi sẽ giúp bạn cùng một lúc
kết nối đến nhiều trang tìm kiếm khác nhau trên thế giới, gửi yêu cầu, phân tích kết quả
rồi trả lại cho bạn những thông tin bạn cần tìm.
Nếu bạn muốn thu thập, tổng hợp lại số liệu từ một trang web trên mạng (ví dụ
như danh sách các thí sinh trúng tuyển đại học chẳng hạn), hay cần lấy về chỉ một số
thông tin nhất định nào đó thôi, ví dụ như tên nhạc sĩ sáng tác và lời bài hát tương ứng
từ một site về lyrics nào đó để tổng hợp lại thành cơ sở dữ liệu của riêng bạn, mà bạn
đang băn khoăn không biết nên làm thế nào để có thể thực hiện công việc này một cách
nhanh chóng và ít tốn công sức nhất thì hệ thống của tôi chính là một công cụ mà bạn
đang cần đấy.
- 5 -
Chương I : Giới thiệu sản phẩm
Ngoài ra còn có thể kể đến rất nhiều ứng dụng khác nữa. Hệ thống này có thể
được ứng dụng vào trong những công việc gì thì điều đó chỉ phụ thuộc vào khả năng
sáng tạo của chính bạn mà thôi.
CHƯƠNG II
LÝ THUYẾT CHUNG
LÝ THUYẾT CHUNG
Các loại nguồn thông tin trên Web
Các tác vụ Web-mining, lý thuyết và thực tế
Ngôn ngữ XML, khả năng và thực tế
Chúng ta đã thật sự có thông tin mình mong đợi chưa?
II.1.PHÂN LOẠI NGUỒN THÔNG TIN
Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt
của Internet mà tiêu biểu là các trang thông tin. Sự phát triển này đã có một ảnh hưởng
không nhỏ tới nền kinh tế và xã hội không chỉ của riêng một quốc gia mà là cả thế giới.
Internet được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề
mà người sử dụng cần đến. Với sự phát triển này, hiện nay, lượng thông tin Internet
mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng
Internet thông minh và hiệu quả hơn đối với người sử dụng. Có nhiều cách để phân loại
các nguồn thông tin từ Web, tuy vậy, chúng ta có thể chia thành 3 loại chính như sau :
• Các trang Web thông tin có cấu trúc được cập nhật thường xuyên
• Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên
• Các trang Web thông tin có cấu trúc lỏng lẻo
Trước khi đi vào phân tích từng loại một, chúng ta cần nhận định rằng các trang
Web hiện nay được xây dựng bằng rất nhiều nguồn khác nhau: text, hình ảnh, video,
biểu tượng .v.v… Có thể kể ra đây một vài đặc tính quan trọng của dữ liệu trên các
trang Web này :
• Không phân loại được (các thông tin mang lại từ HTML hầu hết là về phần trình
bày thông tin chứ không phải là ngữ nghĩa của thông tin)
• Phân tán
• Trộn lẫn (text, hình ảnh, video, biểu tượng )
• Bán cấu trúc (có cấu trúc theo ngôn ngữ HTML nhưng lại không có cấu trúc về
mặt ngữ nghĩa)
• Thay đổi theo thời gian
- 6 -
Chương I : Giới thiệu sản phẩm
• Đa chiều
II.1.1.Các trang Web thông tin có cấu trúc được cập nhật
thường xuyên
Chúng ta có thể thấy rất rõ hiện nay có một phần không nhỏ các trang Web
thông tin được cập nhật thường xuyên như báo điện tử, diễn đàn, trang Web cung cấp
thông tin giá tầu xe, đấu giá, chứng khoán, thời tiết Tuy vậy, nếu phân tích một cách
kỹ lưỡng, có thể nhận xét là các trang Web này tuy được cập nhật thường xuyên, nhưng
không thay đổi về mặt cấu trúc ý nghĩa. Các ví dụ dưới đây sẽ minh họa kỹ hơn về mặt
cấu trúc ý nghĩa của các trang Web (các ví dụ này là không chính xác đối với tất cả các
trang Web cùng loại mà chỉ mang tính minh hoạ về cấu trúc ý nghĩa):
Báo điện tử : Tiêu đề + Mô tả ngắn gọn + Các tin đã đưa
Diễn đàn : Tên bài viết + Người viết + Người cập nhật cuối
Thời tiết : Tên thành phố + chỉ số dự báo thời tiết(nhiệt độ, độ ẩm )
Chứng khoán : Tên công ty niêm yết + giá bán
Tần số cập nhật thông tin của các trang Web này nói chung là ngắn, có thể liên
tục (thị trường chứng khoán), một vài phút (diễn đàn) hay một ngày (báo điện tử). Tuy
vậy, dù cập nhật thông tin như thế nào, các trang thông tin này thông thường luôn tuôn
theo một quy luật về ý nghĩa của các thông tin.
Thông tin mà các trang Web này mang lại cho người sử dụng được cập nhật một
cách liên tục và phong phú. Tuy vậy, trái ngược với sự liên tục và phong phú, các trang
Web này lại chỉ ngày càng nâng cao tính trình bày hình thức của mình chứ không thể
nâng cao được tính ngữ nghĩa của mình (do sự hạn chế của ngôn ngữ HTML). Những
câu hỏi được người sử dụng đặt ra để lấy thông tin ví dụ như “Tôi muốn đọc các bài có
tiêu đề nói về Trí Tuệ Việt Nam 2004“ hay như “Có công ty chứng khoán nào niêm
yết giá khoảng dưới 20000 VND không nhỉ?”, có vẻ đơn giản nhưng dường như lại
khá khó khăn trong việc thực hiện. Câu trả lời nếu sử dụng các phương pháp thông
thường như là sử dụng search engine của trang thông tin đó hay các search engine khác
sẽ mang lại cho người sử dụng quá nhiều thông tin không cần thiết do các search engine
này cũng chỉ tìm kiếm thông tin chứ không để ý đến ngữ nghĩa của thông tin.
II.1.2.Các trang Web thông tin có cấu trúc không được cập
nhật thường xuyên
Tần số cập nhật được nêu ra ở đây chỉ mang tính tương đối, vì một trang Web
được cập nhật thường xuyên (ví dụ như chỉ số chứng khoán) lại cũng có thể vì một lý do
nào đó không cập nhật thường xuyên nữa (ví dụ đóng cửa thị trường chứng khoán vào
- 7 -
Chương I : Giới thiệu sản phẩm
ngày nghỉ). Tuy nhiên, có thể thấy rằng, cũng có rất nhiều trang Web mà tần số cập nhật
là ít. Ví dụ như trang Web giới thiệu tên các quốc gia (đương nhiên không phải ngày,
tháng, năm nào cũng có một quốc gia xuất hiện, đổi tên hay biến mất nên thông tin
trong trang Web này dường như không thay đổi), hay như trang Web chứa thông tin về
Ban Giám Khảo cuộc thi Trí Tuệ Việt Nam (thay đổi theo hàng năm). Do các trang Web
này cũng được tổ chức theo một cấu trúc nhất định nên chúng ta cũng có thể phân tích
về mặt ngữ nghĩa cấu trúc. Ví dụ như trong trang Web thông tin về Ban Giám Khảo
cuộc thi Trí Tuệ Việt Nam, ít nhất cũng phải có các thông tin: Tên + Chức danh của các
thành viên Ban Giám Khảo. Tương tự, chúng ta sẽ lại vấp phải những khó khăn khi
muốn tìm ra dữ liệu trả lời cho những câu hỏi như “Thành viên nào của Ban Giám Khảo
hiện nay đang công tác tại trường Đại học Bách Khoa ?”.
Những câu hỏi được đặt ra đối với các trang Web có cấu trúc nói trên dường như
sẽ là những câu truy vấn rất đơn giản trong các hệ quản trị cơ sở dữ liệu khi có các
thông tin Tiêu đề (trong câu hỏi “Tôi muốn đọc các bài có tiêu đề nói về Trí tuệ Việt
Nam 2004 ? ”), Tên công ty, Giá niêm yết (trong câu hỏi “Có công ty chứng khoán
nào niêm yết giá khoảng dưới 20000 VND không nhỉ ?”) và Tên thành viên, Chức
danh (trong câu hỏi “Thành viên nào của Ban Giám Khảo hiện nay đang công tác tại
trường Đại học Bách Khoa ?” ). Thế nhưng, cái chúng ta có lại là các trang Web chứ
không phải là hệ cơ sở dữ liệu và công việc của chúng ta là phải có được một cơ sở dữ
liệu mà mỗi thông tin trong đó đã được phân loại theo ngữ nghĩa.
II.1.3.Các trang Web thông tin có cấu trúc lỏng lẻo
Các trang Web thông tin có cấu trúc lỏng lẻo cũng là một trong những loại trang
Web xuất hiện rất nhiều trên Internet, ví dụ như: trang Web giới thiệu cá nhân, tổ chức,
cơ quan .v.v… Những trang Web này thường rất khó phân tích cấu trúc một cách tổng
quát do thông tin được trình bày không theo một quy luật nhất định nào.
II.2.WEBMINING
- 8 -
Chương I : Giới thiệu sản phẩm
Do những nhu cầu bức xúc đặt ra đã được nói ở trên, chúng ta cần phải phát
triển phương pháp thu thập và xử lý thông tin thông minh hơn để mang lại những ích lợi
thiết thực hơn cho người sử dụng. Hiện tại, trên thế giới đã có rất nhiều nghiên cứu về
WebMining, phương pháp và công nghệ để xử lý thông tin thu thập từ các nguồn thông
tin trên Internet một cách thông minh. WebMining có thể được chia thành bốn tác vụ
chính như hình dưới đây
D÷ liÖu
Web
T¸c vô
Thu thËp
th«ng tin
T¸c vô
Bãc t¸ch
th«ng tin
T¸c vô
Tæng qu¸t
ho¸ th«ng
tin
T¸c vô
Ph©n tÝch
th«ng tin
Tri thøc
Chúng ta sẽ điểm sơ qua từng tác vụ một và những nghiên cứu đã đạt được đối
với từng tác vụ này.
II.2.1.Thu thập thông tin (Information Retrieval)
Tác vụ thu thập thông tin giúp cho người sử dụng có được trang Web từ URL
hoặc từ yêu cầu mà họ cần. Đối với người sử dụng hiện tại, việc thu thập thông tin
thường được thực hiện qua các URL mà người sử dụng đã biết hoặc qua các engine tìm
kiếm. Các engine tìm kiếm là các chương trình được viết để có thể truy vấn và thu thập
dữ liệu được lưu trong cơ sở dữ liệu (có cấu trúc), trang Web (bán cấu trúc) và các văn
bản tự do (không có cấu trúc) trên mạng. Hiện tại đã có khá nhiều các engine tìm kiếm
mạnh ở thế giới và tại Việt Nam như Google, Altavista, Lycos, Vinaseek, PanVN,
Các engine này ngày càng cố gắng để có thể tương tác với người sử dụng nhiều và
thông minh hơn, tuy vậy không phải là không có những yếu điểm.
Như chúng ta đã biết, một hệ thống thu thập thông tin lý tưởng phải là một hệ
thống thu thập được những thông tin phù hợp nhất với yêu cầu của người sử dụng (yêu
cầu này được diễn giải bằng các câu truy vấn). Đây thật sự là một tác vụ vô cùng phức
tạp và khó khăn mà hầu hết các hệ thống thu thập thông tin đều chưa thực hiện được
triệt để, phần nhiều có thể kể đến là do tính phi ngữ nghĩa của ngôn ngữ HTML. Hầu
hết các hệ thống thu thập thông tin hiện nay đều chú trọng tới tốc độ, số lượng thông tin
mà các hệ thống này có thể mang lại cho người dùng với các câu truy vấn tương đối đơn
giản.
Ngoài ra chúng ta cũng nhận thấy đã có những cố gắng rất nhiều trong việc cá
nhân hóa và khả mở đối với hệ thống thu thập thông tin. Tuy vậy, kết quả mang lại chưa
phải thật sự tốt đúng như người dùng mong đợi.
- 9 -
Chương I : Giới thiệu sản phẩm
II.2.2. Bóc tách thông tin (Information Extraction)
Một khi thông tin sau khi qua tác vụ thu thập đã được lấy về, việc tiếp theo là
phải lấy ra được những thông tin cần thiết và chỉ là những thông tin mà mình cần một
cách tự động không cần tới sự thao tác của người sử dụng. Hầu hết các thuật toán bóc
tách thông tin hiện nay đều dựa vào các công cụ khác nhau trên nền kỹ thuật “wrapper”.
Wrapper có thể được hiểu là những hàm để tách thông tin từ các tài nguyên Web. Các
hàm này được viết dựa trên các luật (quy luật) đã được đúc rút ra sau khi khảo sát các
trang Web chứa thông tin cần lấy. Các Wrapper có thể xây dựng dựa trên rất nhiều quy
luật khác nhau và tuỳ thuộc vào mục đích của người sử dụng.
Có lẽ giới hạn lớn nhất của tác vụ bóc tách thông tin này là mỗi một wrapper lại
chỉ được sử dụng cho một mục đích nhất định và không liên quan đến nhau. Do vậy,
tính khả mở của các wrapper này quả thật không được tốt cho lắm. Chúng ta có thể kể
đến những chương trình chỉ viết riêng về một vấn đề như: xem chỉ số chứng khoán, xem
thời tiết, xem báo (ví dụ như Novobot) hay những chương trình mang tính chất tổng
hợp hơn như chương trình bóc tách các thông tin thu được từ nhiều search engine cùng
một lúc (ví dụ như Corpecnic hay WebFerret). Hơn nữa, cần phải kể thêm là các
chương trình này luôn tạo ra những khó khăn cho người sử dụng trong việc cập nhật lại
nguồn tin (ví dụ cập nhật thêm một tờ báo hay thêm một search engine). Để cập nhật,
người sử dụng hầu như khó có thể tự mình thực hiện được mà phải chờ đợi cũng như
download phần cập nhật từ các nhà sản xuất mà không biết phần cập nhật này có thật sự
đúng với ý muốn của mình hay không (có phải đúng tờ báo mình muốn đọc hay đúng
search engine ưa thích của mình không).
II.2.3.Tổng hợp và tổng quát hoá dữ liệu (Generation)
Trong tác vụ này, các kỹ thuật nhận diện theo mẫu (pattern recognition) và học
máy (machine learning) thường được sử dụng đối với các thông tin đã được bóc tách.
Hầu hết các hệ thống học máy hiện tại trên Web đều học về ý thích của người sử dụng
(tổng quát hơn là thông tin về người sử dụng) nhiều hơn là học về chính trang Web mà
các hệ thống này được cài đặt trên đó. Vấn đề này cũng xuất phát từ nguyên nhân dữ
liệu hiện nay đang rất dư thừa trên Web nhưng lại không được (không có cơ chế) phân
loại theo mặt ngữ nghĩa một cách tự động. Ví dụ, nếu chúng ta có một cơ chế nào đó để
xác định được hai tập hợp các trang Web là trang chủ của cá nhân này và không phải là
trang chủ của cá nhân khác thì chúng ta sẽ có khả năng tiên đoán được một trang Web
mới liệu có phải là trang chủ của một ai đó hay không. Tuy vậy, với tính phi-ngữ nghĩa
của HTML, chúng ta khó có thể phân loại được các trang Web này.
II.2.4.Phân tích
Phân tích các thông tin sau khi đã thu thập được không phải là một công việc dễ
dàng ngay cả đối với người sử dụng chứ chưa nói đến đối với máy tính. Tác vụ này có
- 10 -
[...]... kể trên đều ảnh hưởng lớn tới tri thức đầu ra Với những nghiên cứu sẽ trình bày dưới đây, tôi xin được đặc biệt chú trọng tới hai bước đầu tiên, thu thập và bóc tách thông tin mà trọng tâm là bóc tách thông tin III.1.THU THẬP THÔNG TIN Việc thu thập thông tin trong hệ thống phải dựa vào những nguồn thông tin mà người sử dụng đã cung cấp cho hệ thống ấy Sở dĩ tại sao ở đây tôi không đặt trọng tâm vào... thống này vào thử nghiệm trong thực tế nó đã hoạt động khá tốt Hệ thống thu thập và tách thông tin (ICPS - Information Collecting and Parsing System) bao gồm hai module chính sau : Module Tạo kênh tin o Tên : Channel Generator o Chức năng : Tạo các Kênh tin (các luật tách thông tin từ một hoặc nhiều trang Web) o Đầu vào quan : Trang Web và thông tin do người dùng xác định trực o Đầu ra : Kênh tin Module... trình duyệt thông thường từ 3-10 giây) Bước 3 : Người sử dụng chọn các thông tin cần tách bằng cách ấn trực tiếp lên trang Web Giả sử, người sử dụng cần tách thông tin Tiêu đề các bài báo (trên hình bên là các thông tin “Trần Quang Nhiếp : Tạp chí Cộng sản ” và “Đặng Hữu Toàn : Học thuyết Mác-Lênin với công cuộc đổi mới ở Việt Nam”) Sau khi ấn trực tiếp lên thông tin cần bóc tách, thông tin đó sẽ được... việc thu thập thông tin là bởi vì hiện tại, các search engine và các nguồn tin từ Web cung cấp thông tin đã quá nhiều, ngày càng phát triển và cung cấp cho người sử dụng nhiều thông tin hơn nhưng lại trong khoảng thời gian ít hơn trước rất nhiều Cần phải khẳng định rằng hiện tại chúng ta không hề thiếu dữ liệu, do vậy, trong tác vụ thu thập dữ liệu, tôi không thực hiện công việc đi tìm nguồn tin cho người... của tôi đáp ứng được đến đâu ? III.2.1 Quy luật dùng để bóc tách thông tin Những thông tin được tách ra sau khi sử dụng hệ thống là những thông tin có cấu trúc về mặt ngữ nghĩa Để bóc tách được những thông tin này, tôi dựa trên một quy luật đơn giản nhưng vô cùng hiệu quả sau : Trong hầu hết các trang Web cung cấp thông tin, các thông tin có ý nghĩa giống nhau sẽ thường được trình bày giống nhau Ở đây,... một cơ sở dữ liệu phân biệt rõ ràng tên bài hát và lời bài hát Ngoài ra cơ sở dữ liệu thu được khi sử dụng kênh đa mức cũng chỉ có các thông tin cần lấy mà không có các thông tin thừa như tác giả, năm sáng tác, … - 32 - Chương III : Nghiên cứu giải pháp III.3.HIỆN THỰC HÓA GIẢI PHÁP Sau khi nghiên cứu và rút ra kết luận, tôi đã thực hiện xây dựng một hệ thống thu thập và bóc tách thông tin Tất nhiên,... thấy Trích đoạn có từ khóa cần tìm kiếm trong trang Web được tìm thấy URL - 25 - Chương III : Nghiên cứu giải pháp III.2.2.Phương án kỹ thuật Quy luật trên chính là mấu chốt để có thể chuyển đổi thông tin từ dạng ngôn ngữ HTML sang ngôn ngữ XML, từ việc thông tin chỉ được định dạng mà không biết ý nghĩa tới việc thông tin đã được gắn ngữ nghĩa Từ các thông tin có ngữ nghĩa này, chúng ta có... hợp một kênh tin với một nguồn tin mà cụ thể là một hoặc nhiều trang Web chúng ta sẽ thu được tri thức đầu ra là các thông tin có chung ngữ nghĩa cần thu thập và bóc tách từ các trang Web đó Kênh tin đa mức là một kênh tin được tổng hợp từ nhiều các kênh tin khác Mỗi kênh tin con trong kênh tin đa mức tương ứng với một mức khi thực hiện kênh tin này Đầu ra của một mức trung gian sẽ là đầu vào cho mức... Thể Thao của báo VnExpress có bài nào nói về Đội tuyển Bóng đá Việt Nam hay không ?” Để có thể hiện thực hóa được quy luật này, cần có một cơ chế để phân biệt các thông tin được trình bày giống nhau và sau đó là cơ chế phân tích các thông tin này nhanh và tiện dụng do người sử dụng III.2.2.1 Làm thế nào để biết các thông tin đươc đinh dang giống nhau ? Để phân biệt được các thông tin được định... được hai kết luận dựa trên quy luật nhận xét ở phần III.2.2.1 như sau : 1 Các vết ghi lại khi duyệt từ nút gốc tới nút chứa các thông tin giống nhau về mặt ngữ nghĩa trên cây HTML là có thể tổng quát hóa về một mẫu duy nhất đại diện cho thông tin đó 2 Từng nút có cùng độ sâu khi duyệt thì cũng có các thuộc tính liên quan tới việc trình bày trên trang Web là giống nhau III.2.3.Kênh tin và kênh tin đa mức .
LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM
THÔNG TIN TRÊN INTERNET
Chương I : Giới thiệu sản phẩm
MỤC LỤC
CHƯƠNG. thập và bóc tách thông tin mà trọng tâm là bóc tách thông tin.
III.1.THU THẬP THÔNG TIN
Việc thu thập thông tin trong hệ thống phải dựa vào những nguồn thông
Ngày đăng: 15/01/2014, 15:59
Xem thêm: Tài liệu LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM THÔNG TIN TRÊN INTERNET ppt, Tài liệu LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM THÔNG TIN TRÊN INTERNET ppt, CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH………………….38