Hệ thống thu thập thông tin

46 678 0
Hệ thống thu thập thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Hệ thống thu thập thông tin

MỤC LỤCCHƯƠNG I : GIỚI THIỆU SẢM PHẨM…………………………………………1I.1. MỞ ĐẦU………………………………………………………………………………….1I.2. MỘT VÀI VÍ DỤ ỨNG DỤNG………………………………………………………2CHƯƠNG II : LÝ THUYẾT CHUNG…………………………………………… .3II.1. PHÂN LOẠI NGUỒN THÔNG TIN……………………………………………….3II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường xuyên……………………………………………………………………………….….4II.1.2. Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên……………………………………………………………………….5II.1.3. Các trang Web thông tin có cấu trúc lỏng lẻo……………………….…6II.2. WEBMINING……………………………………………………………………………6II.2.1. Thu thập thông tin (Information Retrieval) ………………… 7II.2.2. Bóc tách thông tin (Information Extraction) ………………….7II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) ………… 8II.2.4. Phân tích………………………………………………………………….…8II.3. XLM…………………………………………………………………………………… …8CHƯƠNG III : NGHIÊN CỨU GIẢI PHÁP…………………………………….10III.1. THU THẬP THÔNG TIN………………………………………………………….11III.1.1.Các loại URL…………………………………………………………… 11III.1.2. Giải pháp sử lý……………………………………………………… .12III.2. BÓC TÁCH THÔNG TIN……………………………………………… 12III.2.1. Quy luật dùng để bóc tách thông tin………………………… 20III.2.2. Phương án kỹ thuật………………………………………………… 24III.2.3. Kênh tin và kênh tin đa thức………………………………………29III.3. HIỆN THỰC HOÁ GIẢI PHÁP………………………………………………… 31III.3.1. Khả năng tương tác người và máy trong quá trình tạo kênh tin………………………………………………………………………………33III.3.2. Các chức năng khác của hệ thống………………………………35III.4. KHẢ NĂNG ỨNG DỤNG VÀ MỞ RỘNG……………… ……………………36CHƯƠNG IV : SO SÁNH VỚI CÁC HỆ THỐNG KHÁC………………………37CHƯƠNG V : HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH………………….38V.1. YÊU CẦU HỆ THỐNG……………………………………………………… … .38V.2. CHỌN KÊNH TIN………………………………………………………….……… .39V.3.LẤY THÔNG TIN VỀ CÁC BÀI BÁO…………………………………………… 40V.4. XEM BÁO TRỰC TUYẾN ………………………………………………………… 41V.5. XEM CÁC BÀI BÁO ĐÃ LƯU………………………………………………………42V.6. CHỈNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI BÁO……………………….43V.7. TÌM KIẾM BÀI BÁO………………………………………………………………….43V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN MỚI…………………………………….44CHƯƠNG VI : KẾT LUẬN…………………………………………………………44GIỚI THIỆU SẢN PHẨM .2I.1.MỞ ĐẦU 2 Chương I : Giới thiệu sản phẩmI.2.MỘT VÀI VÍ DỤ ỨNG DỤNG 3LÝ THUYẾT CHUNG 4II.1.PHÂN LOẠI NGUỒN THÔNG TIN .5II.1.1.Các trang Web thông tin có cấu trúc được cập nhật thường xuyên 5II.1.2.Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên .6II.1.3.Các trang Web thông tin có cấu trúc lỏng lẻo .7II.2.WEBMINING .7II.2.1.Thu thập thông tin (Information Retrieval) .8II.2.2. Bóc tách thông tin (Information Extraction) 8II.2.3.Tổng hợp và tổng quát hoá dữ liệu (Generation) 9II.2.4.Phân tích .10II.3.XML 10NGHIÊN CỨUGIẢI PHÁP 12III.1.THU THẬP THÔNG TIN .12III.1.1.Các loại URL 12III.1.2. Giải pháp xử lý 13III.2.BÓC TÁCH THÔNG TIN 21III.2.1. Quy luật dùng để bóc tách thông tin .22III.2.2.Phương án kỹ thuật .26III.2.3.Kênh tin và kênh tin đa mức .31III.3.HIỆN THỰC HÓA GIẢI PHÁP .33III.3.2.Khả năng tương tác người - máy trong quá trình tạo kênh tin 35III.3.3.Các chức năng khác của hệ thống 37III.4.KHẢ NĂNG ỨNG DỤNG VÀ MỞ RỘNG 38SO SÁNH vỚi CÁC HỆ THỐNG KHÁC .39HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH .40KẾT LUẬN 46CHƯƠNG IGIỚI THIỆU SẢN PHẨMGIỚI THIỆU SẢN PHẨMTên sản phẩmỨng dụng của sản phẩmI.1.MỞ ĐẦUBạn đã bao giờ tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người đều có đầy đủ thông tin, riêng bạn lại không có những thông tin cần thiết thì cuộc sống sẽ ra sao chưa?Hơn mọi thứ khác, nhu cầu truyền tải thông tin vượt qua thời gian và không gian luôn được nhân loại chú ý tới, từ những tiếng trống của thổ dân Châu Phi cho tới những thông điệp điện tử đang được truyền đi với tốc độ ánh sáng trên khắp địa cầu. Không cần đến tận nơi, bạn vẫn có thể biết ở cách xa hàng ngàn dặm đang diễn ra chuyện gì, không cần phải gặp mặt, những người bạn ở hai nửa địa cầu vẫn có thể trao đổi thông tin với nhau, . Internet đã đưa thông tin tới mọi nhà.- 2 - Chương I : Giới thiệu sản phẩmThế nhưng, hãy thử tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người đều có đầy đủ những thông tin mà mình cần, còn riêng bạn lại ngập lụt trong một biển thông tin nhiều đến nỗi không sao xử lý hết được thì sẽ thế nào?Càng ngày bạn càng cần phải thu thập thông tin ở nhiều lĩnh vực cùng một lúc và đã bao giờ bạn phát chán lên vì không biết phải làm gì khi có quá nhiều thông tin chưa? Đã bao giờ bạn cảm thấy chán ngán khi trong tay mình có danh sách của hàng chục, hàng trăm tờ báo điện tử, diễn đàn, search engine, rồi các website thông tin về đủ mọi lĩnh vực, nhưng lại không thể đủ thời gian để cập nhật dù chỉ là lướt qua hết các nguồn tin này chưa? Có thể có và cũng có thể là chưa.Hệ thống của tôi ra đời với một tiêu chí vô cùng đơn giản “Mang lại cho người sử dụng thông tin và chỉ những thông tin mà họ cần”. Thông tin bạn cần nhất khi muốn xem lướt qua các tờ báo điện tử là gì? Có thể chỉ là tiêu đề bài báo và vài dòng tóm tắt qua nội dung của bài báo đó. Thông tin bạn cần nhất khi lướt qua một diễn đàn là gì? Có thể chỉ là tên bài viết và tác giả của bài viết đó. Cũng như vậy đối với một trang Web cung cấp thông tin về giá cả chứng khoán. Bạn cần chỉ số chứng khoán của các công ty chứ đâu cần phải rối tinh lên vì các thông tin không cần thiết nằm trong trang Web đó . Nhưng có phải là hệ thống của tôi sẽ chỉ mang đến cho bạn thông tin về tiêu đề cùng với phần tóm tắt của các tin tức trên rất nhiều các trang báo điện tử trong và ngoài nước, hay tên bài viết và tác giả của các chủ đề trên rất nhiều các diễn đàn trao đổi thông tin, hay đơn thuần chỉ là các chỉ số chứng khoán, … không thôi? Không, tất nhiên không chỉ có vậy, hệ thống của tôi được xây dựng như là một giải pháp tổng quát để thu thập và tách thông tin từ bất cứ nguồn tin nào trên Internet. Với sự cố gắng nỗ lực hết mình trong phạm vi giới hạn của kiến thức, tôi cũng đã cung cấp cho bạn một cơ chế tương tác trực quan giữa người và máy để xác định thông tin cần bóc tách mà ngay cả những hệ thống có chức năng tương tự như Novobot, WebFerret hay Copernic cũng rất khó khăn hay hầu như không thể cung cấp cho bạn được. Tính khả mở của hệ thống đã được chuyển giao từ những người tạo ra hệ thống vào tay người sử dụng. Hệ thống của tôi giờ đây đã cung cấp đầy đủ các chức năng để bạn có thể thu thập và tách các thông tin từ bất cứ nguồn tin nào và việc quyết định cần thu thập những thông tin gì là tùy vào chính bạn chứ không còn cứng nhắc như các hệ thống trước đây nữa.Hãy để công việc thu thập thông tin lại trở nên dễ dàng và tiện dụng cùng với hệ thống của tôi cho dù trước mắt bạn là một biển thông tin hỗn độn và khổng lồ như Internet .I.2.MỘT VÀI VÍ DỤ ỨNG DỤNGĐặc điểm nổi bật nhất là hệ thống của tôi có tính mở rất cao. Những thông tinhệ thống mang lại cho bạn chỉ phụ thuộc vào ý muốn của - 3 - Chương I : Giới thiệu sản phẩmchính bạn chứ không bị gò bó trong một phạm vi nhất định nào đó như là những chương trình tương tự khác. Có thể ra một vài ứng dụng nhỏ sau đây :Nếu bạn là người hay quan tâm đến những tin tức nóng hổi về kinh tế, chính trị, thể thao, . hãy sử dụng chương trình của tôi để tạo ra các kênh tin kết nối đến các trang báo điện tử ở khắp nơi trên thế giới, và bạn sẽ có đầy đủ những thông tin mà mình cần. Việc đọc lướt qua các tiêu đề tin tức từ các bài báo sau khi đã được thu thập và phân chia thành các chủ đề khác nhau, rồi mới quyết định xem chi tiết bài báo nào sẽ giúp bạn có một cái nhìn tổng quát hơn, nhanh chóng và tiết kiệm thời gian, tiền bạc hơn so với việc phải dùng trình duyệt đi tới từng trang web, vào từng chủ đề, xem tiêu đề tin, . rồi mới tới được nội dung bài viết.Nếu bạn là một doanh nghiệp cần quan tâm đến những tin tức về kinh tế, về thị trường, về những mặt hàng bạn đang kinh doanh, hay nếu bạn là một người làm công tác nghiên cứu đang cần những thông tin, số liệu liên quan đến lĩnh vực chuyên môn của mình, hay nếu bạn là một nhà báo đang cần những tin tức "thời sự" nhất để viết bài, thì tại sao lại không thử sử dụng hệ thống của tôi, tất cả những gì bạn cần hệ thống của tôi sẽ giúp bạn có.Nếu bạn cần tìm kiếm thông tin, chương trình của tôi sẽ giúp bạn cùng một lúc kết nối đến nhiều trang tìm kiếm khác nhau trên thế giới, gửi yêu cầu, phân tích kết quả rồi trả lại cho bạn những thông tin bạn cần tìm.Nếu bạn muốn thu thập, tổng hợp lại số liệu từ một trang web trên mạng (ví dụ như danh sách các thí sinh trúng tuyển đại học chẳng hạn), hay cần lấy về chỉ một số thông tin nhất định nào đó thôi, ví dụ như tên nhạc sĩ sáng tác và lời bài hát tương ứng từ một site về lyrics nào đó để tổng hợp lại thành cơ sở dữ liệu của riêng bạn, . mà bạn đang băn khoăn không biết nên làm thế nào để có thể thực hiện công việc này một cách nhanh chóng và ít tốn công sức nhất . thì hệ thống của tôi chính là một công cụ mà bạn đang cần đấy.Ngoài ra còn có thể kể đến rất nhiều ứng dụng khác nữa. Hệ thống này có thể được ứng dụng vào trong những công việc gì thì điều đó chỉ phụ thuộc vào khả năng sáng tạo của chính bạn mà thôi.CHƯƠNG IILÝ THUYẾT CHUNGLÝ THUYẾT CHUNGCác loại nguồn thông tin trên WebCác tác vụ Web-mining, lý thuyết và thực tếNgôn ngữ XML, khả năng và thực tếChúng ta đã thật sự có thông tin mình mong đợi chưa?- 4 - Chương I : Giới thiệu sản phẩmII.1.PHÂN LOẠI NGUỒN THÔNG TINTrong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt của Internet mà tiêu biểu là các trang thông tin. Sự phát triển này đã có một ảnh hưởng không nhỏ tới nền kinh tế và xã hội không chỉ của riêng một quốc gia mà là cả thế giới. Internet được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề mà người sử dụng cần đến. Với sự phát triển này, hiện nay, lượng thông tin Internet mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng Internet thông minh và hiệu quả hơn đối với người sử dụng. Có nhiều cách để phân loại các nguồn thông tin từ Web, tuy vậy, chúng ta có thể chia thành 3 loại chính như sau :• Các trang Web thông tin có cấu trúc được cập nhật thường xuyên• Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên• Các trang Web thông tin có cấu trúc lỏng lẻoTrước khi đi vào phân tích từng loại một, chúng ta cần nhận định rằng các trang Web hiện nay được xây dựng bằng rất nhiều nguồn khác nhau: text, hình ảnh, video, biểu tượng .v.v… Có thể kể ra đây một vài đặc tính quan trọng của dữ liệu trên các trang Web này :• Không phân loại được (các thông tin mang lại từ HTML hầu hết là về phần trình bày thông tin chứ không phải là ngữ nghĩa của thông tin)• Phân tán• Trộn lẫn (text, hình ảnh, video, biểu tượng .)• Bán cấu trúc (có cấu trúc theo ngôn ngữ HTML nhưng lại không có cấu trúc về mặt ngữ nghĩa)• Thay đổi theo thời gian• Đa chiềuII.1.1.Các trang Web thông tin có cấu trúc được cập nhật thường xuyênChúng ta có thể thấy rất rõ hiện nay có một phần không nhỏ các trang Web thông tin được cập nhật thường xuyên như báo điện tử, diễn đàn, trang Web cung cấp thông tin giá tầu xe, đấu giá, chứng khoán, thời tiết . Tuy vậy, nếu phân tích một cách kỹ lưỡng, có thể nhận xét là các trang Web này tuy được cập nhật thường xuyên, nhưng không thay đổi về mặt cấu trúc ý nghĩa. Các ví dụ dưới đây sẽ minh họa kỹ hơn về mặt cấu trúc ý nghĩa của các trang Web (các - 5 - Chương I : Giới thiệu sản phẩmví dụ này là không chính xác đối với tất cả các trang Web cùng loại mà chỉ mang tính minh hoạ về cấu trúc ý nghĩa): Báo điện tử : Tiêu đề + Mô tả ngắn gọn + Các tin đã đưa Diễn đàn : Tên bài viết + Người viết + Người cập nhật cuối Thời tiết : Tên thành phố + chỉ số dự báo thời tiết(nhiệt độ, độ ẩm .) Chứng khoán : Tên công ty niêm yết + giá bán .Tần số cập nhật thông tin của các trang Web này nói chung là ngắn, có thể liên tục (thị trường chứng khoán), một vài phút (diễn đàn) hay một ngày (báo điện tử). Tuy vậy, dù cập nhật thông tin như thế nào, các trang thông tin này thông thường luôn tuôn theo một quy luật về ý nghĩa của các thông tin. Thông tin mà các trang Web này mang lại cho người sử dụng được cập nhật một cách liên tục và phong phú. Tuy vậy, trái ngược với sự liên tục và phong phú, các trang Web này lại chỉ ngày càng nâng cao tính trình bày hình thức của mình chứ không thể nâng cao được tính ngữ nghĩa của mình (do sự hạn chế của ngôn ngữ HTML). Những câu hỏi được người sử dụng đặt ra để lấy thông tin ví dụ như “Tôi muốn đọc các bài có tiêu đề nói về Trí Tuệ Việt Nam 2004“ hay như “Có công ty chứng khoán nào niêm yết giá khoảng dưới 20000 VND không nhỉ?”, có vẻ đơn giản nhưng dường như lại khá khó khăn trong việc thực hiện. Câu trả lời nếu sử dụng các phương pháp thông thường như là sử dụng search engine của trang thông tin đó hay các search engine khác sẽ mang lại cho người sử dụng quá nhiều thông tin không cần thiết do các search engine này cũng chỉ tìm kiếm thông tin chứ không để ý đến ngữ nghĩa của thông tin.II.1.2.Các trang Web thông tin có cấu trúc không được cập nhật thường xuyênTần số cập nhật được nêu ra ở đây chỉ mang tính tương đối, vì một trang Web được cập nhật thường xuyên (ví dụ như chỉ số chứng khoán) lại cũng có thể vì một lý do nào đó không cập nhật thường xuyên nữa (ví dụ đóng cửa thị trường chứng khoán vào ngày nghỉ). Tuy nhiên, có thể thấy rằng, cũng có rất nhiều trang Web mà tần số cập nhật là ít. Ví dụ như trang Web giới thiệu tên các quốc gia (đương nhiên không phải ngày, tháng, năm nào cũng có một quốc gia xuất hiện, đổi tên hay biến mất nên thông tin trong trang Web này dường như không thay đổi), hay như trang Web chứa thông tin về Ban Giám Khảo cuộc thi Trí Tuệ Việt Nam (thay đổi theo hàng năm). Do các trang Web này cũng được tổ chức theo một cấu trúc nhất định nên chúng ta cũng có thể phân tích về mặt ngữ nghĩa cấu trúc. Ví dụ như trong trang Web thông tin về Ban Giám Khảo cuộc - 6 - Chương I : Giới thiệu sản phẩmthi Trí Tuệ Việt Nam, ít nhất cũng phải có các thông tin: Tên + Chức danh của các thành viên Ban Giám Khảo. Tương tự, chúng ta sẽ lại vấp phải những khó khăn khi muốn tìm ra dữ liệu trả lời cho những câu hỏi như “Thành viên nào của Ban Giám Khảo hiện nay đang công tác tại trường Đại học Bách Khoa ?”.Những câu hỏi được đặt ra đối với các trang Web có cấu trúc nói trên dường như sẽ là những câu truy vấn rất đơn giản trong các hệ quản trị cơ sở dữ liệu khi có các thông tin Tiêu đề (trong câu hỏi “Tôi muốn đọc các bài có tiêu đề nói về Trí tuệ Việt Nam 2004 ? ”), Tên công ty, Giá niêm yết (trong câu hỏi “Có công ty chứng khoán nào niêm yết giá khoảng dưới 20000 VND không nhỉ ?”) và Tên thành viên, Chức danh (trong câu hỏi “Thành viên nào của Ban Giám Khảo hiện nay đang công tác tại trường Đại học Bách Khoa ?” ). Thế nhưng, cái chúng ta có lại là các trang Web chứ không phải là hệ cơ sở dữ liệu và công việc của chúng ta là phải có được một cơ sở dữ liệu mà mỗi thông tin trong đó đã được phân loại theo ngữ nghĩa. ???D÷ liÖu cãthÓ truyvÊn ®­îcII.1.3.Các trang Web thông tin có cấu trúc lỏng lẻoCác trang Web thông tin có cấu trúc lỏng lẻo cũng là một trong những loại trang Web xuất hiện rất nhiều trên Internet, ví dụ như: trang Web giới thiệu cá nhân, tổ chức, cơ quan .v.v… Những trang Web này thường rất khó phân tích cấu trúc một cách tổng quát do thông tin được trình bày không theo một quy luật nhất định nào. II.2.WEBMININGDo những nhu cầu bức xúc đặt ra đã được nói ở trên, chúng ta cần phải phát triển phương pháp thu thập và xử lý thông tin thông minh hơn để mang lại những ích lợi thiết thực hơn cho người sử dụng. Hiện tại, trên thế giới đã có rất nhiều nghiên cứu về WebMining, phương pháp và công nghệ để xử lý thông tin - 7 - Chng I : Gii thiu sn phmthu thp t cỏc ngun thụng tin trờn Internet mt cỏch thụng minh. WebMining cú th c chia thnh bn tỏc v chớnh nh hỡnh di õy Dữ liệuWebTác vụThu thậpthông tinTác vụBóc táchthông tinTác vụTổng quáthoá thôngtinTác vụPhân tíchthông tinTri thứcChỳng ta s im s qua tng tỏc v mt v nhng nghiờn cu ó t c i vi tng tỏc v ny.II.2.1.Thu thp thụng tin (Information Retrieval)Tỏc v thu thp thụng tin giỳp cho ngi s dng cú c trang Web t URL hoc t yờu cu m h cn. i vi ngi s dng hin ti, vic thu thp thụng tin thng c thc hin qua cỏc URL m ngi s dng ó bit hoc qua cỏc engine tỡm kim. Cỏc engine tỡm kim l cỏc chng trỡnh c vit cú th truy vn v thu thp d liu c lu trong c s d liu (cú cu trỳc), trang Web (bỏn cu trỳc) v cỏc vn bn t do (khụng cú cu trỳc) trờn mng. Hin ti ó cú khỏ nhiu cỏc engine tỡm kim mnh th gii v ti Vit Nam nh Google, Altavista, Lycos, Vinaseek, PanVN, . Cỏc engine ny ngy cng c gng cú th tng tỏc vi ngi s dng nhiu v thụng minh hn, tuy vy khụng phi l khụng cú nhng yu im.Nh chỳng ta ó bit, mt h thng thu thp thụng tin lý tng phi l mt h thng thu thp c nhng thụng tin phự hp nht vi yờu cu ca ngi s dng (yờu cu ny c din gii bng cỏc cõu truy vn). õy tht s l mt tỏc v vụ cựng phc tp v khú khn m hu ht cỏc h thng thu thp thụng tin u cha thc hin c trit , phn nhiu cú th k n l do tớnh phi ng ngha ca ngụn ng HTML. Hu ht cỏc h thng thu thp thụng tin hin nay u chỳ trng ti tc , s lng thụng tin m cỏc h thng ny cú th mang li cho ngi dựng vi cỏc cõu truy vn tng i n gin. Ngoi ra chỳng ta cng nhn thy ó cú nhng c gng rt nhiu trong vic cỏ nhõn húa v kh m i vi h thng thu thp thụng tin. Tuy vy, kt qu mang li cha phi tht s tt ỳng nh ngi dựng mong i.II.2.2. Búc tỏch thụng tin (Information Extraction)- 8 - Chương I : Giới thiệu sản phẩmMột khi thông tin sau khi qua tác vụ thu thập đã được lấy về, việc tiếp theo là phải lấy ra được những thông tin cần thiết và chỉ là những thông tin mà mình cần một cách tự động không cần tới sự thao tác của người sử dụng. Hầu hết các thuật toán bóc tách thông tin hiện nay đều dựa vào các công cụ khác nhau trên nền kỹ thuật “wrapper”. Wrapper có thể được hiểu là những hàm để tách thông tin từ các tài nguyên Web. Các hàm này được viết dựa trên các luật (quy luật) đã được đúc rút ra sau khi khảo sát các trang Web chứa thông tin cần lấy. Các Wrapper có thể xây dựng dựa trên rất nhiều quy luật khác nhau và tuỳ thuộc vào mục đích của người sử dụng.Có lẽ giới hạn lớn nhất của tác vụ bóc tách thông tin này là mỗi một wrapper lại chỉ được sử dụng cho một mục đích nhất định và không liên quan đến nhau. Do vậy, tính khả mở của các wrapper này quả thật không được tốt cho lắm. Chúng ta có thể kể đến những chương trình chỉ viết riêng về một vấn đề như: xem chỉ số chứng khoán, xem thời tiết, xem báo (ví dụ như Novobot) hay những chương trình mang tính chất tổng hợp hơn như chương trình bóc tách các thông tin thu được từ nhiều search engine cùng một lúc (ví dụ như Corpecnic hay WebFerret). Hơn nữa, cần phải kể thêm là các chương trình này luôn tạo ra những khó khăn cho người sử dụng trong việc cập nhật lại nguồn tin (ví dụ cập nhật thêm một tờ báo hay thêm một search engine). Để cập nhật, người sử dụng hầu như khó có thể tự mình thực hiện được mà phải chờ đợi cũng như download phần cập nhật từ các nhà sản xuất mà không biết phần cập nhật này có thật sự đúng với ý muốn của mình hay không (có phải đúng tờ báo mình muốn đọc hay đúng search engine ưa thích của mình không).II.2.3.Tổng hợp và tổng quát hoá dữ liệu (Generation)Trong tác vụ này, các kỹ thuật nhận diện theo mẫu (pattern recognition) và học máy (machine learning) thường được sử dụng đối với các thông tin đã được bóc tách. Hầu hết các hệ thống học máy hiện tại trên Web đều học về ý thích của người sử dụng (tổng quát hơn là thông tin về người sử dụng) nhiều hơn là học về chính trang Web mà các hệ thống này được cài đặt trên đó. Vấn đề này cũng xuất phát từ nguyên nhân dữ liệu hiện nay đang rất dư thừa trên Web nhưng lại không được (không có cơ chế) phân loại theo mặt ngữ nghĩa một cách tự động. Ví dụ, nếu chúng ta có một cơ chế nào đó để xác định được hai tập hợp các trang Web là trang chủ của cá nhân này và không phải là trang chủ của cá nhân khác thì chúng ta sẽ có khả năng tiên đoán được một trang Web mới liệu có phải là trang chủ của một ai đó hay không. Tuy vậy, với tính phi-ngữ nghĩa của HTML, chúng ta khó có thể phân loại được các trang Web này. - 9 - Chương I : Giới thiệu sản phẩmII.2.4.Phân tíchPhân tích các thông tin sau khi đã thu thập được không phải là một công việc dễ dàng ngay cả đối với người sử dụng chứ chưa nói đến đối với máy tính. Tác vụ này có thể được thực hiện hoàn toàn chỉ sau khi 3 tác vụ phía trước nó cũng đã được thực hiện tốt.II.3. XML Với những nhược điểm phi-ngữ nghĩa của ngôn ngữ HTML cộng với nhu cầu thực tế của người sử dụng, XML đã ra đời cùng với khả năng tăng thêm tính linh động, ngữ nghĩa của các văn bản HTML. Văn bản XML được cấu tạo với cấu trúc cũng dựa trên các thẻ như HTML, tuy nhiên các thẻ này không cố định như HTML mà hoàn toàn là do người sử dụng đặt tên. Chính nhờ khả năng ấy mà XML đã vượt trội hơn hẳn HTML về mặt cung cấp ngữ nghĩa của thông tin. Đơn giản như, bây giờ, các search engine sẽ có thể phân biệt được bill (hoá đơn điện thoại) với Bill Clinton (tên người). Tuy vậy, XML ra đời không có nghĩa rằng HTML sẽ không được sử dụng nữa. Có một câu ngạn ngữ được các nước hay sử dụng là “Không việc gì phải sửa chữa những cái gì nó chưa hỏng” và XML cũng không phải sinh ra là để thay thế cho ngôn ngữ HTML mà là một sự bổ sung lý tưởng cho ngôn ngữ HTML, giải quyết cho HTML một số vấn đề sau:• XML được thiết kế để phát triển và mở rộng một ngôn ngữ mark-up mới theo một hệ thống chuẩn. Từ trước tới nay, HTML chưa bao giờ được cung cấp một khả năng mở rộng tuân theo một chuẩn nhất định. Để thay đổi HTML, chúng ta có lẽ phải đối mặt với cả thế giới trong khi việc thay đổi XML cho phù hợp với mục đích người sử dụng lại không có gì khó khăn mà bằng chứng là hiện tại có rất nhiều ngôn ngữ dựa trên XML như ebXML (e-biz XML) hay WML (ngôn ngữ sử dụng cho các máy điện thoại di động).• XML được thiết kế một cách rõ ràng, rành mạch cho phép các công cụ phát triển và trình duyệt có thể dễ dàng (không cần thay đổi) vẫn duyệt được toàn bộ thông tin mà nó mang theo. Sự tối nghĩa trong các thẻ HTML và có quá nhiều các quy tắc ngoại lệ khiến cho đôi khi không chỉ người sử dụng mà các nhà phát triển công cụ cũng phải đau đầu. • HTML là một ngôn ngữ chú trọng hoàn toàn đến hình thức và không nói lên được điều gì về dữ liệu mà nó mang. Do vậy, XML là một ngôn ngữ lý tưởng để giúp HTML làm được điều này.• XML không phải sinh ra để cho những ứng dụng phức tạp mà không phải ai cũng hiểu, XML rất đơn giản và dễ lập trình. Thêm nữa, với XML, chúng - 10 - [...]... u tiờn, thu thp v búc tỏch thụng tin m trng tõm l búc tỏch thụng tin III.1 .THU THP THễNG TIN Vic thu thp thụng tin trong h thng phi da vo nhng ngun thụng tin m ngi s dng ó cung cp cho h thng y S d ti sao õy tụi khụng t trng tõm vo vic thu thp thụng tin l bi vỡ hin ti, cỏc search engine v cỏc ngun tin t Web cung cp thụng tin ó quỏ nhiu, ngy cng phỏt trin v cung cp cho ngi s dng nhiu thụng tin hn nhng... cầu của người sử dụng Nguồn tin yê u c Nguồn tin dù ng Nguồn tin 5 Nguồn tin Người sử dụng ng ư ời 1 th e o d ạ ng Người tạo kênh Tri t h ức 4 Kênh tin (đơn/đa mức) Internet Internet 1 CSDL Kênh tin Tr i th c ầu ức t he od 6 ạn 2 gy 7 êu Tương tác người-máy CSDL Tri thức 1 Người tạo kênh Nguồn tin Nguồn tin Người sử dụng Module Tạo Kênh tin Module Lấy tin Nguồn tin Nguồn tin ICPS Nhỡn vo s hot ng h... u ra l cỏc thụng tin cú chung ng ngha cn thu thp v búc tỏch t cỏc trang Web ú Kờnh tin a mc l mt kờnh tin c tng hp t nhiu cỏc kờnh tin khỏc Mi kờnh tin con trong kờnh tin a mc tng ng vi mt mc khi thc hin kờnh tin ny u ra ca mt mc trung gian s l u vo cho mc trung gian tip theo u vo ca kờnh tin a mc l URL hoc nhúm URL, u ra l tri thc ó c thu thp v búc tỏch nh trong s di õy Xử lý kênh tin đầu tiên Có... System) bao gm hai module chớnh sau : Module To kờnh tin o Tờn : Channel Generator o Chc nng : To cỏc Kờnh tin (cỏc lut tỏch thụng tin t mt hoc nhiu trang Web) o u vo trc quan : Trang Web v thụng tin do ngi dựng xỏc nh o u ra : Kờnh tin Module Ly tin o Tờn : REN o Chc nng : Thu thp v búc tỏch thụng tin o u vo : Kờnh tin (c to ra t Module To Kờnh Tin) o u ra : Tri thc c búc tỏch - 33 - Chng III : Nghiờn... cỏc thụng tin ging nhau v mt ng ngha trờn cõy HTML l cú th tng quỏt húa v mt mu duy nht i din cho thụng tin ú 2 Tng nỳt cú cựng sõu khi duyt thỡ cng cú cỏc thuc tớnh liờn quan ti vic trỡnh by trờn trang Web l ging nhau III.2.3.Kờnh tin v kờnh tin a mc tin cho cụng vic hin thc húa gii phỏp, chỳng ta cn nh ngha mt s khỏi nim, bt u l kờnh tin Kờnh tin l mt tp hp cỏc lut dựng búc tỏch thụng tin t mt... d liu, do vy, trong tỏc v thu thp d liu, tụi khụng thc hin cụng vic i tỡm ngun tin cho ngi s dng (vỡ cụng vic tỡm ngun tin gi õy ó tr nờn quỏ d dng vi cỏc search engine) m l i tỡm cho ngi s dng mt c ch t ng thu thp d liu t cỏc ngun tin chun b cho tỏc v th hai, tỏc v búc tỏch thụng tin III.1.1.Cỏc loi URL Chỳng ta cng cn phi phõn bit rừ cỏc ngun thụng tin õy, ngun thụng tin ca ngi s dng c nh danh... tỏc v webmining, cung cp cho ngi s dng kh nng thu thp v búc tỏch thụng - 21 - Chng I : Gii thiu sn phm tin Tuy vy, nhng thụng tin ny l nhng thụng tin gỡ ? Ngi s dng mun gỡ v h thng ca tụi ỏp ng c n õu ? III.2.1 Quy lut dựng búc tỏch thụng tin Nhng thụng tin c tỏch ra sau khi s dng h thng l nhng thụng tin cú cu trỳc v mt ng ngha búc tỏch c nhng thụng tin ny, tụi da trờn mt quy lut n gin nhng vụ cựng... to ra kờnh tin t cỏc ngun tin do ngi s dng cung cp (v trớ 1) Vi kh nng cho phộp ngi s dng nhn chut trc tip lờn trang Web chn thụng tin mỡnh cn ly, kh nng tng tỏc v to kờnh tin ó tr nờn d dng hn bao gi ht õy l mt tớnh nng k thut ni tri so vi cỏc h thng khỏc nh Novobot hay Copernic Ngi s dng cng cú th s dng cỏc kờnh tin ó cú trong mỏy tớnh to ra kờnh tin a mc (v trớ 2) Ngi s dng chn kờnh tin cn ly... tin cn ly m khụng cú cỏc thụng tin tha nh tỏc gi, nm sỏng tỏc, III.3.HIN THC HểA GII PHP Sau khi nghiờn cu v rỳt ra kt lun, tụi ó thc hin xõy dng mt h thng thu thp v búc tỏch thụng tin Tt nhiờn, nhng nghiờn cu ca tụi cú th cha c y v mt lý thuyt nhng khi a h thng ny vo th nghim trong thc t nú ó hot ng khỏ tt H thng thu thp v tỏch thụng tin (ICPS - Information Collecting and Parsing System) bao gm... trong mỏy tớnh to ra kờnh tin a mc (v trớ 2) Ngi s dng chn kờnh tin cn ly (trong kờnh tin ó ghi li a ch/cỏch to ra a ch URL ca ngun tin) H thng da trờn cỏc kờnh tin (v trớ 3) + ngun tin (v trớ 4) a ra tri thc phự hp cho ngi s dng di cỏc dng khỏc nhau Tri thc thu c sau khi ó thc hin cỏc tỏc v thu thp v búc tỏch thụng tin c tr li trc tip cho ngi s dng mt cỏch trc quan (v trớ 5) - 34 - Chng III : Nghiờn . bước đầu tiên, thu thập và bóc tách thông tin mà trọng tâm là bóc tách thông tin. III.1 .THU THẬP THÔNG TINViệc thu thập thông tin trong hệ thống phải dựa. chớnh nh hỡnh di õy Dữ liệuWebTác v Thu thậpthông tinTác vụBóc táchthông tinTác vụTổng quáthoá thôngtinTác vụPhân tíchthông tinTri thứcChỳng ta s im s qua tng

Ngày đăng: 23/11/2012, 10:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan