ĐỒ án tốt NGHIỆP đại học xây DỰNG hệ THỐNG TRÍCH CHỌN THÔNG TIN tự ĐỘNG từ các WEBSITE

72 941 2
ĐỒ án tốt NGHIỆP đại học xây DỰNG hệ THỐNG TRÍCH CHỌN THÔNG TIN tự ĐỘNG từ các WEBSITE

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC Hình 1.1: Thu hồi thông tin bằng công cụ Google 12 Hình 1.2: Trích rút thông tin tỷ số bóng đá từ LivesCore 13 Hình 2.1:Thuật toán tìm thông tin dạng bảng 22 Hình 2. 3: Thủ tục trích rút thông tin từ bảng 25 Hình 2.4: Ví dụ về cây DOM 27 Hình 2.5: Các cây DOM và cây đặc trưng ST 29 Hình 2.6:Ví dụ về SST 32 Hình 2.7: Thuật toán đánh dấu các vùng nhiễu 36 Hình 2.8:Một SST đã được đơn giản 38 Hình 2.9: Thủ tục MapSST 39 Hình 2.10: Thủ tục SSTWebSite 40 Hình 2.11: Một minh họa cho các đỉnh gộp và các vùng dữ liệu 43 Hình 2.12: Thuật toán đối sánh cây đơn giản 44 Hình 2.13: Cây thẻ HTML cho các data record 46 Hình 2.14: Thực hiện hợp đỉnh và so sánh 47 Hình 2.15: Thuật toán so sánh đỉnh của cây dựa trên khoảng cách soạn thảo 48 Hình 2.16: Thủ tục so sánh gộp của các đỉnh 49 Hình 2.17: Mô tả một vùng dữ liệu 50 Hình 2.18: Thuật toán tìm tất cả các vùng dữ liệu trong một cây thẻ HTML 53 Hình 2.19: Thủ tục xác định các vùng dữ liệu có thể có của đỉnh 54 Hình 2.20: Thủ tục kiểm tra vùng dữ liệu con có nằm trong vùng mức cha 55 Hình 2.21: Thủ tục tạo cây mẫu biểu diễn thông tin các bản ghi dữ liệu 56 Hình 2.22 Chèn cây khi hai đỉnh kề có đối sánh 58 Hình 2.24: Không thể thực hiện chèn 59 Hình 2.25: Cây thẻ html cần tách thông tin 60 Hình 2.26: Cây mẫu biểu diễn thông tin trong một vùng 61 Hình 2.27: Tách các trường thông tin từ cây mẫu 62 1 Hình 3.1: Giao diện chính của hệ thống 63 Hình 3.2: Giao diện tách thông tin dạng bảng 64 Hình 3.5: Trang web tỷ giá ngoại tệ của ngân hàng Vietcombank 67 Hình 3.7: Biểu đồ tỷ giá ngoại tệ 69 2 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Thu hồi thông tin bằng công cụ Google 12 Hình 1.2: Trích rút thông tin tỷ số bóng đá từ LivesCore 13 Hình 2.1:Thuật toán tìm thông tin dạng bảng 22 Hình 2. 3: Thủ tục trích rút thông tin từ bảng 25 Hình 2.4: Ví dụ về cây DOM 27 Hình 2.5: Các cây DOM và cây đặc trưng ST 29 Hình 2.6:Ví dụ về SST 32 Hình 2.7: Thuật toán đánh dấu các vùng nhiễu 36 Hình 2.8:Một SST đã được đơn giản 38 Hình 2.9: Thủ tục MapSST 39 Hình 2.10: Thủ tục SSTWebSite 40 Hình 2.11: Một minh họa cho các đỉnh gộp và các vùng dữ liệu 43 Hình 2.12: Thuật toán đối sánh cây đơn giản 44 Hình 2.13: Cây thẻ HTML cho các data record 46 Hình 2.14: Thực hiện hợp đỉnh và so sánh 47 Hình 2.15: Thuật toán so sánh đỉnh của cây dựa trên khoảng cách soạn thảo 48 Hình 2.16: Thủ tục so sánh gộp của các đỉnh 49 Hình 2.17: Mô tả một vùng dữ liệu 50 Hình 2.18: Thuật toán tìm tất cả các vùng dữ liệu trong một cây thẻ HTML 53 Hình 2.19: Thủ tục xác định các vùng dữ liệu có thể có của đỉnh 54 Hình 2.20: Thủ tục kiểm tra vùng dữ liệu con có nằm trong vùng mức cha 55 Hình 2.21: Thủ tục tạo cây mẫu biểu diễn thông tin các bản ghi dữ liệu 56 Hình 2.22 Chèn cây khi hai đỉnh kề có đối sánh 58 Hình 2.24: Không thể thực hiện chèn 59 Hình 2.25: Cây thẻ html cần tách thông tin 60 Hình 2.26: Cây mẫu biểu diễn thông tin trong một vùng 61 Hình 2.27: Tách các trường thông tin từ cây mẫu 62 3 Hình 3.1: Giao diện chính của hệ thống 63 Hình 3.2: Giao diện tách thông tin dạng bảng 64 Hình 3.5: Trang web tỷ giá ngoại tệ của ngân hàng Vietcombank 67 Hình 3.7: Biểu đồ tỷ giá ngoại tệ 69 4 LỜI NÓI ĐẦU Với tốc độ phát triển nhanh chóng, Internet và World Wide Web (WWW ) ngày càng ảnh hưởng sâu rộng đến mọi mặt của đời sống, khoa học, kinh tế, chính trị, văn hóa, xã hội,…Theo số liệu thống kê năm 1995, số người truy cập Internet thường xuyên chỉ đạt khoảng 33 triệu người, đến năm 2000 thì con số này là 150 triệu người, đến năm 2005 số người thường xuyên truy cập Internet lên đến 850 triệu người và đến năm 2007 thì con số này là xấp xỉ 1.2 tỷ người. Hơn nữa, với doanh số tối thiểu giao dịch hàng năm đạt 1.5 ngàn tỷ USD, Internet đã thực sự trở thành một phần thiết yếu của cuộc sống hiện đại. Trong đó, việc tận dụng các nguồn thông tin từ Internet là một điều hết sức quan trọng, bởi vì với thời đại công nghệ thông tin hiện nay, ai nắm bắt được thông tin thì người đó có cơ hội thành công rất lớn. Phương pháp lấy thông tin trên mạng thông dụng nhất hiện nay là tìm kiếm theo từ khóa được cung cấp bởi Google, Yahoo,…Tuy nhiên, việc trả về quá nhiều địa chỉ làm cho quá trình lựa chọn những thông tin cần thiết trở nên vô cùng khó khăn và tốn nhiều thời gian. Đối với người dùng, việc có được nhiều thông tin không phải là điều quan trọng nhất, mà tính kịp thời, đầy đủ và chính xác của thông tin mới là yếu tố quyết định. Internet, với hàng tỉ trang web, hàng triệu cơ sở dữ liệu thông tin về nhiều lĩnh vực: khoa học, kinh tế, chính trị, xã hội , được coi là “mỏ thông tin” vĩ đại nhất trong lịch sử loài người. Tuy nhiên, những thông tin này lại nằm rải rác ở nhiều nơi, khiến việc thu thập, lưu trữ để rồi sau đó tiến hành các phân tích tỉ mỉ như so sánh, đánh giá, tổng quát hoá trở nên cực kì khó khăn và tốn nhiều thời gian. 5 Sử dụng công nghệ tách-trích rút thông tin là phương pháp hữu hiệu nhất để giải quyết những khó khăn này. Các chương trình “trích rút thông tin” sẽ thực hiện tách dữ liệu từ nhiều nguồn tin (trang web) trên mạng rồi tổ chức lưu trữ (thường là dạng cơ sở dữ liệu) trên hệ thống cục bộ. Sau đó, tuỳ theo nhu cầu cụ thể, các chương trình/công cụ sẵn có sẽ được sử dụng để phân tích, tìm hiểu, chắt lọc thông tin từ nguồn cơ sở dữ liệu này. Thu thập thông tin về các chỉ số chứng khoán hàng ngày vào cơ sở dữ liệu, ta có thể vẽ đồ thị và phân tích tình hình tăng giảm của từng chỉ số. Thu thập các mẩu tin rao vặt về điện thoại di động vào cơ sở dữ liệu, rồi áp dụng một vài lệnh thống kê đơn giản, ta có thể thu được nhiều thông tin quý giá, chẳng hạn như chủng loại điện thoại nào hiện đang được nhiều người tìm mua: Nokia, Siemen hay Sony Ericsson, loại điện thoại nào được nhiều người rao bán Công nghệ tách thông tin tạo ra cơ hội để biến những thông tin quanh ta thành cơ sở dữ liệu, thành tri thức, thành các quyết định kinh doanh một cách nhanh chóng. Cùng với sự trưởng thành của công nghệ tách thông tin, hàng loạt công nghệ tri thức mới sẽ ra đời như công nghệ về tích hợp thông tin, tóm tắt thông tin, tổng quát hoá thông tin Đó là lý dotrích rút- phân tách thông tin trên mạng đang trở thành mối quan tâm của rất nhiều các nhà nghiên cứu trong thời gian gần đây. Đã có nhiều cách tiếp cận khác nhau trong việc trích rút thông tin như: Trích rút thông tin dựa trên bao đóng (Wrapper); trích rút thông tin dựa trên cây thẻ (DOM Tree); trích rút thông tin dựa trên việc nhận dạng cấu trúc ngữ pháp (Grammar Induction); trích rút thông tin dựa trên mô hình Markov ẩn (Hidden Markov Model),….Ưu điểm của các hệ này là chúng có thể tìm được rất nhiều thông tin quan trọng trong thời gian ngắn. Tuy nhiên, một số hệ thống đòi hỏi người dùng phải có kiến thức chuyên môn nhất định về tách-trích rút thông tin để huấn luyện cho hệ thống trích rút 6 thông tin trong các lĩnh vực thông tin mới nên các hệ thống này vẫn còn ít được sử dụng rộng rãi. Mục đích của đề tài là nghiên cứu các kỹ thuật trích rút thông tin để từ đó xây dựng một hệ thống tự động trích chọn thông tin dạng bảng từ các Web site. Dữ liệu được ghi ra file dạng HTML, từ dạng dữ liệu này ta hoàn toàn có thể sử dụng các công cụ sẵn có để chuyển đổi tiếp sang dạng dữ liệu nào đó phù hợp với nhu cầu sử dụng, chẳng hạn dạng bảng tính của Excel, dạng cơ sở dữ liệu của SQL, dạng DOC,… Xây dựng ứng dụng trích chọn thông tin tỷ giá ngoại tệ trên web site của ngân hàng Vietcombank, dữ liệu được lưu trữ trong cơ sở dữ liệu SQL, từ đó người dùng có thể vẽ biểu đồ biến động giá cả của từng loại ngoại tệ theo từng tháng để có thể hỗ trợ cho việc phân tích, đánh giá và đầu thích đáng. Đồ án được chia thành 3 chương với nội dung như sau: Chương 1: Tổng quan về trích rút thông tin Chương 2: Các kỹ thuật trích rút thông tin Chương 3: Cài đặt thuật toán, thiết kế, xây dựng chương trình. Em xin chân thành cảm ơn thầy giáo đã hướng dẫn, giúp đỡ em trong quá trình làm đồ án! 7 CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN • Khái niệm khai phá dữ liệu • Khái niệm trích rút thông tinCác hệ trích rút-tách thông tin • Kết luận Chương này sẽ đưa ra những khái niệm cơ bản liên quan đến trích rút thông tin, đồng thời tìm hiểu khả năng ứng dụng trích rút thông tin trong thực tế. Phần 1.1: trình bày về khai phá dữ liệu. Phần 1.2: trình bày một cách khái quát về trích rút thông tin. Phần 1.3: tìm hiểu kỹ thuật trích rút thông tin của một số hệ thống đã được thử nghiệm. Phần cuối: tổng hợp, đánh giá về trích rút thông tin và ứng dụng trích rút thông tin trong thực tế. 8 1.1 KHAI PHÁ DỮ LIỆU Khái niệm khai phá dữ liệu (data mining): Khai phá dữ liệu là quá trình khai thác (rút trích) những thông tin tiềm ẩn có tính dự đoán, những thông tin có nhiều ý nghĩa, hữu ích từ những cơ sở dữ liệu lớn, nó được coi như là một bước trong quá trình khám phá tri thức (Knowledge Discovery in Databases – KDD). Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khám phá tri thức từ cơ sở dữ liệu, các tri thức này có rất nhiều ý nghĩa, là cơ sở hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh. Khai phá dữ liệu là giai đoạn thiết yếu, đây là bước quan trọng và tốn nhiều thời gian nhất của toàn bộ quá trình khám phá tri thức, đây là bước áp dụng những kỹ thuật khai phá để khai thác, trích xuất thông tin có ích, những mẫu điển hình, những mối liên hệ đặc biệt có nhiều giá trị, mang nhiều ý nghĩa từ dữ liệu. Các kỹ thuật khai phá dữ liệu được chia làm 2 nhóm chính: • Kỹ thuật khai phá dữ liệu mô tả: mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL, các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (sumerization), trực quan hoá (visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules),… • Kỹ thuật khai phá dữ liệu dự đoán: đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời, các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression),… 9 Những ứng dụng điển hình của khai phá dữ liệu: • Tài chính và thị trường chứng khoán (finance & stock market): phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán,… • Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis and decision support) • Text mining & Webmining: khai thác văn bản và các trang Web, tóm tắt văn bản, tìm kiếm thông tin,… • Tin – sinh: tìm kiếm, đối sánh các quan hệ gen và thông tin di truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền,… • Điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, …) 1.2 KHÁI NIỆM TRÍCH RÚT THÔNG TIN Cho đến nay chưa có một định nghĩa chuẩn nào về trích rút thông tin, tuy nhiên đối với nhiều nhóm nghiên cứu về trích rút thông tin họ đã đưa ra khái niệm ban đầu về trích rút thông tin theo các hướng tiếp cận riêng của họ. Nhìn một cách tổng quát, các khái niệm này đều có một số điểm giống nhau thể hiện nét đặc trưng riêng của trích rút thông tin so với các ngành khoa học khác. Ta có thể hiểu khái niệm về trích rút thông tin như sau: Trích rút thông tin (Information Extraction-IE) là một quá trình nhằm xác định và trích rút ra các thông tin cần thiết trên các văn bản tài liệu cho trước. Ta cần phân biệt sự khác biệt giữa hai kỹ thuật: kỹ thuật trích rút thông tin IE và kỹ thuật thu hồi thông tin (Information Retrieval-IR) ví dụ 10 [...]... đến các luật tổng quát để xây dựng tập các luật dùng để trích rút các trường trong các tài liệu đầu vào Rapier không dùng các thẻ đầu và cuối để xác định vị trí các trường cần trích rút mà sử dụng việc học đối với các chuỗi ký tự chứa trường cần trích rút, chuỗi ký tự ngay trước và chuỗi ký tự ngay sau trường cần trích rút Mỗi chuỗi ký tự là một tập hợp gồm các từ tượng trưng (các từ viết hoa, các từ. .. về nhanh chóng và chính xác 18 CHƯƠNG 2: CÁC KỸ THUẬT TRÍCH RÚT THÔNG TIN • Thuật toán trích rút thông tin tự động từ các bảng và danh sách của nhóm K.Lerman • Kỹ thuật loại bỏ nhiễu sử dụng cây SST (Site Style Tree) của nhóm Lan Yi • Kỹ thuật trích rút thông tin dựa trên so sánh cây của nhóm Bing Liu • Kết luận 19 2.1 THUẬT TOÁN TRÍCH RÚT THÔNG TIN TỰ ĐỘNG TỪ CÁC BẢNG VÀ DANH SÁCH CỦA NHÓM K.LERMAN... web có chứa từ khóa Hình 1.1: Thu hồi thông tin bằng công cụ Google 12 Hình 1.2: Trích rút thông tin tỷ số bóng đá từ LivesCore 13 1.3 CÁC HỆ TRÍCH RÚT THÔNG TIN Có rất nhiều hướng tiếp cận khác nhau, sử dụng các kỹ thuật khác nhau nhằm mục đích trích rút được thông tin chính xác và đầy đủ nhất Chúng ta có thể tìm hiểu một số kỹ thuật trích rút thông tin của những hệ ứng dụng phổ biến sau: 1.3.1 Hidden... Thuật toán ta xây dựng cần tìm trang web mẫu để loại bỏ nó trong các trang web thông tin, điều này sẽ giúp giảm phạm vi tìm kiếm thông tin của thuật toán Như vậy sẽ giảm được đáng kể thời gian tìm kiếm - Các vùng thông tin thường chứa trong các bảng nằm trong cùng nhất, nghĩa là trong nó không còn chứa bảng con nào khác (các bảng này thường có số hàng và số cột lớn hơn 2) - Các vùng thông tin không... điểm nhận biết thông tin do người dùng định nghĩa) - Kỹ thuật trích rút thông tin không những tìm kiếm các tài liệu có chứa thông tin liên quan mà chúng còn phân tích các tài liệu này để trích rút và trả về những thông tin đặc trưng riêng mà người dùng quan tâm Với cách tiếp cận này sẽ cho phép người dùng sử dụng thông tin hiệu quả hơn và tiết kiệm thời gian hơn 11 Các địa chỉ web có chứa từ khóa Hình... data End ExtractDataTable Hình 2 3: Thủ tục trích rút thông tin từ bảng Việc nhận dạng các hàng và cột dựa trên các separator Với thuật toán trích rút thông tin dạng bảng sẽ xử lý rất nhanh chóng, tốn ít thời gian Tuy nhiên có nhiều thông tin tồn tại ở dạng ngôn ngữ tự nhiên hoặc bán cấu trúc, vì vậy cần có một thuật toán khác nhằm xác định và trích rút các bản ghi này 25 2.2 KỸ THUẬT LOẠI BỎ NHIỄU... 2 thu thập các phân mảnh đúng từ các phân mảnh còn lại 1.4 KẾT LUẬN Ở trên chúng ta vừa tìm hiểu một số hệ ứng dụng trích rút thông tin đã được triển khai thử nghiệm trong thực tế Mỗi hệ ứng dụng đều có đặc trưng riêng cho phép trích rút thông tin khá hiệu quả trên một số lĩnh vực cụ thể mà hệ áp dụng Tuy nhiên khi áp dụng cho các thông tin gồm nhiều dạng khác nhau: dạng cấu trúc, dạng bán cấu trúc... BWI khi học sử dụng các token hiện tại, được bổ sung bằng một số phép chiếu trực giao tổng quát hóa (bảng chữ cái, từ viết hoa, ký tự số, viết thường, số, phép kết thúc câu), cũng như là một số lượng vừa phải tri thức về từ vựng (một danh sách các họ và tên) BWI xây dựng từ tất cả các luật cụ thể cho mỗi mẫu nên các thông tin trả về khá đầy đủ nhưng độ chính xác không cao vì có thêm các thông tin dư... cấu trúc, dạng bán cấu trúc và dạng ngôn ngữ tự nhiên thì các hệ thống này còn chưa hiệu quả Một số hệ yêu cầu người dùng phải có hiểu biết khá sâu sắc về trích rút thông tin thì mới có thể khai thác tốt hệ thống bởi vì họ phải đưa ra những mẫu huấn luyện chính xác cho hệ thống, khi mà trên thực tế nhiều người dùng không biết, hoặc không muốn hiểu sâu về hệ thống, họ mong muốn có một giao diện đơn giản,... số văn bản ngôn ngữ tự nhiên và cơ chế sửa lỗi sai 1.3.5 SNoW-IE [8] SnoW là một thuật toán học quan hệ và thích hợp cho IE Chúng xác định các phân mảnh chứa toàn bộ trường cần trích rút sử dụng token, các đặc trưng ngữ nghĩa,… SNoW-IE là một hệ thống IE dựa trên SNoW SNoW học theo 2 bước Bước 1 là bước lọc Xác định tập các phân mảnh sau khi lọc bỏ bớt các phân mảnh chứa các thông tin không chính xác . nghiên cứu các kỹ thuật trích rút thông tin để từ đó xây dựng một hệ thống tự động trích chọn thông tin dạng bảng từ các Web site. Dữ liệu được ghi ra file dạng HTML, từ dạng dữ liệu này ta. rút thông tin để huấn luyện cho hệ thống trích rút 6 thông tin trong các lĩnh vực thông tin mới nên các hệ thống này vẫn còn ít được sử dụng rộng rãi. Mục đích của đề tài là nghiên cứu các. Thu hồi thông tin bằng công cụ Google 12 Hình 1.2: Trích rút thông tin tỷ số bóng đá từ LivesCore 13 Hình 2.1:Thuật toán tìm thông tin dạng bảng 22 Hình 2. 3: Thủ tục trích rút thông tin từ bảng

Ngày đăng: 18/06/2014, 22:17

Từ khóa liên quan

Mục lục

  • 2.3.1 Các khái niệm cơ bản

  • 2.3.2 Phân vùng thông tin dựa trên khoảng cách soạn thảo cây.

Tài liệu cùng người dùng

Tài liệu liên quan