trích xuất dữ liệu từ những trang web đồng cấu trúc

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO NIÊN LUẬN NGÀNH : CÔNG NGHỆ THƠNG TIN ĐỀ TÀI: TRÍCH XUẤT DỮ LIỆU TỪ NHỮNG TRANG WEB ĐỒNG CẤU TRÚC Giảng viên hướng dẫn: PGS.TS Nguyễn Việt Hà Giảng viên đồng hướng dẫn : ThS Vũ Quang Dũng Sinh viên: Đỗ Văn Phong Mã sinh viên: 10020252 Lớp: K55C-CLC Mục lục Page Đặt vấn đề 1.1 Thực trạng Ngày nay, ngập liệu khoa học, liệu y tế, liệu nhân học, liệu tài chính, liệu tiếp thị Con người khơng có đủ thời gian để xem xét liệu Sự ý người trở thành nguồn tài nguyên quý giá Vì vậy, phải tìm cách tự động phân tích liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát mơ tả xu hướng nó, tự động dẫn dị thường Dữ liệu website vô phong phú chủ để nguồn tài nguyên quý giá bỏ qua Chúng ta cần có phương pháp để thu thập đánh giá thơng tin đó, trích xuất thơng tin theo mục đích sử dụng khác Tuy nhiên thông tin trang web theo cấu trúc khác nguồn liệu tổ chức phong phú phức tạp Vậy để đáp ứng nhu cầu thu thập xử lý liệu tập trung vào trang web có cấu trúc giống Để làm điều khóa luận tập trung vào việc trích xuất luật (rules) từ trang web từ dựa vào luật để tìm trang web có cấu trúc tương tự cuối trích xuất thơng tin có ích từ trang web có cấu trúc đồng dạng Nợi dung Niên ḷn này gồm phần : Phần - Đặt vấn đề : Nêu thực trạng, phát biểu toán cấu trúc chương trình Phần – Cơ sở lý thuyết : Những kết nghiên cứu trước đó, có liên hệ, phục vụ cho chương trình Phần – Phương pháp giải : Từ sở lý thuyết trên, đưa phương pháp giải toán Phần – Kết : Những kết đạt tới thời điểm Phần : Kết luận hướng phát triển 1.2 Phát biểu bài toán - Bài tốn có nội dung sau : Thu thập báo xử lý phân lớp đánh mục sơ cho liệu thu thập Trích xuất luật từ báo bất kỳ, phân tích cấu trúc trang web đưa luật trang web Từ luật đưa mối quan hệ báo thu thập báo khác, xây dựng nên mạng lưới thể mối quan hệ báo Page Minh họa mạng lưới quan hệ báo Trong đó : - Dữ liệu : o Dữ liệu thu thập bao gồm trường nội dung báo, ảnh minh họa, link… báo o Cần tiến hành phân lớp liệu (Ví dụ : thể thao, xã hội,…) trích xuất từ khóa đặc trưng cho mối lớp báo o Tiến hành làm mịn liệu nhiều lần cách lấy từ khóa đặc trưng lớp báo để tìm báo liên quan sau tiếp tục đưa báo liên quan vào sở liệu - Mạng lưới quan hệ : o Là mạng lưới thể quan hệ báo, báo có liên quan tới báo có liên quan tới keyword đặc trưng phân lớp mà báo thuộc vào Một báo thuộc nhiều phân lớp - Luật: o Là quy tắc cấu trúc trang web, thứ tự xếp thẻ cấu trúc DOM Page 1.3 Mô hình bản Làm mịn liệu: Mô tả : Dữ liệu lưu trữ vào database sau phân tích để đưa vào category khác từ ta trích xuất từ khóa để tìm từ khóa đặc trưng category Tiếp tục lại dùng từ khóa để tìm kiếm thêm báo có liên quan tới Trích xuất ḷt trang web: Page Mô tả: Từ sở liệu thu thập phân tích trích xuất luật trang web, vị trí layout có trang web cấu trúc DOM … Sau kết hợp với từ khóa để xây dựng nên mối quan hệ trang web báo với Trích xuất thông tin lưu trở lại sở liệu Cơ sở lý thuyết và công nghê 2.1 URL: Uniform Resource Location - URL hay Định vị tài ngun đồng dùng để xác định vị trí (tồn cầu) tài nguyên web - Một URL cho biết tên tài nguyên, tên ứng dụng, cổng chạy địa máy chủ - Khi triệu gọi tài nguyên, client gửi kèm theo URL tham số giá trị tham - số Tham số xử lý Server với tài nguyên gọi Page 2.2 Giới thiệu DOM DOM chữ viết tắt từ tiếng Anh Document Object Model ("Mô hình Đối tượng Tài liệu"), giao diện lập trình ứng dụng (API) Thường thường DOM, có dạng cấu trúc liệu, dùng để truy xuất tài liệu dạng HTML XML Mơ hình DOM độc lập với hệ điều hành dựa theo kỹ thuật lập trình hướng đối tượng để mơ tả tài liệu Một trang web bao gồm tập đối tượng tổ chức theo cấu trúc có gốc đối tượng window - Đối tượng window đại diện cho cửa sổ/khung hiển thị trang web khai báo ngầm định - Đối tượng document đại diện cho nội dung trang web thuộc tính window HTML dùng để khai báo đối tượng (thuộc lớp dựng sẵn) CSS dùng để định nghĩa thuộc tính/kiểu hiển thị cho đối tượng (Java)script dùng để quản lý{ (tạo, hủy bỏ, thay đổi thuộc tính, triệu gọi phương thức) đối tượng, định nghĩa lớp Ví dụ: Page 2.3 Mơ hình MapReduce MapReduce mơ hình lập trình thực có liên quan đến xử lý tạo tập liệu lớn Người dùng định chức tham chiếu(map function) để xử lý cặp khóa/giá trị (key/value) để tạo tập cặp khóa/giá trị trung gian chức rút gọn(reduce function) để tạo liên kết giá trị trung gian mà chúng có khóa Cụ thể hơn, MapReduce framework cho việc xử lý song song vấn đề gặp phải với tập liệu lớn sử dụng nhiều máy tính(mỗi máy tính gọi node), gọi chung chúng cụm (cluster – tất node mạng có cấu hình phần cứng) Việc xử lý, tính tốn thực liệu lưu trữ hệ thống tập tinh (khơng có cấu trúc) hoặc sở liệu (có cấu trúc) MapReduce tận dụng ưu điểm liệu hệ thống này, xử lý liệu hoặc gần tài nguyên lưu trữ để giảm truyền tải liệu Như để tạo chương trình sử dụng mơ hình MapReduce cần phải cài đặt hàm Map (mũi tên đỏ) Reduce (mũi tên xanh) • • Hàm Map có cặp đầu vào tạo tập hợp cặp key/value trung gian Hàm Reduce cho thấy key trung gian I tập value cho key Nó kết hợp value để tạo thành tập giá trị nhỏ Page Từ MapReduce giới thiệu, có nhiều thuật tốn phát triển dựa vào MapRedue để giái vấn đề phức tạp như: Sorting, Searching, Indexing, Classification, Joining, TF-IDF Trong khóa luận này, tơi áp dụng sử dụng mơ hình MapReduce vào giải thuật cho Indexing (Đánh mục liệu Web) TF-IDF (Đánh trọng số cho liệu đánh mục) 2.4 Thuật toán IEPAD Một hệ thống iepad bao gồm thành phần: - extraction rule generator: Nhận đầu vào webpage trích xuất luật webpage - pattern viewer: giao diện đồ họa cho người sử dụng - extractor module: trích xuất thơng tin mong muốn từ webpage tương tự khác Trọng tâm cơng nghệ extraction rule generator Kết trả extraction rule Generator luật trích xuất từ webpage đầu vào Khi người dùng submit webpage html vào IEPAD translator chuyển mã webpage thành file nhị phân Từ file nhị phân PART Tree Contructor tạo lên PAT.Bộ khai phá cấu trúc dựa vào PAT để tìm cấu trúc lặp lại , gọi maximal repeats Maximal repeats chuyển cho Validator để lọc bỏ Page cấu trúc không cần thiết Cuối Rule Composer lọc lại luật tổng hợp để đưa kết cuối Page 10 Phương pháp giải quyết 3.1 Bài toán phân lớp cho liệu phương pháp invert indext sử dụng mô hình Map-Reduce Đầu vào hệ thống thường văn bản, viết hay đoạn văn hoặc chí câu Chúng bắt nguồn từ tập hợp viết vấn đề khác mong muốn đến với người dùng Thông qua hệ thống này, liệu xử lý phân lớp vào mục rõ ràng Và ngôn ngữ viết, văn sử dụng Tiếng Việt, phù hợp đặc điểm ngôn ngữ người Việt Trong khóa luận đầu vào tơi gồm phần Sau đọc liệu, cơng việc hệ thống xử lý tách văn đầu vào thành câu tiến hành gắn thẻ từ loại cho chúng Công việc thành việc áp dụng nhiều kết nghiên cứu xử lý ngôn ngữ tự nhiên, đặc biệt cơng trình Vietnamese Word Segmentation thầy Lê Hồng Phương Tiếp theo hệ thống dựa từ câu gắn thẻ, tiến thành trích xuất từ khóa tiến hành phân lớp văn tự động nhờ giúp đỡ học máy tập từ khóa huấn luyện từ trước Ở ta áp dụng định lý Bayes sử dụng tảng Weka để tiến hành phân loại liệu Page 11 Cơng việc duyệt qua tồn nội dung viết để tìm thơng số mang ý nghĩa quan trọng việc giải mong muốn tìm kiếm người sử dụng – số lần xuất Kết hợp với từ loại từ vị trí từ văn bản, đầy đủ thuộc tính từ thành lập, giúp ích cho cơng việc Đối với từ xác định vô nghĩa đa số trường hợp – stopword – loại bỏ hoặc đánh trọng số thấp Như vậy, số cơng việc có việc đánh trọng số - weighting – mang ý nghĩa quan trọng cho việc chọn lọc kết tìm kiếm trước hiển thị cho người sử dụng Weighting dựa vào số lần xuất từ viết, chủ đề hay toàn viết có đánh giá khác Cuối cùng, thông qua hệ thống gắn thẻ từ loại, phân loại thuật ngữ có đầy đủ thuộc tính đầu vào thuật toán Inverted Index Đầu hệ thống quan trọng cho việc hình thành mục (index) toàn nội dung đưa vào Toàn kết lưu trữ sở liệu, sau thực cơng việc chuẩn hóa làm tăng độ tin cậy mục phục vụ tốt nhiệm vụ tìm kiếm người sử dụng 3.2 Bài toán trích xuất ḷt từ mợt trang web Để tìm luật trang web tơi sử dụng thuật tốn IEDPAD Như giới thiệu phần trước hệ thống sử dụng thuật tốn IEPAD báo gồm thành phần extraction rule generator, pattern viewer, extractor module.Trong phần quan trọng sinh luật (extraction rule generator) Sau chi tiết thành phần có sinh luật: 3.2.1 Translator: Từ thẻ text trang web chuyển đổi tách thành text tokens tag tokens Ví dụ Html() tag token cịn Text (_) text token Ví dụ trang web đầu vào congo code bao gồm dòng: Congo242 Egypt20$ Khi qua translator thành: Html()Text(_)Html()Html()Text(_)Html() Html()Html()Text(_)Html()Html()Text(_)Html() Mã hóa với thành nhị phân với độ dài cố định 3: Html() 000 Html() 001 Html() 010 Page 12 Html() 011 Html() 100 Text(_) 110 Kết cuối là: “000110001010110011100000110001010110011100$” kết thúc $ 3.2.2 Cấu trúc PAT: Sau mã hóa thành file nhị phân, file dùng để xây dựng lên PAT sau: Từ PAT có luật trang web đó, sau có luật ta sử dụng để so sánh với luật trang web khác để biết có tương đồng hay khơng Nếu tương đồng việc trích xuất thơng tín trở nên dễ dàng nhiều Kết hiên tại Sau thời gian tìm hiểu, triển khai kế thừa từ khóa luận Bùi Thế Hiển [2] bước đầu có số thành tựu sau: − Phân lớp liệu vào mục khác − Trích xuất key work đặc trưng cho phân lớp Page 13 Phần trích xuất luật nghiên cứu thuật toán IEPAD Phương hướng phát triển -Xây dựng hệ thống làm mịn liệu từ cách keyword trích chọn ra, tiếp tục lấy thêm liệu từ link liên quan để phong phú nguồn liệu - Tiếp tục nghiên cứu phát triển hệ thống sử dụng thuật tốn IEPAD để sinh luật trang web Tài liêu tham khảo [1] Data-rich Section Extraction from HTML pages - Jiying Wang Fred H Lochovsky Page 14 [2] B T Hiển, “Hệ thống phân loại đánh mục liệu web,” Khóa luận tốt nghiệp đại học hệ quy, 2013 [3] H Q Thụy, Giáo trình Khai phá liệu Web, Giáo Dục Việt Nam [4] IEPAD: Information Extraction Based on Pattern Discovery - ChiaHui Chang ShaoChen Lui [5] http://www.w3schools.com/ Page 15 Ý kiến đánh giá : Điểm số: ……… Điểm chữ: ……… Xác nhận Khoa CNTT Chủ nhiệm Khoa Hà Nội, ngày tháng năm 2013 Giáo viên đánh giá (Ký ghi rõ họ tên) Page 16 ... trung vào trang web có cấu trúc giống Để làm điều khóa luận tập trung vào việc trích xuất luật (rules) từ trang web từ dựa vào luật để tìm trang web có cấu trúc tương tự cuối trích xuất thơng... quy tắc cấu trúc trang web, thứ tự xếp thẻ cấu trúc DOM Page 1.3 Mô hình bản Làm mịn liệu: Mô tả : Dữ liệu lưu trữ vào database sau phân tích để đưa vào category khác từ ta trích xuất từ khóa... tìm từ khóa đặc trưng category Tiếp tục lại dùng từ khóa để tìm kiếm thêm báo có liên quan tới Trích xuất ḷt trang web: Page Mơ tả: Từ sở liệu thu thập phân tích trích xuất luật trang web,

Ngày đăng: 08/10/2015, 13:45

Xem thêm: trích xuất dữ liệu từ những trang web đồng cấu trúc, trích xuất dữ liệu từ những trang web đồng cấu trúc, Cơ sở lý thuyết và công nghệ

trích xuất dữ liệu từ những trang web đồng cấu trúc

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1. Đặt vấn đề

1.1. Thực trạng

1.2. Phát biểu bài toán

1.3. Mô hình cơ bản

2. Cơ sở lý thuyết và công nghệ

2.2. Giới thiệu về DOM

2.4. Thuật toán IEPAD

3. Phương pháp giải quyết

3.1. Bài toán phân lớp cho dữ liệu bằng phương pháp invert indext sử dụng mô hình Map-Reduce

3.2. Bài toán trích xuất luật từ một trang web

4. Kết quả hiện tại

5. Phương hướng phát triển

6. Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan