Tiểu luận môn khai phá dữ liệu TÌM HIỂU VỀ WEB MINING.DOC

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ WEB MINING GIẢNG VIÊN: PGS.TS. ĐỖ PHÚC SINH VIÊN THỰC HIỆN: CH0601043 PHAN NGUYỆT MINH Tp. Hồ Chí Minh – 08/ 2014 MỤC LỤC Chương 1 Tổng quan 2 Chương 2 Công nghệ Web mining 3 Chương 3 Ứng dụng của Web mining 44 Chương 4 Google và Web mining 53 Chương 5 Kết luận 58 DANH SÁCH CÁC HÌNH Chương 1 Tổng quan Hệ thống website trên Internet là nguồn chứa và cung cấp thông tin rất lớn. Hiện nay ngày càng có nhiều người sử dụng Internet để truy cập thông tin hơn là phải đến thư viện để dò tìm trong từng quyển sách vừa mất thời gian đôi khi lại không hiệu quả. Nhưng bằng cách nào mà máy tính có thể giúp người ta có thể tìm kiếm thông tin trên mạng một cách nhanh chóng và hiệu quả? Đó cũng là nhờ các công nghệ search engine. Search engine sẽ giúp người dùng có thể dễ dàng tìm kiếm thông tin mà họ cần trên các World Wide Web. Tuy nhiên do đặc thù của Internet nên việc tìm kiếm gặp phải một số vấn đề như: 1. Định dạng dữ liệu khác nhau trên từng hệ thống (ví dụ dữ liệu dạng text hoặc dạng binary). 2. Dữ liệu có cấu trúc khác nhau trên các hệ thống khác nhau. 3. Dữ liệu được đặt tên khác nhau trên từng hệ thống. 2 4. Làm sao có thể biết được nhu cầu thực sự của người dùng dựa vào những từ khóa tìm kiếm. Các hệ thống search engine đã sử dụng web mining để giải quyết các vấn đề trên một cách hiệu quả và nhanh chóng. Web mining về cơ bản là kĩ thuật sử dụng data mining để tìm kiếm và phân tích thông tin trên các website. Web mining giúp người dùng có thể dễ dàng tìm kiếm thông tin họ cần trong thời gian ngắn nhất có thể. Chương 2 Công nghệ Web mining Hiện nay, công nghệ Web mining đã định hình được 3 phương pháp cơ bản: web content mining, web structure mining và web usage mining. Các hệ thống search engine hiện nay khai thác các mô hình tìm kiếm và xây dựng các bộ máy tìm kiếm dựa trên 3 phương pháp cơ bản này. 2.1 Web content mining Web content mining : là sự khai thác, trích lọc và tích hợp các dữ liệu, thông tin và tri thức hữu ích từ nội dung của trang Web. Có thể nghĩ như việc đưa cho cái máy tìm kiếm cơ bản công việc để thi hành. Các máy tìm kiếm tìm web và tập hợp thông tin, kỹ thuật lập bảng mục lục để lưu thông tin, và cung cấp tiến trình truy vấn để cung cấp thông tin cho người dùng. Trong vài năm gần đây, sự phát triển của WWW đã vượt xa sự mong đợi. Ngày nay, có vài tỉ tài liệu HTML, hình ảnh và những file đa phương tiện khác đươc truyền qua internet và số lượng đó vẫn còn đang tăng lên. Nhưng vì số lượng trang web khổng lồ đó, việc tìm kiếm thông tin mình quan tâm trở thành công việc 3 vô cùng khó khăn. Web content mining sử dụng những ý tưởng và nguyên tắc của data mining. Việc sử dụng Web như một người cung cấp thông tin thì phức tạp hơn khi làm việc với cơ sở dữ liệu tĩnh. Bởi vì bản chất rất động của Web và số lượng lớn tài liệu của nó, cần phải có những giải pháp mới, mà những giải pháp này không dựa trên việc truy cập những data hoàn chỉnh ngay từ lúc bắt đầu. Khía cạnh quan trọng khác là sự thể hiện những kết quả truy vấn. Vì kích thước khổng lồ của Web, một câu truy vấn Web có thể tìm được hàng ngàn trang web. Vì vậy những phương pháp có ý nghĩa trong việc thể hiện những kết quả rộng lớn đó thì cần thiết để giúp người dùng chọn lựa nội dung mà mình quan tâm nhất. 2.1.1 Sự trích lọc dữ liệu có cấu trúc 2.1.1.1 Kỹ thuật Wrapper induction (phương pháp quy nạp wrapper) Cho một tập hợp các trang web được đánh nhãn một cách thủ công, và một phương pháp máy học được áp dụng để học cách trích lọc các luật hoặc các mẫu. Sử dụng máy học để tạo ra các luật trích lọc: Đầu tiên, người dùng sẽ đánh dấu những đối tượng mục tiêu trong một số các trang dùng làm mẫu. Kế đến, hệ thống sẽ học cách trích lọc ra các luật từ những trang mẫu này. Cuối cùng, các luật này sẽ được áp dụng để trích lọc ra những đối tượng mục tiêu từ những trang khác. Một số hệ thống sử dụng phương pháp quy nạp wrapper như: WIEN (Kushmerick et al, IJCAL-97), Softmeanly (Hsu and Dung, 1998), Stalker (Muslea et al. Agents- 99), BWI (Freitag and McCallum, AAAI-00), WL2 (Conhen et al. WWW-02), Thresher (Hogue and Karger, WWW-05), Hệ thống Stalker: • Wrapper induction (phương pháp quy nạp wrapper) (của Stalker) là một thống hoạt động theo thứ bậc : - Sự học tập của hệ thống wrapper theo một trình tự như sau: o Đầu tiên sự trích lọc được thực hiện riêng biệt ở các mức độ cao nhất. o Cuối cùng là đưa dữ liệu vào các bản ghi dữ liệu (chủ yếu là các list). - Mỗi đối tượng được trích lọc hoàn tòan độc lập với những đối tượng khác. 4 - Mỗi đối tượng mục tiêu được trích lọc dựa trên việc sử dụng hai luật: o Một luật bắt đầu (start rule) giúp dò tìm ra vị trí bắt đầu của một thẻ mục tiêu. o Một luật kết thúc (end rule) giúp dò tìm ra vị trí kết thúc của một thẻ mục tiêu. • Sự trích lọc theo trình tự dựa vào cấu trúc cây (ví dụ như hình bên dưới): Để trích lọc mỗi đối tượng mục tiêu (một node trên cây), một wrapper cần một luật để trích lọc ra đối tượng từ cha của nó. Hình 1 Phương pháp quy nạp Wrapper • Một số ví dụ áp dụng cấu trúc cây trong hình 1: VD1: 513 Pico, Venice, Phone 1-800-555-1515 VD2: 90 Colfax, Palms, Phone (800) 508-1570 VD3: 523 1st St., LA, Phone 1-800-578-2293 VD4: 403 La Tijera, Watts, Phone: (310) 798-0008 Chúng ta muốn trích lọc ra Area Code (mã vùng), ta cần cung cấp các luật sau: Start rules(các luật bắt đầu): R1: SkipTo(() R2: SkipTo(-) End rules(các luật kết thúc): R3: SkipTo()) 5 R4: SkipTo() 2.1.1.2 Kỹ thuật trích lọc dữ liệu tự động • Hệ thống đường chạy (RoadRunner): - Cung cấp một tập hợp các mẫu xác định (gồm nhiều trang web mẫu), mỗi trang sẽ chứa đựng một hoặc nhiều bản ghi dữ liệu. - Từ những trang này hệ thống sẽ tạo ra một wrapper như là một sự kết hợp khá tự do diễn đạt hợp quy tắc. - Hỗ trợ việc lưu trữ các bản ghi dữ liệu. • Tiếp cận hệ thống đường chạy: - Đầu tiên chúng ta tạo ra một trang mẫu được xem như là một wrapper. - Sau đó wrapper này được cải tiến bằng việc giải quyết những mâu thuẫn giữa wrapper này với từng trang mẫu khác, điều này giúp cho việc tổng quát hóa cho wrapper này. Một mâu thuẫn xảy ra khi một số dấu hiệu trong các mẫu này không phù hợp với ngữ pháp của wrapper. 6 Hình 2 Phương pháp trích lọc tự động Wrapper - Các loại mâu thuẫn khác nhau và việc tổng quát hóa một wrapper:  Những mâu thuẫn trong chuỗi văn bản: thường xảy ra trong các trường dữ liệu (còn gọi là các đối tượng).  Sự mâu thuẫn trong các thẻ: thường xảy ra trong: • Các thành phần tùy chọn. • Các đoạn lặp lại, danh sách các đoạn lặp lại: o Các mâu thuẫn xảy ra tại điểm bắt đầu một đoạn lặp lại và tại vị trí kết thúc danh sách các đoạn lặp này. o Tìm ra dấu hiệu cuối cùng của vị trí mâu thuẫn và xác định một số đọan còn có mâu thuẫn lặp lại từ trong wrapper và trong mẫu bằng cách tìm kiếm tới phía trước nữa. 7 o So sánh các đoạn còn có mâu thuẫn này với phần trên của trang mẫu để xác nhận lại. • Hệ thống EXALG (Arasu and Garcia-Molina, SIGMOD-03): - Việc thiết lập cũng giống như đối hệ thống đường chạy: hệ thống này cũng cần nhiều trang đầu vào của cùng một loại trang mẫu. - Tiếp cận hệ thống EXALG: Hình 3 Xác định các vùng dữ liệu Bước 1: tìm tập hợp các dấu hiệu (được gọi là các lớp tương đương) thường xuyên xảy ra tương tự trong mỗi trang. Bước 2: mở rộng tập hợp này bằng cách tạo ra thêm các luật mới của các dấu hiệu đang được sử dụng trong các ngữ cảnh của trang. Những dấu hiệu giống nhau trong các ngữ cảnh khác nhau được xem như là những dấu hiệu khác nhau. Bước 3: xây dựng một trang mẫu có sử dụng các lớp tương đương dựa vào những gì nằm giữa hai dấu hiệu liền kề nhau, hoặc là rỗng, hoặc là dữ liệu hoặc danh sách. 8 Người dùng chỉ cung cấp một trang duy nhất với nhiều bản ghi dữ liệu, chúng ta sẽ sử dụng mô hình trích dữ liệu như sau: • Đầu vào: một trang web duy nhất với nhiều bản ghi dữ liệu (ít nhất là hai). • Mục tiêu: tự động hóa (hoàn toàn không chịu tác động của con người):  Bước 1: xác định bản ghi dữ liệu trong một trang, và  Bước 2: sắp xếp lại dữ liệu trong các bản ghi dữ liệu và trích lọc ra các đối tượng dữ liệu từ chúng. • Xác định các vùng dữ liệu (data region) và các bản ghi dữ liệu (data record) • Sắp xếp và trích lọc các đối tượng dữ liệu (ví dụ: region1) 2.1.1.3 So sánh giữa kỹ thuật wrapper induction và kỹ thuật trích lọc dữ liệu tự động Hình 4 Sắp xếp và trích lọc các đối tượng dữ liệu trong vùng dữ liệu Kỹ thuật trích lọc dữ liệu tự động không có việc đánh nhãn bằng tay, nhưng lại cần một tập hợp các trang xác định của các mẫu tương tự nhau: Cách làm này không cần thiết nếu trang mẫu đã có chứa nhiều bản ghi dữ liệu. 9 Kỹ thuật trích lọc dữ liệu tự động không sử dụng kỹ thuật wrapper để thao tác trên các bản ghi dữ liệu, nhưng lại được dùng cho các trang (một trang thường chứa dựng rất nhiều thông tin không phù hợp). Những hạn chế của kỹ thuật trích lọc dữ liệu tự động là : - Khó điều khiển, thao tác trên từng đối tượng riêng biệt. - Khó đặt tên các thuộc tính đối với dữ liệu đã trích lọc. - Dữ liệu được trích lọc từ nhiều trang cần được tích hợp lại bằng tay hoặc tự động. 2.1.2 Sự phân loại, phân tích và tổng hợp theo cảm tính của các cảm nhận khách hàng 2.1.2.1 Phân loại theo cảm tính • Phân loại các cảm nhận theo cảm tính:  Phân loại các cảm nhận dựa trên hoàn toàn vào cảm nhận được diễn đạt bởi tác giả: khẳng định hay phủ định, khuyến khích hay không khuyến khích…  Vấn đề này chủ yếu học theo cách xử lí ngôn ngữ tự nhiên (NLP).  Tuy nhiên vấn đề này lại khác hẳn với việc phân loại văn bản truyền thống. • Phân loại cảm nhận không được giám sát. • Phân loại cảm nhận theo cảm tính thông qua việc sử dụng các phương pháp máy học (machine learning):  Một trang web thường áp dụng rất nhiều kỹ thuật máy học để phân loại các cảm nhận về phim ảnh là hay hay dở.  Ba kỹ thuật phân loại đã được thử nghiệm:  Naïve Bayes  Maximum entropy  Support vector machine.  Các thiết lập tiền xử lí.  SVM: có độ chính xác đến 83%. 10 [...]... khoá của chủ đề cần tìm Ví dụ khi người tìm nhập vào chữ web mining” thì dữ liệu trả về sẽ chứa từ web hoặc từ “mining” hoặc cả hai Về sau có sự phát triển lên một bước là các công cụ tìm kiếm sẽ không chỉ dựa vào từ khoá mà còn suy ra 26 các từ đồng nghĩa, nhiều nghĩa hay các chữ âm tắc của từ khoá đó Tuy nhiên, việc tìm kiếm chỉ đơn thuần là thông tin dữ liệu của các trang Web được sử dụng Còn... trang web:  Việc loại bỏ sự hỗn tạp hoặc xác định các khối nội dung chính của một trang, ví dụ: đối với thông tin phản hồi và khai thác dữ liệu  Đơn vị cơ sở của thông tin hoặc tìm kiếm khối cơ sở trên web  Tìm kiếm(browsing) các thiết bị di động nhỏ  Trích lọc thông tin chẳng hạn như để thảo luận sẽ dễ dàng hơn 2.2 Web structure mining Đối với các công cụ tìm kiếm trước kia thì việc tìm kiếm dữ liệu. .. chuyên môn: chuyên biệt, trùng lắp, … Nói đến tri thức, thì phải nói đến sự phức tạp, rối rắm và cực kỳ đa dạng của nó Ví dụ: Tri thức 33 trong các lĩnh vực chuyên môn khác nhau thì khác nhau, nhưng có khi cùng một dữ liệu trong lĩnh vực này thì mang nghĩa này, trong lĩnh vực khác thì lại mang nghĩa khác,… Ví dụ: tìm kiếm theo lĩnh vực chuyên môn, bạn đang học môn lập trình, bạn muốn tìm ebook về lập... phân tích ngừơi dùng, hiểu rõ thói quen và nhu cầu sở thích của người dùng để đáp ứng tốt hơn, đó là mục tiêu của khai thác thông tin từ người dùng Kỹ thuật: Hệ thống không chỉ ghi nhận kết quả tìm kiếm trả về mà còn ghi nhận người dùng sẽ làm gì với kết quả tìm kiếm đó, tin tức về người dùng cũng được ghi nhận Tất cả các thông tin này sẽ được ghi nhận và gửi về máy chủ web, máy chủ tìm kiếm, chúng sẽ... ẩn), xuất phát từ thực tiễn khi mà các hệ thống thông thường chỉ có thể tìm kiếm trên các dữ liệu văn bản thuần Vì vậy sẽ không đáp ứng được các nhu cầu rất đa dạng và nâng cao của người dùng hiện nay, do đó khái niệm về các hệ thống có khả năng tìm kiếm trên các tri thức ngữ nghĩa ra đời Các hệ thống này có khả năng thao tác tìm kiếm ngay trên cả các tri thức phức tạp (như tri thức chuyên môn, tri... sử dụng data mining (phương pháp khai thác dữ liệu) để tìm ra khái niệm và những chủ đề con  Quan sát 2: mỗi trang web thường được tổ chức như sau: - Mức độ khác nhau của phần tiêu đề - Những từ hoặc cụm từ được nhấn mạnh  Chúng được trình bày bằng cách nhấn mạnh với các thẻ HTML Ví du: , , , ,…  Chúng ta tận dụng cách tổ chức sẵn có của trang web để tìm ra một cách tổ chức tổng... tượng, … 2.3.2 Khai thác thông tin về thói quen người dùng khi tìm kiếm Chức năng: Giúp hệ thống tìm kiếm hiệu quả hơn, thỏa mãn yêu cầu hơn Các hệ thống thông thường chỉ có khả năng tìm kiếm theo truy vấn của người dùng, chúng không hề hiểu người dùng cần gì Như vậy chúng sẽ tìm kiếm không đáp ứng hoàn toàn nhu cầu người dùng Một hệ thống tìm kiếm với chức năng khai thác người dùng sẽ có khả năng... của HITS là: + Dùng trong các công cụ tìm kiếm + Tìm kiếm những trang Web có liên quan + Thống kê theo từng mục trong thư mục Web + Phân tích trích dẫn 2.3 Web usage mining Web usage mining là thu thập, tổng hợp và mô hình hóa các thông tin, các truy xuất của người dùng để giúp cho việc tìm kiếm sẽ trở nên hiệu quả hơn Nói một cách cụ thể hơn, các kỹ thuật của web usage mining được đề xuất như là một... bộ máy tìm kiếm ngày nay thì có xuất hiện thêm 1 khái niệm mới đó là LINK STRUCTURE Khái niệm này đóng một vai trò hết sức quan trọng trong việc tìm kiếm sao cho nhanh nhất, hiệu quả nhất 2.2.1 Cấu trúc mạng Internet Bên cạnh việc cung cấp các thông tin thông thường chủ yếu từ các tài liệu Web dạng văn bản thì trang Web còn cho chúng ta biết cái cách mà một trang Web này kết nối đến một trang Web khác... các trang dữ liệu và được liên kết lại với nhau bởi các siêu liên kết Đã có rất nhiều nhà khoa học đã cố gắng tìm hiểu phân tích các đặc điểm của dạng đồ thị này Một trong những nghiên cứu đáng giá đó là của Boder et al (2000), sử dụng dữ liệu từ một Altavista với 203 triệu địa chỉ và 1466 liên kết và lưu trữ 1 cấu trúc đồ thị nền trong 1 máy chủ liên kết, đã hỗ trợ việc liên kết các tài liệu một cách . CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ WEB MINING GIẢNG VIÊN: PGS.TS. ĐỖ PHÚC SINH VIÊN THỰC HIỆN: CH0601043. được 3 phương pháp cơ bản: web content mining, web structure mining và web usage mining. Các hệ thống search engine hiện nay khai thác các mô hình tìm kiếm và xây dựng các bộ máy tìm kiếm dựa. bản ghi dữ liệu và trích lọc ra các đối tượng dữ liệu từ chúng. • Xác định các vùng dữ liệu (data region) và các bản ghi dữ liệu (data record) • Sắp xếp và trích lọc các đối tượng dữ liệu (ví

Tiểu luận môn khai phá dữ liệu TÌM HIỂU VỀ WEB MINING.DOC

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Chương 1 Tổng quan

Chương 2 Công nghệ Web mining

2.1 Web content mining

2.1.1 Sự trích lọc dữ liệu có cấu trúc

2.1.1.1 Kỹ thuật Wrapper induction (phương pháp quy nạp wrapper)

2.1.1.2 Kỹ thuật trích lọc dữ liệu tự động

2.1.1.3 So sánh giữa kỹ thuật wrapper induction và kỹ thuật trích lọc dữ liệu tự động

2.1.2 Sự phân loại, phân tích và tổng hợp theo cảm tính của các cảm nhận khách hàng

2.1.2.1 Phân loại theo cảm tính

2.1.2.2 Phân tích cảm nhận của khách hàng

2.1.2.2.1 Khai thác và tổng hợp các cảm nhận:

2.1.2.2.2 Đặc điểm dựa vào sự tổng kết hóa:

2.1.2.2.3 Mô hình vấn đề:

2.1.3 Sự tích hợp thông tin và sự phù hợp giản đồ (schema)

2.1.4 Sự tổng hợp tri thức

2.1.5 Sự dò tìm các mẫu và sự phân đoạn trang web

2.2 Web structure mining

2.2.1 Cấu trúc mạng Internet

2.2.2 Page rank

2.2.3 HITS (Hyperlink-induced Topic Search)

2.2.3.1 Authorities và Hubs

2.2.3.2 HITS (Hyper-induced Topic Search)

2.3 Web usage mining

2.3.1 Tích hợp tri thức ngữ nghĩa vào tìm kiếm và khai thác thông tin từ người dùng

2.3.2 Khai thác thông tin về thói quen người dùng khi tìm kiếm

2.3.3 Hỗ trợ theo dõi người dùng trên các hệ thống thông tin hay hệ thống tìm kiếm

2.3.4 Phân tích việc sử dụng kết quả tìm kiếm

2.4 User profile data

2.4.1 Giới thiệu

Tài liệu cùng người dùng

Tài liệu liên quan