Bài tiểu luận môn Công nghệ tri thức Web mining – khai mỏ thông tin web

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG BÁO CÁO THU HOẠCH CHUYÊN ĐỀ Công nghệ tri thức Đề tài: Web mining – khai mỏ thông tin web Giáo viên hướng dẫn: GS.TSKH Hoàng Kiếm Sinh viên: Trần Hoài Phong Niên khoá 2011-2013 MSSV: CH1101027 MỤC LỤC LỜI MỞ ĐẦU: 2 I.PHÂN LOẠI WEB MINING: 3 II.WEB USAGE MINING: 6 III.KẾT LUẬN: 14 TÀI LIỆU THAM KHẢO : 17 Lời mở đầu: Với sự tăng trưởng bùng nổ của các nguồn thông tin trên World Wide Web, nhu cầu về những công cụ tự động tìm các nguồn tài nguyên thông tin mong muốn, cũng như việc theo dõi và phân tích hành vi người dùng đang ngày càng trở nên cần thiết Những yếu tố này làm phát sinh mong muốn tạo ra một hệ thống thông minh, hiệu quả để có thể khai thác kho kiến thức vô cùng phong phú này Web mining có thể được định nghĩa là khám phá và phân tích các thông tin hữu 2 ích từ World Wide Web Là quá trình tự động tìm kiếm các nguồn tài nguyên thông tin có sẵn trên mạng như nội dung trang web – web content mining, và phân tích hành vi sử dụng của người dùng – web usage mining Trong bài tiểu luận này, em sẽ trình bày một cái nhìn tổng quan về các công cụ, kỹ thuật, và các vấn đề liên quan đến cả hai nội dung này Em cũng sẽ trình bày một số vấn đề quan trọng, độc đáo trong mô hình Web, một mô hình với nhiều dữ liệu phức tạp mà máy chủ có thể thu nhập để phục vụ cho quá trình phân tích sau này Bao gồm các nguồn dữ liệu khác nhau như nhật kí truy cập máy chủ, thông tin người dùng, các thông tin cần thiết trong phiên sử dụng của người dùng cũng như các thao tác trong quá trình sử dụng Em cũng giành một phần chính của bài tiểu luận này tập trung để thảo luận các vấn đề và các khó khăn đặc trưng khi phân tích quá trình sử dụng Web của người dùng Ngoài ra, em cũng sẽ đưa ra một số các công cụ và kỹ thuật đang nổi lên, và một số hướng nghiên cứu trong tương lai Tuy nhiên mặc dù đã ra sức tìm hiểu cũng như với sự hướng dẫn cơ bản về công nghệ tri thứ và ứng dụng từ thầy nhưng với kinh nghiệm ít ỏi nên nội dung bài tiểu luận này không thể tránh được những sai sót Mong thầy thông cảm và cuối cùng e xin cám ơn thầy đã giành thời gian đọc bài tiểu luận này I Phân loại web mining: 1 Web content mining – khai mỏ nội dung trang web Việc tìm kiếm các thông tin hữu ích từ các nội dung trên web là quá trình ứng dụng các kỹ thuật khai mỏ dữ liệu đối với các nội dung trên Internet Web chứa rất nhiều loại dữ liệu Về cơ bản, nội dung trang web bao gồm một số loại dữ liệu như văn bản đơn giản (không có cấu trúc), hình ảnh, âm thanh, video, cũng như HTML (bán cấu trúc), hoặc XML (văn bản có cấu trúc), tài liệu đa phương 3 tiện Do sự phức tạp trong cấu trúc của các nội dung trên web khiến cho việc khai thác thông tin một cách tự động là tương đối khó khăn Trong những năm gần đây đã có một số nghiên cứu để phát triển ngày càng nhiều kĩ thuật giúp cho việc khai thác dữ liệu, nội dung trên trang web ngày một hiệu quả hơn Dưới đây là một vài nỗ lực trong những năm gần đây 1.1 Agent-based approach – tiếp cận theo hướng agent: Agent là một hệ thống sẽ đảm nhận trách nhiệm khai thác nội dung của trang web Bao gồm: - Intelligent search agents: phục vụ cho quá trình tìm kiếm thông minh, nó sử dụng một vài kĩ thuật dựa vào thông tin của người dùng hoặc các domain đặc trưng để tăng hiệu quả cho việc tìm kiếm các thông tin thích hợp - Information filtering/Categorization: kĩ thuật nhúng những thông tin ngữ nghĩa trong các liên kết và nội dung của các tài liệu đễ phân loại tài liệu - Personalize web agents: dựa vào sở thích của người dùng và dùng nó để tìm kiếm nội dung thích hợp của trang web 1.2 Database based approach – tiếp cận theo hướng cơ sở dữ liệu: Sử dụng các kĩ thuật truy vấn cơ sở dữ liệu kết hợp với các kĩ thuật khai thác mõ dữ liệu để tăng khả năng khai thác các nội dung trang web - Multilevel Databases: Ý tưởng chính đằng sau phương pháp này là mức thấp nhất của cơ sở dữ liệu sẽ chứa dữ liệu bán cấu trúc, như tài liệu siêu văn bản, được lưu trữ tại nhiều Web khác nhau.Ở mức cao hơn các siêu dữ liệu hoặc các dữ liệu tổng quát sẽ được chiết xuất từ các dữ liệu bán cấu trúc ở mức thấp hơn và được tổ chức thành các bộ cơ sỡ dữ liệu có cấu trúc - Web query systems: Nhiều hệ thống truy vấn web và ngôn ngữ đang được phát triển gần đây dùng các ngôn ngữ truy cập cơ sở dữ liệu tương tự như sql hoặc 4 các thông tin cấu trúc trong tài liệu web và thậm chí ngôn ngữ tự nhiên để truy vấn và tìm kiếm thông tin trên thế giới web Ví dụ: W3QL, WebLog, UnQL, … 2 Web usage mining – khai mỏ quá trình sử dụng web: Khai mỏ sử dụng Web là quá trình khám phá cách thức truy cập của người dùng từ các máy chủ Web Tập hợp 1 số lượng lớn các dữ liệu trong hoạt động hàng ngày của họ sẽ được ghi bằng nhật ký truy cập máy chủ Các nguồn thông tin người dùng khác còn bao gồm thông tin đăng ký của người sử dụng, thông tin khảo sát … Phân tích các dữ liệu đó có thể giúp các tổ chức xác định chu kì thời gian hoạt động của khách hàng, hiệu quả của các chiến lược tiếp thị và quảng cáo sản phẩm Nó cũng có thể cung cấp thông tin giúp cho doanh nghiệp có thể cơ cấu lại một trang web sao cho nó hoạt động hiệu quả hơn Đặc biệt là đối với quảng cáo trên World Wide Web, phân tích quá trình truy cập của người sử dụng là một công cụ rất quan trọng giúp xác định được mục tiêu quảng cáo cho từng nhóm người sử dụng cụ thể Hiện tại hầu hết các công cụ phân tích Web đều có cung cấp cơ chế để báo cáo hoạt động của người dùng trên máy chủ với nhiều hình thức lọc dữ liệu khác nhau Sử dụng các công cụ như vậy có thể giúp chúng ta xác định số lượng truy cập đến máy chủ, các tập tin cá nhân, các tên miền và URL mà người dùng truy cập nhiều nhất Tuy nhiên, những công cụ này hầu hết chỉ được thiết kế để đảm nhiệm từ thấp đến trung bình lưu lượng truy cập máy chủ, và thường không có hoặc cung cấp rất ít các phân tích về sự tương tác giữa các dữ liệu trong quá trình truy cập Web Dưới đây là 1 số kĩ thuật đã được phát triển 2.1 Pattern discovery tool – các công cụ tìm ra các mẫu dữ liệu: 5 Các công cụ tìm ra các mẫu dữ liệu sẽ dựa trên một số phương pháp và thuật toán được phát triển từ các lĩnh vực như thống kê, khai mõ dữ liệu, máy học, và nhận dạng mẫu để tìm ra các kiến thức cần thiết từ một tập hợp dữ liệu Ví dụ hệ thống webminer đã giới thiệu một kiến trúc tổng quát cho Web usage mining WEBMINER sẽ tự động tìm kiếm các luật kết hợp và một số mô hình tuần tự từ nhật ký truy cập máy chủ 2.2 Pattern analysis tool – các công cụ phân tích mẫu tìm được: Một khi mẫu đã được phát hiện, các nhà phân tích cần những công cụ và kỹ thuật thích hợp để hiểu, và giải thích các mẫu này Ví dụ về các công cụ như vậy bao gồm các hệ thống WebViz , WEBMINER đề xuất một cơ chế truy vấn giống như SQL để truy vấn các kiến thức phát hiện được từ mẫu II Web usage mining: 1 Các giai đoạn trong web usage mining: Như đã thảo luận trong phần 1.2, việc phân tích quá trình sử dụng của người dùng là rất quan trọng để xác định chiến lược tiếp thị hiệu quả và tối ưu hóa cơ cấu của các trang web Đây là quá trình phân tích giúp chúng ta khám phá ra những dữ liệu có ý nghĩa trong một tập hợp dữ liệu vô cùng lớn mà máy chủ thu nhập mỗi ngày Đối với web, những dữ liệu được thu nhập tự động tại máy chủ thông qua việc ghi logs (nhật kí) Phân tích các dữ liệu này sẽ cho chúng ta rất nhiều thông tin để tái cấu trúc lại website qua đó nâng cao tính hiệu quả, tăng cường khả năng quản lý giữa các chức năng, phân tích hành vi của người dùng qua đó hướng quảng cáo tới các nhóm người dùng riêng biệt… Hầu hết các hệ thống phân tích web đều cung cấp những cơ chế cơ bản để báo cáo về hành vi người dùng Nó có thể cho ta biết được số lượng truy cập một file nào đó, thời gian truy cập, và url mà người dùng truy cập 6 Do tính chất đặc biệt của mô hình client-server trong World Wide Web, sự khó khăn trong việc nhận dạng của người dùng cũng như phiên hoạt động của người dùng, sự khác biệt giữa đường dẫn và kho chứa trang web… do đó cần phải phát triển một hệ thống mới hổ trợ tốt hơn quá trình khai thác mỏ dữ liệu Cụ thể, cần có một quá trình tiền xử lý dữ liệu trước khi các thuật toán khai thác mỏ có thể được chạy Bao gồm phát triển một mô hình cho các dữ liệu về nhật ký truy cập, phát triển kỹ thuật để làm sạch /lọc các dữ liệu thô nhằm loại bỏ các giá trị ngoại lai và các mục không liên quan, nhóm quá trình truy cập của các cá nhân vào các đơn vị ngữ nghĩa (là giao tác), tích hợp các nguồn dữ liệu khác nhau vào thông tin đăng ký người dùng , và chuyên môn hoá các thuật toán khai thác dữ liệu để tận dụng tối đa dữ liệu về nhật ký truy cập 1.1 Giai đoạn tiền xử lý: Đầu tiên làm sạch dữ liệu Kỹ thuật này để làm sạch nhật ký máy chủ nhằm loại bỏ các mục không liên quan Đây là kỹ thuật quan trọng không chỉ hổ trợ cho quá trình khai mõ dữ liệu mà còn giúp phân tích thông tin nhật ký Web Các thống kê báo cáo chỉ hữu ích nếu các dữ liệu trong nhật ký máy chủ cho một bức tranh chính xác quá trình truy cập của người sử dụng truy cập của trang web Loại bỏ các mục không liên quan có thể được thực hiện bằng cách kiểm tra các hậu tố của địa chỉ URL Ví dụ: tất cả các mục nhật ký với hậu tố như: gif, jpeg, GIF, JPEG, jpg, JPG… có thể được gỡ bỏ Một vấn đề khó khăn hơn là xác định những truy cập quan trọng mà bị bỏ lỡ không được ghi lại trong nhật ký truy cập Cơ chế cache ở máy người dùng và proxy ở máy chủ có thể làm móp méo bức tranh về quá trình truy cập của người dùng với một trang Web Các phương pháp hiện nay để cố gắng khắc phục vấn đề này bao gồm việc sử dụng cookie, cache busting, và bắt buộc phải đăng ký người dùng Những phương pháp này đều có hạn chế Cookie có thể bị xóa bởi người sử dụng, bộ nhớ cache Busting có ưu điểm là cache được tạo ra riêng biệt để tránh việc browser của người dùng sử dụng lại cache cũ gây ra sự không đồng bộ nhưng 7 chức năng này có thể bị vô hiệu hóa, và việc không cần phải đăng kí người dùng có thể thường xuyên gây ra thông tin sai lệch Các phương pháp để đối phó với vấn đề bộ nhớ đệm bao gồm sử dụng referrer logs, cùng với một số biến lưu thông tin tạm thời để suy ra những dữ liệu nào đã không được đồng nhất Một vấn đề khác liên quan với các máy chủ proxy là nhận dạng người sử dụng Sử dụng một tên máy để xác định người sử dụng có thể dẫn đến tình trạng nhiều người dùng được hiểu như là một người sử dụng Một thuật toán được dùng kiểm tra với mỗi yêu cầu gửi đến máy chủ xem có phải là truy cập từ các trang đã truy cập trước đó hay không Nếu một trang được yêu cầu không phải trực tiếp từ các trang trước thì ta biết được rằng có nhiều người dùng được giả định tồn tại trên cùng một máy Một số cách khác liên quan đến việc sử dụng kết hợp địa chỉ IP, tên máy, trình duyệt, và một số thông tin tạm thời để xác định người sử dụng Bước tiền xử lý lớn thứ hai là đồng nhất giao tác Trước khi tiến hành khai thác mỏ bất kỳ dữ liệu truy cập web, trình tự các trang liên quan mà người dùng truy cập phải được nhóm lại thành các đơn vị có cấu trúc là đại diện cho các giao tác web hoặc phiên sử dụng của người dùng Một phiên sử dụng của người dùng là tất cả các trang liên quan đến một người dùng trong một lần truy cập trang web 1.2 Tìm ra các mẫu dữ liệu: Một khi phiên sử dụng của người dùng được xác định, có nhiều kiểu khai mỏ mẫu truy cập tùy thuộc vào nhu cầu của các nhà phân tích, chẳng hạn như phân tích đường dẫn, khám phá các luật kết hợp và các mẫu tuần tự, và phân nhóm và phân loại Phân tích đường dẫn được dùng để xác định được đường dẫn mà người dùng thường xuyên truy cập Kĩ thuật mẫu tuần tự dùng các thông tin lưu được để đoán được mẫu truy cập tuần tự mà người dùng thường xuyên sử dụng ví dụ người dùng truy cập trang 8 web này phần nhiều từ đâu, từ thông tin đó chúng ta sẽ đặt quảng cáo sao cho hợp lý; Phân tích nhóm người dùng có những đặc tính tương tự nhau từ đó có thể thiết kế web thay đổi tuỳ theo đặc điểm của nhóm đó hoặc có những chính sách marketing hiệu quả hơn tuỳ vào nhóm người dùng cụ thể Phân tích luật kết hợp cho ta thấy được sự tương quan trong quá trình truy cập tập tin khác nhau trên một máy chủ của một khác hàng nhất định Ví dụ: 60% người dùng truy cập trang sản phẩm thì cũng sẽ truy cập trang sản phầm a 1.3 Phân tích mẫu vừa phát hiện: Việc phát hiện mẫu nghiên cứu sẽ không có tác dụng gì nếu không có các công cụ hoặc cơ chế hổ trợ cho quá trình phân tích giúp chúng ta hiểu rõ hơn về mẫu vừa phát hiện Do đó ngoài việc phát triển các kĩ thuật để tìm ra các mẫu nghiên cứu từ nhật kí web, chúng ta phải phát triển thêm các kĩ thuật để phân tích các mẫu tìm được Các kĩ thuật phát triển này thường được rút ra từ nhiều lĩnh vực như thống kê, đồ hoạ, mô hình, phân tích khả dụng, truy vấn cơ sở dữ liệu … Mô hình là một trong những công cụ được sử dụng rất thành công để giúp mọi người hiểu thêm về các hiện tượng khác nhau cả hiện thực lẫn trừu tượng Do đó nó là một lựa chọn tự nhiên để giúp chúng ta hiểu thêm về hành vi của con người Pitkov đã phát triển hệ thống WebViz để mô hình hoá quá trình truy cập www WebViz giúp mô hình hoá các đường dẫn trong trang web WebViz cũng giúp chúng ta loại bỏ những nhánh không liên quan Web sẽ được xem như là một đồ thị trong đó đỉnh sẽ là các trang và nhánh sẽ là các liên kết (hyperlink) Một trong những thành công của cơ sở dữ liệu quan hệ là nó cho phép người dùng đưa ra điều kiện lọc để tìm ra dữ liệu cần dùng, những dữ liệu phải thoả các điều kiện đó, mà không cần phải chỉ rõ dữ liệu nào cần dùng Với 1 số lượng lớn các mẫu dữ liệu từ web, cần một cơ chế giúp ta xác định trọng tâm cần 9 phân tích Đầu tiên cơ sở dữ liệu sẽ chịu trách nhiệm hạn chế một phần những dữ liệu được khai mõ sau đó dùng các ngôn ngữ truy vấn giúp lọc ra những kiến thức mà ta cần hơn là chỉ những dữ liệu đơn thuần Ví dụ trong WEBMINER, nó sẽ lọc ra những gì liên quan đến domain edu có url bắt đầu bằng a, tiếp theo là b và c… SELECT association-rules(A*B*C*) FROM log.data WHERE … 2 Một kiến trúc tiêu biểu – webminer: WEBMINER là một hệ thống đã thực hiện được một phần kiến trúc đã nghiên cứu trên Kiến trúc này gồm hai phần Phần đầu bao gồm các quá trình chuyển đổi dữ liệu web thành các dạng phù hợp Bao gồm tiền xử lý, đồng nhất giao tác, tích hợp dữ liệu Phần thứ hai bao gồm các ứng dụng lớn độc lập với nhau hỗ trợ việc phát hiện các mô hình từ dữ liệu và phân tích các mô hình đó Nhật kí truy cập máy chủ là tập hợp đầy đủ các dữ liệu chứa đầy đủ lịch sử truy cập một file bất kì của người dùng Phần lớn nhật kí truy cập máy chủ đều tuân theo tiêu chuẩn về cấu trúc như là một phần của giao thức HTTP được qui định bởi CERN và NCSA Một mục theo tiêu chuẩn sẽ chứa địa chỉ IP của người dùng, mã người dùng, thời gian truy cập, phương thức truy cập, url truy cập, giao thức truyền dữ liệu, mã lỗi, kích thước dữ liệu truyền 10 Mục tiêu quan trọng nhất của khai mỏ dữ liệu web là tìm ra được mẫu đáng chú ý trong toàn bộ dữ liệu truy cập máy chủ Để đạt được mục tiêu trên dữ liệu phải được chuyển hoá thành dạng thích hợp Do đó quá trình khai mỏ dữ liệu sẽ chia ra làm hai phần: phần đầu bao gồm các quá trình chuyển đổi dữ liệu web thành các dạng phù hợp, bao gồm tiền xử lý, đồng nhất giao tác, tích hợp dữ liệu ; phần thứ hai bao gồm các ứng dụng lớn độc lập với nhau hỗ trợ việc phát hiện các mô hình từ dữ liệu và phân tích các mô hình đó Thông thường sẽ có rất nhiều tập tin được truy cập trong quá trình sử dụng của người dùng Chúng có thể là hình ảnh, âm thanh, video, tập tin thực thi, trang html… Do đó nhật kí máy chủ sẽ chứa rất nhiều mục mà không cần dùng trong quá trình khai mỏ dữ liệu Ví dụ những dữ liệu chứa thông tin về tập tin hình ảnh sẽ được loại bỏ trong quá trình khai mỏ dữ liệu Bước này gọi là làm sạch dữ liệu Làm sạch dữ liệu là bước đầu tiên của quá trình khai mỏ quá trình sử dụng web Một số dữ liệu ở mức thấp được lưu trong thông tin nhật ký của server Sau khi làm sạch các dữ liệu các mục này sẽ được phân chia thành các nhóm logic Mục đích của việc này là giúp tạo ra các nhóm có ý nghĩa tương ứng với từng người dùng cụ thể Việc này có thể bao gồm cả việc chia ra hoặc kết nối lại những dữ liệu cần 11 Dữ liệu nhật ký truy cập máy chủ không chỉ là nguồn duy nhất cho quá trình khai mỏ dữ liệu Những thông tin khác như dữ liệu đăng kí người dùng cũng đóng một vai trò rất quan trọng đặc biệt là đối với các hệ thống đòi hỏi tính bảo mật cao Các dữ liệu tập hợp được từ quá trình đăng kí người dùng sẽ được tích hợp với nhật ký truy cập Khi quá trình chuyển đổi dữ liệu hoàn thành, các dữ liệu đầu vào phải được chuyển hoá thành dạng thích hợp cho các nhiệm vụ khai mõ dữ liệu khác nhau Ví dụ dữ liệu cho việc phân tích đường dẫn phải khác với dữ liệu cho việc phân tích mẫu tuần tự Cuối cùng cái kĩ thuật truy vấn sẽ giúp cho người dùng có nhiều quyền hạn hơn trong quá trình khai mỏ bằng cách cung cấp các biến thích hợp, ràng buộc khác nhau trong quá trình tìm kiếm * Một ví dụ thử nghiệm webminer: Trong ví dụ này một nhóm nghiên cứu đã tiến hành chạy webminer trên trang web http://www.crazy.com Tập tin nhật ký gồm 520k mục tương ứng với số lượng truy cập trong tháng 5 và kích thước của nó là 56mb - Trong trường hợp phân tích luật kết hợp: Sau khi áp dụng các thuật toán cũng như kĩ thuật mà webminer cung cấp họ được báo cáo sau: 12 TH1: có 1,23% thao tác của người dùng chứa trang LC_T3E.html TH2: có 0.68% thao tác của người dùng chứa trang AC_T3E.html TH3: có 82.83% người dùng sau truy cập trang CRAY_T3E.html sau khi truy cập T3E TH4: có 90% người dùng sau truy cập trang CRAY_T3E.html sau khi truy cập T3E và trang J90.html => từ TH3 và TH4 ta có thể thấy rằng có đến hơn 7% người dùng truy cập thêm trang J90.html ngoài T3E thì sẽ truy cập trang CRAY_T3E.html Từ đó ta có thể thấy khi người dùng truy cập trang J90 thường có khuynh hướng phải quay lại T3E Do đó cần phải có giải pháp điều chỉnh lại đường dẫn sao cho hợp lý với nhu cầu người dùng … - Trong trường hợp phân tích mẫu tuần tự: Sau khi áp dụng các thuật toán cũng như kĩ thuật mà webminer cung cấp họ được báo cáo sau: 13 TH1: 5.63% người truy cập sc.html sẽ truy cập tiếp theo trang AC_T3E.html TH2: 2.69% người dùng sẽ truy cập trang quotes.html sau khi đã đi qua TH1 TH3: Mô tả trường hợp người dùng truy cập tuần tự theo qui trình: trước hết người dùng truy cập trang chủ supercomputing.html, trang này sẽ chứa thông tin về giải pháp kĩ thuật t90 của nhóm bayer Trang này có chứa thông tin của nhà cung cấp ứng dụng => Việc phân tích mẫu tuần tự sẽ giúp chúng ta dự đoán được hành động của người dùng và nhờ đó chúng ta có thể cung cấp các gợi ý để chúng ta có thể tái cấu trúc lại hệ thống trang web III Kết luận: Do việc khai mỏ web gồm nhiều hình thứ khác nhau Do đó làm cho mọi người hiểu nhầm khái niêm khai mỏ web Bài tiểu luận này của e đã trình bày khái niệm của khai mỏ web, phân loại và những nỗ lực để phát triển nó Các khảo sát và nghiên cứu đã được thực hiện trong lĩnh vực này đặc biệt là khai thác quá trình 14 sử dụng của người dùng Bài tiểu luận cũng đưa ra một kiến trúc chung cho quá trình khai thác sử dụng web và một ví dụ cụ thể Như chúng ta biết ngày nay thì kĩ thuật khai mỏ web đã được áp dụng rất nhiều và rộng rãi trong cuộc sống hiện nay Tuy nhiên bên trong nó vẫn còn rất nhiều vấn đề và vướng mắc đòi hỏi phải phát triển mạnh hơn Dưới đây là một số hướng nghiên cứu trong tương lai 1 Đối với dữ liệu trong giai đoạn tiền xử lý: Dữ liệu truy cập web được thu nhập từ nhiều nguồn khác nhau, mỗi kĩ thuật sẽ thu nhập các thuộc tính liên quan đến mục đích thu nhập của nó Do đó đòi hỏi phải có một nhu cầu giúp cho quá trình khai mỏ kiến thức được dễ dàng hơn Cụ thể những khó khăn ở giai đoạn này thường liên quan đến các công cụ thu nhập dữ liệu, tích hợp dữ liệu và nhóm các dữ liệu Việc gia tăng chất lượng dữ liệu sẽ giúp cải thiện rất nhiều đến quá trình phân tích dữ liệu Một trong những vấn đề là sự xung đột của các nhà phân tích (những người muốn thu nhập càng nhiều dữ liệu càng tốt) và sự riêng tư của người dùng (những người không muốn dữ liệu bị thu thập quá nhiều) Tiêu chuẩn OPS trong việc thu nhập dữ liệu giúp giải quyết vấn đề dữ liệu nào có thể được thu nhập Tuy nhiên không rõ có bao nhiêu nhà phân tích sẽ tuân thủ điều này Do đó có nhu cầu cần liên tục phát triển các công cụ thu nhập dữ liệu tốt hơn Dữ liệu quá trình sử dụng web tồn tại trong nhiều nguồn đa dạng như nhật kí máy chủ, tập tin đăng kí người dùng, Sự tích hợp cũng như mối tương quan giữa các dữ liệu này có thể tiết lộ thông tin về quá trình sử dụng điều mà sẽ không hiện rõ nếu chúng ta xem xét từng phần riêng biệt Kĩ thuật tích hợp dữ liệu lại nên được xem xét để phát triển tốt hơn 15 2 Đối với quá trình khai mỏ dữ liệu: Khai thác mỏ dữ liệu web đã tiếp thu nhiều lĩnh vực từ việc khai thác dữ liệu, cơ sỡ dữ liệu, truy xuất thông tin, cũng như các kĩ thuật của riêng nó như phân tích đường dẫn Còn rất nhiều kĩ thuật vẫn được thực hiện đễ gia tăng hiệu quả khai mõ dữ liệu web Chất lượng của một thuật toán khai mỏ được đo lường dựa trên hai nguyên tắc là sự hiệu quả trong việc khai mỏ kiến thức và hiệu quả của nó trong việc tính toán Luôn có nhu cầu phải cải thiện hiệu suất của thuật toán trong cả hai mặt Tập hợp các dữ liệu truy cập trên web sẽ ngày càng gia tăng Do đó cần phải phát triển những thuật toán có tính kế thừa dựa vào những dữ liệu cũ đã được khai mõ trước đây Ngoài ra dữ liệu truy cập còn được tập hợp từ nhiều nguồn khác nhau Nếu tất cả dữ liệu được được tích hợp lại trước khi khai mỏ thì sẽ đạt được hiệu quả cao hơn 3 Đối với quá trình phân tích dữ liệu: Đầu ra của thuật toán khai mỏ dữ liệu thường ở dạng mà người dùng không thể trực tiếp sử dụng được Do đó đòi hỏi phải phát triển các kĩ thuật và thuật toán để phân tích Các vấn đề trong lĩnh vực này bao gồm nâng cao quá trình phân tích cũng như giải thích những dữ liệu đã khai mỏ được Có nhu cầu phát triển một công cụ gồm nhiều yếu tố như thống kê, mô hình và đặc biệt là các yếu tố con người giúp chúng ta hiểu rõ hơn về kiến thức mà chúng ta đã khai mỏ rồi 16 Tài liệu tham khảo : - Web Mining: Information and Pattern Discovery on the World Wide Web http://maya.cs.depaul.edu/classes/ect584/papers/cms-tai.pdf - Web Mining Pattern Discovery from World Wide Web Transactions http://maya.cs.depaul.edu/mobasher/papers/webminer-tr96.pdf - Slides bài giảng môn ‘‘Công nghệ tri thức và ứng dụng’’ Tác giả : GS.TSKH Hoàng Kiếm 17 ... đọc tiểu luận I Phân loại web mining: Web content mining – khai mỏ nội dung trang web Việc tìm kiếm thơng tin hữu ích từ nội dung web trình ứng dụng kỹ thuật khai mỏ liệu nội dung Internet Web. .. trang web III Kết luận: Do việc khai mỏ web gồm nhiều hình thứ khác Do làm cho người hiểu nhầm khái niêm khai mỏ web Bài tiểu luận e trình bày khái niệm khai mỏ web, phân loại nỗ lực để phát tri? ??n... tìm kiếm thơng tin giới web Ví dụ: W3QL, WebLog, UnQL, … Web usage mining – khai mỏ trình sử dụng web: Khai mỏ sử dụng Web trình khám phá cách thức truy cập người dùng từ máy chủ Web Tập hợp số

Bài tiểu luận môn Công nghệ tri thức Web mining – khai mỏ thông tin web

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Lời mở đầu:

I. Phân loại web mining:

II. Web usage mining:

III. Kết luận:

Tài liệu tham khảo :

Tài liệu cùng người dùng

Tài liệu liên quan