Tổng quan khai phá dữ liệu và ứng dụng

Thông tin tài liệu

Luận văn tốt nghiệp Tổng quan khai phá dữ liệu và ứng dụng Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU (DATAMING) VÀ KDD 1.1.1. Tại sao lại cần khai phá dữ liệu (datamining) Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ . Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đ i” ấy không ? “Necessity is the mother of invention” - Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên []. Khá nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. 1.1.2. Khai phá dữ liệu là gì? Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu), Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự độ ng khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:s 1. Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không cần thiết. 2. Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả vi ệc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. 4. Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý 5. Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu. 6. Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kế t quả tìm được thông qua các độ đo nào đó. 7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng. Hình 1 - Các bước trong Data Mining & KDD 1.1.3. Các chức năng chính của khai phá dữ liệu Data Mining được chia nhỏ thành một số hướng chính như sau: • Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. • Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kế t hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, .v.v. • Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạ ng nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là học có giám sát (học có thầy). • Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám sát (học không thầy). • Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp c ận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. 1.1.4. Ứng dụng của khai phá dữ liệu Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình: • Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) • Điều trị y học (medical treatment) • Text mining & Web mining • Tin-sinh (bio-informatics) • Tài chính và thị trường chứng khoán (finance & stock market) • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) • .v.v. 1.2. CƠ SỞ SỮ LIỆU HYPERTEXT VÀ FULLTEXT 1.2.1. Cơ sở dữ liệu FullText Dữ liệu dạng FullText là một dạng dữ liệu phi cấu trúc với thông tin chỉ gồm các tại liệu dạng Text. Mỗi tài liệu chứa thông tin về một vấn đề nào đó thể hiện qua nội dung của tất cả các từ cấu thành tài liệu đó. Ý nghĩa của mỗi từ trong tài liệu khkông cố định mà tuỳ thuộc vào từng ngữ cảnh khác nhau sẽ mang ý nghĩa khác nhau. Các từ trong tài liệu được liên kết với nhau theo một ngôn ngữ nào đó. Trong các dữ liệu hiện nay thì văn bản là một trong những dữ liệu phổ biến nhất, nó có mặt ở khắp mọi nơi và chúng ta thường xuyên bắt gặp do đó các bài toán về xử lý văn bản đã được đặt ra khá lâu và hiện nay vẫn là một trong những vấn đề trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản hoặc dẫn đường văn bản CSDL full_text là một dạng CSDL phi cấu trúc mà dữ liệu bao gồm các tài liệu và thuộc tính của tài liệu. Cơ sở dữ liệu Full_Text thường được tổ chức như môt tổ hợp của hai thành phần: Một CSDL có cấu trúc thông thường (chứa đặc điểm của các tài liệu) và các tài liệu Nội dung cuả tài liệu được lưu trữ gián tiếp trong CSDL theo nghĩa hệ thống chỉ quản lý địa chỉ lưu trữ nội dung. Cơ sở dữ liệu dạng Text có thể chia làm hai loại sau: Dạng không có cấu trúc (unstructured): Những văn bản thông thường mà chúng ta thường đọc hàng ngày đượ c thể hiện dưới dạng tự nhiên của con người và nó CSDL Full-Text CSDL có cấu trúc chứa đặc điểm của các tài li ệ u Các tài liệu không có một cấu trúc định dạng nào. VD: Tập hợp sách, Tạp chí, Bài viết được quản lý trong một mạng thư viện điện tử. Dạng nửa cấu trúc (semi-structured): Những văn bản được tổ chức dưới dạng cấu trúc không chặt chẽ như bản ghi các ký hiệu đánh dấu văn bản và vẫn thể hiện được nội dung chính của văn bản, ví dụ như các d ạnh HTML, email, Tuy nhiên việc phân làm hai loại cũng không thật rõ ràng, trong các hệ phần mềm, người ta thường phải sử dụng các phần kết hợp lại để thành một hệ như trong cá hệ tìm tin (Search Engine), hoặc trong bài toán tìm kiếm văn bản (Text Retrieval), một trong những lĩnh vực qua tâm nhất hiện nay. Chẳng hạn trong hệ tìm kiếm như Yahoo, Altavista, Google đều tổ chức dữ liệu theo các nhóm và thư mục, mỗi nhóm lại có thể có nhiề u nhóm con nằm trong đó. Hệ Altavista còn tích hợp thêm chương trình dịch tự động có thể dịch chuyển đổi sang nhiều thứ tiếng khác nhau và cho kết quả khá tốt. 1.2.2. Cơ sở dữ liệu HyperText Theo từ điển của Đại học Oxford (Oxford English Dictionary Additions Series) thì Hypertext được định nghĩa như sau: Đó là loại Text không phải đọc theo dạng liên tục đơn, nó có thể được đọc theo các thứ tự khác nhau, đặc biệt là Text và ảnh đồ họa (Graphic) là các dạng có mối liên kết với nhau theo cách mà người đọc có thể không cần đọc một cách liên tục. Ví dụ khi đọc một cuốn sách người đọc không phải đọc lần lượt từng trang từ đầu đến cuối mà có thể nhảy cóc đến các đoạn sau để tham khảo về các vấn đề họ quan tâm. Như vậy văn bản HyperText bao gồm dạng chữ viết không liên tục, chúng đượ c phân nhánh và cho phép người đọc có thể chọn cách đọc theo ý muốn của mình. Hiểu theo nghĩa thông thường thì HyperText là một tập các trang chữ viết được kết nối với nhau bởi các liên kết và cho phép người đọc có thể đọc theo các cách khác nhau. Như ta đã làm quen nhiều với các trang định dạng HTML, trong các trang có những liên kết trỏ tới từng phần khác nhau của trang đó hoặc trỏ tới trang khác, và người đọc sẽ đọc văn bản dự a vào những liên kết đó. Bên cạnh đó, HyperText cũng là một dạng văn bản Text đặc biệt nên cũng có thể bao gồm các chữ viết liên tục (là dạng phổ biến nhất của chữ viết). Do không bị hạn chế bởi tính liên tục trong HyperText, chúng ta có thể tạo ra các dạng trình bày mới, do đó tài liệu sẽ phản ánh tốt hơn nội dung muốn diễn đạt. Hơn nữa người đọ c có thể chọn cho mình một cách đọc phù hợp chẳng hạn như đi sâu vào một vấn đề mà họ quan tâm. Sáng kiến tạo ra một tậpc cá văn bản cùng với các con trỏ trỏ tới các văn bản khác để liên kết một tập các văn bản có mối quan hệ voiứ nhau với nhau là một cách thực sự hay và rất hữu ích để tổ chức thông tin. Với người viết, cách này cho phép họ có thể thoải mái loại bỏ những băn khoăn về thứ tự trình bày, mà có thể tổ chức vấn đề thành những phần nhỏ, rồi sử dụng kết nối để chỉ ra mối liên hệ giữa các phần nhỏ đó với nhau. Với người đọc cách này cho phép họ có thể đi tắt trên mạng thông tin và quyết định phần thông tin nào có liên quan đến vấn đề mà họ quan tâm để tiêp tục tìm hiểu. So sánh với cách đọc tuyến tính, tức là đọc lần lượt thì HyperText đã cung cấp cho chúng ta một giao diện để có thể tiếp xúc với nội dung thông tin hiệu quả hơn rất nhiều. Theo khía cạnh của các thuật toán học máy thì HyperText đã cung cấp cho chúng ta cơ hội nhìn ra ngoài phạm vi một tài liệu để phân lớp nó, nghĩa là có tính cả đến các tài liệu có liên kết với nó. Tất nhiên không phải tất cả các tài liệu có liên kết đến nó đều có ích cho việc phân lớp, đặc biệt là khi các siêu liên kết có thể chỉ đến rất nhiều loại các tài liệu khác nhau. Nhưng chắ c chắn vẫn còn tồni tại tiềm năng mà con người cần tiếp tục nghiên cứu về việc sử dụng các tài liệu liên kết đến một trang để nâng cao độ chính xác phân lớp trang đó. Có hai khái niệm về HyperText mà chúng ta cần quan tâm: Hypertext Document (Tài liệu siêu văn bản): Là một tài liệu văn bản đơn trong hệ thống siêu văn bản. Nếu tưởng tượng hệ thống siêu văn bản là một đồ th ị, thì các tài liệu tương ứng với các nút. Hypertext Link (Liên kết siêu văn bản): Là một tham chiếu để nối một tài liệu HyperText này với một tài liệu HyperText khác. Các siêu liên kết đóng vai trò như những đường nối trong đồ thị nói trên. HyperText là loại dữ liệu phổ biến hiện nay, và cũng là loại dữ liệu có nhu cầu tìm kiếm và phân lớp rấ lớn. Nó là dữ liệu phổ biến trên mạng thông tin Internet CSDL HyperText với văn b ản dạng “nửa cấu trúc” do xuất hiện thêm các “thẻ “: Thẻ cấu trúc (tiêu đề, mở đầu, nội dung), thẻ nhấn trình bày chữ (đậm, nghiêng,…). Nhờ các thẻ này mà chúng ta có thêm một tiêu chuẩn (so với tài liệu fulltext) để có thể tìm kiếm và phân lớp chúng. Dựa vào các thẻ đã quy định trước chúng ta có thể phân thành các độ ưu tiên khác nhaucho các từ khóa nếu chúng xuất hiện ở những vị trí khác nhau. Ví dụ khi tìm kiếm các tài liệu có nội dung liên quan đến “people “ thì chúng ta đưa từ khóa tìm kiếm là “people”, và các tài liệu có từ khóa “poeple” đứng ở tiêu đề thì sẽ gần với yêu cầu tìm kiếm hơn. So s¸nh ®Æc ®iÓm cña d÷ liÖu Fulltext vµ d÷ liÖu trang web Mặc dù trang Web là một dang đặc biệt của dữ liệu FullText, nhưng có nhiều điểm khác nhau giữa hai loại dữ liệu này. Một số nhận xét sau đây cho thấy sự khác nhau giữa dữ liệu Web và FullText. Sự khác nhau về đặc điểm là nguyên nhân chính dẫn đến sự khác nhau trong khai phá hai loại dữ liệu này (phân lớp, tìm kiếm,…). Một sơ đồ minh hoạ Hypertext Document như là các nút và các Hypertext Link như là các liên kết giữa chúng Một số đối sánh dưới đây về đặc điểm giữa dữ liệu Fulltext với dữ liệu trang đã được trình bày trong [2]. STT Trang web Văn bản thông thường (Fulltext) 1 Là dạng văn bản “nửa cấu trúc”. Trong nội dung có phần tiêu đề và có các thẻ nhấn mạnh ý nghĩa của từ hoặc cụm từ Văn bản thường là dạng văn bản “phi cấu trúc”. Trong nội dung của nó không có một tiêu chuẩn nào cho ta dựa vào đó để đánh giá 2 Nội dung của các trang Web thường đườn mô tả ngắn gọn, cô đọng, có các siêu liên kết chỉ ra cho người đọc đến những nơi khác có nội dung liên quan Nội dung của các văn bản thông thường thường rất chi tiết và đầy đủ 3 Trong nội dung các trang Web có chứa các siêu liên kết cho phép liên kết các trang có nội dung liên với nhau Các trng văn bản thông thường không liên kết được đến nội dung của các trang khác 1.3. KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) Như đã đề cập ở trên, TextMining (Khai phá dữ liệu văn bản) và WebMining (Khai phá dữ liệu Web) là một trong những ứng dụng quan trọng của Datamining. Trong phần này ta sẽ đi sâu hơn vào bài toán này. 1.3.1. Các bài toán trong khai phá dữ liệu văn bản 1. Tìm kiếm văn bản a. Nội dung Tìm kiếm văn bản là quá trình tìm kiếm văn bản theo yêu cầu của người dùng. Các yêu cầu đượ c thể hiện dưới dạng các câu hỏi (query), dạng câu hỏi đơn giản nhất là các từ khóa. Có thể hình dung hệ tìm kiếm văn bản sắp xếp văn bản thành hai lớp: Một lớp cho ra những các văn bản thỏa mãn với câu hỏi đưa ra và một lớp không hiển thị những văn bản không được thỏa mãn. Các hệ thống thực tế hiện nay không hiển thị như vậy mà đưa ra các danh sách văn bản theo độ quan trọng của văn bản tuỳ theo các câu hỏi đưa vào, ví dụ điển hình là các máy tìm tin như Google, Altavista,… b. Quá trình Quá trình tìm tin được chia thành bốn quá trình chính : Đánh chỉ số (indexing): Các văn bản ở dạng thô cần được chuyển sang một dạng biểu diễn nào đó để xử lý. Quá trình này còn được gọi là quá trình biểu diễn văn bản, dạng biểu diễn phải có cấu trúc và d ẽ dàng khi xử lý. Định dạng câu hỏi: Người dùng phải mô tả những yêu cầu về lấy thông tin cần thiết dưới dạng câu hỏi. Các câu hỏi này phải được biểu diễn dưới dạng phổ biến cho các hệ tìm kiếm như nhập vào các từ khóa cần tìm. Ngoài ra còn có các phương pháp định dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đối với các dạngnày thì cần có các kỹ thuật xử lý phức tạp hơn. Trong các hệ tìm tin hiện nay thì đại đa số là dùng câu hỏi dưới dạng các từ khóa. So sánh: Hệ thống phải có sự so sánh rõ ràng và hoàn toàn câu hỏi các câu hỏi của người dùng với các văn bản đượcl ưu trữ trong CSDL. Cuối cùng hệ đưa ra một quyết định phân loại các văn bản có độ liên quan gầnvới câu hỏi đưa vào và thứ tự của nó. Hệ sẽ hi ển thị toàn bộ văn bản hoặc chỉ một phần văn bản. Phản hồi: Nhiều khi kết quả được trả về ban đầu không thỏa mãn yêu cầu của người dùng, do đó cần phải có qua trình phản hồi để người dùng có thểt hay đổi lại hoặc nhập mới các yêu cầu của mình. Mặt khác, người dùng có thể tương tác với các hệ về các văn bản th ỏa mãn yêu cầu của mình và hệ có chức năng cập nhậu các văn bản đó. Quá trình này được gọi là quá trình phản hồi liên quan (Relevance feeback). Các công cụ tìm kiếm hiện nay chủ yếu tập trung nhiều vào ba quá trình đầu, còn phần lớn chưa có quá trình phản hồi hay xử lý tương tác người dùng và máy. Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện hướng nghiên cứu là interface agent. 2. Phân lớp vă n bản(Text Categoization) a. Nội dung Phân lớp văn bản được xem như là quá trình gán các văn bản vào một hay nhiều văn bản đã xác định từ trước. Người ta có thể phân lớp các văn bản mộtc ách thủ công, tức là đọc từng văn bản một và gán nó vào một lớp nào đó. Cách này sẽ tốn rất nhiều thời gian và công sức đối với nhiều văn bản và do đó không khả thi. Do vậy mà [...]... th no thỡ quan tõm n lnh vc no vi tin cy l ngng c 2.5 KT LUN Chng 3 BI TON PHN LP 3.1 PHT BIU BI TON Trong tự nhiên, con ngời thờng có ý tởng chia sự vật thành các phần, các lớp khác nhau Tơng tự nh vậy, giải thuật phân lớp đơn giản chỉ là một phép ánh xạ cơ sở dữ liệu đã có sang một miền giá trị cụ thể nào đó, dựa vào một thuộc tính hoặc một tập hợp các thuộc tính của dữ liệu Lớp 1 Dữ liệu vào Giải... tớnh s link n P Gi quan trng nhn c t phng phỏp tớnh ny l IB(P) 3 Tớnh quan trng bi chớnh a ch URL ca nú Nu a ch trang Web no tn cựng bng".com" hay cú cha t "home" s quan trng hn Gi quan trng nhn c t phng phỏp tớnh ny l IL(P) 4 Mt phng phỏp na tớnh quan trng l m s ln ngi dựng truy cp vo trang trong mt khong thi gian no ú Vy cui cựng quan trng ca trang P s l s kt hp ca cỏc quan trng tớnh theo... đó phân tích và tìm kiếm trong cơ sở dữ liệu đã có sẵn và đa ra các kết quả là các trang web cho ngời sử dụng C th, ngi dựng gi mt truy vn, dng n gin nht l mt danh sỏch cỏc t khúa, v mỏy tỡm kim s lm vic tr li mt danh sỏch cỏc trang Web cú liờn quan hoc cú cha cỏc t khúa ú Phc tp hn, thỡ truy vn l c mt vn bn hoc mt on vn bn hoc ni dung túm tt ca vn bn 2.2 CU TRC V C CH HOT NG 2.2.1 Tng quan v cỏc h... trang "quan trng" Vy nhng trang nh th no c coi l quan trng v quan trng c tớnh toỏn nh th no? - Bi vỡ ni dung cỏc trang Web liờn tc thay i nờn sau khi download, crawler phi thng xuyờn thm li cỏc trang ó c down cp nht s thay i ú Hn na mc thay i ca cỏc trang l khỏc nhau nờn crawler phi cn thn xem xột trang no cn xem li, trang no b qua Vn 1: quan trng Cho mt trang Web P, chỳng ta cú cỏc cỏch tớnh quan. .. vi mt vn bn HyperText Chớnh vì những khó khăn gặp phải nh vậy mà việc biểu diễn dữ liệu trong các máy tìm kiếm là rất quan trọng Biểu diễn các trang web nh thế nào để có thể lu trữ đợc một số lợng khổng lồ các trang web đó để máy tìm kiếm có thể thực hiện việc tìm kiếm nhanh chóng và đa ra các kết quả chính xác cho ngời sử dụng? a Biu din vn bn HyperText trong cỏc mỏy tỡm kim (inverted index) Modul Indexer... Nh ó phõn tớch v c im v ni dung cỏc vn bn HyperText trờn, t ú khai phỏ d liu Web cng s tp trung vo cỏc thnh phn cú trong trang Web ú chớnh l: 1 Khai phỏ ni dung trang Web (Web Content mining) Khai phỏ ni dung trang Web gm hai phn: a Web Page Content Ngha l s s dng ch cỏc t trong vn bn m khụng tớnh n cỏc liờn kt gia cỏc vn bn õy chớnh l khai phỏ d liu Text (Textmining) b.Search Result Tỡm kim theo kt... cỏc mỏy tỡm kim, sau khi ó tỡm ra nhng trang Web tho món yờu cu ngi dựng, cũn mt cụng vic khụng kộm phn quan trng, ú l phi sp xp kt qu theo th t d gn nhau vi ni dung cn tỡm kim õy cng chớnh l khai phỏ ni dung trang Web 2 Web Structure Mining Khai phỏ da trờn cỏc siờu liờn kt gia cỏc vn bn cú liờn quan 3 Web Usage Mining a General Access Partern Tracking: Phõn tớch cỏc Web log khỏm phỏ ra cỏc mu truy... sau: 1 Cú mt truy vn Q quan trng ca P c nh ngha l "s ging nhau v t ng" gia P v Q 2 Biu din Q v P bi hai vector n chiu v=(w1, w2, , wn) vi wi l biu th cho t th i trong b t vng , c th wi=s ln xut hin ca t th i chờch lch gia P v Q l giỏ tr cos ca hai vector biu din Gi quan trng nhn c t phng phỏp tớnh ny l IS(P) 2 Trang no c nhiu trang khỏc link n s quang trng hn, nờn mt cỏch tớnh quan trng ca trang P... cú ngha l A l trang cú hu ớch vi vn ang bn lun Nu trang A cng nhiu Hyperlink t trang khỏc tr n chng t trang A quan trng Vỡ vy s lng ln cỏc thụng tin liờn kt trang s cung cp mt lng thụng tin giu cú v mi liờn quan, cht lng, v cu trỳc ca ni dung trang Web, v vỡ th l mt ngun ti nguyờn ln cho khai phỏ Web 2 Mt mỏy ch Web thng ng ký mt bn ghi u vo (Weblog entry) cho mi ln truy cp trang Web Nú bao gm a ch... computer science vn bn 2: computer is about live vn bn 3: to live or not to live Quỏ trỡnh to file Index nh sau: - Ly tất cả các từ có mặt trong cả 4 tài liệu - Lu trữ chúng theo thứ tự a, b, c, - Lu trữ các thông tin về tài liệu (bao gồm mã tài liệu, địa chỉ URL, tiêu đề, miêu tả ngắn gọn ) Kt qu thu c mt File Inverted index l mt danh sỏch cỏc thụng tin sau: Từ Mã Vị địa Tiêu Miêu About 2 3 Computer . Tổng quan khai phá dữ liệu và ứng dụng Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU (DATAMING) VÀ. 1.3. KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) Như đã đề cập ở trên, TextMining (Khai phá dữ liệu văn bản) và WebMining

Ngày đăng: 16/02/2014, 03:04

Xem thêm: Tổng quan khai phá dữ liệu và ứng dụng, Tổng quan khai phá dữ liệu và ứng dụng

Tổng quan khai phá dữ liệu và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan