Phương pháp phân cụm dữ liệu web và xây dựng ứng dụng trong máy tìm kiếm

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN ĐÌNH ĐỊNH PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU WEB VÀ XÂY DỰNG ỨNG DỤNG TRONG MÁY TÌM KIẾM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Công trình đƣợc hoàn thành t ạ i ĐẠI HỌC ĐÀ N Ẵ NG Ngƣời hƣớng dẫn khoa học: PGS.TS. Lê Văn Sơn Phản biện 1: TS. Nguyễn Thanh Bình Phản biện 2: TS. Lê Xuân Việt Luận văn sẽ được bảo vệ tại Hội ñồng chấm Luận v ă n tốt nghi ệ p Thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 19 tháng 01 năm 2013. * Có thể tìm hiểu Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà N ẵ ng - Trung tâm Học liệu, Đại học Đà N ẵ ng. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài - Sự ph t trin nhanh chng ca cc ng dụng công nghệ thông tin và Internet và o nhiề u lĩnh vự c đờ i số ng xã hộ i , quản l kinh tế , khoa họ c kỹ thuậ t … đã tạ o ra nhiề u cơ sở dữ liệ u khổ ng lồ . Cc cơ sở dữ liệ u nà y không phả i khi no cng bất bin theo thi gian m cng vi s pht trin trên , cc cơ s d liệu cng không ngng thay đổ i để đá p ứ ng nhu cầ u sử dụ ng củ a con ngườ i . Qu trình tin ha ca lĩnh vc cơ s d liệu (CSDL) tạo nên việc khai ph d liệu (Data Mining) được coi l giai đoạn tin ha mi ca công nghệ CSDL, việc thu thập v lưu tr cc kho cha d liệu khổng lồ được liệt kê  ngoi mục đích khai ph d liệu, nhằm pht hiện cc tri thc mi giúp ích cho hoạt động ca con ngưi trong tập hợp d liệu. Chẳng hạn, t một giải php phân cụm trong khai ph d liệu Web (Web Mining), c th pht trin thnh một thnh phần ca my tìm kim (Search Engine) đ khi một trang Web mi được tải về, my tìm kim sẽ t động n vo một cụm trang Web đã được xc định; việc phân cụm sẽ tạo ra thuận lợi cho việc tìm kim về sau cho ngưi dng. Chính vì l do ny m tôi nghiên cu v chọn đề ti: “Phương pháp phân cụm dữ liệu Web và xây dựng ứng dụng trong máy tìm kiếm” l điều cấp thit hiện nay, dưi s hưng dẫn ca thầy PGS- TS. Lê Văn Sơn. 2. Mục tiêu nghiên cứu Mục tiêu l nắm được một số phương php phân cụm d liệu Web t đ xây dng d liệu tìm kim nhanh thông qua cc địa chỉ t kha cần tìm. Đ thc hiện mục đích  tưng đề ra cần nghiên cu và tin hành trin khai các nội dung như sau: 2 - Nghiên cu cơ s lý thuyt về các khai phá d liệu Web trong việc tìm kim. - Thu thập, phân loại các phân cụm Web t thuật toán cổ đin đn hiện tại. - Tìm hiu các thuật toán phân cụm hiện có. - Xây dng được chất lượng ca các kt quả tìm kim sẽ tốt hơn trong việc phân cụm văn bản trên Web. - Xử lý tng mẫu thông tin ngay khi lấy được t Web có kt quả tc thi ng vi tại mỗi thi đim. - Tạo các liên kt vi các trang Web tìm kim qua URL. 3. Đối tƣợng và phạm vi nghiên cứu T nhng yêu cầu ca đề ti ta xc định được đối tượng v phạm vi nghiên cu như sau: * Đối tượng nghiên cứu: - Xây dng khai ph d liệu số, phân loại theo dạng văn bản. - Cấu trúc đối tượng l CSDL quan hệ, khai ph d liệu Text t do. * Phạm vi nghiên cứu: - Áp dụng phương php phân cụm trong việc tìm kim nhanh cc trang Web theo ch đề t kha cần tìm. 4. Phƣơng pháp nghiên cứu - Thu thập v phân tích cc ti liệu v thông tin liên quan đn đề ti. - Xem xét, la chọn phương php đ giải quyt vấn đề. - Trin khai xây dng chương trình ng dụng. - Kim tra, thử nghiệm v đnh gi kt quả. 5. Bố cục của đề tài Luận văn được trình by bao gồm cc phần chính như sau: 3 + Phần m đầu + Chương 1: Tổng quan về khai ph d liệu Web. + Chương 2: Một số phương php phân cụm d liệu. + Chương 3: Xây dng phương php tìm kim v kt quả thc nghiệm. + Phần kt luận. 6. Tổng quan về tài liệu nghiên cứu My tìm kim (Search Engine) đã pht trin kh hon thiện vo cuối th kỷ 20  cc nưc pht trin. Ở Việt Nam, nghiên cu v ng dụng my tìm kim đang trong giai đoạn pht trin ban đầu. Trong luận văn ny ti liệu nghiên cu v tham khảo ca nhiều tc giả thưng tìm hiu sâu vo cc công nghệ quan trọng ca my tìm kim: phương php phân cụm d liệu, bộ lập chỉ mục (indexing), bộ tìm kim (searching), bộ xp hạng (ranking). Đồng thi nghiên cu kin trúc cc hệ thống URL sẵn c phục vụ mục đích xây dng một hệ tìm kim cho trang Web. Áp dụng nhng thnh tu ca khoa học my tính đ hon thiện cỗ my tìm kim l một công việc quan trọng . Bi tìm kim nhng th tốt nhất phục vụ cho công việc v cuộc sống l một nhu cầu rất cần thit ca mỗi ngưi. Mỗi ngnh cụ th lại c cc phương php v công cụ tìm kim đặc th khc nhau, nhưng kt quả cuối cng l cho ra kt quả tìm kim tốt nhất. Trong qu trình hon thnh luận văn, tôi đã tìm hiu v sử dụng cc nguồn ti liệu rất c gi trị sau đây: Các tài liệu về phương php phân cụm d liệu; Hong Văn Dng, “Khai phá dữ liệu Web bằng kỹ thuật phân cụm”, luận văn thạc sĩ, Trưng ĐHSP H Nội, 2007; Hà Quang Thụy, “Khai phá dữ liệu Web”, Bi giảng, Trưng Đại học công nghệ, ĐHQGHN,2008; Ho Tu Bao, Knowledge Discovery and Data Mining, 2000. 4 Các tài liệu về phân cụm và áp dụng bộ máy tìm kim; Hà Quang Thụy, “Giáo trình khai phá dữ liệu Web”, Nh xuất bản giáo dục Việt nam, 2009; Lizhen Liu, Junjie Chen, Hantao Song, The research of Web Mining, IEEE, 2002; các nguồn d liệu hiện có hiện nay bing.com .v.v. 5 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. KHAI PHÁ DỮ LIỆU 1.1.1. Tại sao cần phải khai phá dữ liệu (datamining) 1.1.2. Các bƣớc của quá trình phát hiện tri thức 1.1.3. Các hƣớng tiếp cận và các kỹ thuật trong KPDL 1.1.4. Các loại dữ liệu có thể khai phá 1.1.5. Các ứng dụng của khai phá dữ liệu (KPDL) a. Các ứng của khai phá dữ liệu (KPDL) b. Những vấn đề chú trọng trong khai phá dữ liệu 1.2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 1.2.1. Tổng quan về kỹ thuật phân cụm 1.2.2. Phân cụm là gì 1.2.3. Một số ứng dụng của phân cụm dữ liệu 1.2.4. Các yêu cầu đối với kỹ thuật phân cụm 1.2.5. Các kiểu dữ liệu và độ đo tƣơng tự a. Các kiểu dữ liệu dựa trên kích thước miền b. Khái niệm độ đo tương tự, phi tương tự và khoảng cách 1.3. KHAI PHÁ WEB 1.3.1. Giới thiệu về khai phá web và nhu cầu khai thác thông tin 1.3.2. Đặc điểm của dữ liệu Web 1.3.3. Các hƣớng tiếp cận khai phá dữ liệu Web 1.3.4. Các kiểu dữ liệu Web a. Sơ đồ dữ liệu Web b. Dữ liệu văn bản 1.3.5. Một số xử lý văn bản trong khai phá dữ liệu Web a. Xử lý dữ liệu văn bản b. Loại bỏ từ dừng 6 Trong ngôn ng t nhiên thông thưng cc t thưng biu diễn về cấu trúc câu ch không biu đạt nội dung ca n. Do đ cc t như gii t, t nối … thưng xuất hiện nhiều lần m không liên quan gì về ch đề hoặc nội dung văn bản nên ta phải loại bỏ đi đ giảm số chiều ca vector biu diễn văn bản, nhng t như vậy được gọi l nhng t dng. c. Chọn từ gốc (Word stemming) Trong ting anh hay trong nhiều ngôn ng khc, nhiều t c chung một nguồn gốc, hoặc l bin sang t gốc no đ. Chẳng hạn, cc t “computer”, “computers”, “computing” đều c chung một nguồn gốc l “comput”. Ý tưng chọn t gốc đ biu diễn cc t trong văn bản thông qua t gốc. d. Kết hợp các từ có chung nguồn gốc Hầu ht trong cc ngôn ng đều c rất nhiều t c chung nguồn gốc vi nhau, chúng mang  nghĩa tương t nhau. Đ giảm bt số chiều trong biu diễn văn bản, ta sẽ kt hợp cc t c cng gốc thnh một t. Ví dụ: Trong ting Anh cc t user, users, used, using c cng t gốc v sẽ được quy về l use; cc t engineering, engineered, engineer c cng t gốc sẽ được quy về l engineer. Ví dụ xử l t gốc trong ting Anh: - Nu một t kt thúc bằng “ing” thì xa “ing”, ngoại tr trưng hợp sau khi xa còn lại một k t hoặc còn lại “th”. - Nu một t kt thúc bằng “ies” nhưng không phải l “eies” hoặc “aies” thì thay th “ies” bằng “y” . - Nu một t kt thúc bằng “es” thì bỏ “s”. - Nu một t kt thúc bằng "s" v đng trưc n l một phụ âm khc “s” thì xa “s”. 7 rt.ft K - Nu một t kt thúc bằng “ed”, nu trưc n l một phụ âm thì xa “ed” ngoại tr sau khi xa t chỉ còn lại một k t, nu đng trưc l nguyên âm “i” thì đổi “ied” thnh “y”. e. Đinh luật Zipf Đ mô tả định luật Zipf, ta gọi tổng số tần số xuất hiện ca t t trong ti liệu D là f t . Sau đ sắp xp tất cả cc t trong tập hợp theo chiều giảm dần ca tần số xuất hiện f v gọi th hạng ca mỗi t t là r t . Định luật Zipf được pht biu dưi dạng công thc như sau: (vi K l một hằng số). Trong ting Anh, ngưi ta thấy rằng hằng số: ( N l số t trong văn bản bản) Ta c th vit lại định luật Zipf như sau: Giả sử t t i được sắp xp  vị trí thấp nhất vi tần số xuất hiện là b no đấy và t t j cng được sắp  vị trí thấp k tip vi một tần số xuất hiện là b+1. Ta có th thu được th hạng xấp xỉ ca các t này là: (1.9) Ta bắc đầu tr 2 biu thc này cho nhau ta xấp xỉ đối vi các t riêng biệt có tần số xuất hiện là b. K N/10 r t K/ f t rt i K/b và rt j K/(b+1) rt i - rt j K/b-K/(b+1) = K/b(b+1) 8 Ta xấp xỉ giá trị ca t trong tập hợp có th hạng cao nhất. Một cách tổng quát, một t chỉ xuất hiện một lần trong tập hợp, ta có Xét phân bố ca các t duy nhất xuất hiện b lần trong tập hợp, chia 2 v cho nhau ta được K/b. Do đ, định luật Zipf cho ta thấy s phân bố đng chú  ca các t riêng biệt trong 1 tập hợp được hình thành bi các t xuất hiện ít nhất trong tập hợp. Một câu hỏi thưng đặt ra l: Tần số c phải l yu tố quan trọng trong văn bản hay không? Xét ví dụ trong [1][26] như sau: Hình 1.1. Lược đồ thống kê tần số của từ theo định luật Zipf 1.3.6. Các phƣơng pháp biểu diễn dữ liệu văn bản a. Phương pháp Booble Cho một tập gồm m văn bản, D={d 1 , d 2 , ., d m }. Tập t vng được biu diễn dưi dạng một vector gồm n thuật ng T={t1, t2, .,tn}. Gọi W={w ij } l ma trận trọng số, w ij l gi trị trọng số ca thuật ng t i trong ti liệu d j . rmax=K.

Ngày đăng: 31/12/2013, 09:53

Xem thêm: Phương pháp phân cụm dữ liệu web và xây dựng ứng dụng trong máy tìm kiếm , Phương pháp phân cụm dữ liệu web và xây dựng ứng dụng trong máy tìm kiếm

Phương pháp phân cụm dữ liệu web và xây dựng ứng dụng trong máy tìm kiếm

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan