Tìm hiểu bài toán khai phá dữ liệu văn bản

53 38 0
Tìm hiểu bài toán khai phá dữ liệu văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Em xin bày tỏ lời cảm ơn sâu sắc tới PGS.TS Đỗ Năng Toàn, thầy tận tình hướng dẫn giúp đỡ em nhiều trình làm tốt nghiệp để tìm hiểu, nghiên cứu đề tài “Tìm hiểu tốn khai phá liệu văn bản” giao để em hồn thành tốt đề tài tốt nghiệp Em xin chân thành cảm ơn dạy bảo thầy cô giáo khoa CNTT – Trường ĐHDLHP trang bị cho em kiến thức để em hồn thành tốt đề tài tốt nghiệp Tuy có nhiều cố gắng trình làm đề tài em khơng tránh khỏi sai sót Em mong thầy giáo dẫn, đóng góp cho em ý kiến quý báu để giúp em hoàn thiện đề tài để phát triển mở rộng đề tài sau Em xin chân thành cảm ơn! Hải Phịng/2020 Sinh viên Tìm hiểu tốn khai phá liệu văn MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.2 Quá trình khai phá liệu 1.3 Các tốn thơng dụng khai phá liệu CHƯƠNG – KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG PHẦN I: Lấy tin tự động Định nghĩa Quy trình lấy tin tự động PHẦN II: Khai phá liệu lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích 1.2 Đặc điểm 1.3 Cấu trúc 1.4 Ứng dụng XML Tìm hiểu RSS 2.1 Tổng quan RSS 2.2 Lịch sử đời RSS 2.3 Quy định RSS 2.4 Cú pháp RSS Tìm hiểu tốn khai phá liệu văn 2.5 Các phần tử RSS 2.6 Các phần tử RSS CHƯƠNG 3: PHÂN TÍCH THIẾT KẾ CHƯƠNG TRÌNH 3.1 Tổng quan chương trình 3.2 Khảo sát, phân tích đánh giá yêu cầu 3.2.1 Khảo sát số chương trình hỗ trợ đọc tin tức RSS 3.2.2 Tổng hợp yêu cầu người dùng 3.2.3 Đánh giá lựa chọn giải pháp 3.3 Phân tích chức hệ thống 3.3.1 Biểu đồ Use Case 3.3.2 Đặc tả Use - case 3.3.3 Biểu đồ (Sequence Diagram) 3.4 Thiết kế sở liệu 3.4.1 Đặc tả chi tiết bảng liệu 3.4.2 Mô hình quan hệ CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH 4.1 Quy trình tự động lấy đường dẫn tới tập tin RSS 4.2 Quy trình đọc tập tin RSS 4.3 Một số hình giao diện đạt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO PHỤ LỤC Tìm hiểu tốn khai phá liệu văn LỜI NÓI ĐẦU Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Vấn đề đặt ta nắm bắt, cập nhật, chia sẻ thơng tin cách tổng qt, nhanh chóng dễ dàng khối lượng thông tin khổng lồ Do địi hỏi phải khai phá nguồn liệu để lấy thơng tin có ích cách tự động Trên giới nay, nhiều website cung cấp tập tin RSS để chia sẻ cập nhật thông tin cách dễ dàng nhanh chóng Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo,…và số phần mềm như: RSSReader, FeedDemon Cịn Việt Nam, có số phần mềm hỗ trợ Tìm hiểu toán khai phá liệu văn đọc tin như: Vietspider, iCA website hỗ trợ đọc tin RSS trực tuyến chưa nhiều Chính đề tài “Tìm hiểu toán khai phá liệu văn bản” đưa nhằm ứng dụng khai phá liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho người dùng nắm bắt thông tin cách dễ dàng tiết kiệm thời gian Nội dung đề tài gồm phần sau: Chương – Khái quát khai phá liệu Tìm hiểu khái niệm, trình toán khai phá liệu Chương - Khai phá liệu lấy tin tự động Nội dung chương tìm hiểu lấy tin tự động ứng dụng khai phá liệu lấy tin tự động (tìm hiểu ngơn ngữ XML cơng nghệ RSS ) Chương – Phân tích thiết kế chương trình Nội dung chương trình khảo sát, phân tích thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS Chương – Xây dựng chương trình Nêu lớp, phương thức để xây dựng website hỗ trợ đọc tin RSS Và cuối đưa số hình giao diện đạt Kết luận phương hướng phát triển Phần cuối kết luận kết đạt ưu nhược điểm đề tài Bên cạnh đó, phần nêu phương hướng để tiếp tục phát triển đề tài tương lai nhằm ngày hoàn thiện đáp ứng nhu cầu ngày cao người sử dụng CHƯƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU Nội dung chương gồm : Phần 1: Khái niệm khai phá liệu Phần 2: Quá trình khai phá liệu Phần 3: Các tốn thơng dụng khai phá liệu Tìm hiểu tốn khai phá liệu văn 1.1 Khái niệm khai phá liệu Khai phá liệu – Data mining: Là bước tiến trình khai phá tri thức (KDD) KDD - Knowledge discovery in database: Thuật ngữ tổng quát gồm bước tiền xử lý, KPDL, hậu xử lý 1.2 Quá trình khai phá liệu a Tìm hiểu nghiệp vụ liệu  Nhà tư vấn nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu b Chuẩn bị liệu  Giai đoạn sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lượng lượng liệu để thích hợp với yêu cầu giải thuật học:  Các giải thuật tiền xử lý bao gồm:  Xử lý liệu bị thiếu / mất: Các liệu bị thiếu thay giá trị thích hợp  Khử trùng lặp: Các đối tượng liệu trùng lặp bị loại bỏ Kỹ thuật không sử dụng cho tác vụ có quan tâm đến phân bổ liệu  Giảm nhiễu: Nhiễu đối tượng tách rời khỏi phân bố chung bị loại khỏi liệu  Chuẩn hóa: Miền giá trị liệu chuẩn hóa  Rời rạc hóa: Các liệu số biến đổi giá trị rời rạc  Rút trích xây dựng đặc trưng từ thuộc tính có  Giảm chiều: Các thuộc tính chứa thơng tin loại bỏ bớt c Mơ hình hóa liệu Tìm hiểu tốn khai phá liệu văn  Các giải thuật học sử dụng liệu tiền xử lý giai đoạn hai để tìm kiếm quy tắc ẩn chưa biết d Hậu xử lý đánh giá mơ hình  Dự đánh giá người dùng sau kiểm tra tập thử, mô hình tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt mức u cầu người dùng đưa triển khai thực tế  Trong giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng e Triển khai tri thức  Các mô hình đưa vào hệ thống thơng tin thực tế dạng môđun hỗ trợ việc đưa định  Mối quan hệ chặt chẽ giai đoạn trình KPDL quan trọng cho việc nghiên cứu KPDL Một giải thuật KPDL phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường xây dựng để giải mục tiêu cụ thể  Quá trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau 1.3 Các toán thông dụng KPDL  Phân lớp (Classification): Với tập liệu huấn luyện cho trước huấn luyện người,các giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước  Dự đoán (Prediction) học dự đốn Khi có liệu đến, dự đốn dựa thơng tin có để đưa giá trị số học cho hàm cần dự đốn  Tìm luật liên kết (Association Rule) tìm kiếm mối liên kết thành phần từ liệu Tìm hiểu toán khai phá liệu văn  Phân cụm (Clustering) nhóm đối tượng liệu có tính chất giống vào nhóm Tìm hiểu toán khai phá liệu văn CHƯƠNG KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Nội dung chương gồm:  Phần 1: Lấy tin tự động ( Định nghĩa lấy tin tự động quy trình lấy tin tự động )  Phần 2: Khai phá liệu lấy tin tự động (Tìm hiểu XML RSS) PHẦN I: LẤY TIN TỰ ĐỘNG Định nghĩa  Lấy tin tự động trình tìm kiếm thơng tin có giá trị khối liệu lớn  Là việc trích lấy thơng tin từ trang Web có nội dung cần quan tâm tới Quy trình lấy tin tự động Với loại liệu khác nhau, trình lấy tin tự động thông thường thực qua bước sau:  Bước 1: Tìm hiểu lĩnh vực xác định vấn đề có liên quan  Bước 2: Thu thập tiền xử lý liệu Đây bước quan trọng, chiếm phần lớn thời gian sức lực (70 ÷ 80%) tiến trình  Bước 3: Lấy tin tự động trích chọn mẫu, thơng tin có ý nghĩa Bước gồm phương thức để tạo thơng tin hữu ích từ liệu  Bước 4: Đưa thơng tin hiển thị Tìm hiểu toán khai phá liệu văn PHẦN II: KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Đặt vấn đề: Sự phát triển nhanh chóng mạng Internet Intranet sinh khối lượng khổng lồ liệu dạng siêu văn ( liệu Web) Cùng với thay đổi phát triển hàng ngày hàng nội dung số lượng trang Web Internet vấn đề tìm kiếm thông tin người sử dụng lại ngày khó khăn Có thể nói trang Web từ điển bách khoa tồn thư Thơng tin trang Web đa dạng mặt nội dung hình thức, nói Internet xã hội ảo, bao gồm thơng tin mặt đời sống kinh tế, xã hội trình bày dạng văn bản, hình ảnh , âm thanh,….Tuy nhiên với đa dạng số lượng lớn thông tin nảy sinh vấn đề tải thơng tin Người ta khơng thể tự tìm kiếm địa trang Web chứa thơng tin mà cần yêu cầu đặt làm để lấy thơng tin mà cần khối lượng thơng tin khổng lồ Do người ta ứng dụng khai phá liệu để lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích XML (Extensible Markup Language) tức ngơn ngữ đánh dấu mở rộng đời vào tháng 2/1998, W3C đề xuất XML tập SGML (Standardized Generalized Makup Language) XML thiết kế để chuyển tải lưu trữ liệu Mục đích XML đơn giản hoá việc chia sẻ liệu hệ thống khác nhau, đặc biệt hệ thống kết nối Internet 1.2 Đặc điểm XML dùng văn (text) để mô tả thông tin XML không phụ thuộc vào ứng dụng, phần mềm phần cứng Tìm hiểu tốn khai phá liệu văn CHƯƠNG – XÂY DỰNG CHƯƠNG TRÌNH Nội dung chương bao gồm: Phần 1: Mô tả qui trình lấy link RSS tự động, đọc tập tin RSS Phần 2: Một số hình giao diện đạt Phần ta xác định yêu cầu chức chương trình Để đáp ứng chức ta cần làm sau 4.1 Qui trình tự động lấy đường dẫn tới tập tin RSS Khi người dùng nhập đường dẫn tới webisite (chẳng hạn: http://vietnamnet.vn ), nhiệm vụ hệ thống lấy tất file RSS mà webisite cung cấp Bước 1: Ta phải tải nội dung trang HTML website Bước 2: Ta sử dụng đến biểu thức qui (Regular Expression) để lọc thẻ chứa đường dẫn tới file RSS Bước 3: Lọc đường dẫn tới file RSS, ta dùng biểu thức qui để match() href chứa đường dẫn tới file RSS Bước 4: Sau lấy đường dẫn tới file RSS, lưu vào CSDL Tiếp theo, đọc file RSS 4.2 Qui trình đọc tập tin RSS Người dùng nhập trực tiếp đường dẫn tới file RSS Nhiệm vụ hệ thống trích rút liệu từ file RSS Để trích rút liệu ta làm sau: Bước 1: Trước tiên thiết kế lớp RSSItem để chứa liệu mà ta trích rút từ file RSS Bước 2: Đọc file RSS Tìm hiểu tốn khai phá liệu văn 4.3 Một số hình giao diện đạt Hình 18 – Giao diện trang đăng nhập Hình 19 – Giao diện trang quản lý người dùng 40 Tìm hiểu tốn khai phá liệu văn Hình 20 – Giao diện blog 41 Tìm hiểu tốn khai phá liệu văn Hình 21 – Giao diện thư mục RSS cung cấp sẵn 42 Tìm hiểu tốn khai phá liệu văn Hình 22 – Giao diện trang lấy link RSS tự động Hình 23 – Giao diện trang tin tức lấy 43 Tìm hiểu tốn khai phá liệu văn Hình 24 – Giao diện trang quản lý nhóm tin 44 Tìm hiểu tốn khai phá liệu văn KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN Trong q trình tìm hiểu số cơng nghệ XML, em thấy XML chuẩn thân thiện, dễ đọc hiểu, tảng để phát triển nhiều ngơn ngữ khác có ứng dụng cao có RSS Hiện nhiều website chia sẻ tin tức dùng chuẩn RSS, nên việc xây dựng chương trình hỗ trợ đọc tin RSS điều cần thiết Với nỗ lực cố gắng, đồ án đạt kết sau: Kết đạt Hiểu biết cách sử dụng tài liệu XML vấn đề chia sẻ liệu Biết cách đọc ghi tài liệu XML Hiểu biết cách sử dụng biểu thức qui việc tìm kiếm chuỗi Xây dựng website hỗ trợ đọc tin RSS với chức Hiểu nắm kiến thức XML NET Biết cách lập trình với ngơn ngữ C# Bên cạnh đó, chương trình cịn có hạn chế Cách xếp, tổ chức tin tức chưa tốt Chương trình chưa trau truốt vào giao diện Chức chương trình cịn hạn chế Hướng phát triển đề tài Khắc phục hạn chế chương trình Tìm hiểu thêm cơng nghệ AJAX, NET Framework 3.5, tìm hiểu cách xây dựng PORTAL , trọng tâm PERSONAL PORTAL Đây xu hướng phổ dụng giới Một số ví dụ điển : iGoogle, My Yahoo,… Với kiến thức tảng cơng nghệ đó, em phát triển chương trình thành PERSONAL PORTAL Một PERSONAL PORTAL nơi để người chia sẻ thông tin,dữ liệu với nhau: tin tức, tranh ảnh, video, thời tiết, số chứng khốn, …… 45 Tìm hiểu toán khai phá liệu văn TÀI LIỆU THAM KHẢO [1] Dương Quang Thiện .NET toàn tập - Tập 5: Lập trình Web dùng ASP.NET C# - Nhà xuất Tổng hợp TP.HCM [2] Nguyễn Ngọc Bình Phương – Thái Thanh Phong Ebook: Các giải pháp lập trình C# Nhà sách Đất Việt Website [3] http://www.w3schools.com/xml/ [4] http://msdn.microsoft.com/ [5] http://www.xml.com/ [6] http://www.codeproject.com [7] http://www.asp.net PHỤ LỤC Phụ lục A - PHẦN CODE CHÍNH CỦA CHƯƠNG TRÌNH Lớp Channel namespace mayRSS { public class Channel { / khai bao truong, thuoc tinh, ham tao private String _Link; public String Link { get { return _Link; } set { Link = value; } } public Channel(String link) { _Link = link; } } } 46 Tìm hiểu toán khai phá liệu văn Lớp RSSItem using System; using System.Collections.Generic; using System.Text.RegularExpressions; namespace mayRSS { public class RSSItem { / khai bao fields private string _Title; private string _Link; private string _Description; private string _Image; private string _Enclosure; // mp3, audio private DateTime? _PubDate; private string _AuthorName; / ham tao constructor public RSSItem(string title, string link, string desc, string img, string enclosure, DateTime? pubDate, string authorName) { _Title = title; _Link = link; _Description = desc; _Image = img; _Enclosure = enclosure; _PubDate = pubDate; _AuthorName = authorName; } // khai bao thuoc tinh properties public string Title { get{ return _Title; } set{ _Title = value;} } public string Link { get{ return _Link; } set{ _Link = value;} } public string Description { ge{ return _Description;} 47 Tìm hiểu tốn khai phá liệu văn set{ _Description = value;} } public string Image { get{ return _Image;} set{ _Image = value;} } public string Enclosure { get { return _Enclosure; } set { _Enclosure = value; } } public DateTime? PubDate { get { return _PubDate; } set { _PubDate = value; } } public string AuthorName { get { return _AuthorName; } set { _AuthorName = value; } } } } Lớp LoadURL: lấy link RSS tự động using using using using using using System; System.Text.RegularExpressions; System.Collections.Generic; System.Net; System.IO; System.Data; namespace mayRSS { public class LoadURL { // khai bao field private bool _success = false; / khai bao thuoc tinh public bool Success { get { return _success; } 48 Tìm hiểu toán khai phá liệu văn } public Channel[] listChannel; // ham tao contructor public LoadURL(string linkWebsite) { Regex RegX = new Regex("

Ngày đăng: 29/08/2020, 18:03

Tài liệu cùng người dùng

Tài liệu liên quan