Phân lớp thư điện tử sử dụng máy vector hỗ trợ

12 245 0
Phân lớp thư điện tử sử dụng máy vector hỗ trợ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thƣơng Huyền PHÂN LỚP THƢ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ LUẬN VĂN THẠC SĨ HÀ NỘI – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thƣơng Huyền MỤC LỤC PHÂN LỚP THƢ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: PGS TS Hà Quang Thụy HÀ NỘI – 2007 Lêi c¶m ¬n Trong trình thực đề tài, gặp nhiều khó khăn phát sinh mà giúp đỡ, động viên gia đình, thầy cô giáo bạn bè, đồng nghiệp có lẽ khó hoàn thành khóa luận Lời đầu tiên, xin chân thành cảm ơn thầy cô giáo giảng dạy Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội trực tiếp bảo, truyền thụ cho kiến thức quý báu Đặc biệt trân trọng cảm ơn thầy giáo PGS TS Hà Quang Thụy, người thầy tận tình trực tiếp hướng dẫn, giúp đỡ động viên nhiều suốt trình hoàn thành luận văn Và cuối cùng, lời yêu thương xin gửi đến gia đình, bạn bè đồng nghiệp, người bên cạnh tôi, mang lại cho nguồn động viên tinh thần lớn lao tạo điều kiện thuận lợi cho hoàn thành luận văn khả tốt Do hạn chế thời gian, trình độ kinh nghiệm nên đề tài không tránh khỏi thiếu sót Tôi mong nhận ý kiến đóng góp quý báu thầy cô giáo bạn, đồng nghiệp để luận văn ngày hoàn thiện Trân trọng cảm ơn! Hà Nội, ngày tháng 12 năm 2007 Học viên Ngô Thương Huyền i MỤC LỤC Lời cảm ơn i Danh mục hình vẽ Error! Bookmark not defined Danh mục bảng biểu Error! Bookmark not defined MỞ ĐẦU Chương KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu 1.1.2 Các hướng tiếp cận dạng liệu khai phá liệu Error! Bookmark not defined 1.2 Các toán khai phá liệu văn bảnError! Bookmark not defined 1.2.1 Tìm kiếm văn Error! Bookmark not defined 1.2.2 Phân lớp văn Error! Bookmark not defined 1.2.3 Một số toán khác Error! Bookmark not defined 1.3 Khai phá liệu Web Error! Bookmark not defined 1.3.1 Nhu cầu Error! Bookmark not defined 1.3.2 Đặc điểm Error! Bookmark not defined 1.3.3 Các hướng tiếp cận Error! Bookmark not defined Chương PHÂN LỚP VĂN BẢN Error! Bookmark not defined 2.1 Bài toán phân lớp Error! Bookmark not defined 2.1.1 Nhu cầu, ý tưởng Error! Bookmark not defined 2.1.2 Quá trình phân lớp Error! Bookmark not defined 2.2 Các giải pháp phân lớp điển hình Error! Bookmark not defined 2.2.1 Thuật toán phân lớp Bayes Error! Bookmark not defined 2.2.2 Thuật toán k-người láng giềng gần nhất.Error! defined ii Bookmark not 2.2.3 Phân lớp dựa vào địnhError! Bookmark not defined 2.2.4 Chiết lọc thông tin theo mô hình Markov ẩnError! Bookmark not defined Chương BỘ PHÂN LỚP SỬ DỤNG MÁY VECTOR HỖ TRỢ Error! Bookmark not defined 3.1 Biểu diễn văn dựa mô hình không quan vector Error! Bookmark not defined 3.1.1 Giới thiệu Error! Bookmark not defined 3.1.2 Mô hình Boolean Error! Bookmark not defined 3.1.3 Mô hình tần số Error! Bookmark not defined 3.2 Bộ phân lớp sử dụng vector hỗ trợ Error! Bookmark not defined 3.2.1 Vector hỗ trợ Error! Bookmark not defined 3.2.2 Thuật toán tạo siêu phẳng phân cáchError! Bookmark not Bookmark not defined Chương ỨNG DỤNG VÀ THỰC NGHIỆMError! defined 4.1 Giới thiệu toán thực nghiệm Error! Bookmark not defined 4.2 Dữ liệu chương trình Error! Bookmark not defined 4.3 Môi trường thực nghiệm Error! Bookmark not defined 4.4 Kết thực nghiệm đánh giá Error! Bookmark not defined 4.4.1 Độ xác phân lớp thử nghiệm với tập kiểm tra Error! Bookmark not defined 4.4.2 Độ xác phân lớp tăng dần tập liệu họcError! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO iii MỞ ĐẦU Ngày với phát triển vũ bão ngành khoa học kỹ thuật, đặc biệt phát triển nhanh chóng mạng máy tính toàn cầu, khối lượng liệu khổng lồ hàng ngày cập nhật liên tục, thường xuyên, nhằm đáp ứng nhu cầu thiếu người, thông tin Và sống xã hội bùng nổ thông tin, ứng dụng công nghệ thông tin vào tới lĩnh vực đời sống xã hội Trong Internet ngày khẳng định sức mạnh vượt trội đóng vai trò quan trọng đời sống xã hội, kinh tế, trị, văn hoá, giáo dục… người Cùng với phát triển không ngừng đó, Internet trở thành kho thông tin khổng lồ số lượng biến đổi nhanh chóng nó, theo ước đoán sau hai năm lượng thông tin lại tăng thêm gấp đôi Thư điện tử dịch vụ phổ biến Internet, giúp cho người sử dụng máy tính kết nối Internet trao đổi thông tin với iv Ngày nay, mà Internet có mặt khắp nơi việc sử dụng dịch vụ thư điện tử việc hàng ngày nhiều người khắp giới Ta biết mạng Internet đời, người sử dụng chuyên gia máy tính, họ gửi nhiều email đến nhóm người dùng khác nhau, sau có tình trạng kiểm soát email gửi đến Vì cần phải có chương trình phân lớp email theo thư mục người dùng lọc hay ngăn chặn email mà người dùng không muốn nhận nhằm tăng chất lượng sử dụng Trong lĩnh vực thư điện tử cá nhân, kỹ thuật phân lớp văn áp dụng rộng rãi vào toán lọc thư rác Một số vấn đề khác liên quan đến thư điện tử lọc luồng thư điện tử, tự động tạo thư mục nghiên cứu giải Hiện nay, toán phân lớp thư điện tử vào thư mục nhiều nhà nghiên cứu quan tâm Trong luận văn này, ứng dụng phân lớp văn vào lĩnh vực thư điện tử nhằm giải toán phân lớp tự động thư điện tử vào lớp người dùng định nghĩa Lựa chọn thuật toán máy vector hỗ trợ (SVMs) với ưu điểm hiệu chứng minh qua nhiều thực nghiệm phân lớp văn bản, hy vọng SVMs giải khó khăn toán phân lớp email đem lại kết khả quan Luận văn tổ chức thành chương sau: Chương trình bày khái quát khai phá liệu, kỹ thuật hướng tiếp cận khai phá liệu phân loại hệ thống khai phá theo nhiều tiêu chí khác Chương giới thiệu toán khai phá liệu văn khai phá liệu Web Chương trình bày toán trình phân lớp văn bản, đồng thời giới thiệu số giải pháp phân lớp điển hình Chương giới thiệu phương pháp biểu diễn văn dựa mô hình không quan vector tập trung nghiên cứu, khảo sát phương pháp máy vector hỗ trợ, tiền đề để thực việc thực nghiệm cho luận văn Chương trình bày mô hình phân lớp thư điện tử áp dụng liệu công bố Từ kết thực nghiệm, đưa đánh giá hệ thống phân lớp nói CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu Trong thập kỷ gần đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đoán rằng, lượng thông tin toàn cầu tăng gấp đôi sau khoảng hai năm theo số lượng kích cỡ sở liệu tăng lên cách nhanh chóng [5] Hình - Lượng liệu tích lũy tăng mạnh theo thời gian Chúng ta thực sở hữu khối lượng liệu khổng lồ, lại cảm thấy thiếu thông tin hữu ích Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động trước định Khai phá liệu – khai thác thông tin tiềm ẩn có tính dự đoán từ sở liệu lớn – hướng tiếp cận với khả giúp công ty trọng vào thông tin có nhiều ý nghĩa từ tập liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử Những công cụ khai phá liệu dự đoán xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định (Decision Support Systems - DSSs) truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Với tất ưu trên, khai phá liệu chứng tỏ tính hữu dụng môi trường kinh doanh đầy tính cạnh tranh ngày Giờ đây, khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức a) Định nghĩa Khai phá liệu Có thể hiểu cách sơ lược khai phá liệu trình tìm kiếm thông tin (tri thức) hữu ích, tiềm ẩn mang tính dự báo tập liệu lớn Như vậy, nhà khoa học cho nên gọi trình khám phá tri thức (Knowledge Discovery in Databases – KDD) thay khai phá liệu Tuy nhiên nhà khoa học lĩnh vực đồng ý với hai thuật ngữ tương đương thay cho Họ lý giải rằng, mục đích trình khám phá tri thức thông tin tri thức có ích, đối tượng mà cần phải xử lý nhiều suốt trình lại liệu Mặt khác, chia bước trình khám phá tri thức, số nhà nghiên cứu lại cho rằng, khai phá liệu bước trình khám phá tri thức [21] Như vậy, xét mức tổng quan hai thuật ngữ tương đương nhau, xét cụ thể khai phá liệu xem bước trình khám phá tri thức TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đoàn Sơn (2002), Một số giải pháp cho toán tìm kiếm sở liệu Hypertext Luận văn thạc sỹ Công nghệ thông tin 2002 Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [2] Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Nguyễn Thị Hương Thảo, Hà Quang Thụy (2007), Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt Báo cáo Hội thảo FAIR'07, Nha Trang, 8-2007 [3] Phan Xuân Hiếu (2003), Khai phá song song luật kết hợp mờ Luận văn thạc sỹ Công nghệ thông tin 2003 - Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [4] Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2007) Nghiên cứu, phân tích đánh giá thuật toán lọc văn theo nội dung Báo cáo chuyên đề Đề tài cấp Nhà nước KC.01.02/06-10, 10-2007 Tiếng Anh [5] Alan Rea (1996) Data Mining – An Introduction http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHPfinal_1.html [6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003, ISBN: 0-470-84906-1 [8] Enron dataset: http://www.cs.cmu.edu/~enron/ [9] Greg Kochanski (2005), Markov Models, Hidden and Otherwise http://www.kochanski.org/gpk 2005/02/28 [10] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers 2001 [11] J.D.Brutlag, C.Meek (2000) Challenges of the Email Domain for Text Classification ICML 2000 : 103-110 [12] Manoel Mendonca (2000), Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 2000 [13] Nancy R Zhang (2001), Hidden Markov Models for Information Extraction June, 2001 [14] P.S.Keila, D.B.Skillicorn (2005) Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005 [15] R Agrawal, M Mehta, J Shafer, R Srikant, A Arning, T Bollinger (1996) The Quest Data Mining System Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96), Portland, Oregon, August 1996 58 [16] Ron Bekkerman, Andrew McCallum, Gary Huang (2004) Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004 [17] Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2003 [18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005) Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005) [19] Svetlana Kiritchenko, Stan Matwin (2001) Email classification with cotraining Proceedings of the 2001 conference of the centre of advanced studies on collaborative research [20] U M Fayyad, G Piatetsky-Shapio, P Smyth, and R Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, 1996 [21] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002 [22] Y Yang and J.O Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization Proceeding of the 14th International Conference on Machine Learning (ICML’97) [23] http://en.wikipedia.org/wiki/ 59 [...]...Tiếng Anh [5] Alan Rea (1996) Data Mining – An Introduction http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHPfinal_1.html [6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003, ISBN:

Ngày đăng: 16/11/2016, 21:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan