Nghiên cứu, triển khai ứng dụng khai phá dữ liệu trong cơ sở dữ liệu và thuật toán song song

262 124 0
Nghiên cứu, triển khai ứng dụng khai phá dữ liệu trong cơ sở dữ liệu và thuật toán song song

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CỐNG NGHỆ NGHIÊN CỬU TRĨÈN K V A ỨNG DỤNG KHAI PHÁ DỮ LIỆL TRONG C BỜ DỮ U Ệ U VÀ TKƯẠT t o n s o n g s o n g (Researching and Applied Realization o f Data Mining Methods in Databases and Paralỉel Algorithms) Đề tài nghiên cứu khoa học đặc biệí cẩp Đại học Quốc gia Hà Nội Mã số: QG 02-02 Chủ trì đề tài: TS Hà Quang Thụy HÀ NỘI - 2004 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆm • ề NGHIÊN CỨU, TRIỂN KHAI ỨNG DỤNG KHAI PHẢ DỮ LIỆl TRONG C SỞ DỮ LIỆU VÀ THUẬT TOÁN SONG SONG (Researching and Applied Realization o f Data Mining Methods in Databases and Parallel Algorithms) Đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội Mã số: QG 02-02 Chủ trì đề tài: TS Hà Quang Thụy ĐẠI HỌC Q U Ố C GIA HÀ NỌ_i t r u n g Tâ m t h õ n g tin thư v iê n DTf 334 HÀ NỘI - 2004 ~ ĐẠI HỌC QC GIA HÀ NỘI TRƯỜNG ĐẠĨ HỌC CƠNG NGHỆ NGHIÊN CỨU, TRIẺN KHAI ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG C SỞ D ữ LIỆU VÀ THUẠT TOÁN SONG SONG Đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội Mã số: QG 02-02 Chủ trì đề tải: TS Hà Quang Thụy Các cán tham gia Sư 10 11 12 13 14 15 16 17 18 19 20 Họ tên TS Đỗ Văn Thành TS Nguyễn Hải Châu NCS Phan Xuân Hiếu Học viên Bùi Quang Minh NCS Đồn Sơn ThS Nguyễn Trí Thành NCS Nguyễn Lê Minh NCS Phạm Thọ Hoàn ThS Phạm Thị Thanh Nam ThS Tiêu Thị Dự ThS Đặng Tiểu Hùng ThS Đo Cẩm Vân Học viên Vũ Bội Hằng Học viên ĐỒ Thị Diệu Ngọc Cử nhân Nguyễn Thành Trung Cử nhân Nguyễn Danh Hoàn Cử nhân Bùi Đình Thi Cử nhân Nguyễn Hương Giang Cử nhân Đặng Thanh Hải Cử nhân Nguyễn Hoài Nam Cơ quan Vãn phòng Chính phủ Trường ĐH Cơng nghệ Trường ĐH Cơng nghệ - JAIST Trường ĐH Công nghệ, ĐHTH Freikfu Trường ĐH Công nghệ - JAIST Trường ĐH Công nghệ Trường ĐH Công nghệ - JAIST Đại học Sư phạm HN1 - JAIST Viện CNTT - ĐHQGHN Trung tâm CSE Trung tâm CSE Ngân hàng VPBank Trường ĐH Công nghệ Trường ĐH Công nghệ - ĐH Hàn Quốc K44C, Trường ĐH Công nghệ K44C, Trường ĐH Công nghệ - FPT K44, Khoa Toán - Cơ - Tin học K45C Trường ĐH Công nghệ K45C Trường ĐH Công nghệ K45 A2 Khoa Tốn-Cơ-Tin học HÀ NỘI - 2004 BÁO CÁỌ TĨM TẤT NỘI DUNG VÀ KẾT QUẢ THỰC HIỆN ĐẺ TÀI NGHIÊN CỨU KHOA HỌC ĐẶC BIỆT CẮP ĐẠI HỌC QUÓC GIA HÀ Nộ] a) Tên đề tài • Mã sè: N ghiên cứu, triển khai ứng dụng khai phả liệu Cơ sở d ữ liệu thuật toán song song QG-02-02 b) Chủ nhiệm đề tài: Hà Quang Thụy Học vị: TSĐơn vị cồng tác: Bộ môn Các hệ thống thông tin ■ Thời gian nghiên cứu : 24 tháng Từ tháng 9/2002 tới tháng 8/2004 c) Các cán tham gia Sít Họ tên TS ĐỖ Văn Thành TS Nguyễn Hải Châu NCS Phan Xuân Hiếu Học viên Bùi Quang Minh NCS Đoàn Sơn ThS Nguyễn Trí Thành NCS Nguyễn Lê Minh NCS Phạm Thọ Hoàn ThS Phạm Thị Thanh Nam 10 ThS Tiêu Thị Dự 11 ThS Đặng Tiểu Hùng 12 ThS Đỗ Cẩm Vân 13 Học viên Vũ Bội Hằng 14 Học viên Đỗ Thị Diệu Ngọc 15 Cử nhân Nguyễn Thành Trung 16 Cử nhân Nguyễn Danh Hoàn 17 Cử nhân Bùi Đinh Thi 18 Cử nhân Nguyễn Hương Giang 19 Cừ nhân Đặng Thanh Hải 20 Cử nhân Nguyễn Hoài Nam d) Mục tiêu nội dung nghiên cứu o Mục tiêu cửa đề iài - Cơ quan Vãn phòng Chính phủ Trường ĐH Cơng nghệ Trường ĐH Công nghệ - JAIST Trường ĐH Công nghệ-ĐHTH Freikfu Trường ĐH Công nghệ - JAIST Trường ĐH Công nghệ Trường ĐH Công nghệ - JAIST Đại học Sư phạm HNI - JAIST Viện CNTT - ĐHQGHN Trung tâm CSE Trung tâm CSE Ngân hàng VPBank Trường ĐH Cơng nghệ Trường ĐH Cơng nghệ - ĐH Hàn Quốí K44C, Trường ĐH Công nghệ K44C, Trường ĐH Công nghệ - FPT K44, Khoa Toán - Cơ - Tin học K45C Trường ĐH Công nghệ K45C Trường ĐH Công nghệ K45A2 Khoa Toán-Cơ-Tin học Tiếp tục hỉnh thành phát triển đội ngũ cán khoa học (trong ĐHQGHN) nghiên cứu triển khai ứng dụng vê lĩnh vực Khai phá liệu Cơ sở liệu (trước mát định hướng vào Cơ sờ liệu - CSDL Full-text khai phá luật kết hợp), dù lực cài đặt ứng dụng đề xuất đăng tạp chí, báo cáo khoa học, báo cáo hội thảo nước, thực tốt việc đào tạo Thạc sỹ, Tiến sỹ chất lượng cao lĩnh vực nói - Khảo sát bước dầu hệ CSDL Ful]-text cài đặt thử nghiệm số ủng dụng Khai phá liệu (bài toán phân lớp, tốn tìm kiếm) dối với CSDL khảo sát Cài đặt tool ứng dụng thừ nghiệm mơi trường tính tốn song song CSDL nói lĩnh vực áp dụng cụ thể CSDL khác (trong lĩnh vực y tế, văn hóa, ) Phấn đấu đến năm 2003 hình thành Website nội dung nghiên cứu đề tài o Nội dung nghiên cứu - Nghiên cứu khía cạnh khoa học - cồng nghệ đại áp dụng lý thuyết CSDL: tính phụ thuộc liệu, tính chuẩn hoá, phương pháp định hướng đối tượng v.v Nghiên cứu lý thuyết cài đặt thử nghiệm ứng dụng lý thuyết độ gần đóng nói chung độ đo lựa chọn thuộc tính nói riêng CSDL quan hệ phục vụ cho tốn tìm kiếm phân lớp, - Nghiên cứu, khảo sát hệ thống PC-cluster áp dụng thuậi toán song song data mining dựa cùa hệ thổng PC-cluster dược cài dật, Nghiên cứu cài đặt số thuật toán khai phá liệu CSDL da phương tiện (tnrớc mắt định hướng vào CSDL full-text) e) Kết đạt Kết nghiên cứu, ỷ nghĩa khoa học - Bốn (4) báo đăng, nhận đăng gửi đăng tạp chí khoa học: (1) Phan Xuan Hieu, Ha Quang Thuy Parallel Mining for Fuzzy Association Rules Tin học Điều khiển học 20(2), 2004, 121136; (2) Phạm Thị Thanh Nam, Bùi Quang Minh, Hà Quang Thụy Giài pháp tìm kiểm trang Web tương tự máy tìm kiểm Vielsaek Tạp chi Tin học Điều khiển học (nhận đăng tháng 1-2004); (3) Ha Quang Thuy and Nguyen Tri Thanh A Web site representation method using concept vectors and Web site classifications Gửi đăng Tạp chí Tin học Điều khiển học thảng 7-2004; (4) v ề Bội Hằng, Nguyễn cẩm Tú, Đinh Trung Hiếu Phương pháp biểu diên trang Web để xuẩí giải pháp hỏiđáp máy tìm kiêm Vinahoo Gừi đăng Tạp chí khoa học, Đại học Quốc gia Hà Nội, tháng 10-2004 Bốn (4) báo cáo khoa học Hội nghị quốc tế / quốc gia: (1) s Doan and S Horiguchi, "A New Text Representation using Fuzzy Concepts in Text Categorization", Proc of the r Int'l Conf on Fuzzy Systems and Knowledge Discovery (FSKD), Vol.2, p.514-518, Nov, 2002, Singapore (2) Phan Xuan Hieu, Ha Quang Thuy Parallel Mining for Fuzzy Association Rules Hội thảo toàn quổc "Các lĩnh vực đại Công nghệ Thông tin", Thái Nguyên (28-30/8/2003); (3) Đỗ Thị Diệu Ngọc, Nguyễn Yen Ngọc, Nguyễn Thu Trang, Nguyễn Hồi Nam Một sổ thuật tốn tính hạng trang Web đề xuất giải pháp tính hạng trang máy tìm kiếm Vinahoo Báo cáo Hội nghị Hội thảo tồn qc "Các lĩnh vực đại Cơng nghệ Thông tin'1 lần thứ VII, Đà Nằng, ] 8-20/8/2004; (4) Đỗ Văn Thành, Phạm Thọ Hoàn, Phan Xuân Hiếu, Nguyễn Thành Trung Khám phá luật kểt hợp với độ ho trợ không giong nhan Hội nghị khoa học nhà khoa học trẻ ĐHQGHN lần thứ 2, 21-12-2002; Ba (3) báo cáo nghiên cứu khoa học sinh viên Khoa Công nghệ, ĐHQGHN tháng 4-2004 dó có báo cáo đạt giải nhất, báo cáo đạt giải nhl Nét chung ý nghĩa khoa học kết cho thấy nghiên cứu đề tài dã định hướng theo nội dung nghiên cứu thời giói khai phá song song luật kết hợp, Web mining máy tìm kiếm Những kết quà nghiên cứu việc thử nghiệm tích hợp giải pháp Web mining vào máy tìm kiếm tiếng Việt Vinahoo (đề tài phát triển máy tim kiếm tiếng Việt sở máy tìm kiếm mã nguồn mở ASPseek) cho thấy hướng di đủng, khả thi việc xây dựng máy tim kiếm tiếng Việt có tích họp giải pháp khai phá Web Những kết ứng dụng, triển khai + Sản phẩm công nghệ/khả ứng dụng thực tiễn Xây dựng sản phẩm thử nghiệm: - Máy tìm kiếm tiếng Việt Vinahoo (trước gọi VietSeek) với thử nghiệm tìm kiếm theo nội dung trang Web dã chạy thử nghiệm mạng TTVNOnline với triệu trang Web tiếng Việt (Bùi Quang Minh, năm 2002 Xem Http://www.minhbq.addr.com/), - Hai tools khai phá - song song luật kết hợp mờ FuzzyARM ParallelFARM (Phan Xuân Hiếu) chạy PC-cluster, - Bổ sung cài đặt giải pháp phân lớp Đayes, song song hóa thành phần Crawling cho máy tìm kiếm Vinahoo (Nguyễn Hương Giang, Đặng Thanh Hải Http://www.fotech.vnu.edu.vn/vinahoo), - Phần mềm thừ nghiệm dùng Data Mining tách âm tiết nhận mẫu từ file tiểng nói Trung tâm cơng nghệ thơng tấn, Thơng xã Việt Nam với kết bước đầu cho thấy khả có thê ứng dụng (Bùi Đình Thi), - Phần mềm MARAT khai phá luật kết hợp với độ hỗ trợ điều chỉnh (Nguyễn Thành Trung), - Đâ tải khoảng 17 GB trang Web tiếng Việt cho Cơ sở liệu trang Web tiếng Việt để thừ nghiệm, - Thiết lập đưa vào hoạt động trang Web nhóm nghiên cứu với địa : Http:// www.fotech.vnu.edu.vn/vinahoo + Sản phẩm đào tạo - Bảy (7) luận văn thạc sỹ khai phá liệu thuật tốn song song: (1) Đồn Sơn "Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phả liệu văn bản" bảo vệ tháng 9-2002 (từ tháng 102002 nghiên cứu sinh JAIST - Nhật Bản); (2) Tiêu Thị Dự "Phát luật theo tiếp cận tập thô" bảo vệ 4-2003; (3) Phạm Thị Thanh Nam "Một sổ giải pháp cho tốn tìm kiếm Cơ sở liệu Hypertext" bảo vệ 4-2003; (4) Phan Xuân Hiếu "Khai phả song song luật kết hợp mờ" bảo vệ 9-2003 (từ tháng 10-2003 nghiên cứu sinh JAIST - Nhật Bản); (5) Tào Thị Thu Phượng "Song song hóa bước biểu diễn bát phân thuật toán nhanh giải tốn N-body tính tốn thử nghiêm PC-cluster" bảo vệ tháng 3-2004; (6) Đặng Tiểu Hùng "Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm idem Vỉetseek" bảo vệ 5-2004; (7) Đỗ cẩm Vân "Các thuật tốn học mạng nơron theo mơ hình SOM ứng dụng toán khách hàng ngân hàng" bảo vệ 5-2004 - Mười hai (12) khóa luận tốt nghiệp đại học cử nhân Tin học CNTT bảo vệ có nội dung liên quan tới đề tài: Đỗ Thị Diệu Ngọc, Nguyễn Thành Trung, Nguyễn Danh Hồn (K44, Trường ĐH Cơng nghệ), Bùi Đình Thi, Nguyễn Thị Kim Dung (K44, Khoa Toán-Cơ-Tin học, ĐHKHTN); Nguyễn Hương Giang, Đặng Thanh Hải, Phạm Duy, Hoàng Tuấn Ninh, Hoàng Gia Khải (K45, Trường ĐH Cơng nghệ), Nguyễn Hồi Nam, Nguyễn Thị Thúy Hà (K45, Khoa Toán-Cơ-Tin học, ĐHKHTN) - Chuẩn bị phần nội dung cho luận án tiến sỹ (trong nước gửi nước ngoài): (1) Nghiên cứu sinh Nguyễn Lê Minh thực đê tài JAIST, bảo vệ sở tháng năm 2004, bảo vệ câp Nhà nước tháng 82004 (2) Ba nghiên cứu sinh Phạm Thọ Hoàn, Đoàn Sơn, Phan Xuân Hiểu thực đề tài JAIST; (3) Nghiên cứu sinh Hồng Lan Giao thực đề tài "Khía cạnh đại số lôgic khám phá luật theo tiếp cận tạp thô" Viện Công nghệ thông tin (Viện KH CNVN) - Duy trì (1) xemine khoa học sinh hoạt hàng tuân vê Data Mining, thường xuyên cỏ 10 cán sinh viên tham gia, Các kết khác - Phát triển hiệu quan hệ đổi ngoại với Dự án liên kết quốc từ "Parallel Computing Simulation and Parallel Algorithms for Data Mining" Viện Khoa học Công nghệ tiên tiến Nhật Bản (Japan Advanced Institute of Science and Technology - JAIST) GS Susumu Horiguchi (JAIST ĐHTH Honoku) chủ trì Xác lập phát triển mối quan hệ hợp tác với GS Arika Shimazu (JAIST) Duy trì phát triển mối quan hệ với GS Hồ Tú Bảo (JAIST), PGS Nguyễn Hùng Sơn (Đại học Tổng hợp Warsaw) Từ mối quan hệ quốc từ đê tài với JAIST, có bơn (4) thành viên làm NCS (1) thành viên trao đổi khoa học thòi gian hai tuần - Tổ chức đón tiếp làm việc với GS Horiguchi tháng 2-2003 Thu thập khối lượng đáng kể (khoảng GB file dạng nén) tài liệu khoa học có giá trị lĩnh vực nghiên cứu Data Mining nói chung, Text Mining Web Mining nói riêng dược xuất khoảng năm trở lại J) Tính hình kinh p h í đề tài Tổng kin h phí: 60.000.000 đ 24 tháng (8/2002 - 7/2004) Mã muc Tên mục Sè tiền 110 Mua vật tư, sách, tài liệu cho công tác chuyên môn 3.064.000 chụp tài liệu 111 Thông tin liên lạc, Fax, thư tín, truy nhập Internet 4.777.000 10.700.000 112 Hội nghị, seminar 113 Cơng tác phí 600.000 Chi phí th mướn 30.700.000 114 Hoạt động chun mơn 119 10.159.000 145 Mua sắm tài sản cổ định (máy tính, mạng) 60.000.000 Tổng cộng Báo cáo sử dụng kinh phí có xác nhận cùa quan chủ trì trình bày phần sau Một sổ điểm đáng chủ ý sau đầy tình hình kinh phí thực đề tài: - Đề tài dành khoản kinh phí quan trọng cho việc trì seminar thường xuyên hàng tuần (seminar chung, seminar cùa nhóm Vinahoo) nhằm tăng cường trao đổi, nâng cao kiến thức trình độ thành viên đề tài Những nội dung nghiên cứu điển hình cơng bố năm 20032004 dã dược trinh bày seminar thuộc Đề tài Những nghiên cửu tương lai nhóm kết hoạt dộng seminar, - Kinh phí th mướn (114) Hoạt động chun mơn (119) dành cho hoạt động chuyên môn đã: > Kinh phí hỗ trợ trả lưomg cho thực tập sinh Thường xuyên dề tài có tới 3-5 thực tập sinh khoa học đề tài hỗ trợ 50% phần ìương hợp đồng cho số thực tập sinh Một mặt, thục tập sinh thực nghiên cứu cùa đề tài, mặt khác, từ nội dung nghiên cứu thực tập sinh hoàn thiện luận vãn cao học mình, > Được hỗ trợ Ban Chù nhiệm Khoa Công nghệ (Trường ĐH Công nghệ nay), kinh phí đề tài chi cho việc đón tiếp GS Susumu Horiguchi (thuộc Viện Khoa học Công nghệ tiên tiến Nhật Bản - JAIST), nhà khoa học Nhật Bản có nhiều dóng góp tạo cán trẻ cho Trường ĐH Cơng nghệ nhóm “Khai phá liệu Phát tri thức CSDL" Vói điều kiện có nguồn kinh phí thích hợp, chủng tồi tin tưởng nhóm "Khai phá liệu Phát tri thức CSDL" trường Đại học Công nghệ ĐHQGHN trở thành nhóm nghiên cứu mạnh ĐHQGHN Việt Nam, tiếp cận trình độ khu vực giới lĩnh vực nghiên cứu Chủ trì đề tài -0 Ịu y TS Hà Quang Thụy BẢO CÁO TÓM TẤT BẰNG TIÉNG ANH a) Tên đề tài Researching and Applied Realization of Data Mining Methods in Databases and Parallel Algorithms b) Mail results • Main scientific research results Four (4) published / submined articles on science magazine, - Four (4) science reports in national / international conferences - Three (3) science reports of students of Faculty of Technology, Vietnam National University, in March 2004, among them, one report won first prize, two won second prize The scientific meaning of these results in the research is the hottest trends in the World about association rule parallel mining, Web mining and serch engine Research results in applying above Web mining solutions in Vietnamese search engine (developed from an open source search engine ASPseek) show this is a coưect approach and feasible to build the first Vietnamese search engine, which is integrated with Web mining solutions • Implemented, applied results + Technology product / reality application Build five experimental products: - Vietnamese search engine Vinahoo (previously called VietSeek), which is experimentally implemented Web content searching, - Two mining tools: association rule mining (ARM) and parallel fuzzy association rule mining (ParallelFARM) run on PC-cluster, - Improved and implemented Bayesian Web classification algorithm on search engineVinahoo; parallelized Crawling module of Vinahoo search engine, Experimental software applying Data mining for syllable separation and speech pattern recognition, - MARAT software for association mining with adjustable support, - Downloaded 17 GB Vietnamese Web pages for testing, - Set up a Website for seminar group at URL http:// www.fotech.vnu.edu.vn/vinahoo + Education products - Seven (7) master theses about data mining and parallel algorithms, - Twelve (12) Informatics and Information Technology bachelor theses related to this defended project, - Prepared partial contents for PhD theses, ỶRƯNG TÂM KHOA HỌC T ự N H IÊ N VẢ CỒNG NGHỆ QUỐC GIA CƠNG HỊA XÃ HỘI CHỦ NGHĨA VIÊT NAM Độc !âp - Tự - Hạnh phúc VIỆN CỒNG NGHỆ THÔNG TIN I — /Q £)-CNTT Hà Nội, ngày,/l_ tháng

Ngày đăng: 12/05/2020, 22:49

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan