GOM cụm văn bản TƯƠNG ĐỒNG THEO CHỦ đề TRONG KHO văn bản lớn TRÊN nền TÍNH TOÁN PHÂN tán

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN  Nguyễn Hồ Duy Trí GOM CỤM VĂN BẢN TƯƠNG ĐỒNG THEO CHỦ ĐỀ TRONG KHO VĂN BẢN LỚN TRÊN NỀN TÍNH TỐN PHÂN TÁN LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60480101 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Đỗ Phúc TP HỒ CHÍ MINH - 2018 Lời cam đoan LỜI CAM ĐOAN Tác giả luận văn có lời cam đoan danh dự cơng trình khoa học mình, cụ thể: Tơi tên: NGUYỄN HỒ DUY TRÍ Sinh ngày 10 tháng 09 năm 1991 tỉnh Đồng Nai Quê quán: Quảng Nam Hiện công tác tại: Trường Đại học Công Nghệ Thơng Tin – ĐHQG TP.HCM Là học viên khóa ngành Khoa học Máy tính Mã số học viên: CH1401039 Tôi cam đoan: “Gom cụm văn tương đồng theo chủ đề kho văn lớn tính tốn phân tán” cơng trình nghiên cứu riêng tơi, kết nghiên cứu có tính độc lập riêng, không chép tài liệu chưa công bố nội dung đâu Các số liệu luận văn sử dụng trung thực, nguồn trích dẫn có thích rõ ràng, minh bạch, có tính kế thừa, phát triển từ tài liệu, tạp chí, cơng trình nghiên cứu cơng bố, website có uy tín Nếu phát có gian lận tơi xin hồn toàn chịu trách nhiệm lời cam đoan danh dự Trường Đại học Công Nghệ Thông Tin không liên quan đến vi phạm tác quyền, quyền tơi gây q trình thực (nếu có) TP HCM, ngày … tháng … năm 2018 Tác giả luận văn Nguyễn Hồ Duy Trí -1- Mục lục MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .5 DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Chương TỔNG QUAN .10 1.1 Lý chọn đề tài 10 1.2 Mục tiêu, đối tượng phạm vi nghiên cứu 11 1.3 Nội dung phương pháp nghiên cứu 12 1.3.1 Tìm hiểu sử dụng liệu từ mạng trích dẫn .12 1.3.2 Đề xuất phương pháp xây dựng nguồn tri thức tự động 12 1.3.3 Xây dựng mơ hình áp dụng nguồn tri thức tự động vào Source-LDA 13 1.3.4 Đề xuất mơ hình xử lý phân tán Source-LDA với nguồn tri thức xây dựng tự động 13 1.3.5 Xây dựng hệ thống tìm kiếm tài liệu khoa học có chủ đề tương đồng 14 1.4 Tổng quan tình hình nghiên cứu 14 1.4.1 Các cơng trình nghiên cứu tìm kiếm văn tương đồng theo chủ đề .14 1.4.2 Các cơng trình nghiên cứu mơ hình chủ đề LDA .19 1.5 Cấu trúc báo cáo .22 Chương CƠ SỞ LÝ THUYẾT 23 2.1 Mạng trích dẫn .23 2.2 Mơ hình tìm kiếm văn tương đồng theo chủ đề 25 2.2.1 Khái niệm văn tương đồng theo chủ đề 25 2.2.2 Mơ hình đánh giá độ tương đồng văn theo chủ đề .25 2.3 Mơ hình khám phá chủ đề 27 2.3.1 Mơ hình chủ đề (Topic modeling) giải thuật tiền thân LDA 27 2.3.2 Mơ hình LDA (Latent Dirichlet Allocation) 28 2.3.3 Mơ hình Source-LDA 34 -2- Mục lục 2.3.4 Mơ hình AD-LDA 36 2.4 Tổng quan liệu lớn .37 2.4.1 Khái niệm lịch sử hình thành phát triển 37 2.4.2 Đặc điểm 40 2.5 Mơ hình xử lý liệu lớn .42 2.5.1 Mơ hình MapReduce .42 2.5.2 Giới thiệu chung Hadoop 43 2.5.3 Hadoop 1.0 (MRv1) 44 2.5.4 Hadoop 2.0 (MRv2, YARN) 47 2.5.5 Giới thiệu Apache Spark .51 2.6 Độ hỗn loạn thông tin khoảng cách Kullback-Leibler 53 Chương PHƯƠNG PHÁP 54 3.1 Trích xuất liệu từ mạng trích dẫn 54 3.2 Mơ hình xây dựng nguồn tri thức tự động .55 3.3 Áp dụng mơ hình xây dựng nguồn tri thức tự động vào Source-LDA 58 3.4 Mơ hình xử lý phân tán Source-LDA với nguồn tri thức xây dựng tự động .61 3.4.1 Mơ hình sinh tài liệu phương thức lấy mẫu 61 3.4.2 Cài đặt thuật toán .62 3.5 Hệ thống tìm kiếm tài liệu khoa học có chủ đề tương đồng .63 3.5.1 Mơ hình xử lý hệ thống .63 3.5.2 Yêu cầu quy trình tìm kiếm hệ thống 65 3.5.3 Mơ hình hóa xử lý mức quan niệm 65 3.5.4 Danh sách hình mơ tả thành phần giao diện 66 Chương HIỆN THỰC VÀ THỬ NGHIỆM 68 4.1 Môi trường thực luận văn .68 4.2 Dữ liệu mạng trích dẫn 73 4.3 Hiện thực mơ hình xây dựng nguồn tri thức tự động .73 4.4 Hiện thực hệ thống tìm kiếm tài liệu khoa học có chủ đề tương đồng 76 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 78 5.1 Kết luận 78 5.2 Những đóng góp đề tài 78 -3- Mục lục 5.3 Khả ứng dụng thực tiễn 79 5.4 Hướng phát triển 79 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ .80 TÀI LIỆU THAM KHẢO 81 BÀI BÁO KHOA HỌC QĐ THÀNH LẬP HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ QĐ THAY ĐỔI THÀNH VIÊN HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ NHẬN XÉT LUẬN VĂN THẠC SĨ PHIẾU YÊU CẦU CHỈNH SỬA LUẬN VĂN THẠC SĨ BẢN GIẢI TRÌNH CHỈNH SỬA LUẬN VĂN THẠC SĨ -4- Danh mục ký hiệu chữ viết tắt DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Từ viết tắt CSS Cascading Style Sheets DFD Data Flow Digram FLT Feature Location HDFS HFT JS Jenshen-Shannon KL Kullback-Leibler LDA Latent Dirichlet allocation LHC Large Hadron Collider 10 LSI Latent semantic analysis 11 LTS Long-term Support 12 MLlib Machine Learning library 13 PLSI Probabilistic Latent Sematic Indexing 14 RDD Resilient Distributed Datasets 15 TART Temporal – Author – Recipient – Topic 16 UCLA The University of California, Los Angeles 17 YARN Yet Another Resource Negotiator 18 Cụm từ gốc Hadoop Distributed File System Hidden Factors as Topics WYSIWYG What You See Is What You Get -5- Danh mục bảng DANH MỤC CÁC BẢNG Bảng 3.1 – Danh sách hình hệ thống 66 Bảng 3.2 – Mô tả thành phần giao diện hệ thống 66 Bảng 3.3 – Danh sách biến cố hệ thống 67 Bảng 4.1 – So sánh độ hỗn loạn thông tin LDA mơ hình đề xuất (SourceLDA) 75 -6- Danh mục hình vẽ, đồ thị DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1: Biểu diễn trực quan mạng trích dẫn 24 Hình 2.2: Mơ hình đánh giá độ tương đồng văn theo chủ đề 26 Hình 2.3: Khám phá chủ đề dựa ý tưởng tính phân bố xác suất từ đặc trưng tài liệu 27 Hình 2.4: Mơ hình sinh tài liệu thuật tốn LDA 30 Hình 2.5: Mơ hình sinh tài liệu thuật tốn Source-LDA 35 Hình 2.6: 05 đặc điểm liệu lớn (mơ hình 5V) 41 Hình 2.7: Hai trình mơ hình MapReduce 43 Hình 2.8: Các thành phần Hadoop 1.0 45 Hình 2.9: Quy trình MapReduce Hadoop 46 Hình 2.10: Cấu trúc cài đặt cụm tính tốn Hadoop 1.0 47 Hình 2.11: Những thay đổi Hadoop 2.0 so với Hadoop 1.0 48 Hình 2.12: Cấu trúc cài đặt cụm tính tốn YARN 48 Hình 2.13: Các thành phần framework Apache Spark 52 Hình 3.1: Ví dụ liệu kiểm thử liệu xây dựng nguồn tri thức mạng trích dẫn 55 Hình 3.2: Minh họa siêu tham số nguồn đại diện cho nguồn tri thức 56 Hình 3.3: Ma trận từ - chủ đề  đầu thuật toán LDA 56 Hình 3.4: Quá trình xếp ma trận từ - chủ đề thành siêu tham số nguồn đại diện cho nguồn tri thức 57 Hình 3.5: Mơ hình thuật tốn Source-LDA với nguồn tri thức xây dựng tự động 60 Hình 3.6: Mơ hình xử lý hệ thống tìm kiếm tài liệu khoa học có chủ đề tương đồng 64 Hình 3.7: Mơ hình DFD mức đỉnh hệ thống tìm kiếm văn tương đồng theo chủ đề 65 Hình 3.8: Thiết kế hình phần mềm 66 Hình 4.1: Mơi trường thực luận văn 68 Hình 4.2: Giao diện hệ điều hành Ubuntu 69 -7- Danh mục hình vẽ, đồ thị Hình 4.3: Giao diện mơi trường phát triển tích hợp Eclipse 70 Hình 4.4: Giao diện cơng cụ Scene Builder 73 Hình 4.5: Khoảng cách Kullback–Leibler từ mơ hình đề xuất (Source-LDA) đến LDA 74 Hình 4.6: Độ hỗn loạn thơng tin LDA mơ hình đề xuất (Source-LDA) 76 Hình 4.7: Giao diện hệ thống tìm kiếm văn khoa học tương đồng theo chủ đề 77 -8- Mở đầu MỞ ĐẦU Mục tiêu nghiên cứu đề tài tìm kiếm văn tương đồng theo chủ đề kho văn lớn Để giải toán đề tài nghiên cứu khám phá chủ đề ẩn văn thông qua việc đề xuất cải tiến phương pháp khai phá chủ đề ẩn tập ngữ liệu cách áp dụng tri thức biết trước (prior knowledge) thông qua nguồn tri thức xây dựng tự động Nguồn tri thức sử dụng để nâng cao độ xác việc lựa chọn chủ đề cho từ Từ đó, đề tài xây dựng hệ thống tìm kiếm văn có chủ đề tương đồng với Đối tượng nghiên cứu đề tài bao gồm: nội dung tóm tắt văn khoa học, cụ thể chủ đề tập từ khóa tương ứng trình bày phần tóm tắt báo, sách, giáo trình khoa học; mơ hình khai phá chủ đề ẩn dựa phương pháp thống kê Latent Dirichlet Allocation (LDA); mơ hình xử lý liệu lớn Phạm vi nghiên cứu đề tài mơ hình chủ đề LDA, Dynamic Topic Models ; phương pháp xây dựng nguồn tri thức tự động; mơ hình tổ chức liệu tuần tự; mơ hình xử lý liệu lớn MapReduce; framework xử lý liệu lớn Apache Spark; thư viện máy học MLlib, GraphX, Mahout Giới hạn đề tài dự kiến dừng lại mức đề xuất cải tiến cài đặt mô hình chủ đề theo phương pháp phân tán, song song hóa -9- Hiện thực thử nghiệm Hình 4.3: Giao diện mơi trường phát triển tích hợp Eclipse Bộ phần mềm phát triển Eclipse miễn phí phần mềm mã nguồn mở phát hành giấy phép Eclipse Public License Tuy giấy phép khơng tương thích với giấy phép GNU General Public License, mơi trường phát triển tích hợp chạy thư viện GNU Classpath Kể từ phiên 3.2, phát hành Eclipse đặt tên mã dựa chủ đề khoa học như: Eclipse 3.2 (Callisto), Eclipse 3.3 (Europa), Eclipse 3.6 (Helios)… Phiên ổn định 4.7 phát hành vào ngày 28 tháng 06 năm 2017 có tên mã Oxygen Chính khả mở rộng mềm dẻo, linh hoạt sức mạnh Eclipse nên luận văn chọn mơi trường phát triển tích hợp sử dụng để hồn thành đề tài Luận văn sử dụng ngơn ngữ Scala phiên 2.12.2 Ngôn ngữ Scala (viết tắt từ Scalable Language) ngơn ngữ lập trình đa mẫu hình Ngơn ngữ xây dựng Martin Odersky mắt lần vào năm 2003 Nó có khả mở rộng tùy biến dùng nhiều lĩnh vực, quy mô, từ đoạn lệnh nhỏ hệ thống lớn Ngôn ngữ Scala chạy máy ảo Java tương thích hồn tồn với Java Các thư viện mã nguồn chương trình Java hồn tồn viết chương trình Scala Ngồi chạy NET, nhiên kể từ phiên Scala vào cuối năm 2012 trở không hỗ trợ việc Scala có tính chất - 70 - Hiện thực thử nghiệm ngôn ngữ lập trình hàm lập trình hướng đối tượng Sự kết hợp lập trình hàm lập trình hướng đối tượng thể nhiều khía cạnh, kiểu lâp trình tương hỗ với đặc biệt hệ thống lớn Lập trình hàm xây dựng nhanh chóng dễ dàng tính từ phần nhỏ lập trình hướng đối tượng thích hợp để xây dựng cấu trúc hệ thống lớn Ngơn ngữ Scala có số đặc điểm sau:  Linh hoạt cú pháp  Có vòng lặp mạnh mẽ  Phù hợp với lập trình hàm lập trình hướng đối tượng  Hệ thống kiểu liệu phong phú có khả mở rộng Ngoài ra, bên cạnh Scala, luận văn kết hợp sử dụng ngơn ngữ Java phiên Java ngơn ngữ lập trình hướng đối tượng phổ biến Nó giúp cho lập trình viên phát triển ứng dụng mà chạy nhiều thiết bị phần cứng hệ điều hành khác [34] Khác với phần lớn ngôn ngữ lập trình thơng thường, thay biên dịch mã nguồn thành mã máy thông dịch mã nguồn chạy, Java thiết kế để biên dịch mã nguồn thành bytecode, bytecode sau mơi trường thực thi (runtime environment) chạy Môi trường thực thi ngôn ngữ Java máy ảo Java (Java Virtual Machine – JVM) Có nhiều JVM cho tảng khác chẳng hạn Windows, Unix, Solaris Người dùng cần viết chương trình lần, đoạn mã dịch bytecode chạy nhiều môi trường khác thông qua máy ảo JVM môi trường Java tạo với tiêu chí "Viết (code) lần, thực thi khắp nơi" ("Write Once, Run Anywhere" (WORA)) Chương trình phần mềm viết Java chạy tảng (platform) khác thông qua mơi trường thực thi với điều kiện có mơi trường thực thi thích hợp hỗ trợ tảng Phần mềm minh họa biên dịch sbt phiên 0.13, sử dụng framework xử lý liệu lớn Apache Spark phiên 2.1.1 Giao diện hệ thống tìm kiếm văn tương đồng theo chủ đề phát triển công cụ Scene Builder dựa thư viện JavaFX phiên 2, JFoeniX phiên 1.10 - 71 - Hiện thực thử nghiệm JavaFX thư viện phần mềm dùng để tạo ứng dụng dành cho máy tính để bàn, phần mềm trực tuyến (RIAs - Rich Internet Applications) chạy nhiều thiết bị [35] JavaFX dự kiến thay Swing trở thành thư viện giao diện người dùng tiêu chuẩn cho phiên Java SE, hai phát triển song song tương lai gần JavaFX hỗ trợ máy tính để bàn trình duyệt web Microsoft Windows, Linux macOS Trước phiên 2.0 JavaFX, nhà phát triển sử dụng ngôn ngữ khai báo kiểu tĩnh gọi JavaFX Script để xây dựng ứng dụng JavaFX Sau đó, JavaFX Script biên dịch sang Java bytecode, nên lập trình viên sử dụng mã Java thay Các ứng dụng JavaFX chạy máy tính cá nhân chạy Java SE, trình duyệt chạy Java EE điện thoại di động chạy Java ME JavaFX 2.0 phiên sau phát hành thư viện mặc định Java ứng dụng sử dụng JavaFX viết trực tiếp ngôn ngữ Java đơn giản JavaFX Script bị Oracle bỏ qua, tiếp tục phát triển dự án Visage Phiên JavaFX 2.x không hỗ trợ hệ điều hành Solaris điện thoại di động; nhiên, Oracle dự định tích hợp JavaFX vào phiên nhúng Java SE Embedded Java FX cho vi xử lý ARM giai đoạn phát triển Trên máy tính cá nhân, JavaFX hỗ trợ hệ điều hành Windows Vista, Windows 7, Windows 8, Windows 10, macOS Linux Bắt đầu với JavaFX 1.2, Oracle phát hành phiên beta cho OpenSolaris Trên điện thoại di động, JavaFX Mobile 1.x có khả chạy nhiều hệ điều hành di động, bao gồm Hệ điều hành Symbian, Windows Mobile hệ điều hành thời gian thực độc quyền Được Oracle cho mắt kèm với thư viện JavaFX 2.1 JavaFX Scene Builder cung cấp môi trường bố cục trực quan cho phép người dùng nhanh chóng thiết kế giao diện người dùng cho ứng dụng JavaFX mà không cần phải viết mã Nó cho phép thao tác đơn giản kéo thả vào vị trí thành phần giao diện người dùng đồ họa khung thành phần JavaFX Khi người dùng xây dựng xong bố cục giao diện người dùng họ, mã FXML (một định tập tin mở rộng dựa XML) cho bố cục tạo tự động JavaFX Scene Builder cung cấp giao diện đơn giản trực quan giúp - 72 - Hiện thực thử nghiệm người khơng phải lập trình viên nhanh chóng tạo mẫu ứng dụng tương tác kết nối thành phần giao diện người dùng đồ họa với logic ứng dụng Hình 4.4: Giao diện công cụ Scene Builder JFoeniX thư viện Java mã nguồn mở phát hành giấy phép Apache phiên 2.0, thực thiết kế Google Material thành phần Java Thư viện JFoeniX hồn tồn thêm vào công cụ Scene Builder để thiết kế giao diện độc lập 4.2 Dữ liệu mạng trích dẫn Luận văn sử dụng liệu trích dẫn từ mạng xã hội học thuật (Academic social network - ASN) trang web nhóm nghiên cứu Aminer (https://aminer.org/data) Dữ liệu bao gồm 2,092,356 tài liệu khoa học với 8,024,869 trích dẫn Đề tài sử dụng 14.327 đoạn tóm tắt trích xuất từ mạng xã hội học thuật Toàn liệu sử dụng để xây dựng tự động nguồn tri thức cho thuật toán Source-LDA Số lượng chủ đề chọn qua trình thực nghiệm dùng để kiểm tra mơ hình 50 4.3 Hiện thực mơ hình xây dựng nguồn tri thức tự động Để đánh giá tính hiệu mơ hình, luận văn thực việc kiểm tra so sánh kết thuật tốn LDA mơ hình đề xuất sử dụng nguồn tri thức xây dựng theo phương pháp đề tài - 73 - Hiện thực thử nghiệm Dữ liệu kiểm thử bao gồm 806 văn tóm tắt tài liệu khoa học trích xuất từ mạng xã hội học thuật ASN; chúng tài liệu tham khảo đến 14327 tài liệu tập liệu huấn luyện Luận văn sử dụng phép đo khoảng cách Kullback-Leibler để kiểm tra khác biệt phân bố xác suất từ-chủ đề mơ hình LDA truyền thống phương pháp đề xuất Đề tài sử dụng độ hỗn loạn để đo lường độ ổn định mơ hình xác suất Độ hỗn loạn thước đo việc thực mơ hình ngơn ngữ dựa xác suất trung bình lĩnh vực lý thuyết thơng tin [21] Với số lượng bước lặp tăng từ 100 đến 2000, khoảng cách Kullback–Leibler từ mơ hình xây dựng nguồn tri thức tự động đề xuất (Source-LDA) tới LDA biểu diễn hình 4.5 Hình 4.5: Khoảng cách Kullback–Leibler từ mơ hình đề xuất (Source-LDA) đến LDA - 74 - Hiện thực thử nghiệm Giá trị khoảng cách Kullback–Leibler từ mơ hình đề xuất (Source-LDA) đến LDA xấp xỉ -0,635 Giá trị cho thấy khác biệt lớn hai phân bố xác suất từ-chủ đề hai mơ hình Điều cho thấy kết mơ hình đề xuất khác nhiều so với mơ hình LDA Tiếp theo, độ hỗn loạn thơng tin LDA mơ hình đề xuất biểu diễn bảng 4.1 hình 4.6 Bảng 4.1: So sánh độ hỗn loạn thông tin LDA mơ hình đề xuất (SourceLDA) Số bước lặp LDA Source-LDA 100.00 2831.437784 610.8790888 200.00 2817.622729 608.3100205 500.00 2838.181254 604.2790949 1000.00 2773.8472 604.2475382 2000.00 2788.372726 603.3165104 - 75 - Hiện thực thử nghiệm Hình 4.6: Độ hỗn loạn thơng tin LDA mơ hình đề xuất (Source-LDA) Giá trị độ hỗn loạn mơ hình đề xuất nhận từ 603 đến 611, giá trị độ hỗn loạn mơ hình LDA khoảng từ 2773 đến 2839 Điều cho thấy rằng, mơ hình đề xuất có độ hỗn loạn thấp nhiều so với mơ hình LDA Qua đó, mơ hình đề xuất cho thấy độ ổn định cao nhiều so với mơ hình LDA truyền thống Với kết trên, thấy thay đổi rõ ráng mơ hình đề xuất so với mơ hình LDA truyền thống độ ổn định phân bố xác suất cải thiện nhiều 4.4 Hiện thực hệ thống tìm kiếm tài liệu khoa học có chủ đề tương đồng Hệ thống tìm kiếm văn khoa học tương đồng theo chủ đề có giao diện thiết kế đơn giản hình 4.7 - 76 - Hiện thực thử nghiệm Hình 4.7: Giao diện hệ thống tìm kiếm văn khoa học tương đồng theo chủ đề Người dùng nhập nội dung cần tìm kiếm văn tương đồng theo chủ đề vào khung nội dung Nhập số kết cần hiển thị vào ô Số kết cần hiển thị bấm tìm kiếm Kết sau phân tích trình bày khung Kết quả, người dùng sử dụng danh sách kết dạng danh sách số báo để tra cứu vào liệu mạng trích dẫn để tìm thông tin cụ thể - 77 - Kết luận hướng phát triển Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương 5, chương cuối báo cáo luận văn trình bày kết luận rút từ trình thực nghiệm chương trước Bên cạnh đó, báo cáo phân tích ưu điểm, nhược điểm luận văn Từ đó, báo cáo liệt kê đóng góp mà đề tài thực hướng phát triển đề tài nghiên cứu tương lai 5.1 Kết luận Đề tài hoàn thành mục tiêu ban đầu đề đề cương nghiên cứu:  Áp dụng liệu mạng trích dẫn để đề xuất việc xây dựng mơ hình tự động xây dựng nguồn tri thức, cải thiện điểm yếu thuật toán Source-LDA  Cải thiện khả xử lý Source-LDA với nguồn tri thức xây dựng tự động liệu lớn việc xây dựng mơ hình phân tán mở rộng tính tốn đơn vị xử lý  Xây dựng hệ thống tìm kiếm văn khoa học có chủ đề tương đồng  Viết báo khoa học để trình bày hội nghị quốc tế 5.2 Những đóng góp đề tài Những đóng góp đề tài liệt kê sau:  Luận văn đề xuất kỹ thuật để mơ hình hóa chủ đề theo hướng tiếp cận không giám sát sử dụng tri thức biết trước từ tài liệu tham khảo  Luận văn giới thiệu phương pháp cho phép tự động tạo nguồn tri thức Source-LDA từ liệu không dán nhãn  Luận văn cách tìm chủ đề phù hợp tài liệu dựa nội dung tài liệu tham khảo  Luận văn giải thích cách sử dụng đặc tính mạng trích dẫn để khám phá chủ đề hiệu  Luận văn xây dựng mơ hình phân tán giúp cho hiệu thuật toán xây dựng nguồn tri thức tự động khám phá chủ đề ẩn cải thiện liệu lớn  Luận văn xây dựng hệ thống tìm kiếm văn khoa học có chủ đề tương đồng - 78 - Kết luận hướng phát triển 5.3 Khả ứng dụng thực tiễn Đề tài có khả áp dụng vào trường hợp thực tiễn sau:  Áp dụng mơ hình khám phá chủ đề ẩn với nguồn tri thức xây dựng tự động việc cải thiện khả khám phá chủ đề ẩn hệ thống  Áp dụng mơ hình phân tán xử lý liệu lớn vào việc khám phá chủ đề ẩn kho văn đồ sộ  Sử dụng hệ thống tìm kiếm văn tương đồng theo chủ đề lĩnh vực nghiên cứu để nhanh chóng tìm tài liệu khoa học có liên quan đến chủ đề nghiên cứu 5.4 Hướng phát triển Với thành đạt ưu điểm, nhược điểm luận văn, hướng phát triển tương lai luận văn là:  Tiếp tục cải thiện độ ổn định mơ hình phân tích chủ đề ẩn với nguồn tri thức xây dựng tự động  Thực nghiệm so sánh mô hình phân tán đề xuất quy mơ mạng trích dẫn lớn  Tiếp tục cải thiện mơ hình phân tán để tăng tốc độ xử lý  Thực nghiệm so sánh kết mơ hình với nhiều thuật tốn, nhiều nguồn liệu để có nhìn khách quan  Từ hệ thống tìm kiếm văn có chủ đề tương đồng, tương lai đề tài phát triển xây dựng công cụ theo dõi phát triển chủ đề theo thời gian, gợi ý chủ đề mới, chủ đề tập trung nghiên cứu… - 79 - Danh mục công bố khoa học tác giả DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ 01 báo Tiếng Anh trình bày hội nghị nước ngồi Tên báo: CREATING PRIOR-KNOWLEDGE OF SOURCE-LDA FOR TOPIC DISCOVERY IN CITATION NETWORK Tên tác giả: Nguyễn Hồ Duy Trí, Nguyễn Trác Thức, Đỗ Phúc Tên hội nghị: The Fourth International Conference on Computational Science and Technology (ICCST 2017) Đơn vị tổ chức: Universiti Malaysia Sabah (UMS), Kuala Lumpur, Malaysia Thời gian: 29-30/11/2017 Địa điểm: PARKROYAL Hotel, Kuala Lumpur Website: www.iccstec.org Bài báo đăng ấn phẩm Lecture Notes in Electrical Engineering (LNEE) nhà xuất Springer (ISSN: 1876-1100) - 80 - Tài liệu tham khảo TÀI LIỆU THAM KHẢO Tiếng Việt Đỗ Việt Phương (2013), Mô hình keyword-topic cho quảng cáo dựa ngữ cảnh, Học viện Cơng nghệ Bưu Viễn thơng, Hà Nội V Đ V Phương, T V Lăng, T.V Hoài, L V Vinh (2016), "Áp dụng mơ hình ẩn kết hợp thuật tốn BiMeta việc gom nhóm trình tự Metagenomic", Kỷ yếu Hội nghị quốc gia lần thứ IX Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’9), Cần Thơ, tr 49-55 Hồ Trung Thành, Đỗ Phúc (2014), "Mơ hình tích hợp khám phá, phân lớp gán nhãn chủ đề tiếp cận theo mô hình chủ đề", Tạp chí Phát triển Khoa học - Công nghệ ĐHQGHCM Tập (K4), tr 73-85 Nguyễn Cẩm Tú (2008), Hidden topic discovery toward classification and clustering in vietnamese web documents, College of Technology - Viet Nam National University Ha Noi, Ha Noi Tiếng Anh L R Biggers, C Bocovich, R Capshaw, B P Eddy, L H Etzkorn and N A Kraft (2012), "Configuring latent Dirichlet allocation based feature location", Empirical Software Engineering, vol 19 (3), pp 465-500 D Blei and J Lafferty (2006), "Correlated topic models", Advances in neural information processing systems vol 18, p 147 D M Blei, A Y Ng and M I Jordan (2003), "Latent Dirichlet Allocation", Journal of Machine Learning Research vol 3, pp 993-1022 D M Blei, J D Lafferty (2007), “A correlated topic model of science”, The Annals of Applied Statistics, 17-35 David M Blei (2012), “Probabilistic topic models”, Commun, ACM 55, (April 2012), 77-84 10 Newman, David, et al (2009), "Distributed algorithms for topic models", Journal of Machine Learning Research vol 10, pp 1801-1828 Tài liệu tham khảo 11 S Deerwester, S T Dumais, G W Furnas, T K Landauer and R Harshman (1990), "Indexing by latent semantic analysis", Journal Of The American Society For Information Science vol 41 (6), pp 391-407 12 L Du, W L Buntine and H Jin (2010), "Sequential Latent Dirichlet Allocation: Discover Underlying Topic Structures within a Document", 2010 IEEE International Conference on Data Mining, Sydney, NSW 13 D Griffiths and M Tenenbaum (2004), "Hierarchical topic models and the nested chinese restaurant process", Advances in neural information processing systems vol 16, p 17 14 Tom Griffiths (2002), Gibbs sampling in the generative model of latent dirichlet allocation, Standford University 15 T Ho and Phuc Do (2015), "Analyzing users’ interests with the temporal factor based on topic modeling", Intelligent Information and Database Systems: 7th Asian Conference, ACIIDS 2015, Bali, Indonesia, March 23-25, 2015, Proceedings, Part II, Bali, Indonesia 16 T Hofmann (1999), "Probabilistic Latent Semantic Indexing", Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York 17 Dingcheng Li, Zhen Wang, Liwei Wang, Sunghwan Sohn, Feichen Shen, Mohammad Hassan Murad, Hongfang Liu (2016), “A Text-Mining Framework for Supporting Systematic Reviews”, American Journal of Information Management Vol (1), pp 1-9 18 J McAuley and J Leskovec (2013), "Hidden Factors and Hidden Topics: Understanding Rating Dimensions with Review Text", Proceedings of the 7th ACM Conference on Recommender Systems, New York, NY: ACM, 2013, pp 165-172 19 Muon Nguyen, Thanh Ho, Phuc Do (2013), "Social networks analysis based on topic modeling", Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 IEEE RIVF International Conference, Ha Noi, Viet Nam Tài liệu tham khảo 20 Nghe Nguyen, Thanh Ho, Phuc Do (2015), "Finding the most influential user of a specific topic on the social networks", Advances in Computer Science: an International Journal vol (2), pp 31-40 21 C.E Shannon (1948), "A Mathematical Theory of Communication", The Bell System Technical Journal vol 27, pp 379-423, 623-656 22 Minglai Shao and Qin Liangxi (2014), “Text Similarity Computing Based on LDA Topic Model and Word Co-occurrence”, Proceedings of the 2nd International Conference on Software Engineering, Knowledge Engineering and Information Engineering, pp 199-203 23 L Shu, B Long and W Meng (2009), "A Latent Topic Model for Complete Entity Resolution", 2009 IEEE 25th International Conference on Data Engineering, pp 880-891 24 K Tsukuda, K Ishida, and M Goto (2017), “Lyric Jumper: A Lyrics-Based Music Exploratory Web Service by Modeling Lyrics Generative Process”, Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR 2017), pp.544-551 25 X Wang and E Grimson (2008), "Spatial latent dirichlet allocation", Advances in neural information processing systems, pp 1577-1584 26 Xiaolong Wang, Chengxiang Zhai, Dan Roth (2013), “Understanding evolution of research themes: a probabilistic generative model for citations”, Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, August 11-14, 2013, Chicago, Illinois, USA 27 Ryen W White and Joemon M Jose (2004), “A study of topic similarity measures”, Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '04), ACM, New York, NY, USA, 520-521 28 Justin Wood, et al (2017), “Source-LDA: Enhancing probabilistic topic models using prior knowledge sources”, Data Engineering (ICDE), 2017 IEEE 33rd International Conference on IEEE, pp 411-422 29 Xinyan Xiao, Deyi Xiong, Min Zhang, Qun Liu, and Shouxun Lin (2012), “A topic similarity model for hierarchical phrase-based translation”, Proceedings of the Tài liệu tham khảo 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume (ACL '12), Vol 1, Association for Computational Linguistics, Stroudsburg, PA, USA, 750-758 30 M Zaharia, M Chowdhury, M J Franklin, S Shenker and I Stoica (2010), "Spark: Cluster Computing with Working Sets", Proceedings of the 2Nd USENIX Conference on Hot Topics in Cloud Computing, Boston, MA 31 Xu, C., Zhang, H., Lu, B., & Wu, S (2017), “Local Community Detection Using Social Relations and Topic Features in Social Networks”, Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, Springer, Cham, pp 371-383 32 Latent Dirichlet allocation (LDA), Clustering, Apache Spark MLlib: Main Guide, (11/2017), https://spark.apache.org/docs/latest/ml-clustering.html#latent-dirichlet- allocation-lda 33 12 Big Data Definitions: What's Yours?, Forbes (10/2017), https://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whatsyours 34 Java (programming language), Wikipedia (10/2017), https://en.wikipedia.org/wiki/Java_(programming_language) 35 JavaFX Architecture, Oracle (11/2017), https://docs.oracle.com/javafx/2/architecture/jfxpub-architecture.htm 36 What Is Big Data?, UC Berkeley School of Information (10/2017), https://datascience.berkeley.edu/what-is-big-data/ 37 Why only one of the Vs of big data really matters, IBM Big Data Hub (10/2017), http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-reallymatters ... đánh giá độ tương đồng văn theo chủ đề sau: - 25 - Cơ sở lý thuyết Tìm phân phối xác suất chủ đề ẩn văn Đo độ tương đồng phân phối chủ đề So sánh kết luận độ tương đồng văn theo chủ đề Hình 2.2:... hình đánh giá độ tương đồng văn theo chủ đề Ở bước mơ hình đánh giá độ tương đồng văn theo chủ đề, phân phối xác suất chủ đề ẩn văn chủ yếu tìm cách mơ hình hóa chủ đề theo thuật toán LDA Những... hai văn có hai loại sau:  Tương đồng theo hình thức: tương tự theo cụm từ, tương đồng theo thay từ nghĩa  Tương đồng theo ngữ nghĩa: tương đồng chủ đề Như xem xét tương đồng ngữ nghĩa, tập chủ

GOM cụm văn bản TƯƠNG ĐỒNG THEO CHỦ đề TRONG KHO văn bản lớn TRÊN nền TÍNH TOÁN PHÂN tán

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

MỞ ĐẦU

Chương 1. TỔNG QUAN

1.1. Lý do chọn đề tài

1.2. Mục tiêu, đối tượng và phạm vi nghiên cứu

1.3. Nội dung và phương pháp nghiên cứu

1.3.1. Tìm hiểu và sử dụng dữ liệu từ mạng trích dẫn

1.3.2. Đề xuất phương pháp xây dựng nguồn tri thức tự động

1.3.3. Xây dựng mô hình áp dụng nguồn tri thức tự động vào Source-LDA

1.3.4. Đề xuất mô hình xử lý phân tán Source-LDA với nguồn tri thức được xây dựng tự động

1.3.5. Xây dựng hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương đồng

1.4. Tổng quan về tình hình nghiên cứu

1.4.1. Các công trình nghiên cứu về tìm kiếm văn bản tương đồng theo chủ đề

1.4.2. Các công trình nghiên cứu về mô hình chủ đề LDA

1.4.2.1. Những nghiên cứu về LDA trong nước

1.4.2.2. Những nghiên cứu về LDA ở nước ngoài

1.5. Cấu trúc báo cáo

Chương 2. CƠ SỞ LÝ THUYẾT

2.1. Mạng trích dẫn

2.2. Mô hình tìm kiếm văn bản tương đồng theo chủ đề

2.2.1. Khái niệm văn bản tương đồng theo chủ đề

2.2.2. Mô hình đánh giá độ tương đồng của văn bản theo chủ đề

Tài liệu cùng người dùng

Tài liệu liên quan