Phân loại giới tính người dùng mạng xã hội dựa vào tin nhắn văn bản và Word2Vec

12 815 0
Phân loại giới tính người dùng mạng xã hội dựa vào tin nhắn văn bản và Word2Vec

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KHỔNG BÙI TRUNG PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội – Năm 2016 LỜI CÁM ƠN Để có đƣợc kết nhƣ ngày hôm nay, ghi nhớ công ơn thầy cô, bạn bè, đồng nghiệp gia đình, ngƣời dạy bảo ủng hộ suốt trình học tập Trƣớc hết, muốn gửi lời cám ơn đến thầy cô trƣờng Đại học Công Nghê, Đại học Quốc Gia Hà Nội quan tâm tổ chức đạo trực tiếp giảng dạy khoá cao học Đặc biệt, xin gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS Nguyễn Văn Vinh, ngƣời tận tình bảo góp ý mặt chuyên môn cho suốt trình làm luận văn Nếu giúp đỡ thầy khó hoàn thành đƣợc luận văn Cũng qua đây, xin gửi lời cảm ơn đến ban lãnh đạo Trƣờng TCN Nấu ăn NVKS Hà Nội, nơi công tác, tạo điều kiện thuận lợi cho thời gian hoàn thành môn học nhƣ suốt trình làm luận văn tốt nghiệp Cuối cùng, xin cảm ơn gia đình bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Trong suốt trình làm luận văn, thân cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đƣờng nghiên cứu khoa học, chắn luận văn nhiều thiếu sót Tôi mong đƣợc nhận bảo Thầy Cô giáo góp ý bạn bè đồng nghiệp để luận văn đƣợc hoàn thiện Hà Nội, Tháng 11 năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Khổng Bùi Trung MỤC LỤC MỤC LỤC .iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ MẠNG XÃ HỘI Error! Bookmark not defined 1.1 Khai phá liệu Error! Bookmark not defined 1.1.1 Khai phá liệu gì? .Error! Bookmark not defined 1.1.2 Quá trình khai phá liệu Error! Bookmark not defined 1.1.3 Các chức khai phá liệu Error! Bookmark not defined 1.1.4 Các kỹ thuật khai phá liệu .Error! Bookmark not defined 1.1.4.1 Phân loại (phân loại - classification) Error! Bookmark not defined 1.1.4.2 Hồi qui (regression) .Error! Bookmark not defined 1.1.4.3 Phân cụm (clustering) Error! Bookmark not defined 1.1.4.4 Tổng hợp (summarization) Error! Bookmark not defined 1.1.4.5 Mô hình hoá phụ thuộc (dependency modeling) .Error! Bookmark not defined 1.1.4.6 Phát biến đổi độ lệch (change and deviation dectection) .Error! Bookmark not defined 1.2 Mạng xã hội Error! Bookmark not defined 1.2.1 Mạng xã hội gì? .Error! Bookmark not defined 1.2.2 Lợi ích tác hại mạng xã hội .Error! Bookmark not defined 1.2.2.1 Lợi ích mạng xã hội .Error! Bookmark not defined 1.2.2.2 Tác hại mạng xã hội Error! Bookmark not defined 1.2.3 Các mạng xã hội phổ biến Error! Bookmark not defined 1.2.3.1 Facebook Error! Bookmark not defined 1.2.3.2 Instagram Error! Bookmark not defined 1.2.3.3 Twitter Error! Bookmark not defined 1.2.3.4 Zalo Error! Bookmark not defined CHƢƠNG 2: WORD2VEC VÀ MÔ HÌNH “TỪ” THÀNH “VECTOR” Error! Bookmark not defined 2.1 Vector từ Error! Bookmark not defined 2.2 Lập luận với Vector từ Error! Bookmark not defined 2.3 Nghiên cứu vector từ vựng Error! Bookmark not defined 2.4 Mô hình Continuous Bag-of-word/Mô hình túi từ liên tục (CBOW) Error! Bookmark not defined 2.4.1 Ngữ cảnh từ Error! Bookmark not defined 2.4.2 Ngữ cảnh cụm từ Error! Bookmark not defined 2.5 Mô hình Skip-gram Error! Bookmark not defined 2.5.1 Hierarchical Softmax (Softmax phân cấp) Error! Bookmark not defined 2.5.2 Negative Sampling (Mẫu phủ định) Error! Bookmark not defined 2.5.3 Subsampling of Frequent Words (Lựa chọn mẫu phụ từ thƣờng gặp) Error! Bookmark not defined CHƢƠNG 3: ỨNG DỤNG WORD2VEC VÀO PHÂN LOẠI GIỚI TÍNH NGƢỜI DÙNG MẠNG XÃ HỘI Error! Bookmark not defined 3.1 Mở đầu Error! Bookmark not defined 3.2 Giải pháp cho toán phân loại giới tính ngƣời dùng mạng xã hội Error! Bookmark not defined 3.2.1 Phân loại theo mô hình n-gram Error! Bookmark not defined 3.2.2 Phân loại sử dụng thêm Word2Vec Error! Bookmark not defined 3.3 Thực nghiệm Error! Bookmark not defined 3.3.1 Dữ liệu thực nghiệm Error! Bookmark not defined 3.3.2 Cấu hình thực nghiệm Error! Bookmark not defined 3.3.3 Mô tả thực nghiệm Error! Bookmark not defined 3.3.4 Đánh giá Error! Bookmark not defined 3.3.5 Kết thực nghiệm Error! Bookmark not defined KẾT LUẬN .Error! Bookmark not defined TÀI LIỆU THAM KHẢO DANH MỤC CÁC BẢNG Bảng 2.1: Ví dụ mối quan hệ giữ cặp từ Error! Bookmark not defined Bảng 2.2: Ví dụ dạng câu hỏi “a dành cho b nhƣ c dành cho?” Error! Bookmark not defined Bảng 2.3: Trả lời cho câu hỏi dạng “a dành cho b nhƣ c dành cho?” Error! Bookmark not defined Bảng 2.4: Độ xác nhiều mô hình Skip-gram 300-chiều .Error! Bookmark not defined Bảng 3.1: Giá trị biểu diễn từ Word2Vec Error! Bookmark not defined Bảng 3.2: Tỷ lệ chia tập liệu huấn luyện kiểm thử Error! Bookmark not defined Bảng 3.3: So sánh kết thực nghiệm với tỷ lệ tập liệu 75%-25% .Error! Bookmark not defined Bảng 3.4: So sánh kết thực nghiệm với tỷ lệ tập liệu 80%-20% .Error! Bookmark not defined Bảng 3.5: So sánh kết thực nghiệm với tỷ lệ tập liệu 85%-15% .Error! Bookmark not defined Bảng 3.6: Tổng hợp so sánh kết thực nghiệm Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Hình 2.1: Giá trị bù vector cho cặp từ mô mối quan hệ giới Error! Bookmark not defined Hình 2.2: Mối quan hệ số nhiều số .Error! Bookmark not defined Hình 2.3: Vector từ cho Vua, Đàn ông, Hoàng hậu Phụ nữ Error! Bookmark not defined Hình 2.4: Kết cấu thành Vector Vua – Đàn ông + Phụ nữ = ? Error! Bookmark not defined Hình 2.5: Mối quan hệ thủ đô - quốc gia Error! Bookmark not defined Hình 2.6: Mô hình CBOW đơn giản với từ ngữ cảnh Error! Bookmark not defined Hình 2.7: Mô hình túi từ liên tục (CBOW) .Error! Bookmark not defined Hình 2.8: Mô hình Skip-gram Error! Bookmark not defined Hình 3.1: Phân loại theo mô hình n-gram Error! Bookmark not defined Hình 3.2: Phân loại đƣa thêm Word2Vec .Error! Bookmark not defined Hình 3.3: Biểu đồ biểu diễn kết thực nghiệm Error! Bookmark not defined 1 MỞ ĐẦU Ngày nay, ngƣời sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm cho kho liệu tăng lên nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lƣợng liệu khổng lồ thành tri thức có ích Mặt khác, môi trƣờng cạnh tranh ngƣời ta ngày cần có thông tin với tốc độ nhanh chóng để giúp cho việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Tiến hành công việc nhƣ trình phát tri thức sở liệu, kỹ thuật khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới nói chung Việt Nam nói riêng Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Hiện mạng xã hội nhƣ Facebook, Twitter, Zalo,… ngày phát triển có ảnh hƣởng lớn đến đời sống xã hội Trong lĩnh vực thƣơng mại điện tử, nhiều công ty vào mạng xã hội để quảng cáo, tƣ vấn, phân tích sản phẩm công ty Chính biết đƣợc giới tính ngƣời dùng nam hay nữ việc tƣ vấn quảng cáo hƣớng đến ngƣời dùng cụ thể hiệu Do vấn đề phân loại tự động giới tính ngƣời dùng sử dụng mạng xã hội toán quan trọng Hiện có nhiều kỹ thuật để sử dụng cho phân loại tự động giới tính nhƣng chủ yếu dựa vào đặc trƣng kiểu truyền thống nhƣ mô hình tần suất từ, n-gram, Word2Vec mô hình chuyển từ thành vector đƣợc phát triển ứng dụng rộng rãi thời gian gần Chính mà sử dụng thêm Word2Vec làm đặc trƣng để cải tiến kết toán Từ vấn đề nêu trên, chọn đề tài: “Phân loại giới tính người dùng mạng xã hội dựa tin nhắn văn Word2Vec” để làm luận văn tốt nghiệp Đề tài nhằm mục đích nghiên cứu phƣơng pháp biểu diễn từ dƣới dạng vector sau dùng làm đặc trƣng để cải thiện kết việc phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Luận văn bao gồm phần Mở đầu, phần kết luận ba chƣơng Phần mở đầu giới thiệu đề tài luận văn Phần trình bày lý đề tài, mục tiêu đề tài cấu trúc luận văn Chƣơng giới thiệu tổng quan khai phá liệu trình khai phá liệu Bên cạnh giới thiệu số chức khai phá liệu nhƣ số kỹ thuật khai phá liệu Ngoài chƣơng giới thiệu mạng xã hội, lợi ích bất lợi mạng xã hội nhƣ số mạng xã hội phổ biến giới Chƣơng giới thiệu khái niệm vector từ nhƣ lập luận liên quan đến vector từ Chƣơng giới thiệu mô hình nhƣ cách xây dựng Word2Vec nhƣ mô hình Continuous Bag-of-Words, mô hình Skip-gram Chƣơng trình bày về thực nghiệm toán ứng dụng Word2Vec vào phân loại giới tính ngƣời dùng mạng xã hội Giải pháp thực kết đạt đƣợc sau thực nghiệm Cuối phần kết luận, định hƣớng nghiên cứu phát triển đề tài tài liệu tham khảo luận văn TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Thị Thanh Thảo, Tìm hiểu ứng dụng datamining kinh doanh, 2012 [2] Nhóm tác giả: Kim Đình Sơn, Đặng Ngọc Thuyên, Phùng Văn Chiến, Ngô Thành Đạt, Các mô hình ngôn ngữ N-gram Ứng dụng, 2013 [3] Bộ môn hệ thống thông tin, Khoa công nghệ thông tin, Đại học hàng hải Việt Nam, Bài giảng khai phá liệu, 2011 [4] Bộ phận tƣ vấn – hỗ trợ giới thiệu việc làm SV, Tác động mạng xã hội đến học sinh sinh viên, 2015 https://www.kgtec.edu.vn/component/k2/1440-tac-dong-cua-mang-xahoi-den-hoc-sinh-sinh-vien Tài liệu tiếng Anh: [5] Andriy Mnih and Geoffrey E Hinton A scalable hierarchical distributed language model Advances in neural information processing systems, 21:1081–1088, 2009 [6] Andriy Mnih and Yee Whye Teh A fast and simple algorithm for training neural probabilistic language models arXiv preprint arXiv:1206.6426, 2012 [7] David A Jurgens, Saif M Mohammad, Peter D Turney, Keith J Holyoak, SemEval-2012 Task 2: Measuring Degrees of Relational Similarity, 2012 [8] Frederic Morin and Yoshua Bengio Hierarchical probabilistic neural network language model In Proceedings of the international workshop on artificial intelligence and statistics, pages 246–252, 2005 [9] Michael U Gutmann and Aapo Hyv¨arinen Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics The Journal of Machine Learning Research, 13:307–361, 2012 [10] Mikolov et al, Distributed Representations of Words and Phrases and their Compositionality, 2013 [11] Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estimation of word representations in vector space ICLR Workshop, 2013 [12] Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur Extensions of recurrent neural network language model In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages 5528–5531 IEEE, 2011 [13] Richard Socher, Yoshua Bengio and Chris Manning, Deep Learning for NLP (without Magic), ACL2012 [14] Ronan Collobert and Jason Weston A unified architecture for natural language processing: deep neural networks with multitask learning In Proceedings of the 25th international conference on Machine learning, pages 160–167 ACM, 2008 [15] Rong, Word2vec Parameter Learning Explained, 2014 [16] Margaret Rouse, Social networking, 2016 http://whatis.techtarget.com/definition/social-networking ... PHÂN LOẠI GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA VÀO TIN NHẮN VĂN BẢN VÀ WORD2VEC Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI... WORD2VEC VÀO PHÂN LOẠI GIỚI TÍNH NGƢỜI DÙNG MẠNG XÃ HỘI Error! Bookmark not defined 3.1 Mở đầu Error! Bookmark not defined 3.2 Giải pháp cho toán phân loại giới tính ngƣời dùng mạng xã. .. cải thiện kết việc phân loại giới tính ngƣời dùng mạng xã hội dựa vào tin nhắn văn Luận văn bao gồm phần Mở đầu, phần kết luận ba chƣơng Phần mở đầu giới thiệu đề tài luận văn Phần trình bày

Ngày đăng: 03/03/2017, 18:17

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan