Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP

Thông tin tài liệu

Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP, LSTM. Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP, LSTM.Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP, LSTM.Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP, LSTM.

MỞ ĐẦU Với phát triển công nghệ thông tin, mạng Internet lan rộng phủ sóng tồn cầu Bên cạnh lợi ích to lớn mà mạng xã hội mang lại, đối mặt với nhiều nguy cơ, thách thức khơng nhỏ, chí đe dọa đến an ninh quốc gia trật tự an tồn xã hội Trong đó, phải kể đến ảnh hưởng tiêu cực từ thông tin xấu, độc lan truyền mạng xã hội vấn nạn tin giả - Fake News Hệ lụy việc lan truyền “tin giả” không dừng lại cá nhân đơn lẻ, nhóm người địa phương định mà có tác động rộng lớn hơn, đe dọa trực tiếp tới an ninh quốc gia Tin giả lan tràn virus, dịch bệnh gây nhiều tổn thất với cá nhân mà với tổ chức kinh tế Như việc tung tin thất thiệt dịch tả lợn châu Phi tài khoản Facebook khiến dư luận hoang mang, tẩy chay thịt lợn, ảnh hưởng tới chăn nuôi người nông dân, khiến nhiều người hoảng loạn, phương hướng sống, hay lòng tin vào đạo quan quản lý nhà nước Ngoài thiệt hại kinh tế, hậu nghiêm trọng mà tin giả gây làm suy giảm niềm tin công chúng vào truyền thơng nói chung báo chí chủ lưu nói riêng Tin giả khiến công chúng không xác định đâu nguồn tin đáng tin cậy để tiếp nhận, trạng thái ngờ vực, tham khảo nguồn tin khơng thống dẫn đến bị nhiễu loạn Từ lý trên, tác giả chọn đề tài “sử dụng deep learning phát tin tức giả mạo” làm kết thúc môn học NỘI DUNG CHƯƠNG I: GIỚI THIỆU CHUNG Tổng quan Vài năm trở lại đây, đặc biệt từ cuối năm 2016 đến nay, giới đề cập nhiều tin tức giả, từ định nghĩa, trạng tin tức giả đến biện pháp ứng phó Tuy nhiên, đến chưa có định nghĩa rõ ràng, thống tin tức giả Theo định nghĩa từ điển Collins, tin tức giả “những thông tin sai, thường giật gân, phát tán vỏ bọc tin tức Trong số hãng tin tức định nghĩa, tin tức giả tin tức câu chuyện internet không thật Định nghĩa từ điển Collins sát với nghĩa từ “fake news” đề cập nhiều truyền thông định nghĩa lại bao hàm rộng hơn, ngồi thơng tin sai vỏ bọc tin tức có thông tin, câu chuyện không thật lan truyền internet Chiếu theo định nghĩa kể trên, phân loại tin tức giả thành hai loại: − Loại thứ thơng tin hồn tồn khơng xác (bao gồm thơng tin thơng thường thơng tin trình bày giống tin báo chí) cố tình đăng tải, lan truyền mục đích đó; − Loại thứ hai thơng tin có phần thật khơng hồn tồn xác người viết chúng khơng kiểm chứng tồn thật trước đăng tải chia sẻ họ phóng đại phần câu chuyện Trên giới Việt Nam có trường hợp xảy hai loại tin tức giả Với loại tin tức giả thứ nhất, thấy trường hợp điển hình bầu cử Tổng thống Mỹ năm 2016 Đây xem môi trường gần hoàn hảo cho nảy nở tin tức giả Sự kiện thảo luận toàn cầu với nhiều luồng ý kiến tranh luận Trong bầu khơng khí mà người ta chưa biết điều xảy tin vào điều họ trở nên dễ tiếp nhận điều cường điệu hóa hay xuyên tạc “Giáo hoàng ủng hộ Trump”, “Hillary bán vũ khí cho IS”, “Mật vụ FBI tình nghi vụ rò rỉ thư điện tử bà Hillary Clinton tìm thấy chết” – tin tức giả lan truyền trước thềm bầu cử, thu hút ý lớn người, vượt qua tin tức xác chia sẻ mạng xã hội Facebook Theo phân tích BuzzFeed News, ba tháng cuối chiến dịch tranh cử Tổng thống Mỹ, tin tức giả thu hút tương tác nhiều tin tức hàng đầu hãng tin lớn New York Times, Washington Post, Hufftington Post, NBC News Trong suốt tháng quan trọng này, 20 tin tức giả bầu cử thu hút nhiều tương tác xuất phát từ trang tin giả trang blog ủng hộ đảng phái khích, thu hút 8,711 triệu lượt chia sẻ, phản hồi bình luận Facebook Trong thời gian đó, 20 tin tức hàng đầu từ 19 website tin tức lớn thu hút tổng cộng 7,367 triệu lượt chia sẻ, bày tỏ cảm xúc bình luận Facebook Đặc trưng chung tin tức giả kiểu chúng thường xuất phát từ kiện, tượng nóng, gây tranh cãi đời sống thực Những kiện nóng, gây tranh cãi đề tài béo bở cho tin tức giả phát tác từ Chẳng hạn tin tức kiện trị quan trọng bầu cử, họp Quốc hội, thiên tai nghiêm trọng, khủng bố,… Chúng thể dạng văn bản, hình ảnh chỉnh sửa video cắt ghép,… thường đăng tải, phát tán trang thông tin không thống, qua tảng mạng xã hội ứng dụng tin nhắn hay cơng cụ tìm kiếm Google Động đối tượng sản xuất loại tin tức giả mục đích tài chính, trị hay hạ uy tín cá nhân, tổ chức cách có chủ đích Tuy nhiên, có trường hợp, đối tượng tạo tin tức giả đơn giản để bật, thu hút ý Phần lớn chuyên gia cho rằng, động sản xuất phát tán tin tức giả liên quan đến tài phổ biến nhiều so với mục đích trị hay mục đích khác Tại Việt Nam, tin tức giả kiểu xuất khơng phải Chính tin đề cập phần mở đầu viết tin tức giả đăng tải trang tin phapluat.news, sau lan truyền nhanh chóng mạng xã hội Facebook trang tin khơng thống khác đăng tải lại Xét loại tin tức giả thứ hai, thông tin có phần thật khơng hồn tồn xác người viết chúng khơng kiểm chứng thông tin Những tin tức thường xuất báo chí chủ lưu chí nhiều hãng thơng lớn gặp phải cố tin tức giả Hồi đầu tháng 10-2017, kênh truyền hình Fox News phát sóng câu chuyện cựu chiến binh trao tặng huy chương danh giá: lính đặc nhiệm tinh nhuệ Hải quân Mỹ (Navy SEAL) tham chiến Việt Nam trao tặng hai huân chương Trái tim Tím (Purple Hearts) Tuy nhiên, đến ngày 19-10, kênh truyền hình đính phóng đăng ngày 8-10 cựu binh John Garofalo khẳng định “mọi thứ ơng nói không đúng” Một cố khác báo Independent mắc phải hồi tháng 11-2017, phiên điện tử báo phát trực tiếp Facebook đoạn video mà tờ báo khẳng định “phát trực tiếp từ vũ trụ”, nhiên đoạn video ghi từ năm 2015 Hơn 180 nghìn người xem video suốt trình “phát trực tiếp” với 2.000 lượt chia sẻ Tại Việt Nam, cố lớn làng báo vào cuối năm 2016 liên quan đến vụ nước mắm nhiễm Arsen, nhiều quan báo chí đồng loạt dẫn khảo sát mập mờ báo Thanh niên Hội Tiêu chuẩn Bảo vệ người tiêu dùng Việt Nam (Vinastas) đăng tải thông tin sai thật Hay vụ “Cậu bé 11 tuổi tự tử khơng có áo đến trường”, tỉnh Gia Lai Tuy nhiên, sau quan chức Gia Lai làm rõ vụ việc, nguyên nhân vụ việc tự tử khơng phải khơng có áo đến trường số báo nêu Ngoài tạo tin tức sai thật, hình thức giả mạo khác đối tượng sử dụng mạo danh tổ chức, công ty, tờ báo lớn, thống hay cá nhân người tiếng, lãnh đạo, nguyên thủ quốc gia để đưa tin theo chủ đích chúng Nhiều lãnh đạo Đảng, Nhà nước Việt Nam bị mạo danh đặt tên trang tin tổng hợp hay tài khoản, fanpage mạng xã hội Có thể nói dù cố ý hay vô ý tin tức giả đã, xuất phương tiện truyền thơng từ báo chí chủ lưu đến loại hình truyền thông xã hội Những câu chuyện giả mạo chia sẻ rộng rãi truyền thông xã hội sau Google cơng cụ tìm kiếm khác xếp hạng cao giúp chúng tìm thấy dễ dàng gia tăng cảm giác tin tưởng người đọc chúng Hiện Google Facebook nằm số tảng phân phối tin tức giả lớn Khó khăn ngăn chặn tin tức giả mạo Tin tức giả thường phát tán nhanh, nhanh gấp nhiều lần so với khả ngăn chặn xử lý chúng Với phát triển cơng nghệ, người ta dễ dàng tạo lập website, trang blog hay tài khoản fanpage mạng xã hội với chi phí gần khơng Đây cơng cụ hỗ trợ đắc lực cho việc phát tán tin tức giả Do vậy, dù vơ tình hay cố ý, lực lượng tạo phát tán tin tức giả thành phần xã hội: từ cá nhân, tổ chức chí có ngành công nghiệp sản xuất tin tức giả nơi thị trấn Veles, thuộc Macedonia, nơi xem nôi ngành công nghiệp tin tức giả ăn theo chiến dịch tranh cử Mỹ Cũng nhờ công nghệ tiên tiến, đối tượng sản xuất tin giả tìm cách phát tán tin tức giả cách nhanh chóng đến mức khó kiểm sốt Cách thức tạo phát tán tin tức giả từ nghiệp dư đến chuyên nghiệp góp phần làm số lượng tin tức giả phát tán trực tuyến vô lớn so với khả phát ngăn chặn chúng lực lượng chức liên quan Theo thống kê Smartinsights.com, phút có khoảng 360 nghìn người dùng đăng ký Facebook, 150 nghìn tin nhắn trao đổi, 300 nghìn status cập nhật, 50 nghìn link chia sẻ, 133.300 ảnh đăng tải 100 nghìn đề nghị kết bạn Trong đó, Youtube, phút có 400 nội dung đăng tải Còn theo Google, cơng cụ tìm kiếm nhận thấy số lượng tìm kiếm đạt đến hàng nghìn tỷ năm, 15% lượng tìm kiếm ngày có nội dung hồn tồn Ngày 1-11-2017, Facebook thừa nhận có tới 270 triệu tài khoản mạng xã hội không hợp pháp Với số lượng tài khoản không hợp pháp nội dung đăng tải lớn trên, việc phát ngăn chặn nội dung không thật tảng mạng xã hội vơ khó Tin tức giả chỗ chặn chưa xong tin tức giả nhiều chỗ khác mọc lên nấm sau mưa Một tin tức giật gân vấn đề nóng thu hút quan tâm, bàn luận đặc biệt chia sẻ nhanh chóng cơng chúng Thêm vào đó, với thói quen tiếp nhận chia sẻ thông tin người dùng thường không cẩn trọng phán xét đắn trước tiêu đề, nội dung câu chuyện chia sẻ trực tuyến, khơng kiểm chứng thơng tin trước bình luận hay chia sẻ Thậm chí, có người dùng đọc tiêu đề tin tức chia sẻ mà không cần xem nội dung cụ thể tin tức nói Hành động phần phản ánh tâm lý người dùng muốn thông báo, chia sẻ thơng tin nhất, nóng trang cá nhân cho bạn bè, người thân Đây nhân tố làm góp phần gia tăng tốc độ phát tán tin tức giả trực tuyến Chẳng hạn tin giả “Cấm công chức mua xăng xăng Nhật” xuất lúc dư luận bàn luận ủng hộ cách thức kinh doanh xăng tin giả lại xuất hiện, gây bất bình, tranh cãi dư luận chia sẻ mạng xã hội Facebook với tốc độ chóng mặt Trong tin tức giả lan truyền giây lực lượng tham gia chống tin tức công ty công nghệ, phủ, tổ chức liên quan dù nỗ lực nghiên cứu thực biện pháp nhằm ngăn chặn lan truyền tin tức giả chưa tìm giải pháp hiệu để ứng phó với vấn nạn Do thế, dù tin tức giả thứ biết nỗ lực ngăn chặn thực chúng hữu nơi toàn cầu gây nhiều hệ lụy, phiền toái cho nhiều người Hệ lụy tin tức giả mạo Tin tức giả phát tán từ cá nhân hay nhóm người chuyên sản xuất loại tin hệ mà chúng gây lại ảnh hưởng đến nhiều nhóm đối tượng khác Trong có hệ nghiêm trọng, chí gây nguy hiểm đến tính mạng người Trước hết, với tin tức giả nhắm trực tiếp đến cá nhân, tổ chức cụ thể Những tin tức giả làm ảnh hưởng xấu đến uy tín, danh dự cá nhân, tổ chức mặt kinh tế cá nhân, tổ chức hoạt động lĩnh vực kinh doanh Trong nhiều trường hợp, cá nhân nạn nhân vụ thơng tin sai thật bị ảnh hưởng nghiêm trọng tới tinh thần, chí khiến nạn nhân có hành động gây nguy hiểm đến tính mạng Tại Việt Nam, thời gian qua, vụ việc tung tin thất thiệt gây ảnh hưởng đến uy tín, danh dự nhân khơng phải Điển vụ đăng tin “Hai nữ sinh hiếp dâm nam niên dẫn đến tử vong” chia sẻ “chóng mặt” mạng xã hội hồi đầu tháng 7-2017 Thông tin thất thiệt khiến hai nữ sinh bị vu khống suy sụp tinh thần nghiêm trọng, làm xáo trộn đến sống sinh hoạt thường ngày hai nữ sinh “Tôi cảm thấy sốc không muốn gặp ai, không muốn khỏi nhà đọc thông tin trên”, chị N., hai người nạn nhân tin đồn thất thiệt chia sẻ báo Tuổi Trẻ Không cá nhân, nhiều tổ chức doanh nghiệp, nhãn hàng lớn điêu đứng tin tức giả Facebook Youtube Chẳng hạn video gây tổn hại nghiêm trọng đến uy tín doanh số bán hàng Heineken Việt Nam lan truyền Facebook Youtube từ ngày 4-5-2017, hay fanpage mạo danh hãng ô-tô lớn Toyota, Honda, Kia Morning lan truyền tin tức kiểu tặng xe cho người may mắn kiện quan trọng công ty Nhiều website, fanpage doanh nghiệp, quan thơng báo chí bị mạo danh Ngay báo Nhân Dân bị mạo danh hình ảnh trang chủ phần nội dung thông tin viết đăng báo để đăng quảng cáo thuốc Chính nhân vật bị mạo danh viết gửi đơn thư tới báo Nhân Dân yêu cầu làm rõ việc Không gây ảnh hưởng đến uy tín, danh dự cá nhân, tổ chức nạn nhân thông tin giả, có thơng tin giả gây bất bình dư luận, tạo dư luận xấu tin cấm công chức mua xăng, bán chó hoang cho Thảo Cầm Viên làm mồi cho sư tử; thông tin xuyên tạc, bịa đặt lãnh đạo Đảng, Nhà nước trị gia nói chung Trong đó, số kiểu tin tức giả lại có nội dung gây hoang mang dư luận, chẳng hạn loan tin đối tượng bắt cóc trẻ em, dẫn lại tin bão Hải Yến từ năm 2013 bão số 12 năm vừa quét qua Việt Nam gây thiệt hại nặng nề, tung tin thất thiệt vụ thảm án, rơi máy bay sân bay Nội Bài, phát trực tiếp lại thiên tai, hỏa hoạn xảy khứ,… Một hệ nghiêm trọng mà tin tức giả gây làm suy giảm niềm tin cơng chúng vào truyền thơng nói chung báo chí chủ lưu nói riêng Chúng khiến cho cơng chúng khơng xác định đâu nguồn tin đáng tin cậy để tiếp nhận Khảo sát Mỹ, Brazil, Anh Pháp, cho thấy, tranh cãi liên quan đến tin tức giả gây ảnh hưởng tiêu cực đến niềm tin công chúng tảng truyền thông xã hội, ứng dụng nhắn tin hãng tin tức có phiên điện tử Theo khảo sát công bố ngày 30-10-2017 công ty nghiên cứu liệu Kantar 8.000 người Mỹ, Brazil, Anh Pháp, tranh cãi liên quan đến tin tức giả gây ảnh hưởng tiêu cực đến niềm tin công chúng vào truyền thông nước Trong đó, suy giảm niềm tin công chúng chủ yếu tảng truyền thông xã hội, ứng dụng nhắn tin hãng tin tức có phiên điện tử Cụ thể, tin tức trị bầu cử tảng truyền thông xã hội (chủ yếu Facebook) ứng dụng nhắn tin (chủ yếu Snapchat) bị suy giảm niềm tin gần nửa, với tỷ lệ 54% 49% Trong đó, hãng tin tức có phiên điện tử bị suy giảm niềm tin đáng kể tin tức trị bầu cử, với tỷ lệ 40% Tuy nhiên, khảo sát cho thấy niềm tin công chúng kênh truyền hình ấn phẩm in mức cao, với tỷ lệ 71% số người hỏi bày tỏ tin tưởng tương đương hay nhiều vào kênh tin tức so với trước xuất tin tức giả Các tin tức giả không gây hệ tiêu cực tập thể, cá nhân mà chúng nhắm đến hay người tiếp nhận thơng tin nói chung mà mạng xã hội bị lợi dụng để phát tán tin tức giả phải chịu sức ép vơ lớn từ nhiều phía Sau kết thúc chiến dịch bầu cử Tổng thống Mỹ năm 2016, mạng xã hội Facebook hứng chịu trích cho tin tức giả phát tán mạng xã hội gây ảnh hưởng lên kết bầu cử Mặc dù chưa có chứng thuyết phục cho thấy trích từ đến nay, phủ giới gia tăng sức ép sách, quy định cụ thể với Facebook, Youtube nói riêng tảng mạng xã hội khác nói chung phải tăng cường thực biện pháp liệt nhằm ngăn chặn việc lan truyền tin tức giả tảng Ngay ban lãnh đạo Facebook chịu sức ép từ cổ đơng u cầu có biện pháp hiệu để giải vấn nạn tin tức giả Sức ép lớn tảng truyền thơng xã hội sức ép uy tín tảng đối tác khách hàng Trước tình trạng tin tức giả mạo nói riêng nội dung không phù hợp đăng tải đến mức khó kiểm sốt tảng truyền thơng xã hội, nhiều công ty, nhãn hàng lớn giới thay đổi sách quảng cáo, chí ngừng quảng cáo tảng này, gây ảnh hưởng lớn đến nguồn thu tảng Cuộc chiến chống tin tức giả mạo giới Vấn nạn tin giả với dụng ý bóp méo thật ảnh hưởng khơng nhỏ đến đời sống trị-xã hội nhiều quốc gia giới Đế đối phó, Nga vừa ban hành hai đạo luật hạn chế phát tán thông tin giả mạo Nhiều quốc gia khác khơng đứng ngồi “cuộc chiến” − Nga mạnh tay chống tin giả: Tổng thống Nga Vladimir Putin ngày 18-3-2019 vừa ký ban hành công bố hai đạo luật, theo phạt nặng hành vi phổ biến tin giả mạo xúc phạm biểu tượng Nhà nước mạng (online) Đạo luật thứ cấm truyền bá thơng tin giả mạo "có tầm ảnh hưởng xã hội lớn", có nguy gây nguy hại cho sống công dân, gây xáo trộn trật tự xã hội quy mô lớn vi phạm an ninh cơng cộng Theo đó, loan truyền thông tin không đúng, tạo mối đe dọa gây tổn hại tính mạng sức khỏe người dân, vi phạm trật tự công cộng, hành động khơng có hình phạt hình bị xử phạt hành từ 30.000 - 100.000 ruble (khoảng 1600 USD) cá nhân; từ 60.000 - 200.000 ruble quan chức; tổ chức, mức phạt giao động từ 200.000 - 500.000 ruble Trường hợp phổ biến thông tin giả mạo gây nhiễu loạn hoạt động cơng trình bảo đảm đời sống, sở hạ tầng giao thơng xã hội, viễn thơng, lượng mức phạt cá nhân dao động từ 100 - 300.000 ruble, quan chức từ 300.000 - 600.000, mức phạt tổ chức nâng lên mức 500.000 - triệu ruble Mức phạt tăng lên hành vi phổ biến phương tiện thông tin đại chúng mạng Internet thông tin giả mạo gây chết người, làm phương hại sức khỏe hay tài sản, ngừng hoạt động sở bảo đảm đời sống, hạ tầng giao thông hay xã hội, viễn thông, lượng Trong trường hợp mức phạt cao lên tới 1,5 triệu ruble (khoảng 22.000 USD) Đạo luật thứ hai ông Putin ký ban hành nhằm xử lý hành vi "xúc phạm biểu tượng thể chế Nhà nước" Người vi phạm bị phạt với mức tối đa 300.000 ruble (4.500 USD) Đạo luật xác định trình tự hạn chế tiếp cận “thông tin thể hình thức khiếm nhã, xúc phạm nhân phẩm đạo đức xã hội, thiếu tôn trọng xã hội, nhà nước, biểu tượng nhà nước thức LB Nga, Hiến pháp LB Nga hay quan thực quyền hành pháp nhà nước LB Nga” Trong trường hợp phát thông tin dạng này, quan chức yêu cầu áp dụng biện pháp loại bỏ ngăn chặn lan truyền Nếu vòng 24 không thực yêu cầu quan chức năng, trang web chứa thông tin vi phạm bị đóng Các nghị sĩ Nga cho biện pháp đóng vai trò quan trọng việc chống lại tin giả lạm dụng bình luận trực tuyến Luật cho phép nhà chức trách có quyền chặn trang web không tuân thủ với yêu cầu dỡ bỏ CHƯƠNG II: MẠNG NƠ-RON VÀ PHƯƠNG PHÁP SEQ2SEQ Kiến thức tổng quan Trí tuệ nhân tạo (artificial intelligence - AI): trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Trí thơng minh nhân tạo liên quan đến cách cư xử, học hỏi khả thích ứng thơng minh máy móc Các ví dụ ứng dụng bao gồm tác vụ điều khiển, lập kế hoạch lập lịch (scheduling), khả trả lời câu hỏi chẩn đoán bệnh, trả lời khách hàng sản phẩm công ty, nhận dạng chữ viết tay, nhận dạng tiếng nói khn mặt Bởi vậy, trí thơng minh nhân tạo trở thành mơn học, với mục đích cung cấp lời giải cho vấn đề sống thực tế Ngày nay, hệ thống nhân tạo dùng thường xuyên kinh tế, y dược, ngành kỹ thuật quân sự, phần mềm máy tính thơng dụng gia đình trò chơi điện tử Học máy (machine learning): lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống “học” tự động từ liệu để giải vấn đề cụ thể Ví dụ máy "học" cách phân loại thư điện tử xem có phải thư rác (spam) hay không tự động xếp thư vào thư mục tương ứng Học máy gần với suy diễn thống kê (statistical inference) có khác thuật ngữ Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Học máy có áp dụng rộng rãi bao gồm máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng 15 khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rơ-bốt (robot locomotion) Kho liệu (data warehouse): tập liệu có đặc điểm sau: tập trung vào chủ đề, tổng hợp từ nhiều nguồn liệu khác nhau, từ nhiều thời gian, không sửa đổi Được dùng việc hỗ trợ định công tác quản lý Trong phạm trù luận văn, kho liệu hiểu tập liệu thu thập từ Internet, từ người bán hàng lĩnh vực thương mại điện tử Kho liệu đầu vào cho trình tự học Tự học (auto learning): trình “học” tự động từ kho liệu thu thập thông qua số phương pháp học máy Kết q trình phụ thuộc vào yếu tố: nguồn liệu đầu vào thuật toán sử dụng để “học” Quay lại toán đặt ban đầu, yêu cầu tiên để thực mơ hình mơ hình cần có tham gia học máy, giúp cho ứng dụng tư vấn tự học mẫu giao tiếp thông qua kho liệu người bán hàng Hiện tại, phương pháp xây dựng hệ thống tự động trước đây, chatbotSkype, thường theo quy trình bước chung Đầu tiên, phân tích câu hỏi nhằm tạo “truy vấn” cho bước trích chọn tài liệu liên quan tìm thơng tin hữu ích cho bước trích xuất câu trả lời Tiếp đến trích chọn tài liệu liên quan, dựa câu truy vấn tạo bước phân tích câu hỏi để tìm tài liệu liên quan đến câu hỏi Bước cuối trích xuất câu trả lời, phân tích câu trả lời từ bước trích chọn tài liệu liên quan sử dụng thơng tin hữu tích từ bước phân tích câu hỏi để đưa câu trả lời phù hợp Những mơ hình xây dựng thơng qua quy trình đa phần tiếp cận đưa vào trích gọn thơng tin (Retrieval-based) Các kỹ thuật thường sử dụng kho định nghĩa trước câu trả lời kết hợp với vài phương pháp trích chọn Heuristic để nhặt đáp án thích hợp dự vào mẫu hỏi input ngữ cảnh Kỹ thuật heuristic sử dụng đơn giản so khớp biểu thức dựa vào luật (rule-based), phức tạp việc kết hợp học máy để phân lớp câu hỏi đáp án trả Những hệ thống kiểu không sinh văn mới, chúng nhặt đáp án từ tập liệu cố định sẵn có Kết khơng “thơng minh”, có hạn chế chung khơng có khả tự động, đơn giản khơng trích chọn tài liệu liên quan, mơ hình trả giá trị mặc định cài đặt sẵn khơng có câu trả lời Lý thuyết mạng nơ-ron Để hiểu mạng phương pháp học chuỗi liên tiếp Seq2Seq, cần có lý thuyết mạng nơ-ron Khái niệm bắt đầu vào cuối thập kỷ 1800 nhà nghiên cứu cố gắng mơ tả hoạt động trí tuệ người Ý tưởng bắt đầu áp dụng cho mơ hình tính tốn từ mạng Perceptron 2.1 Mạng nơ-ron nhân tạo ANN Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) hay thường gọi ngắn gọn mạng nơ-ron mơ hình xử lý thơng tin mô dựa hoạt động hệ thống thần kinh sinh vật, bao gồm số lượng lớn nơron gắn kết để xử lý thông tin ANN giới thiệu năm 1943 nhà thần kinh học Warren McCulloch nhà logic học Walter Pits, hoạt động giống não người, học kinh nghiệm (thông qua việc huấn luyện), có khả lưu giữ tri thức sử dụng tri thức việc dự đốn liệu chưa biết (unseen data) [5] Processing Elements (PE) ANN gọi nơron, nhận liệu vào (inputs) xử lý chúng cho kết (output) Kết xử lý nơ-ron làm input cho nơ-ron khác Hình 2.1 Kiến trúc mạng nơ-ron nhân tạo ANN Kiến trúc chung ANN gồm thành phần input layer, hidden layer output layer Trong đó, lớp ẩn (hidden layer) gồm nơ-ron, nhận liệu input từ nơ-ron lớp trước chuyển đổi input cho lớp xử lý Q trình xử lý thơng tin ANN sau: Hình 2.2: Q trình xử lý thơng tin nơ-ron j mạng ANN Trong đó, input tương ứng với thuộc tính liệu Ví dụ ứng dụng ngân hàng xem xét có chấp nhận cho khách hàng vay tiền hay khơng input thuộc tính khách hàng thu nhập, nghề nghiệp, tuổi, số con…Output giải pháp cho vấn đề, ví dụ với toán xem xét chấp nhận cho khách hàng vay tiền hay khơng output yes - cho vay no không cho vay Trọng số liên kết (Connection Weights) thành phần quan trọng ANN, thể mức độ quan trọng hay hiểu độ mạnh liệu đầu vào q trình xử lý thơng tin, chuyển đổi liệu từ layer sang layer khác Quá trình học (Learning Processing) ANN thực trình điều chỉnh trọng số (Weight) input data để có kết mong muốn Hàm tổng (Summation Function) cho phép tính tổng trọng số tất input đưa vào nơ-ron Hàm tổng nơ-ron n input tính theo cơng thức sau: Kết cho biết khả kích hoạt nơ-ron Các nơ-ron sinh output khơng ANN, hay nói cách khác output nơ-ron chuyển đến layer tiếp mạng nơ-ron không ảnh hưởng hàm chuyển đổi (Transfer Function) Việc lựa chọn Transfer Function có tác động lớn đến kết ANN Vì kết xử lý nơ-ron hàm tính tổng nên đơi lớn, nên transfer function sử dụng để xử lý output trước chuyển đến layer Hàm chuyển đổi phi tuyến sử dụng phổ biến ANN sigmoid (logical activation) function Kết Sigmoid Function thuộc khoảng [0, 1] nên gọi hàm chuẩn hóa (Normalized Function) Đơi thay sử dụng hàm chuyển đổi, ta sử dụng giá trị ngưỡng (Threshold value) để kiểm soát output nơ-ron layer trước chuyển output đến layer Nếu output nơ-ron nhỏ Threshold khơng chuyển đến Layer Ứng dụng thực tế mạng nơ-ron thường sử dụng toán nhận dạng mẫu nhận dạng chữ quang học (Optical character recognition), nhận dạng chữ viết tay, nhận dạng tiếng nói, nhận dang khuôn mặt 2.2 Mạng nơ-ron tái phát RNN Mạng nơ-ron tái phát (RNN - Recurrent Neural Network) mơ hình Deep Learning đánh giá có nhiều ưu điểm tác vụ xử lý ngơn ngữ tự nhiên (NLP) Ý tưởng RNN thiết kế mạng nơron cho có khả xử lý thông tin dạng chuỗi câu hỏi Recurrent có nghĩa thực lặp lại tác vụ cho thành phần chuỗi Trong đó, kết đầu thời điểm phụ thuộc vào kết tính tốn thành phần thời điểm trước Nói cách khác, RNNs mơ hình có trí nhớ, có khả nhớ thơng tin tính tốn trước đó, khơng mạng nơ-ron truyền thống thơng tin đầu vào (input) hồn tồn độc lập với thơng tin đầu (output) Về lý thuyết, RNNs nhớ thơng tin chuỗi có chiều dài bất kì, thực tế mơ hình nhớ thơng tin vài bước trước Các ứng dụng RNN có nhiều lĩnh vực mơ hình ngơn ngữ phát sinh văn (Generating text) Mơ hình ngơn ngữ cho ta biết xác suất câu ngôn ngữ Đây toán dự đoán xác suất từ câu cho trước Từ tốn này, ta mở rộng thành toán phát sinh văn (generating text/generative model) Mơ hình cho phép ta phát sinh văn dựa vào tập liệu huấn luyện Ví dụ, huấn luyện mơ hình liệu tư vấn bán hàng, ta phát sinh câu trả lời cho câu hỏi liên quan đến thương mại điện tử Tuỳ theo loại liệu huấn luyện, ta có nhiều loại ứng dụng khác Trong mơ hình ngơn ngữ, input chuỗi từ (được mã hoá thành one-hot vector [13]), output chuỗi từ dự đốn từ mơ hình Một lĩnh vực khác RNN Dịch máy (Machine Translation) Bài tốn dịch máy tương tự mơ hình ngơn ngữ Trong đó, input chuỗi từ ngơn ngữ nguồn (ví dụ tiếng Việt), output chuỗi từ ngơn ngữ đích (ví dụ tiếng Anh) Điểm khác biệt output dự đốn input hồn tồn phân tích Điều từ dịch phải có đầy đủ thơng tin từ trước Hoặc RNN áp dụng cho tốn phát sinh mơ tả cho ảnh (Generating Image Descriptions) RNN kết hợp với Convolution Neural Netwokrs phát sinh đoạn mô tả cho ảnh Mô hình hoạt động cách tạo câu mơ tả từ features rút trích ảnh Huấn luyện RNN tương tự huấn luyện ANN truyền thống Giá trị output không phụ thuộc vào kết tính tốn bước mà phụ thuộc vào kết tính tốn bước trước RNN có khả biểu diễn mối quan hệ phụ thuộc thành phần chuỗi Ví dụ, chuỗi đầu vào câu có từ RNN unfold (dàn ra) thành RNN có layer, layer tương ứng với từ, số từ đánh từ tới Trong hình vẽ trên, �t input (one-hot vector) thời điểm thứ t � t hidden state [14] (memory) thời điểm thứ t, tính dựa hidden state trước kết hợp với input thời điểm với công thức: �−1 hidden state khởi tạo vector không � � output thời điểm thứ t, vector chứa xác suất toàn từ từ điển Không ANN truyền thống, layer cần phải sử dụng tham số khác, RNNs sử dụng parameters (U, V, W) cho toàn bước Trên lý thuyết, xây dựng RNN nhớ thơng tin chuỗi dài vơ tận có thể, thực tế xây dựng khó thực điều kiện phần cứng thuật tốn chưa cho phép Trong vài năm qua, nhà nghiên cứu phát triển nhiều loại RNNs ngày tinh vi để giải mặt hạn chế RNN − Bidirectional RNN: dựa ý tưởng output thời điểm t không phụ thuộc vào thành phần trước mà phụ thuộc vào thành phần tương lai Ví dụ, để dự đốn từ bị thiếu (missing word) chuỗi, ta cần quan sát từ bên trái bên phải xung quanh từ Mơ hình gồm hai RNNs nạp chồng lên Trong đó, hidden state tính tốn dựa hai thành phần bên trái bên phải mạng − Long short-term memory networks (LSTM): mơ hình có cấu trúc tương tự RNNs có cách tính tốn khác hidden layer Memory LSTMs gọi cells (hạt nhân) Ta xem hộp đen nhận thông tin đầu vào gồm hidden state trước giá trị �� Bên hạt nhân này, định thông tin cần lưu lại thông tin cần xóa đi, nhờ mà mơ hình lưu trữ thông tin dài hạn 2.3 Mạng Long Short Term Memory LSTM Ý tưởng ban đầu RNN kết nối thơng tin trước nhằm hỗ trợ cho xử lý Nhưng đôi khi, cần dựa vào số thông tin gần để thực tác vụ Ví dụ, mơ hình hóa ngơn ngữ, cố gắng dự đoán từ dựa vào từ trước Nếu dự đốn từ cuối câu “đám_mây bay bầu_trời”, khơng cần truy tìm q nhiều từ trước đó, ta đoán từ “bầu_trời” Trong trường hợp này, khoảng cách tới thông tin liên quan rút ngắn lại, mạng RNN học sử dụng thơng tin q khứ Hình 2.4: RNN phụ thuộc short-term Nhưng có trường hợp cần nhiều thông tin hơn, nghĩa phụ thuộc vào ngữ cảnh Ví dụ dự đốn từ cuối đoạn văn “Tôi sinh lớn lên Việt_Nam … Tơi có_thể nói thuần_thục Tiếng_Việt.” Từ thơng tin gần cho thấy từ tên ngôn ngữ, muốn biết cụ thể ngơn ngữ nào, cần quay q khứ xa hơn, để tìm ngữ cảnh Việt_Nam Và vậy, RRN phải tìm thơng tin có liên quan số lượng điểm trở nên lớn Không mong đợi, RNN học để kết nối thông tin lại với Hình 2.5: RNN phụ thuộc long-term Hạn chế mạng RNN hidden layer khơng có trí nhớ dài hạn, hay nhắc tới với tên vanishing/exploding gradient problem [7] Nếu dừng lại việc áp dụng phương án học chuỗi với RNN vấn đề độ dài câu đối thoại tốn khó Bằng việc cải tiến, bổ sung module nhớ cho RNN, LSTM (Long Short Term Memory network) [8] – trường hợp đặc biệt RNN tích hợp sẵn phương pháp học chuỗi seq2seq, giải vấn đề Long Short Term Memory trường hợp đặc biệt RNN, có khả học long-term dependencies Mơ hình giới thiệu Hochreiter & Schmidhuber (1997) [8], cải tiến lại Sau đó, mơ hình dần trở nên phổ biến nhờ vào cơng trình nghiên cứu gần Mơ hình có khả tương thích với nhiều tốn nên sử dụng rộng rãi ngành liên quan LSTM thiết kế nhằm loại bỏ vấn đề phụ thuộc q dài Ta quan sát lại mơ hình RNN bên dưới, layer mắc nối với Trong RNN chuẩn, module repeating có cấu trúc đơn giản gồm lớp đơn giản layer Hình 2.5 Các module lặp mạng RNN chứa layer LSTM có cấu trúc mắt xích tương tự, module lặp có cấu trúc khác hẳn Thay có layer neural network, LSTM có tới bốn layer, tương tác với theo cấu trúc cụ thể Hình 2.6: Các mơ-đun lặp mạng LSTM chứa bốn layer Trong đó, ký hiệu sử dụng mạng LSTM gồm có: hình chữ nhật lớp ẩn mạng nơ-ron, hình tròn biểu diễn toán tử Pointwise, đường kẻ gộp lại với biểu thị phép nối toán hạng, đường rẽ nhánh biểu thị cho chép từ vị trí sang vị trí khác Mơ hình thiết kế LSTM bảng mạch số, gồm mạch logic phép tốn logic Thơng tin, hay nói khác tần số dòng điện di chuyển mạch lưu trữ, lan truyền theo cách thiết kế bảng mạch Mấu chốt LSTM cell state (trạng thái nhớ), đường kẻ ngang chạy dọc top diagram Cell state giống băng chuyền, chạy xun thẳng tồn mắc xích, vài tương tác nhỏ tuyến tính (minor linear interaction) thực Điều giúp cho thơng tin bị thay đổi xun suốt q trình lan truyền LSTM có khả thêm bớt thông tin vào cell state, quy định cách cẩn thận cấu trúc gọi cổng (gate) Các cổng cách (tuỳ chọn) để định nghĩa thông tin băng qua Chúng tạo hàm sigmoid toán tử nhân pointwise Mơ hình LSTM bước đột phá đạt từ mơ hình RNN Nó giải triệt để vấn đề không xử lý câu hỏi dài mà mơ chatbot Skype gặp phải CHƯƠNG III: PHÁT HIỆN TIN TỨC GIẢ MẠO VỚI DEEP LEARNING KẾT LUẬN Tiểu luận tập trung tìm hiểu tin tức giả mạo, đưa hệ lụy, khó khăn phát tin tức giả mạo, từ đề xuất giải pháp, xây dựng mơ hình phát tin tức giả mạo dựa học sau deep learning Mô hình phát tin tức giả mạo chưa thể đưa thành ứng dụng thực tế Tuy đáp ứng yêu cầu phát tin tức giả mạo liệu tiếng anh, kết đưa phụ thuộc phần lớn vào liệu đầu vào Hướng nghiên cứu tiểu luân tập trung vào việc cải thiện chất lượng phát tin tức giả mạo, cải thiện chất lượng liệu đầu vào − Mở rộng khả thu thập tiền xử lý liệu làm cho liệu thu thập nhiều hơn, Phương án đưa sử dụng BigData để quản lý liệu cho phép tìm kiếm, lọc liệu nhanh hơn, lựa chọn nguồn liệu tran báo thống − Cải tiến pha huấn luyện liệu để giảm thời gian huấn luyện tăng hiệu đầu mơ hình Đồng thời, tác giả muốn phối hợp nghiên cứu phát triển thu thập thay liệu tiếng Việt, từ áp dụng tốt vào thực tê, đầu tư mở rộng phần cứng để giảm thời gian huấn luyện DANH MỤC TÀI LIỆU THAM KHẢO [1] S.M Al-Alawi, H.A Al-Hinai, May–August 1998, “An ANN-based approach for predicting global radiation in locations with no direct measurement instrumentation” [2] Razvan Pascanu, Tomas Mikolov, Yoshua Bengio, May 2013, “On the difficulty of training recurrent neural networks” [3] James Ryan, September 2016, “Translating Player Dialogue into Meaning Representations Using LSTMs” [4] Jay Parikh, August 2012, “Facebook processes more than 500 TB of data daily” [5] Facebook, August 2016, “The Graph API” [6] Lưu Tuấn Anh, Yamamoto Kazuhide, 16 Feb 2013, “Pointwise for Vietnamese Word Segmentation” [7] Xue-Wen Chen, Xiaotong Lin, 16 May 2014, “Big Data Deep Learning: Challenges and Perspectives” [8] Francois Chaubard, Rohit Mundra, Richard Socher, Spring 2015, “CS 224D: Deep Learning for NLP” [9] Sepp Hochreiter; Jürgen Schmidhuber, 1997, "Long short-term memory" [10] Feigenbaum, Edward A 2003, “Some challenges and grand challenges for computational intelligence”

Ngày đăng: 27/12/2019, 13:41

Xem thêm: Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP, Hệ lụy tin tức giả mạo., Cuộc chiến chống các tin tức giả mạo trên thế giới., 1 Mạng nơ-ron nhân tạo ANN.

Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1. Tổng quan.

2. Khó khăn trong ngăn chặn tin tức giả mạo.

3. Hệ lụy tin tức giả mạo.

4. Cuộc chiến chống các tin tức giả mạo trên thế giới.

1. Kiến thức tổng quan.

2. Lý thuyết mạng nơ-ron.

2.1 Mạng nơ-ron nhân tạo ANN.

2.2. Mạng nơ-ron tái phát RNN.

2.3. Mạng Long Short Term Memory LSTM.

Tài liệu cùng người dùng

Tài liệu liên quan