Tài liệu cho sinh viên Kế toán kiểm toán

77 2 0
Tài liệu cho sinh viên Kế toán kiểm toán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠ I H ỌC ĐÀ NẴ NG TRƢỜNG ĐẠ I H Ọ C BÁCH KHOA KHOA CÔNG NGH Ệ THÔNG TIN ĐỒ ÁN T Ố T NGHI Ệ P NGÀNH: CÔNG NGH Ệ THÔNG TIN CHUYÊN NGÀNH: CÔNG NGH Ệ PH Ầ N M Ề M ĐỀ TÀI: XÂY D Ự NG WEBSITE H Ỗ TR Ợ KHÁCH HÀNG MUA ĐIỆ N THO Ạ I VÀ TÍCH H Ợ P MACHINE LEARNING PHÂN TÍCH BÌNH LU Ậ N KHÁCH HÀNG Ngƣời hƣớ ng d ẫ n: PGS. TS. PHAN HUY KHÁNH Sinh viên th ự c hi ệ n: LÊ VĂN HỒ NG QUÂN S ố th ẻ sinh viên: 102150125 L ớ p : 15T2 Đà Nẵ ng, 12/2019 Lê Văn H ồ ng Quân WEBISTE H Ỗ TR Ợ KHÁCH HÀNG VÀ TÍCH H Ợ P MACHINE LEARNING PHÂN TÍCH BÌNH LU Ậ N 2019 ĐẠ I H ỌC ĐÀ NẴ NG TRƢỜNG ĐẠ I H Ọ C BÁCH KHOA KHOA CÔNG NGH Ệ THÔNG TIN ĐỒ ÁN T Ố T NGHI Ệ P NGÀNH: CÔNG NGH Ệ THÔNG TIN CHUYÊN NGÀNH: CÔNG NGH Ệ PH Ầ N M Ề M ĐỀ TÀI: XÂY D Ự NG WEBSITE H Ỗ TR Ợ KHÁCH HÀNG MUA ĐIỆ N THO Ạ I VÀ TÍCH H Ợ P MACHINE LEARNING PHÂN TÍCH BÌNH LU Ậ N KHÁCH HÀNG Ngƣời hƣớ ng d ẫ n: PGS. TS. PHAN HUY KHÁNH Sinh viên th ự c hi ệ n: LÊ VĂN HỒ NG QUÂN S ố th ẻ sinh viên: 102150125 L ớ p : 15T2 Đà Nẵ ng, 12/2019 NH Ậ N XÉT C Ủ A NGƢỜI HƢỚ NG D Ẫ N ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... Đà Nẵng, ngày … tháng … năm 2019 Gi ả ng viên hƣ ớ ng d ẫ n PGS. TS. Phan Huy Khánh NH Ậ N XÉT C ỦA NGƢỜ I PH Ả N BI Ệ N ........................................................................................................................................... ..................................................................................................................... ...................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... .................................................................................................................................... ....... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... Đà N ẵ ng , ngày … tháng … năm 2019 TÓM T Ắ T Tên đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàng Sinh viên th ự c hi ệ n: Lê Văn Hồ ng Quân S ố th ẻ SV: 102150125 L ớ p: 15T2 Website cung c ấ p các m ẫu điệ n tho ạ i c ủa các hãng cho phép ngƣờ i dùng có th ể xem các bình lu ậ n c ủa ngƣời khác để có th ể t ự ch ọ n s ả n ph ẩ m theo ý mình. Bên c ạnh đó còn cho phép ngƣờ i dùng có th ể tr ự c ti ế p bình lu ậ n v ề s ả n ph ẩ m cho m ọi ngƣờ i tham kh ả o. Nh ữ ng bình lu ậ n s ẽ đƣợ c h ệ th ống phân tích và đƣa ra các nhận đị nh là thu ộ c lo ạ i tích c ự c, tiêu c ực hay bình thƣờ ng để ngƣờ i dùng tham kh ả o. Website bao g ồ m: - Trang qu ả n lý cho admin - Trang cho ngƣờ i dùng, xem, tìm ki ế m, bình lu ậ n v ề s ả n ph ẩ m - Trang đăng nhập, đăng ký tạ o tài kho ản để có th ể đƣợ c bình lu ậ n s ả n ph ẩ m Đ Ạ I H Ọ C ĐÀ N Ẵ NG TRƢ Ờ NG Đ Ạ I H Ọ C BÁCH KHOA KHOA CÔNG NGH Ệ THÔNG TIN C Ộ NG HÒA XÃ HÔI CH Ủ NGHĨA VI Ệ T NAM Đ ộ c l ậ p - T ự do - H ạ nh phúc NHI Ệ M V Ụ ĐỒ ÁN T Ố T NGHI Ệ P H ọ tên sinh viên: LÊ VĂN HỒ NG QUÂN S ố th ẻ sinh viên: 102150125 L ớ p: 15T2 Khoa: Công ngh ệ thông tin Ngành: Công ngh ệ ph ầ n m ề m 1. Tên đề tài đồ án: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàng 2. Đề tài thu ộ c di ệ n: ☐ Có ký k ế t th ỏ a thu ậ n s ở h ữ u trí tu ệ đố i v ớ i k ế t qu ả th ự c hi ệ n 3. Các s ố li ệ u và d ữ li ệ u ban đầ u: ……………………………………..……………………………………………..……... ...………………………………………………………………………………………… …..………………………………….…..………………………..……………………… 4 . N ộ i dung các ph ầ n thuy ế t minh và tính toán: …...……………………………………………………………………………………… …...……………………………………………………………………………………… …...……………………………………………………………………………………… …...……………………………………………………………………………………… …...……………………………………………………………………………………… 5. Các b ả n v ẽ, đồ th ị ( ghi rõ các lo ại và kích thướ c b ả n v ẽ ): Không có 6. H ọ tên người hướ ng d ẫ n: PGS. TS. Phan Huy Khánh 7. Ngày giao nhi ệ m v ụ đồ án: ……../……./201 9 8. Ngày hoàn thành đồ án: ……../……./201 9 Đà N ẵ ng, ngày tháng năm 201 9 Trƣ ở ng B ộ môn ………………………. Ngƣ ờ i hƣ ớ ng d ẫ n L ỜI NÓI ĐẦ U Trong quá hình h ọ c t ậ p và rèn luy ệ n ở đây, em đa học đƣợ c r ấ t nhi ề u ki ế n th ứ c nh ững điề u b ổ ích, em xin g ử i l ờ i c ảm ơn chân thành đế n t ấ t c ả các th ầ y cô trong Khoa công ngh ệ thông tin trƣờng Đạ i h ọc Bách Khoa Đà Nẵng đã dạ y d ỗ , truy ền đạ t ki ế n th ức, tƣ tƣở ng và c ả kinh nghi ệ m trong su ố t th ờ i gian em h ọ c ở đây để gi ờ em có th ể th ự c hi ện đƣợc đồ án t ố t nghi ệ p này Em cũng xin trân trọ ng c ảm ơn thầy PGS.TS Phan Huy Khánh là ngƣờ i tr ự c ti ếp hƣớ ng d ẫn, giúp đỡ em r ấ t nhi ề u trong th ờ i gian th ự c hi ện đồ án. Th ầ y không nh ững giúp đỡ mà còn cung c ấ p r ấ t nhi ề u thông tin b ổ ích khác để em có th ể tham kh ả o và m ở mang ki ế n th ứ c. Nh ờ th ầy mà em đã thự c hi ện đƣợc đồ án m ộ t cách t ố t nh ấ t Trong quá trình nghiên c ứ u, th ự c hi ện đồ án l ầ n này, ch ắ n h ẳ n em không th ể tránh kh ỏ i nh ữ ng sai sót hay còn thi ế u ki ế n th ứ c, mong th ầ y cô thông c ả m và góp ý th ẳ ng th ắn để em đƣợ c h ọ c h ỏ i thêm và hoàn thi ện đồ án c ủa mình hơn nữ a L ờ i cu ố i em xin chân tr ọ ng c ảm ơn các thầ y cô và chúc th ầ y cô luôn kh ỏ e m ạ nh để có th ể truy ền đạ t nh ữ ng ki ế n th ứ c cho th ế h ệ sau. Lê Văn Hồ ng Quân CAM ĐOAN Em xin cam đoan: 1. Nh ữ ng n ội dung trong đồ án này là do em th ự c hi ện dƣớ i s ự hƣớ ng d ẫ n tr ự c ti ế p c ủ a th ầ y giáo PGS.TS Phan Huy Khánh 2. Các tài li ệ u tham kh ả o, d ữ li ệu trong đồ án đều đƣợ c trích d ẫ n rõ ràng tên tác gi ả , tên công trình, th ời gian, địa điể m công b ố 3. N ế u có nh ữ ng sao chép không h ợ p l ệ , vi ph ạ m quy ch ế , em xin ch ị u m ọ i trách nhi ệ m Đà Nẵ ng, ngày tháng 12 năm 201 9 Sinh viên th ự c hi ệ n Lê Văn H ồ ng Quân PHI Ế U DUY ỆT ĐỒ ÁN T Ố T NGHI Ệ P I. Ph ầ n dành cho Sinh viên 1. H ọ và tên: LÊ VĂN HỒ NG QUÂN 2. Mã Sinh viên: 102150142 3. L ớ p: 15T2 4. Tên đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàng 5. S ố điệ n tho ạ i: 0902449450 6. E-mail: lvhquan0110@gmail.com 7. H ọ và tên GVHD: PGS.TS Phan Huy Khánh II. Ph ầ n dành cho H ội đồ ng STT N ộ i dung đánh giá K ế t lu ậ n 1. Trình bày báo cáo theo đúng m ẫ u qui đ ị nh c ủ a Khoa 2. Không có s ự sao chép n ộ i dung báo cáo và chương trình đã có 3. Biên d ị ch mã ngu ồ n và ch ạ y đƣ ợ c chƣơng trình 4. Có k ị ch b ả n th ự c hi ệ n v ớ i d ữ li ệ u th ử nghi ệ m 5. K ế t qu ả th ự c hi ệ n chƣơng trình đúng theo báo cáo 6. Có s ự đóng góp, phát tri ể n c ủ a tác gi ả trong đ ồ án Ý ki ế n khác: ..................................................................... .. .... . ....... .. ....... .. ....... .. .................................................................. ....................................................................................................................................................................................................... K ế t lu ậ n:  Đạ t yêu c ầ u  Ph ả i s ử a ch ữ a l ạ i  Không đạ t yêu c ầ u Đà Nẵng, ngày tháng 12 năm 2019 Ch ủ t ị ch H ộ i đ ồ ng (Ký và ghi h ọ tên) Cán b ộ duy ệ t ki ể m tra (Ký và ghi h ọ tên) Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 1 M Ụ C L Ụ C TÓM T Ắ T ................................................................................................................................ .5 L ỜI NÓI ĐẦ U ................................................................................................ ..........................7 CAM ĐOAN ................................................................................................ .............................8 M Ụ C L Ụ C ................................................................................................................................ .1 DANH SÁCH CÁC HÌNH V Ẽ ................................................................ ..............................4 DANH SÁCH B Ả NG ................................................................................................ ..............7 DANH SÁCH CÁC KÝ HI Ệ U, CH Ữ VI Ế T T Ắ T ................................ ..............................8 M Ở ĐẦ U ................................................................................................................................ ...9 1.Lý do ch ọn đề tài ................................................................................................ ...............9 2. M ục đích đề tài ................................................................................................ .................9 3. N ội dung đề tài ................................................................................................ .................9 4. Ph ạ m vi s ử d ụng đề tài ................................................................................................. 10 5. B ố c ục đề tài .................................................................................................................. 10 CHƢƠNG 1: CƠ SỞ LÝ THUY Ế T VÀ CÔNG C Ụ S Ử D Ụ NG ................................... 11 1.1 T ổ ng quan v ề Nodejs và và javascript ..................................................................... 11 1.2 T ổ ng quan v ề ExpressJS ............................................................................................ 12 1.3 T ổ ng quan v ề h ọ c máy (Machine Learning) ........................................................... 12 1.4 Bài toán phân lo ạ i bình lu ậ n...................................................................................... 15 1.4.1 Các phƣơng pháp gi ả i quy ế t bài toán phân tích c ả m xúc .............................. 16 1.4.2 Sơ đ ồ hu ấ n luy ệ n mô hình phân tích c ả m xúc văn b ả n Ti ế ng Vi ệ t .............. 17 1.4.3 Tách t ừ ti ế ng vi ệ t – Tokenization, Word Segmentation: ............................... 18 1.4.4 Bi ể u di ễ n t ừ trong không gian (word embedding) s ử d ụ ng World2Vec ..... 19 1.4.5 Sơ đồ ki ể m tra và v ậ n hành ................................ ................................ ................ 25 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 2 1. 5 T ổ ng quan v ề RestfulAPI ................................ ................................ .......................... 25 1.6 Tổng quan về ReactJS ................................................................................................ 28 1.7 Công c ụ s ử d ụ ng ......................................................................................................... 33 CHƢƠNG 2: PHÂN TÍCH VÀ THI Ế T K Ế H Ệ TH Ố NG ............................................... 35 2.1 Phân tích nghi ệ p v ụ h ệ th ố ng .................................................................................... 35 2.1.1 Nghi ệ p v ụ c ủ a qu ả n tr ị viên............................................................................... 35 2.1.2 Nghi ệ p v ụ c ủa ngƣờ i dùng................................................................................. 35 2.2 Thi ế t k ế h ệ th ố ng ........................................................................................................ 35 2.2.1 Ch ức năng củ a khách hàng ................................................................................ 35 2.2.2 Ch ức năng của ngƣờ i qu ả n tr ị ........................................................................... 36 2.3 Bi ểu đồ ca s ử d ụ ng ..................................................................................................... 36 2.3.1 Bi ểu đồ ca s ử d ụ ng t ổ ng quát c ủ a h ệ th ố ng ..................................................... 36 2.3.2 Bi ểu đồ ca s ử d ụ ng c ủ a khách hàng ................................................................. 37 2.3.3 Bi ểu đồ ca s ử d ụ ng c ủ a qu ả n tr ị viên ............................................................... 39 2.4 Đặ c t ả ca s ử d ụ ng........................................................................................................ 42 2.4.1 Đặ c t ả ca s ử d ụng đăng ký ................................................................................. 42 2.4.2 Đặ c t ả ca s ử d ụng đăng nhậ p ............................................................................. 43 2.4.3 Đặ c t ả ca s ử d ụ ng qu ả n lý tài kho ả n ................................................................. 44 2.4.4 Đặ c t ả ca s ử d ụ ng qu ản lý hãng điệ n tho ạ i ..................................................... 44 2.4.5 Đặ c t ả ca s ử d ụ ng qu ản lý điệ n tho ạ i................................................................ 45 2.4.6: Đặ c t ả ca s ử d ụ ng qu ả n lý tài kho ả n................................................................ 46 2.4.7 Đặ c t ả ca s ử d ụ ng xem, tìm ki ếm điệ n tho ạ i ................................................... 46 2.4.8 Đặ c t ả ca s ử d ụ ng bình lu ậ n v ề điệ n tho ạ i ....................................................... 47 2.5 Bi ểu đồ ho ạt độ ng....................................................................................................... 48 2.5.1 Bi ểu đồ ho ạt độ ng c ủ a khách hàng ................................................................... 48 2.5.2 Bi ểu đồ ho ạt độ ng c ủ a qu ả n tr ị viên ................................................................. 49 2.6 Bi ểu đồ l ớ p .................................................................................................................. 51 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 3 2.7 Bi ểu đồ tu ầ n t ự ............................................................................................................ 51 2.7.1 Bi ểu đồ đăng ký tài khoả n ................................................................................. 51 2.7.2 Bi ểu đồ tu ần đăng nhậ p..................................................................................... 52 2.7.3 Bi ều đồ tu ầ n t ự t ạo hãng điệ n tho ạ i .................................................................. 52 2.7.4 Bi ểu đồ tu ầ n t ự ch ỉ nh s ửa hãng điệ n tho ạ i....................................................... 53 2.7.5 Bi ều đồ tu ầ n t ự xóa hãng điệ n tho ạ i ................................................................. 53 2.7.6 Bi ểu đồ tu ầ n t ự thêm điệ n tho ạ i ........................................................................ 54 2.7.7 Bi ểu đồ tu ầ n t ự ch ỉ nh s ửa điệ n tho ạ i ................................................................ 54 2.7.8 Bi ểu đồ tu ầ n t ự xóa điệ n tho ạ i .......................................................................... 55 2.7.9 Bi ều đồ tu ầ n t ự khóa/m ở tài kho ả n................................................................... 55 2.7.10 Bi ểu đồ tu ầ n t ự bình lu ậ n................................................................................. 56 2.7.11 Bi ể u đồ tu ầ n t ự ch ỉ nh s ử a thông tin cá nhân ................................................. 56 2.7 Thi ết kê cơ sở d ữ li ệ u................................................................................................. 57 2.7.1 Mô hinh thi ết kê cơ sở d ữ li ệ u........................................................................... 57 2.8 T ổ ng k ế t chƣơng ................................ ................................ ................................ ......... 58 CHƢƠNG 3: TRIỂ N KHAI H Ệ TH Ố NG VÀ CH Ạ Y TH Ử NGHI Ệ M ........................ 59 3.1 Môi trƣ ờ ng tri ể n khai ................................ ................................ ............................. 59 3.1.1 Qu ả n lý mã ngu ồ n ................................ ................................ ............................... 59 3.1.2 Môi trƣờng cài đặ t ................................ ................................ .............................. 60 3.2 K ế t qu ả ứ ng d ụ ng ................................................................................................... 62 3.3 Đánh giá ................................ ................................ ................................ ....................... 65 K Ế T LU ẬN VÀ HƢỚ NG PHÁT TRI Ể N ......................................................................... 66 1. K ế t qu ả đạt đƣợ c ........................................................................................................... 66 2. H ạ n ch ế : ......................................................................................................................... 66 3. Hƣớ ng phát tri ể n: .......................................................................................................... 67 TÀI LI Ệ U THAM KH Ả O.................................................................................................... 68 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 4 DANH SÁCH CÁC HÌNH V Ẽ CHƢƠNG 1: Hình 1.1: Cơ chế ho ạt độ ng c ủ a Nodejs ............................................................................. 11 Hình 1.2: Mô hình ho ạt độ ng ExpressJS ............................................................................ 12 Hình 1.3: Mô hình v ề trí tu ệ nhân t ạ o................................................................................. 14 Hình 1.4: Sơ đồ phân tích c ả m xúc ..................................................................................... 16 Hình 1.5 : Sơ đ ồ hu ấ n luy ệ n ................................ ................................ ................................ .. 17 Hình 1.6: Bi ể u di ễ n t ừ b ằ ng one - hot - vector ................................ ................................ ...... 20 Hình 1.7: M ố i quan h ệ các t ừ trong one - hot - vector ................................ .......................... 21 Hình 1.8: Sơ đ ồ hu ấ n luy ệ n Word2Vec Ti ế ng Vi ệ t ................................ .......................... 22 Hình 1.9: 2 ki ế n trúc c ủ a Word2Vector ................................ ................................ ............. 22 Hình 1.10: Mô hình ki ế n trúc m ạ ng Skip - gram ................................ ................................ 23 Hình 1.11 : Xây d ự ng training data v ớ i Skip - gram ................................ ............................ 24 Hình 1.12 : Sơ đ ồ v ậ n hành phân tích bình lu ậ n ................................ ................................ 25 Hình 1.13: Sơ đồ mô t ả c ấ u trúc Restful API .................................................................... 26 Hình 1.14: Cơ chế ho ạt độ ng c ủ a Restful API .................................................................. 27 Hình 1.15: DOM ả o c ủ a reactjs ........................................................................................... 29 Hình 1.16: Vòng đờ i c ủ a component trong ReactJS......................................................... 30 Hình 1.17: Công c ụ Editor VSCode ................................................................................... 33 Hình 1.18: Công c ụ postman ............................................................................................... 34 Hình 1.19: MongoCompass giúp thao tác v ớ i csdl ........................................................... 34 CHƢƠNG 2: Hình 2.1: Bi ểu đồ ca s ử d ụ ng t ổ ng quát c ủ a h ệ th ố ng ...................................................... 37 Hình 2.2: Bi ểu đồ ca s ử d ụng đăng ký tài khoả n c ủ a khách hàng .................................. 38 Hình 2.3: Bi ểu đồ ca s ử d ụ ng qu ả n lý tài kho ả n trong h ệ th ố ng ..................................... 38 Hình 2.4: Bi ểu đồ ca s ử d ụng xem điệ n tho ạ i và bình lu ậ n ............................................ 39 Hình 2.5: Bi ểu đồ ca s ử d ụng để bình lu ậ n s ả n ph ẩ m ..................................................... 39 Hình 2.6: Bi ểu đồ ca s ử d ụng để qu ản lý hãng điệ n tho ạ i................................................ 40 Hình 2.7: Bi ểu đồ ca s ử d ụ ng qu ản lý điệ n tho ạ i .............................................................. 41 Hình 2.8: Bi ểu đồ ca s ử d ụng để xem và bình lu ậ n c ủ a qu ả n tr ị viên ............................ 41 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 5 Hình 2.9: Bi ểu đồ ca s ử d ụng để qu ả n lý tài kho ản ngƣờ i dùng ..................................... 42 Hình 2.10: Bi ểu đồ ho ạt độ ng các ch ức năng củ a khách hàng ........................................ 48 Hình 2.11: Bi ểu đồ ho ạt độ ng ch ức năng quản lý hãng và điệ n tho ạ i c ủ a qu ả n tr ị viên ................................................................................................................................................. 49 Hình 2.12: Bi ểu đồ ho ạt độ ng ch ức năng quả n lý tài kho ả n và bình lu ậ n c ủ a qu ả n tr ị viên .......................................................................................................................................... 50 Hình 2.13: Bi ểu đồ l ớ p bình lu ậ n s ả n ph ẩ m c ủ a h ệ th ố ng ............................................... 51 Hình 2.14: Bi ểu đồ tu ầ n t ự ch ức năng đăng ký tài khoả n ............................................... 51 Hình 2.15: Bi ểu đồ tu ầ n t ự ch ức năng đăng nhậ p ............................................................. 52 Hình 2.16: Bi ểu đồ tu ầ n t ự ch ức năng thêm hãng điệ n tho ạ i .......................................... 52 Hình 2.17: Bi ểu đồ tu ầ n t ự ch ức năng chỉ nh s ửa hãng điệ n tho ạ i ................................. 53 Hình 2.18: Bi ểu đồ tu ầ n t ự ch ức năng xóa hãng điệ n tho ạ i ............................................. 53 Hình 2.19: Bi ểu đồ tu ầ n t ự ch ức năng thêm mới điệ n tho ạ i ............................................ 54 Hình 2.20: Bi ểu đồ tu ầ n t ự ch ức năng chỉ nh s ửa đ i ệ n tho ạ i ............................................ 54 Hình 2.21: Bi ểu đồ tu ầ n t ự ch ức năng xóa điệ n tho ạ i ...................................................... 55 Hình 2.22: Bi ều đồ tu ầ n t ự ch ức năng khóa/mở tài kho ả n............................................... 55 Hình 2.23: Bi ểu đồ tu ần tƣ chức năng bình luậ n s ả n ph ẩ m ............................................. 56 Hình 2.24: Bi ểu đồ tu ầ n t ự ch ức năng chỉ nh s ử a thông tin cá nhân ............................... 56 Hình 2.25:Sơ đồ quan h ệ cơ sở d ữ li ệ u .............................................................................. 58 CHƢƠNG 3: Hình 3.1 : Github dùng đ ể lƣu tr ữ các mã ngu ồ n ................................ ............................... 59 Hình 3.2: Môi trƣ ờ ng nodejs ................................ ................................ ................................ 60 Hình 3.3 : Trình qu ả n lý thƣ vi ệ n npm ................................ ................................ ................ 60 Hình 3.4: Ngôn ng ữ back-end s ử d ụ ng............................................................................... 60 Hình 3.5: Ngôn ng ữ front-end s ử d ụ ng .............................................................................. 61 Hình 3.6: Web API s ử d ụ ng django .................................................................................... 61 Hình 3.7: H ệ qu ả n tr ị cơ sở d ữ li ệ u mongoDB.................................................................. 62 Hình 3.8: Màn hình đăng ký tài khoả n ............................................................................... 62 Hình 3.9: Màn hình đăng nhậ p ............................................................................................ 62 Hình 3.10: Màn hình trang ch ủ c ủ a website ...................................................................... 63 Hình 3.11: Màn hình trang điệ n tho ạ i................................................................................. 63 Hình 3.12: Màn hình hi ể n th ị điệ n tho ạ i và các bình lu ậ n v ề điệ n tho ạ i........................ 64 Hình 3.13: Màn hình trang qu ản lý hãng điệ n tho ạ i ......................................................... 64 Hình 3.14: Màn hình trang qu ản lý điệ n tho ạ i................................................................... 65 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 6 Hình 3.15: Màn hình trang qu ản lý ngƣờ i dùng ................................................................ 65 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 7 DANH SÁCH B Ả NG B ảng 2.1: Đặ c t ả ca s ử d ụng đăng ký .................................................................................. 43 B ảng 2.2: Đặ c t ả ca s ử d ụng đăng nhậ p ............................................................................. 43 B ảng 2.3: Đặ c t ả ca s ử d ụ ng qu ả n lý tài kho ả n ................................................................. 44 B ảng 2.4: Đặ c t ả ca s ử d ụ ng qu ản lý hãng điên thoạ i....................................................... 45 B ảng 2.5: Đặ c t ả ca s ử d ụ ng qu ản lý điệ n tho ạ i ................................................................ 46 B ảng 2.6: Đặ c t ả ca s ử d ụ ng qu ả n lý tài kho ả n ................................................................. 46 B ảng 2.7: Đặ c t ả ca s ử d ụ ng xem, tìm ki ếm điệ n tho ạ i .................................................... 47 B ảng 2.8: Đặ c t ả ca s ử d ụ ng bình lu ậ n v ề điệ n tho ạ i........................................................ 47 Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 8 DANH SÁCH CÁC KÝ HI Ệ U, CH Ữ VI Ế T T Ắ T T ừ V i ế t t ắ t c ủ a Di ễ n gi ả i API Application Programming Interface Giao di ệ n l ậ p trình ứ ng d ụ ng RESTful RE presentational S tate T ransfer M ộ t d ạ ng chuy ể n đ ổ i c ấ u trúc d ữ li ệ u, m ộ t ki ể u ki ế n trúc đ ể vi ế t API HTTP Hypertext Transfer Protocol Giao th ứ c truy ề n t ả i siêu văn b ả n MVC Model - View - Controller Mô hình - Giao di ệ n - B ộ đi ề u khi ể n DB Database Cơ s ở d ữ li ệ u CSS Cascading Style Sheets Đi ề u khi ể n cách hi ệ n th ị n ộ i dung trang web UI User Interface Giao di ệ n ngƣ ờ i dùng DOM Document Object Model Mô hình đ ố i tƣ ợ ng tài li ệ u JSX JavaScript XML M ộ t lo ạ i cú pháp m ở r ộ ng dành cho ngôn ng ữ JavaScript vi ế t theo ki ể u XML SQL Structured Query Language Ngôn ng ữ truy v ấ n c ấ u trúc Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 9 M Ở ĐẦ U 1. Lý do ch ọn đề tài Xu hƣớ ng phát tri ề n công ngh ệ nhanh nhƣ vũ bão hiệ n nay, s ự đổ i m ới bƣớ c qua th ờ i k ỳ công nghê m ớ i làm cho nhu c ầ u c ủa con ngƣời ngày càng tăng cao. Hiệ n nay bên m ỗi ngƣời đề u có m ộ t chi ếc điệ n tho ại để dùng là vi ệ c không th ể thi ế u, nó nh ỏ g ọ n nh ẹ đủ để cho chúng ta làm vi ệ c hay gi ả i trí ở trên đó và có thể mang đi bấ t c ứ nơi đâu chúng ta mu ố n. Nhƣng không phải ai ai cũng đề u có kh ả năng sở h ữ u nh ữ ng chi ếc điệ n tho ạ i cao c ấ p, ho ặ c có nh ững ngƣờ i dùng v ớ i m ục đích khác nhau nên khó tránh khỏ i vi ệ c không bi ế t l ự a ch ọ n s ả n ph ẩ m nào là t ố t nh ấ t cho mình và phù h ợ p m ớ i m ục đích củ a mình. M ọi ngƣờ i có th ể vô nh ững trang web để xem các đánh giá, bình luậ n c ủa ngƣờ i khác nhƣng rấ t t ố n th ời gian khi đọ c t ừ ng bình lu ận để xem là t ố t hay x ấ u. Và khi áp d ụ ng các h ọc máy vào tính toán, phán đoán các bình luận đó là tố t hay x ấ u thì s ẽ ti ế t ki ệ m th ờ i gian nhi ều hơn và có cái nhìn rõ ràng hơn về s ả n ph ẩ m. Vì nh ững lý do đó, em quyết đị nh ch ọn đề tài “ Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàng ” để làm đồ án t ố t nghi ệ p c ủ a mình. 2. M ục đích đề tài Website đƣợ c xây d ự ng v ớ i giao di ệ n thân thi ệ n, d ễ dàng s ử d ụng giúp đỡ ngƣờ i dùng, khách hàng có cái nhìn tông quan hơn về vi ệ c ch ọn điệ n tho ạ i và ti ế t ki ệ m th ờ i gian v ề vi ệ c l ự a ch ọ n, vi ệ c t ự ngƣời dùng đánh giá điệ n tho ạ i s ẽ đƣa ra nhữ ng ý ki ế n khách quan hơn. Bên cạnh đó còn giúp các hãng điệ n tho ại nhìn vào điể m m ạnh, điể m y ế u c ủ a mình mà cái ti ế n ho ặ c kh ắ c ph ụ c t ốt hơn. 3. N ội dung đề tài - Tìm hi ể u các bài toán h ọ c máy, x ử lý ngôn ng ữ t ự nhiên trong th ự c t ế - Tìm hi ểu và phân tích sơ đồ UML - Phân tích và thi ế t k ế h ệ th ố ng thông tin - Phân tích và thi ế t k ế cơ sở d ữ li ệ u Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 10 - S ử d ụ ng các ngôn ng ữ l ậ p trình và cách xây d ự ng RESTful API áp d ụng vào đề tài - S ử d ụ ng các thu ậ t toán h ọ c máy, d ữ li ệu để t ạ o mô hình cho vi ệ c d ự đoán - S ử d ụ ng NoSQL (MongoDB) làm cơ sở s ử li ệ u chính - Xây d ự ng các ch ức năng chính - Tri ể n khai lên website và bi ế t cáo báo 4. Ph ạ m vi s ử d ụng đề tài Đề tài đƣợ c s ử d ụng đố i v ớ i m ọi ngƣờ i, m ọ i cá nhân. Nh ững ngƣờ i có ý mu ố n mua điệ n tho ạ i hay tham kh ảo để có thông nh ữ ng thông tin 5. B ố c ục đề tài Đề tài chia làm 3 chƣơng: Chƣơng 1: Cở s ở lý thuy ế t c ủa đề tài Chƣơng 2: Phân tích, thiế t k ế h ệ th ố ng, xây d ựng cơ sở d ữ li ệ u Chƣơng 3: Triên khai hệ th ố ng ch ạ y th ự c t ế và đánh giá kế t qu ả Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 11 CHƢƠNG 1: CƠ SỞ LÝ THUY Ế T VÀ CÔNG C Ụ S Ử D Ụ NG 1.1 T ổ ng quan v ề Nodejs và và javascript Javascript là ngôn ng ữ l ậ p trình k ị ch b ản để đƣợ c s ử d ụ ng r ộ ng rãi ở các website và ECMAScript là phiên b ả n chu ẩ n hóa c ủ a Javascript. Phiên b ả n m ớ i nh ấ t hi ệ n nay c ủ a Javascript là ECMAScript 7. Javascript cho phép t ạo ra trang web độ ng - c ậ p nh ậ t n ộ i dung theo ng ữ c ảnh, điề u khi ển đa phƣơng tiệ n, ho ạ t c ả nh các hình ả nh và nhi ề u th ứ hay ho khác. (Dĩ nhiên không phả i m ọ i th ứ, nhƣng chỉ v ớ i m ộ t vài dòng code, JavaScript có th ể làm đƣợ c nhi ề u điều đáng kinh ngạ c.) Javascript đƣợ c h ỗ tr ợ h ầu nhƣ trên t ấ t c ả các trình duy ệt nhƣ Firefox, Chrome, ... thậ m chí các trình duy ệ t trên thi ế t b ị di động cũng có h ỗ tr ợ . Hình 1.1 : Cơ chế ho ạt độ ng c ủ a Nodejs Node.js là m ộ t n ề n t ả ng phát tri ể n đ ộ c l ậ p đƣ ợ c xây d ự ng ở trên môi trƣ ờ ng V8 JavaScript runtime - m ộ t trình thông d ị ch JavaScript c ự c nhanh ch ạ y trên trình duy ệ t Chrome giúp chúng ta có th ể xây d ự ng đƣ ợ c các ứ ng d ụ ng m ạ ng m ộ t cách nhanh chóng và d ễ dàng m ở r ộ ng . Nodejs ch ạ y đa n ề n t ả ng phía Serve r, s ử d ụ ng ki ế n trúc hƣ ớ ng s ự ki ệ n Event - driven, cơ ch ế non - blocking I/O làm cho nó nh ẹ và hi ệ u qu ả . Các ứ ng d ụ ng NodeJS đáp ứ ng t ố t th ờ i gian th ự c và ch ạ y đa n ề n t ả ng, đa thi ế t b ị . Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 12 Nó bao g ồ m 2 thành ph ầ n chính là V8 engine đ ể ch ạ y code js và thƣ vi ệ n libuv đ ể x ử lý các l ờ i g ọ i b ấ t đ ồ ng b ộ . Ở đây l ạ i có nhi ề u l ẫ n l ộ n node ch ạ y đơn lu ồ ng hay đa lu ồ ng ? M ộ t cách chính xác thì code JS đƣ ợ c x ử lý b ằ ng 1 lu ồ ng duy nh ấ t chính là V8 engine(main thread), còn các th ứ ch ạ y bên dƣ ớ i b ở i libuv thì đa lu ồ ng(worker t hread). 1.2 T ổ ng quan v ề ExpressJS ExpressJS là m ộ t framework đƣ ợ c xây d ự ng trên n ề n t ả ng Nodejs. Nó cung c ấ p các tính năng m ạ nh m ẽ đ ể phát tri ể n web ho ặ c mobile. Express h ỗ r ợ các phƣơng th ứ c HTTP và midleware t ạ o ra môt API vô cùng m ạ nh m ẽ và d ễ s ử d ụ ng. Hình 1.2: Mô hình ho ạt độ ng ExpressJS M ộ t s ố ch ứ c năng chính c ủ a Expressjs nhƣ sau: - Express h ỗ tr ợ chúng ta phát tri ể n ứ ng d ụ ng theo mô hình MVC - H ỗ tr ợ m ạ nh v ề REST API - Thi ế t l ậ p các l ớ p trung gian đ ể tr ả v ề các HTTP request - Đ ị nh nghĩa router cho phép s ử d ụ ng v ớ i các hành đ ộ ng khác nhau d ự a trên phƣơng th ứ c HTTP và UR L Expressjs đƣ ợ c s ử d ụ ng r ỗ ng rãi nên có vô s ố các package h ỗ tr ợ nên s ẽ không ph ả i lo l ắ ng khi làm vi ệ c v ớ i Framework này. Bên c ạ nh đó v ề performance: Express cung c ấ p thêm v ề các tính năng (feature) đ ể dev l ậ p trình t ố t hơn. Ch ứ không làm gi ả m t ố c đ ộ c ủ a NodeJS 1.3 T ổ ng quan v ề h ọ c máy (Machine Learning) Nh ữ ng năm g ầ n đây, AI - Artificial Intelligence (Trí Tu ệ Nhân T ạ o), và c ụ th ể hơn là Machine Learning (H ọ c Máy ho ặ c Máy H ọ c) n ổ i lên nhƣ m ộ t b ằ ng ch ứ ng c ủ a cu ộ c Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 13 cách m ạ ng công nghi ệ p l ầ n th ứ tƣ (1 - đ ộ ng cơ hơi nƣ ớ c, 2 - năng lƣ ợ ng đi ệ n, 3 - công ngh ệ thông tin). Trí Tu ệ Nhân T ạ o đang len l ỏ i vào m ọ i lĩnh v ự c trong đ ờ i s ố ng mà có th ể chúng ta không nh ậ n ra. Xe t ự hành c ủ a Google và Tesla, h ệ th ố ng t ự tag khuôn m ặ t trong ả nh c ủ a Facebook, tr ợ lý ả o Siri c ủ a Apple, h ệ th ố ng g ợ i ý s ả n ph ẩ m c ủ a Amazon, h ệ th ố ng g ợ i ý phim c ủ a Netflix, máy chơi c ờ vây AlphaGo c ủ a Google DeepMind, …, ch ỉ là m ộ t vài trong vô vàn nh ữ ng ứ ng d ụ n g c ủ a AI/Machine Learning Machine Learning là m ộ t t ậ p con c ủ a AI hay nói cách khác nó là m ộ t lĩnh v ự c nh ỏ c ủ a Khoa H ọ c Máy Tính, nó s ử d ụ ng các thu ậ t toán cho phép máy tính có th ể h ọ c t ừ d ữ li ệ u đ ể th ự c hi ệ n các công vi ệ c thay vì đƣ ợ c l ậ p trình m ộ t cách rõ ràng Machine Learning đƣ ợ c chia thành 3 lo ạ i chính: Supervised learning (học có giám sát): là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp ( input, outcome ) đã biết từ trƣớc. Cặp dữ liệu này còn đƣợc gọi là ( data, label ), tức ( dữ liệu, nhãn ). Supervised learning là nhóm phổ biến nhất trong các thuật toán Machine Learning. M ộ t cách toán h ọ c, Supervised learning là khi chúng ra có m ộ t t ậ p h ợ p bi ế n đ ầ u vào X={x1,x2,…,xN} và m ộ t t ậ p h ợ p nhãn tƣơng ứ ng Y={y1,y2,…,yN} trong đó xi,yi là các vector. Các c ặ p d ữ li ệ u bi ế t trƣ ớ c (xi,yi) ∈ X × Y đƣ ợ c g ọ i là t ậ p training data (d ữ li ệ u hu ấ n luy ệ n). T ừ t ậ p traing data này, chúng ta c ầ n t ạ o ra m ộ t hàm s ố ánh x ạ m ỗ i ph ầ n t ử t ừ t ậ p X sang m ộ t ph ầ n t ử (x ấ p x ỉ ) tƣơng ứ ng c ủ a t ậ p Y yi ≈ f(xi), ∀ i=1,2,…,N M ụ c đích là x ấ p x ỉ hàm s ố f f th ậ t t ố t đ ể khi có m ộ t d ữ li ệ u x x m ớ i, chúng ta có th ể tính đƣ ợ c nhãn tƣơng ứ ng c ủ a nó y=f(x) Unsupervised learning (học không giám sát): Trong thuật toán này, chúng ta không biết đƣợc outcome hay nhãn mà chỉ có dữ liệu đầu vào. Thuật toán unsupervised learning sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ nhƣ phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lƣu trữ và tính t oán. Một cách toán học, Unsupervised learning là khi chúng ta chỉ có dữ liệu vào X mà không biết nhãn Y tƣơng ứng. Những thuật toán loại này đƣợc gọi là Unsupervised learning vì không giống nhƣ Supervised learning, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 14 vào. Giống nhƣ khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A hay chữ B. Cụ m không giám sát đƣợc đặt tên theo nghĩa này Reinforcement learning (học tăng cƣờng/học củng cố): Reinforcement learning là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt đƣợc lợi ích cao nhất (maximizing the performa nce). Hiện tại, Reinforcement learning chủ yếu đƣợc áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nƣớc đi tiếp theo để đạt đƣợc điểm số cao nhất. Ví dụ nhƣ AlphaGo gần đây nổi tiếng với việc chơi cờ vây thắng cả con ngƣời . Cờ v ây đƣợc xem là có độ phức tạp cực kỳ cao với tổng số nƣớc đi là xấp xỉ 10 761 , so với cờ vua là 10 120 . Về cơ bản, AlphaGo bao gồm các thuật toán thuộc cả Supervised learning và Reinforcement learning. Trong phần Supervised learning, dữ liệu từ các ván cờ do con ngƣời chơi với nhau đƣợc đƣa vào để huấn luyện. Tuy nhiên, mục đích cuối cùng của AlphaGo không phải là chơi nhƣ con ngƣời mà phải thậm chí thắng cả con ngƣời. Vì vậy, sau khi học xong các ván cờ của con ngƣời, AlphaGo tự chơi với chính nó với hàng tr iệu ván chơi để tìm ra các nƣớc đi mới tối ƣu hơn. Thuật toán trong phần tự chơi này đƣợc xếp vào loại Reinforcement learning . Hình 1.3: Mô hình v ề trí tu ệ nhân t ạ o X ử lý ngôn ng ữ t ự nhiên là m ộ t nhánh c ủ a trí tu ệ nhân t ạ o t ậ p trun g vào các ứ ng d ụ ng trên ngôn ng ữ c ủ a con ngƣ ờ i. M ụ c tiêu c ủ a lĩnh v ự c này là giúp máy tính hi ể u và Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 15 th ự c hi ệ n hi ệ u qu ả nh ữ ng nhi ệ m v ụ liên quan đ ế n ngôn ng ữ c ủ a con ngƣ ờ i nhƣ: tƣơng tác gi ữ a ngƣ ờ i và máy, c ả i thi ệ n hi ệ u qu ả giao ti ế p gi ữ a con ngƣ ờ i v ớ i con ngƣ ờ i, ho ặ c đơn gi ả n là nâng cao hi ệ u qu ả x ử lý văn b ả n và l ờ i nói. Nó có vô vàn ứ ng d ụ ng h ữ u ích trong cu ộ c s ố ng cũng nhƣ nghiên c ứ u. Các doanh nghi ệ p hi ệ n nay đang đ ố i m ặ t v ớ i “cơn lũ” d ữ li ệ u v ề m ọ i m ặ t: feedback c ủ a khách hàng, thông tin đ ố i th ủ c ạ nh t ranh, emails c ủ a khách hàng, tweets, thông tin h ọ p báo, h ồ sơ pháp lý, các văn b ả n v ề s ả n ph ẩ m và kĩ thu ậ t. Vi ệ c khai thác đƣ ợ c nh ữ ng d ữ li ệ u này là đi ể m m ấ u ch ố t đ ể các doanh nghi ệ p có th ể tri ể n khai nhanh chóng các quy ế t đ ị nh c ủ a mình so v ớ i đ ố i th ủ c ạ nh tranh. Chúng ta có th ể đi ể m qua m ộ t vài ứ ng d ụ ng c ủ a x ử lý ngôn ng ữ t ự nhiên nhƣ: - Nh ậ n d ạ ng ch ữ viêt, s ố - Nh ậ n d ạ ng ti ế ng nói - D ị ch t ự độ ng - Tìm ki ế m thông tin - Tóm t ắt văn bả n - Phân lo ại văn bả n - phân tích c ả m xúc trên văn b ả n - ... 1.4 Bài toán phân lo ạ i bình lu ậ n Trong ti ế ng Anh bài toán này đƣ ợ c bi ế t đ ế n v ớ i cái tên (text classification. E.g. sentiment classification) nh ằ m phát hi ệ n ra thái đ ộ mang tính lâu dài, màu s ắ c tình c ả m, khuynh hƣ ớ ng ni ề m tin vào các đ ố i tƣ ợ ng hay ngƣ ờ i nào đ ó Bài toán phân tích cảm xúc thuộc dạng bài toán phân tích ngữ nghĩa văn bản. Vì vậy, ta cần phải xây dựng một mô hình để hiểu đƣợc ý nghĩa của câu văn, đoạn văn để quyết định xem câu văn đó hoặc đoạn văn đó mang màu sắc cảm xúc chủ đạo nào. Phát biểu theo góc nhìn của máy học (Machine Learning) thì phân tích cảm xúc là bài toán phân lớp cảm xúc dựa trên văn bản ngôn ngữ tự nhiên. Đầu vào của bài toán là một câu hay một đoạn văn bản, còn đầu ra là các giá trị xác suất (điểm số) của N lớp cảm xúc mà ta cần xác định. Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 16 Hình 1.4 : Sơ đồ phân tích c ả m xúc Đầ u vào c ủ a mô hình x ử lý Sentiment Analysis Vietnamese (SAV) là m ột đoạ n văn Tiế ng Vi ệt, đầ u ra là 2 giá tr ị xác su ất mà đoạn văn đầ u vào thu ộ c v ề l ớ p c ả m xúc: tiêu c ự c (negative) hay tích c ự c (positive). 1.4.1 Các phƣơng pháp gi ả i quy ế t bài toán phân tích c ả m xúc Phƣơng pháp dự a trên t ừ điể n các t ừ th ể hi ệ n c ả m xúc . Theo đó, việ c d ự đoán c ả m xúc d ự a vào vi ệ c tìm ki ế m các t ừ c ả m xúc riêng l ẻ, xác định điể m s ố cho các t ừ tích c ực, xác đị nh điể m s ố cho các t ừ tiêu c ực và sau đó là tổ ng h ợp các điể m s ố này l ạ i theo m ột độ đo xác định để quy ết định xem văn bả n mau màu s ắ c c ả m xúc gì. Phƣơng pháp này có điể m h ạ n ch ế là th ứ t ự các t ừ b ị b ỏ qua và các thông tin quan tr ọ ng có th ể b ị m ất. Độ chính xác c ủ a mô hình ph ụ thu ộc vào độ t ố t c ủ a b ộ t ừ điể n các t ừ c ảm xúc. Nhƣng lại có ƣu điể m là d ễ th ự c hi ệ n, chi phí tính toán nhanh, ch ỉ m ấ t công s ứ c trong vi ệ c xây d ự ng b ộ t ừ điể n các t ừ c ả m xúc mà thôi Phƣơng pháp Neural Network . Nh ữ ng th ậ p niên g ầ n đây, v ớ i s ự phát tri ể n nhanh chóng t ố c đ ộ x ử lý c ủ a CPU, GPU và chi phí cho ph ầ n c ứ ng ngày càng gi ả m, các d ị ch v ụ h ạ t ầ ng đi ệ n toán đám mây ngày càng phát tri ể n, làm ti ề n đ ề và cơ h ộ i cho phƣơng pháp h ọ c sâu Deep Learning Neural Network phát tri ể n m ạ nh m ẽ . Trong đó, bài toán phân tích c ả m xúc đã đƣ ợ c gi ả i quy ế t b ằ ng mô hình h ọ c Recurrent Neural Network (RNN) v ớ i m ộ t bi ế n th ể đƣ ợ c dùng ph ổ bi ế n hi ệ n nay là Long Short Term Memory Neural Network (LSTMs), k ế t h ợ p v ớ i mô hình vector hóa t ừ (vector representations of wo rds) Word2Vector v ớ i ki ế n trúc Continuous Bag - of - Words (CBOW). Mô hình này cho đ ộ chính xác hơn 85%. Ƣu đi ể m c ủ a phƣơng pháp này là văn b ả n đ ầ u vào có th ể là 1 câu hay 1 đo ạ n văn. Đ ể th ự c hi ệ n mô hình này đòi h ỏ i ph ả i có d ữ li ệ u văn b ả n càng nhi ề u càng t ố t đ ể t ạ o Word2Vector CBOW ch ấ t lƣ ợ ng cao và Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 17 d ữ li ệ u gán nhãn l ớn để hu ấ n luy ệ n (training), xác minh (validate) và ki ể m tra (test) mô hình h ọ c có giám sát (Supervise Learning) LSTMs. Phƣơng pháp kế t h ợ p Rule-bases (d ự a trên lu ậ t) và Corpus-bases (d ự a trên ng ữ li ệ u) . Tiêu bi ểu cho phƣơng pháp này là công trình nghiên cứ u c ủ a Richard Socher thu ộc trƣờng đạ i h ọc Stanford. Phƣơng pháp này kế t h ợ p s ử d ụ ng mô hình Deep Learning Recursive Neural Network v ớ i h ệ tri th ứ c chuyên gia trong x ử lý ngôn ng ữ t ự nhiên (XLN NTN) đƣợ c g ọ i là Sentiment Treebank. Sentiment Tree là cây phân tích cú pháp c ủa 1 câu văn, trong đó mỗ i nút trong cây kèm theo b ộ tr ọ ng s ố c ả m xúc l ần lƣợ t là: r ấ t tiêu c ự c (very negative), tiêu c ự c (negative), trung tính (neutral), tích c ự c (positive) và r ấ t tích c ực (very positive). Theo đó, trọ ng s ố thu ộ c nhãn nào l ớ n nh ấ t s ẽ quy ết đị nh nhãn toàn c ụ c c ủa nút, nhƣ hình dƣới đây. Độ chính xác c ủ a mô hình khi d ự đoán cảm xúc cho 1 câu đơn là 85,4%. Nhƣợc điể m c ủa phƣơng pháp này ở ch ổ ch ỉ x ử lý t ố t cho d ữ li ệu đầ u vào là m ột câu đơn Trong đề tài này em quy ế t đ ị nh ch ọ n phƣơng pháp deep learning LSTMs k ế t h ợ p v ớ i Word2Vector đ ể gi ả i quy ế t bài toán phân tích c ả m xúc. Mô hình này t ỏ ra sát v ớ i yêu c ầ u ứ ng d ụ ng th ự c ti ễ n v ớ i văn b ả n đ ầ u vào là m ộ t đo ạ n văn b ấ t k ỳ , có th ể là các bình lu ậ n (comment) trên m ạ ng xã h ộ i, các đánh giá (review) trên các trang web bán hàng, cung c ấ p d ị ch v ụ ăn u ố ng, gi ả i trí, du l ị ch nhƣ: các quán ăn, nhà hàng, khách s ạ n, đ ị a đi ể m du l ị ch, r ạ p chi ế u phim, b ộ phim, các thƣơng hi ệ u n ổ i ti ế n g . 1.4.2 Sơ đ ồ hu ấ n luy ệ n mô hình phân tích c ả m xúc văn b ả n Ti ế ng Vi ệ t Hình 1.5 : Sơ đ ồ hu ấ n luy ệ n Theo nhƣ hình trên, thì ta thấy đầ u vào c ủ a mô hình h ọ c có giám sát LSTMs là các t ập tin đã gán nhãn, chứa các đoạn văn đƣợ c x ử lý tách t ừ (phân đoạ n t ừ ) b ằ ng công c ụ Tokenizer và mô hình Word2Vector. Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 18 T i ế ng Vi ệ t thu ộ c lo ạ i hình đơn l ậ p, ranh gi ớ i t ừ không đƣ ợ c xác đ ị nh m ặ c nhiên b ằ ng kho ả n tr ắ ng, mà vi ệ c gi ả i quy ế t bài toán l ạ i liên quan đ ế n ng ữ nghĩa c ủ a t ừ cho nên vi ệ c phân đo ạ n t ừ là công vi ệ c b ắ t bu ộ c đ ể mô hình đ ạ t đƣ ợ c đ ộ chính xác cao hơn Còn mô hình Word2Vector là k ế t qu ả c ủ a quá trình hu ấ n luy ệ n nông d ự a trên mô hình Recurrent Neural Network (RNN) để vector hóa t ừ, hay nói cách khác là đƣa từ (word) vào không gian vector K ế t qu ả c ủ a quá trình hu ấ n luy ện, ta thu đƣợ c b ộ tr ọ ng s ố c ủ a m ạng nơ ron LSTMs đƣợc lƣu xuố ng file (params) cùng v ớ i các siêu tham s ố c ấ u hình m ạ ng LSTMs (conf) mà ta đã thiế t l ậ p. Hai t ậ p tin này s ẽ đƣợ c t ả i vào (loading) vào m ạ ng LSTMs để ki ể m tra (test), v ậ n hành (release) ho ặ c có th ể ti ế p t ụ c hu ấ n luy ệ n (training) sau này. 1.4.3 Tách t ừ ti ế ng vi ệ t – Tokenization, Word Segmentation: L à bài toán quan tr ọ ng đ ố i v ớ i ti ế ng Vi ệ t. Khác v ớ i ti ế ng Anh, m ộ t t ừ ti ế ng Vi ệ t có th ể đƣ ợ c t ạ o b ở i nhi ề u hơn m ộ t âm T ách t ừ , v ề m ặ t bi ể u hi ệ n , là gom nhóm các t ừ đơn li ề n k ề thành m ộ t c ụ m t ừ có ý nghĩa. Ví d ụ : "Cách tách t ừ cho Ti ế ng Vi ệ t." sau khi tách t ừ thì thành "Cách tách t ừ cho Ti ế ng_Vi ệ t ." V ề hình th ứ c, các t ừ đơn đƣ ợ c gom nhóm v ớ i nhau b ằ ng cách n ố i v ớ i nhau b ằ ng ký t ự g ạ ch dƣ ớ i "_" , trong trƣ ờ ng h ợ p này là t ừ Ti ế ng_Vi ệ t . Sau khi th ự c hi ệ n tách t ừ thì m ỗ i t ừ (token) trong câu đƣ ợ c cách nhau b ở i m ộ t kho ả ng tr ắ ng, trong trƣ ờ ng h ợ p này nhƣ "Ti ế ng_Vi ệ t ." thì t ừ "Ti ế ng_Vi ệ t" cách đ ấ u "." b ở i 1 kho ả ng tr ắ ng V i ệ c tách t ừ v ăn b ả n đ ầ u vào trƣ ớ c khi đƣa vào hu ấ n luy ệ n mô hình máy h ọ c là đ ể gi ả i quy ế t các bài toán liên quan đ ế n ng ữ nghĩa c ủ a văn b ả n, t ứ c là k ế t qu ả đ ầ u ra mang tính suy lu ậ n d ự a trên vi ệ c hi ể u ý nghĩa c ủ a văn b ả n đ ầ u vào Thu ậ t toán mà em dùng đ ể gi ả i quy ế t bài t oán này là Thu ậ t toán so kh ớ p t ừ dài nh ấ t (longest matching) : B ắ t đ ầ u t ừ trái sang ph ả i, v ớ i v ị trí t ừ hi ệ n t ạ i chúng ta ki ể m tra xem t ừ đó và 2 t ừ ti ế p theo có th ể ghép thành 1 t ừ có nghĩa hay không b ằ ng cách ki ể m tra trong t ừ đi ể n tri - gram. N ế u không th ể t ạ o ra đƣ ợ c t ừ có nghĩa t ừ 3 t ừ thì ta ti ế p t ụ c ki ể m tra xem t ừ hi ệ n t ạ i và t ừ ti ế p theo có th ể ghép đƣ ợ c thành m ộ t t ừ có nghĩa hay không b ằ ng cách ki ể m tra trong t ừ đi ể n bi - gram. Cu ố i cùng n ế u không th ể ghép đƣ ợ c thì ta coi đó là t ừ đơn Đề tài: Xây d ự ng website h ỗ tr ợ khách hàng mua điệ n tho ạ i và tích h ợ p machine learning phân tích bình lu ậ n khách hàn SVTH: Lê Văn Hồ ng Quân GVHD: PGS.TS Phan Huy Khánh Page 19 1.4.4 Bi ể u di ễ n t ừ trong không gian (word embedding) s ử d ụ ng World2Vec M ạ ng nơ ron hay b ấ t k ỳ mô hình tính toán nào làm vi ệ c v ớ i các con s ố , đ ể các mô hình làm vi ệ c đƣ ợ c v ớ i ngôn ng ữ t ự nhiên thì vi ệ c s ố hóa các t ừ là cách ti ế p c ậ n đơn gi ả n nh ấ t . Word Embedding là tên g ọ i chung c ủ a các mô hình ngôn ng ữ và các phƣơng pháp h ọ c theo đ ặ c trƣng trong X ử lý ngôn ng ữ t ự nhiên(NLP), ở đó các t ừ ho ặ c c ụ m t ừ đƣ ợ c ánh x ạ sang các vector s ố (thƣ ờ ng là s ố th ự c) . T ừ không gian m ộ t chi ề u cho m ỗ i t ừ t ớ i không gian các vector liên t ụ c. Đây là m ộ t công c ụ đóng vai trò quan tr ọ ng đ ố i v ớ i h ầ u h ế t các thu ậ t toán, ki ế n trúc Machine Learning, Deep Learning trong vi ệ c x ử lý Input ở d ạ ng text, do chúng ch ỉ có th ể hi ể u đƣ ợ c Input ở d ạ ng là s ố , t ừ đó m ớ i th ự c hi ệ n các công vi ệ c phân lo ạ i, h ồ i quy,vv… P hƣơng pháp bi ể u di ễ n ph ổ bi ế n trƣ ớ c th ờ i word embeddings : Bag of Words là m ộ t thu ậ t toán h ỗ tr ợ x ử lý ngôn ng ữ t ự nhiên và m ụ c đích c ủ a BoW là phân lo ạ i text hay văn b ả n. Ý tƣ ở ng c ủ a BoW là phân tích và phân nhóm d ự a theo "Bag of Words"(corpus). V ớ i test data m ớ i, ti ế n hành tìm ra s ố l ầ n t ừ ng t ừ c ủ a test data xu ấ t hi ệ n trong "bag" . M ộ t k ỹ t

2019 WEBISTE HỖ TRỢ KHÁCH HÀNG VÀ TÍCH HỢP MACHINE LEARNING PHÂN TÍCH BÌNH LUẬN Lê Văn Hồng Qn ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: CÔNG NGHỆ PHẦN MỀM ĐỀ TÀI: XÂY DỰNG WEBSITE HỖ TRỢ KHÁCH HÀNG MUA ĐIỆN THOẠI VÀ TÍCH HỢP MACHINE LEARNING PHÂN TÍCH BÌNH LUẬN KHÁCH HÀNG Ngƣời hƣớng dẫn: PGS TS PHAN HUY KHÁNH Sinh viên thực hiện: LÊ VĂN HỒNG QUÂN Số thẻ sinh viên: 102150125 Lớp: 15T2 Đà Nẵng, 12/2019 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: CÔNG NGHỆ PHẦN MỀM ĐỀ TÀI: XÂY DỰNG WEBSITE HỖ TRỢ KHÁCH HÀNG MUA ĐIỆN THOẠI VÀ TÍCH HỢP MACHINE LEARNING PHÂN TÍCH BÌNH LUẬN KHÁCH HÀNG Ngƣời hƣớng dẫn: PGS TS PHAN HUY KHÁNH Sinh viên thực hiện: LÊ VĂN HỒNG QUÂN Số thẻ sinh viên: 102150125 Lớp: 15T2 Đà Nẵng, 12/2019 NHẬN XÉT CỦA NGƢỜI HƢỚNG DẪN Đà Nẵng, ngày … tháng … năm 2019 Giảng viên hƣớng dẫn PGS TS Phan Huy Khánh NHẬN XÉT CỦA NGƢỜI PHẢN BIỆN Đà Nẵng, ngày … tháng … năm 2019 TÓM TẮT Tên đề tài: Xây dựng website hỗ trợ khách hàng mua điện thoại tích hợp machine learning phân tích bình luận khách hàng Sinh viên thực hiện: Lê Văn Hồng Quân Số thẻ SV: 102150125 Lớp: 15T2 Website cung cấp mẫu điện thoại hãng cho phép ngƣời dùng xem bình luận ngƣời khác để tự chọn sản phẩm theo ý Bên cạnh cịn cho phép ngƣời dùng trực tiếp bình luận sản phẩm cho ngƣời tham khảo Những bình luận đƣợc hệ thống phân tích đƣa nhận định thuộc loại tích cực, tiêu cực hay bình thƣờng để ngƣời dùng tham khảo Website bao gồm: - Trang quản lý cho admin - Trang cho ngƣời dùng, xem, tìm kiếm, bình luận sản phẩm - Trang đăng nhập, đăng ký tạo tài khoản để đƣợc bình luận sản phẩm ĐẠI HỌC ĐÀ NẴNG CỘNG HỊA XÃ HƠI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc KHOA CÔNG NGHỆ THÔNG TIN NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ tên sinh viên: LÊ VĂN HỒNG QUÂN Số thẻ sinh viên: 102150125 Lớp: 15T2 Ngành: Công nghệ phần mềm Khoa: Công nghệ thông tin Tên đề tài đồ án: Xây dựng website hỗ trợ khách hàng mua điện thoại tích hợp machine learning phân tích bình luận khách hàng Đề tài thuộc diện: ☐ Có ký kết thỏa thuận sở hữu trí tuệ kết thực Các số liệu liệu ban đầu: …………………………………… …………………………………………… …… ………………………………………………………………………………………… … ………………………………….… ……………………… ……………………… Nội dung phần thuyết minh tính tốn: … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… Các vẽ, đồ thị ( ghi rõ loại kích thước vẽ ): Khơng có Họ tên người hướng dẫn: PGS TS Phan Huy Khánh Ngày giao nhiệm vụ đồ án: …… /……./2019 Ngày hoàn thành đồ án: …… /……./2019 Đà Nẵng, ngày Trƣởng Bộ môn……………………… tháng năm 2019 Ngƣời hƣớng dẫn LỜI NĨI ĐẦU Trong q hình học tập rèn luyện đây, em đa học đƣợc nhiều kiến thức điều bổ ích, em xin gửi lời cảm ơn chân thành đến tất thầy cô Khoa công nghệ thông tin trƣờng Đại học Bách Khoa Đà Nẵng dạy dỗ, truyền đạt kiến thức, tƣ tƣởng kinh nghiệm suốt thời gian em học để em thực đƣợc đồ án tốt nghiệp Em xin trân trọng cảm ơn thầy PGS.TS Phan Huy Khánh ngƣời trực tiếp hƣớng dẫn, giúp đỡ em nhiều thời gian thực đồ án Thầy khơng giúp đỡ mà cịn cung cấp nhiều thơng tin bổ ích khác để em tham khảo mở mang kiến thức Nhờ thầy mà em thực đƣợc đồ án cách tốt Trong trình nghiên cứu, thực đồ án lần này, chắn hẳn em tránh khỏi sai sót hay cịn thiếu kiến thức, mong thầy thơng cảm góp ý thẳng thắn để em đƣợc học hỏi thêm hồn thiện đồ án Lời cuối em xin chân trọng cảm ơn thầy cô chúc thầy cô khỏe mạnh để truyền đạt kiến thức cho hệ sau Lê Văn Hồng Quân CAM ĐOAN Em xin cam đoan: Những nội dung đồ án em thực dƣới hƣớng dẫn trực tiếp thầy giáo PGS.TS Phan Huy Khánh Các tài liệu tham khảo, liệu đồ án đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Nếu có chép không hợp lệ, vi phạm quy chế, em xin chịu trách nhiệm Đà Nẵng, ngày tháng 12 năm 2019 Sinh viên thực Lê Văn Hồng Quân PHIẾU DUYỆT ĐỒ ÁN TỐT NGHIỆP I Phần dành cho Sinh viên Họ tên: LÊ VĂN HỒNG QUÂN Mã Sinh viên: 102150142 Lớp: 15T2 Tên đề tài: Xây dựng website hỗ trợ khách hàng mua điện thoại tích hợp machine learning phân tích bình luận khách hàng Số điện thoại: 0902449450 E-mail: lvhquan0110@gmail.com Họ tên GVHD: PGS.TS Phan Huy Khánh II Phần dành cho Hội đồng Nội dung đánh giá STT Kết luận Trình bày báo cáo theo mẫu qui định Khoa Khơng có chép nội dung báo cáo chương trình có Biên dịch mã nguồn chạy đƣợc chƣơng trình Có kịch thực với liệu thử nghiệm Kết thực chƣơng trình theo báo cáo Có đóng góp, phát triển tác giả đồ án Ý kiến khác: Kết luận:  Đạt yêu cầu  Phải sửa chữa lại Đà Nẵng, ngày  Không đạt yêu cầu tháng 12 năm 2019 Chủ tịch Hội đồng Cán duyệt kiểm tra (Ký ghi họ tên) (Ký ghi họ tên) Đề tài: Xây dựng website hỗ trợ khách hàng mua điện thoại tích hợp machine learning phân tích bình luận khách hàn MỤC LỤC TÓM TẮT LỜI NÓI ĐẦU CAM ĐOAN .8 MỤC LỤC .1 DANH SÁCH CÁC HÌNH VẼ DANH SÁCH BẢNG DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT MỞ ĐẦU 1.Lý chọn đề tài .9 Mục đích đề tài .9 Nội dung đề tài Phạm vi sử dụng đề tài 10 Bố cục đề tài 10 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ SỬ DỤNG 11 1.1 Tổng quan Nodejs và javascript 11 1.2 Tổng quan ExpressJS 12 1.3 Tổng quan học máy (Machine Learning) 12 1.4 Bài tốn phân loại bình luận 15 1.4.1 Các phƣơng pháp giải toán phân tích c ảm xúc 16 1.4.2 Sơ đồ huấn luyện mơ hình phân tích cảm xúc văn Tiếng Việt 17 1.4.3 Tách từ tiếng việt – Tokenization, Word Segmentation: 18 1.4.4 Biểu diễn từ không gian (word embedding) sử dụng World2Vec 19 1.4.5 Sơ đồ kiểm tra vận hành 25 SVTH: Lê Văn Hồng Quân GVHD: PGS.TS Phan Huy Khánh Page

Ngày đăng: 25/02/2024, 12:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan