đÁ»“ ã¡n ie224 nhã³m 13

13 0 0
đÁ»“ ã¡n ie224 nhã³m 13

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

8 Trang 3 1.GIỚI THIỆUĐề tài này sẽ xây dựng một mô hình dự đốn giá xe ơ tơ cũ trên trang web Chợtốt https://xe.chotot.com dựa trên các yếu tố quan trọng như Giá bán, Hãng sản xuất,Năm

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN 🙤🙧🟍🙥🙦 DỰ ĐỐN GIÁ Ơ TÔ CŨ DỰA TRÊN DỮ LIỆU TỪ WEBSITE CHỢ TỐT Sinh viên thực hiện: STT Họ tên Nguyễn Thanh Hiếu Hồ Nguyễn Gia Huy MSSV 20521328 20521386 TP HỒ CHÍ MINH – 12/2023 Ngành CNCL2020 CNCL2020 MỤC LỤC GIỚI THIỆU MÔ TẢ BỘ DỮ LIỆU .1 PHƯƠNG PHÁP PHÂN TÍCH 3.1 Tiền xử lí liệu .2 3.2 Khai phá liệu 3.3 Chuẩn hóa liệu 3.4 Xây dựng mơ hình 3.5 Đánh giá PHÂN TÍCH THĂM DỊ/SƠ BỘ 4.1 Phân tích liệu định lượng .4 KẾT QUẢ PHÂN TÍCH KẾT LUẬN Đồ án mơn học Phân tích Dữ liệu – IE224 GIỚI THIỆU Đề tài xây dựng mơ hình dự đốn giá xe tơ cũ trang web Chợ tốt (https://xe.chotot.com) dựa yếu tố quan trọng Giá bán, Hãng sản xuất, Năm sản xuất, Số kilomet đi, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ Mục tiêu nắm bắt thông tin thị trường mua bán ô tô cũ trực tuyến Để thực việc thu thập liệu, nhóm sử dụng thư viện Selenium để tự động trích xuất thơng tin từ trang web Chợ tốt Sau nhóm tiến hành phân tích làm liệu sử dụng công cụ hồi quy Hồi quy tuyến tính (Linear Regression), Rừng ngẫu nhiên (Random Forest) Mạng Neural để tiến hành dự đoán đưa nhận xét Kết nhận thuật tốn Mạng Neural đạt kết tốt sau đến Hồi quy tuyến tính cuối Rừng ngẫu nhiên Nhóm cam kết liệu đồ án kết mà nhóm tự phân tích khơng phải hợp từ nguồn liệu khác Bộ liệu đề tài nhóm tự phân tích thiết kế, khơng dựa đề tài khác MÔ TẢ BỘ DỮ LIỆU Bộ liệu tập hợp thông tin mua bán ô tô cũ 30 trang đầu trang web Chợ tốt Bộ liệu phân tích tự thu thập https://xe.chotot.com/ Bộ liệu nhóm tự thu thập từ trang web Chợ tốt, khơng dựa nguồn liệu bên ngồi khác Phương pháp thu thập liệu cách sử dụng Selenium: − Sử dụng Google Chrome để truy cập trang web Chợ tốt − Lấy danh sách liên kết đến đăng mua bán ô tô cũ Chợ tốt Nhóm nhận thấy liên kết ô tô có chung class name với liên kết người bán tơ nên nhóm lọc lấy liệu ô tô − Sau thu thập danh sách liên kết, nhóm sử dụng Selenium để truy cập liên kết Khi truy cập vào liên kết, thu thập thơng tin tơ cụ thể đó, bao gồm Tên đăng bán, Giá bán, Hãng sản xuất, Dòng xe, Năm sản xuất, Số kilomet đi, Tình trạng, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ, Chính sách bảo hành, Trọng lượng Trọng tải − Dữ liệu thu thập được xử lý lưu trữ vào tệp CSV − Sau thu thập xong liệu nhóm nhận thấy liệu có nhiều chỗ bị rỗng bị trùng nên tiến hành lọc lưu trữ lại vào tệp CSV Ý nghĩa cột liệu: − Tên đăng bán xe: Tiêu đề mà chủ xe ghi đăng bán − Giá bán: Giá mà chủ ô tơ mong muốn bán thời điểm đăng − Hãng xe: Hãng sản xuất ô tô đăng bán Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 − Dòng xe: Dòng xe ô tô đăng bán − Năm sản xuất: Năm sản xuất ô tô đăng bán − Số km đi: Xe đăng bán km − Tình trạng: Tình trạng tơ đăng bán (đã sử dụng, ) − Hộp số: Xe thuộc loại số sàn, tự động hay bán tự động − Nhiên liệu: Nhiên liệu mà ô tô sử dụng (xăng, dầu động hybrid) − Xuất xứ: Nơi xuất xứ xe − Kiểu dáng: Kiểu dáng loại hình tơ − Số chỗ: Số chỗ ngồi xe − Chính sách bảo hành: Thơng tin sách bảo hành tơ − Trọng lượng: Xe nặng − Trọng tải: Trọng tải tối đa mà tơ chở Biến phân loại (categorical variables): Hãng, Dịng xe, Tình trạng, Hộp số, Nhiên liệu, Xuất xứ, Kiểu dáng Biến số (numeric variables): Giá bán, Năm sản xuất, Số Km đi, Số chỗ, Trọng lượng, Trọng tải Bộ dữ liệu ban đầu gồm có 15 cột 590 dòng, sau lọc 93 dòng bị khuyết dữ liệu (trong đó 89 dòng bị thiếu dữ liệu và dòng trùng nhau) thì còn 497 dòng PHƯƠNG PHÁP PHÂN TÍCH Hình Quy trình PTDL 3.1 Tiền xử lí liệu Vì xử lí vấn đề trước cho liệu nên nhóm tập trung vào việc xử lí liệu sau: − Tìm loại bỏ cột khơng mang ý nghĩa cho việc dự đốn giá xe (Tên đăng bán, Dịng xe) − Xóa cột có giá trị khơng làm ảnh hưởng đến giá xe dự đốn (Tình trạng, Chính sách bảo hành, Trọng lượng, Trọng tải) − Chỉnh sửa kiểu Giá bán (chuyển sang dạng số) Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 − Hộp số (đồng xe số sàn cấp “Số sàn”) − Thêm Tuổi xe thay cho Năm sản xuất Hình Dữ liệu xử lý 3.2 Khai phá liệu Từ liệu xử lý, nhóm sử dụng kĩ thuật phân tích để tìm hiểu lấy liệu quan trọng, đồng thời trực quan hóa liệu để đưa đánh giá, nhận xét xác cho việc dự đốn 3.3 Chuẩn hóa liệu Chuẩn hóa liệu thuộc tính đầu vào khoảng [-1, 1] cách chuẩn hóa theo giá trị trung bình (Mean Normalization) để đảm bảo cho thuật toán tối ưu hiệu Hình Dữ liệu chuẩn hố 3.4 Xây dựng mơ hình Khi có nhìn tổng quát, nhóm tiến hành xây dựng, đánh giá để làm mơ hình tốt Các thuật tốn xây dựng mơ hình lựa chọn cơng cụ mạnh mẽ, phù hợp với toán hồi quy, bao gồm: Hồi quy tuyến tính, Rừng ngẫu nhiên, Mạng Neural 3.5 Đánh giá Sau training tập liệu nhóm tiến hành sử dụng metric hồi quy Mean Squared Error (MSE) để đánh giá hiệu suất mơ hình PHÂN TÍCH THĂM DỊ/SƠ BỘ Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 Hình Phân phối giá bán sau chuẩn hố 4.1 Phân tích liệu định lượng Hình Giá trị định lượng => Giá ô tô tăng giảm tùy thuộc vào năm sản xuất, số km số chỗ ngồi Biểu đồ phân tán so với Giá bán Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 Hình Biểu đồ phân tán Số Km đi, Năm sản xuất, Tuổi xe so với Giá bán => Giá bán ô tô phụ thuộc vào nhiều yếu tố: − Giá cao năm sản xuất gần, số km đi, tuổi xe − Giá thấp năm sản xuất xa, số km đi, tuổi xe cao Mức độ tương quan tuyến tính Hình Bản độ nhiệt tương quan Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 Dựa vào đồ nhiệt tương quan, ta đưa số nhận xét: − Tương quan nghịch Tuổi xe Giá bán (năm sản xuất cao, tuổi xe thấp, giá bán cao) − Có tương quan nghịch Số Km Giá bán (đi nhiều giá bán thấp) 4.2 Phân tích liệu định tính Lần lượt so sánh Giá bán với Hãng xe, Dòng xe, Hộp số, Nhiên liệu, Xuất xứ, Kiểu dáng: Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 Hình Biểu đồ phân tích định tính So sánh Giá bán với Hãng: − Ta thấy giá hãng xe sang trọng Bentley, Rover, Lexus, Porsche, có giá trị cao nhiều với hãng cịn lại − Có thể thấy phổ biến xe ô tô giá rẻ so với tơ mắc − Sẽ có vài ngoại lệ hãng xe giá rẻ có loại tơ có phân khúc giá cao So sánh Giá bán với Dịng xe: − Có thể thấy dịng xe GLC có giá trị cao so với dòng xe lại So sánh Giá bán với Hộp số: − Ta thấy hộp số tự động chiếm ưu so với số sàn số bán tự động => phản ánh ưa chuộng người mua hộp số tự động So sánh Giá bán với Nhiên liệu: − Có thể thấy xăng chiếm ưu so với dầu động Hybrid, xăng nhiên liệu phổ biến So sánh Giá bán với Xuất xứ: − Nhật Mỹ có loại xe sang giá trị cao Xe từ Nhật Bản Mỹ thường đánh giá cao chất lượng độ tin cậy So sánh Giá bán với Kiểu dáng: − Các kiểu xe Sedan, SUV coupe thể ưa chuộng đặc biệt từ phía người tiêu dùng Có thể đẹp tiện lợi từ kiểu dáng => Ta thấy dịng xe có chênh lệch nhiều giá trung bình, đồng thời, dịng xe ln thuộc hãng xe, xây dựng mơ hình dự báo giá xe, ta loại thuộc tính dịng xe Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 KẾT QUẢ PHÂN TÍCH 5.1 Mơ hình sử dụng Bộ liệu chia thành ba phần: tập huấn luyện (training set), tập kiểm thử (test set), tập validation (validation set) có tỷ lệ (8 - - 1) Các mơ hình máy học sử dụng: − Hồi quy tuyến tính − Rừng ngẫu nhiên − Mạng Neural Để đánh giá tất mơ hình, ta sử dụng trung tham số MSE (Mean Squared Error), tham số đo trung bình độ lệch bình phương giá trị dự đoán với giá trị thực tế chúng 5.2 Kết Hình Biểu đồ đánh giá − Mô hình cho kết quả tốt nhất là Mạng Neural − Kết quả ở những mô hình máy học khác chưa được tốt KẾT LUẬN 6.1 Kết đạt − Trong dự án này, nhóm đạt mục tiêu quan trọng từ đầu, bao gồm việc tự thu thập xây dựng, phân tích trực quan hóa hiệu liệu − Xây dựng được các mô hình áp dụng cho bộ dữ liệu Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 − Tìm hiểu, sử dụng được một số phương pháp tiền xử lý, phân tích và trực quan, cũng như xây dựng các mô hỉnh máy học áp dụng cho bộ dữ liệu đã xây dựng − Nắm được kiến thức cơ bản, có cái nhìn cơ bản tổng thể về Phân tích và trực quan dữ liệu cũng như về Machine Learning 6.2 Khó khăn gặp phải ​ − Chưa có kinh nghiệm giải quyết các vấn đề gặp phải tự thực hiện thu thập dữ liệu ​ − Chưa có kinh nghiệm việc tìm hiểu các thư viên mới, các cách xử lý mới phân tích và trực quan dữ liệu ​ − Chưa có kinh nghiệm bài toán xử lý dữ liệu có nhiều thuộc tính nói riêng và các bài toán Machine Learning nói chung dẫn đến việc gặp nhiều khó khăn quá trình thu thập cũng như xử lý dữ liệu ​ − Bộ dữ liệu chưa đủ lớn, dẫn đến kết quả mô hình chưa cao như mong muốn Nhiều mô hình chạy demo cho kết quả sai Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 TÀI LIỆU THAM KHẢO [1] K.Samruddhi, Dr R.Ashok Kumar2, Used Car Price Prediction using K-Nearest Neighbor Based Model, 2020 [2] Pattabiraman Venkatasubbu, Mukkesh Ganesh, Used Cars Price Prediction using Supervised Learning Techniques, 2019 [3] Studocu.com Link: bc khai phá liệu (5/11/2023) [4] Youtube.com Link: Crawl Data Using Selenium (1/9/2023) Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Đồ án mơn học Phân tích Dữ liệu – IE224 PHỤ LỤC PHÂN CÔNG NHIỆM VỤ STT Thành viên Nguyễn Thanh Hiếu Hồ Nguyễn Gia Huy Nhiệm vụ - Crawl liệu - Code EDA, phân tích EDA - Training models - Đánh giá models - Tiền xử lý dữ liệu - Hỗ trợ code EDA - Chuẩn hoá liệu - Viết báo cáo - Làm slide báo cáo Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Ngày đăng: 17/02/2024, 11:30

Tài liệu cùng người dùng

Tài liệu liên quan