tiểu luận nhập môn phân tích dữ liệu đề tài dự đoán chất lượng rượu

Nhờ có việc phân tích dữ liệu, phân tích các con số, ta có thể khám phánhững thông tin, đưa ra các kết luận, dự đoán để có những chiến lược, kế hoạch hợp lý.Như trong quá trình sản xuất

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TIỂU LUẬN

MÔN: Nhập môn phân tích dữ liệu

Đề tài: Dự đoán chất lượng rượu

Giảng viên : Vũ Ngọc Bình

Nhóm 7 : Nguyễn Ngọc AnhPhạm Anh DuyTrần Xuân HuyĐặng Quang LộcHà Phương ThảoHoàng Thị Thu TrangNguyễn Vũ Việt TúLê Thanh TùngNguyễn Minh Xuân

Trang 2

Hà Nội, ngày 7 tháng 6 năm 2022LỜI MỞ ĐẦU

Phân tích dữ liệu từ lâu đã là công việc cơ bản, cần thiết trong công việc, trongcuộc sống Nhờ có việc phân tích dữ liệu, phân tích các con số, ta có thể khám phánhững thông tin, đưa ra các kết luận, dự đoán để có những chiến lược, kế hoạch hợp lý.Như trong quá trình sản xuất rượu, từ những số liệu về các thành phần trong rượu, ta cóthể phân tích và dự đoán chất lượng rượu, từ đó cải thiện chất lượng sản phẩm, nângcao sản xuất, đem lại hiệu quả cho các cơ sở sản xuất, cho các doanh nghiệp

Vì thế, nhóm em đưa ra đề tài này nhằm xây dựng mô hình dự đoán chất lượngrượu dựa trên dữ liệu về các thành phần hoá lý trong rượu như: SO2, độ cồn, độ đặc,…và những thông tin khác

Đề tài cũng có thể là tài liệu tham khảo không chỉ để dự đoán chất lượng rượu, màcòn dự đoán hay phân tích được dữ liệu ở các lĩnh vực khác nhau trong cuộc sống, côngviệc, giúp chúng ta có thể tiết kiệm được thời gian, tiền bạc mà đem lại hiệu quả cao,năng suất cao

Trang 3

MỤC LỤC

Lời mở đầu 2

I Sơ lược về đề tài 4

II Phân tích chi tiết 4

III Kết luận 23

Lời cảm ơn 24

Trang 4

I.Sơ lược về đề tài:

1 Đối tượng nghiên cứu: dự đoán chất lượng rượu.

2 Phạm vi nghiên cứu: rượu vang đỏ “Vinho Verde” của Bồ Đào Nha.3 Phương pháp nghiên cứu: Xây dựng mô hình Random Forest.

II Phân tích chi tiết:

1 Tóm tắt về công việc nghiên cứu:

a. EDA:

- Viết tắt của Exploratory data analysis, hay khám phá dữ liệu, là một cách tiếp cậnphân tích các dữ liệu để tóm tắt các đặc điểm chính của chúng, thường sử dụng đồhoạ thống kê và các phương pháp trực quan hoá dữ liệu khác.

- Nhiệm vụ chính:

+ Tìm hiểu về kích thước dữ liệu.+ Ý nghĩa của từng trường dữ liệu.+ Kiểu dữ liệu của môi trường.+ Phân phối xác xuất của từng trường:

Mọi giá trị trong cột bằng nhau: ví dụ, trong 1 cột nào đó của dataset cómọi giá trị bằng nhau, cột này không mang lại ý nghĩa dự đoán nên ta cóthể xoá nó đi.

Có quá nhiều giá trị bị khuyết: nếu ý nghĩa của 1 cột không quan trọng, cóthể xoá nó đi Nếu nó quan trọng, ta phải có những chiến lược phù hợp.

Xuất hiện giá trị không hợp lệ: ví dụ, trong cột “Tuổi” có giá trị âm hoặclớn hơn 200, khả năng cao chúng là giá trị không hợp lệ Ta có thể gán lạichúng về giá trị hợp lệ gần nhất hoặc coi nó như giá trị bị khuyết.

Xuất hiện giá trị ngoại lệ: là những giá trị cao hơn hoặc thấp hơn nhiều sovới các giá trị khác trong dữ liệu, ta cần có cách xử lý đặc biệt

+ Mối tương quan giữa các trường dữ liệu.

Trang 5

b.Random Forest (Rừng ngẫu nhiên):

- Là 1 phương pháp sơ đồ cây, ta sẽ xây dựng nhiều cây quyết định bằng thuật toánDecision Tree, tuy nhiên mỗi cây quyết định sẽ khác nhau (có yếu tố random) Sauđó kết quả dự đoán được tổng hợp từ các cây quyết định.

c. Tóm tắt về dataset:

- Theo tác giả của tập dữ liệu này, do các vấn đề về quyền riêng tư và vấn đề hậucần, ta chỉ có các biến số hoá lý (đầu vào – inputs) và cảm quan (đầu ra – output).Ví dụ: không có dữ liệu về loại nho, nhãn hiệu rượu vang, giá bán rượu vang,… - Các loại rượu được sắp xếp theo thứ tự và không cân bằng, ví dụ: có nhiều loại

rượu bình thường hơn là loại xuất sắc hay kém.

- Như tác giả đề xuất, ta phân loại rượu theo điểm chất lượng: từ 7 trở lên đượcphân loại “tốt/1”, còn lại là “không tốt/0”

Trang 6

2 Tổng quan về dataset:

- Đầu tiên ta load những thư viện cần thiết: ggplot2, ggthemes, corrplot, reshape2,dplyr và randomForest:

- Tiếp theo ta lấy dữ liệu từ dataset:

- Tạo biến cho biết rượu có tốt hay không:

- Hiển thị ngắn gọn nội dung của dataset:

Trang 7

- Dùng hàm summary(): tóm tắt các giá trị nhỏ nhất, giá trị đầu tiên, giá trị trungbình, giá trị thứ 3, giá trị tối đa:

- Chúng ta có thể thấy dữ liệu đầu vào là không cân bằng, với khoảng 13,57% trongsố 1599 loại rượu được coi là tốt

3 Exploratory Data Analysis: Khám phá dữ liệu

a. Correlation of Variables: xét sự tương quan giữa các biến:

- Sử dụng hàm plot() để hiển thị Scatterplot Matrix của biến redwine, là một dạngbiểu đồ thể hiện sự tương quan, liên quan tới nhau giữa các biến số (ở đây là các tiêuchí ảnh hưởng đến chất lượng rượu).

Trang 8

- Dùng hàm corrplot(cor()): hiển thị Correlation Heatmap (bản đồ nhiệt tương quan),dựa trên màu của các ô có thể thấy sự liên quan lẫn nhau giữa các biến số, và sự chặtchẽ của các mối quan hệ này Nhìn vào góc dưới bên phải, ta có thể thấy Alcohol(nồng độ cồn) có sự tương quan chặt chẽ nhất với chất lượng rượu.

Trang 9

b.Wine quality: chất lượng rượu

- Sự phân bổ theo điểm chất lượng rượu vang đỏ: + Dùng hàm ggplot(): vẽ biểu đồ với package ggplot2+ aes(x=quality): chọn quality làm trục x

+ geom_bar(): vẽ biểu đồ cột

+ Từ biểu đồ có thể thấy rượu phần lớn là rượu không tốt, hầu hết là rượu có chấtlượng ở mức 5 và 6, cũng có rượu ở mức 3 và 4 nhưng khá ít Rượu tốt ít hơn rấtnhiều, phần lớn ở mức 7.

- Sự phân bổ theo chất lượng (tốt/không tốt) rượu vang đỏ:

Trang 10

+ Dùng hàm ggplot(): vẽ biểu đồ với package ggplot2+ aes(x=goodwine): chọn rượu tốt làm trục x+ geom_bar(): vẽ biểu đồ cột

+ Ta thấy gần 1500 rượu vang đỏ trong dữ liệu là rượu không tốt, chỉ có chưa tới250 rượu tốt.

c. Physiochemical Properties and Wine Quality: các đặc tính hoá lý và chất lượng rượu- Có 11 thành phần hoá học trong dataset, ta sẽ xem xét sự tương quan giữa 11 thành

phần này đối với chất lượng rượu - Tóm tắt chung:

Trang 11

+ Ggplot(): vẽ biểu đồ với package ggplot2+ Aes(x=fixed.acidity): chọn độ axit làm trục x

+ Geom_density(alpha=0.25): vẽ đường mật độ phân bố Alpha đề cập đến độ mờcủa màu, giá trị nằm trong khoảng từ 0 đến 1, với các giá trị thấp hơn tương ứngvới các màu trong suốt hơn.

+ geom_vline(): vẽ thêm đường kẻ thẳng dọc trên biểu đồ, color: màu của đường kẻ,linetype="dashed": đường nét đứt, lwd: chiều rộng của đường.

- Ta cùng xem qua 11 biểu đồ: + Độ axit và chất lượng rượu:

Trang 12

+ Tính axit bay hơi yếu và chất lượng rượu:

Trang 13

+ Axit citric và chất lượng rượu:

Trang 14

+ Lượng đường dư và chất lượng rượu:

Trang 15

+ Clorua và chất lượng rượu:

Trang 16

+ Sunfua dioxit tự do và chất lượng rượu:

Trang 17

+ Tổng lượng sunfua dioxit và chất lượng rượu:

Trang 18

+ Độ đặc và chất lượng rượu:

Trang 19

+ Độ Ph và chất lượng rượu:

Trang 20

+ Sunfat và chất lượng rượu:

Trang 21

+ Độ cồn và chất lượng rượu:

Trang 22

- Nhận xét: Các đồ thị ở trên cho thấy rằng các loại rượu vang ngon và không tốt cósự phân bố rất giống nhau về các đặc tính hóa lý tương ứng của chúng Các thuộctính nổi bật nhất mà chúng ta có thể quan sát là Sulphates và độ cồn của rượu.

d.Predictive Modelling (Binary Classification): Mô hình dự đoán

- Dùng hàm randomforest làm mô hình cơ sở để dự đoán chất lượng của một loạirượu

Trang 23

- Độ chính xác của mô hình ở mức 92%, là khá tốt Tuy nhiên, sự dự đoán rượukhông tốt cao hơn rượu tốt rất nhiều.

e. Variable Importance: sự quan trọng của các thành tố

- Dùng package ggplot2 để vẽ biểu đồ thể hiện và xếp hạng sự ảnh hưởng của cácthành tố trong rượu đến chất lượng của nó.

Trang 24

- Nhận xét: Kết quả của mô hình randomforest đã trùng khớp với thông tin từ các biểuđồ trên, cho thấy mức độ sunphat có ảnh hưởng lớn thứ 2 đến chất lượng rượu, xếpsau nồng độ cồn.

Trang 25

LỜI CẢM ƠN

Trong quá trình nghiên cứu đề tài "Dự đoán chất lượng rượu", nhóm em đã nhậnđược sự giúp đỡ của thầy cô giáo trường Đại học khoa học Tự nhiên – Đại học Quốc giaHà Nội cùng các bạn và các anh chị

Nhóm em xin chân thành cảm ơn đến Giảng viên Vũ Ngọc Bình – phụ trách bộ mônNhập môn phân tích dữ liệu – người trực tiếp hướng dẫn và giúp đỡ nhóm em nghiên cứuđề tài

Nhóm em xin chân thành cảm ơn nhà trường đã cung cấp cho nhóm tài liệu để cóthê hoàn thành bài tiểu luận này

Nhóm xin chân thành cảm ơn các bạn cùng lớp và các anh chị trong khoa đã hỗ trợvà góp ý để nhóm hoàn thành tốt bài tiểu luận này

Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức của bản thân mỗi con người làkhác nhau và luôn tồn tại sự hạn chế nhất định Do đó, trong quá trình hoàn thành bài tiểuluận này, chắc chắn sẽ không tránh khỏi nhiều thiếu sót Bản thân nhóm em rất mongnhận được những góp ý dến từ thầy để bài tiểu luận của nhóm sẽ được hoàn thiện hơnnữa.

Nhóm xin chúc thầy luôn mạnh khỏe, thành công trên con đường giảng dạy và sẽđạt được nhiều thành tích xuất sắc.

Trang 26

NHẬN XÉT CỦA GIÁO VIÊN

Trang 27

Bảng đánh giá về mức độ hoàn thành công việc của các thành viên: