Phân lớp bộ dữ liệu marketing dịch vụ hàng không dựa trên ứng dụng orange

67 1 0
Phân lớp bộ dữ liệu marketing dịch vụ hàng không dựa trên ứng dụng orange

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khoa học dữ liệu, như là một phương thức tiếp cận đa ngành, không chỉ giúp doanh nghiệp tận dụng thông tin mà còn nâng cao khả năng quyết định và phát triển.Chúng em đã chọn thực hiện đồ

Trang 1

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: Phân lớp bộ dữ liệu Marketing dịch vụ hàng khôngdựa trên ứng dụng Orange

Trang 2

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 7

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 81.1Giới thiệu về khoa học dữ liệu: 8

1.1.1 Dữ liệu: 8

1.1.2 Big Data 8

1.1.3 Tổng quan về khoa học dữ liệu 9

1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu 10

1.2 Giới thiệu đề tài: 11

1.2.1 Lý do chọn đề tài 11

1.2.2 Khái niệm về Marketing dịch vụ hàng không 11

1.2.3 Mục tiêu nghiên cứu 12

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 13

2.1 Các phương pháp của Excel dùng để khai thác dữ liệu 13

2.1.1 Phương pháp thống kê mô tả 13

2.1.2 Phương pháp về phân tích dự báo 20

2.1.3 Phương pháp phân tích tối ưu 24

2.2 Phần mềm Orange 26

2.2.1 Tổng quan phần mềm Orange 26

2.2.2 Phương pháp phân cụm dữ liệu 31

2.2.3 Phương pháp phân lớp dữ liệu 35

CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 44

3.1 Phân tích dữ liệu Marketing Hàng không 44

3.1.1 Xử lý nhập dữ liệu Marketing Hàng không 44

3.1.2 Mô tả dữ liệu Marketing Hàng không 45

3.1.3 Thống kê mô tả dữ liệu Marketing Hàng không 47

3.2 Phân lớp dữ liệu 48

3.2.1 Một số phương pháp phân lớp 49

3.2.2 Kết quả mô hình 50

Trang 3

CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH 61KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62TÀI LIỆU THAM KHẢO 64

Trang 4

Hình 5.2 Hộp thoại Solver Parameters 25

Hình 6.2: Chức năng Data trong Orange 27

Hình 7.2: Chức năng Transform trong Orange 28

Hình 8.2: Chức năng Visualize trong Orange 28

Hình 9.2: Chức năng Model trong Orange 29

Hình 10.2: Chức năng Evalute trong Orange 29

Hình 11.2: Chức năng Unsupervised trong Orange 30

Hình 12.2 Mô hình minh hoạ phương pháp phân cụm dữ liệu 32

Hình 13.2 Hình ảnh về độ đo khoảng cách phổ biến 33

Hình 14.2 Minh họa cụm dữ liệu đã được phân cụm theo thuật toán K-Means 34

Hình 15.2 Quá trình phân lớp dữ liệu – Xây dựng mô hình phân lớp 35

Hình 16.2 Quá trình phân lớp dữ liệu – Đánh giá mô hình 36

Hình 17.2 Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới 36

Hình 18.2 Minh họa về phương pháp Hồi quy logistic 37

Hình 19.2 Minh họa một mô hình cây quyết định đơn giản 37

Hình 20.2 Minh họa phương pháp SVM 38

Hình 21.2 Minh họa phương pháp đánh giá mô hình phân lớp 39

Hình 22.2 Minh họa ma trận nhầm lẫn 40

Hình 23.2 Minh họa đường cong ROC 41

Hình 24.2 Minh họa AUC 41

Hình 25.2 Dữ liệu thử nghiệm (Testing set) 42

Hình 26.2 Phân chia Dữ liệu huấn luyện (Training set) 42

Hình 1.3 Các bước nhập dữ liệu Marketing Hàng không 44

Hình 2.3 Nhập file Marketing Hàng không 44

Hình 3.3 : Quan sát dữ liệu 45

Hình 4.3 : Bảng thống kê độ tuổi và giới tính 47

Hình 5.3 : Biểu đồ thể hiện số lượng chuyến bay và số lượng hủy chuyến 48

Hình 6.3 Giới thiệu phân lớp dữ liệu 49

Trang 5

Hình 7.3 Mô hình hồi quy Logistic 49

Hình 8.3 Mô hình cây quyết định 50

Hình 9.3 Mô hình cây quyết định 50

Hình 10.3 Lấy mẫu dữ liệu 1 51

Hình 11.3 Mẫu dữ liệu 30% 51

Hình 12.3 Lấy mẫu dữ liệu 2 52

Hình 13.3 Mẫu dữ liệu 70% 52

Hình 14.3 Mẫu dữ liệu huấn luyện 53

Hình 15.3 Mẫu dữ liệu huấn luyện 53

Hình 16.3 Mô hình lấy dữ liệu 54

Hình 17.3 Tập dữ liệu huấn luyện 54

Hình 18.3 Mô hình các thuật toán 55

Hình 19.3 Kết quả chia dữ liệu thành 6 thành phần 55

Hình 20.3 Kết quả chia dữ liệu thành 50 _90% 56

Hình 21.3 Kết quả chia dữ liệu thành 20 _70% 56

Hình 22.3 Kết quả chia dữ liệu thành 50 _66% 57

Hình 23.3 Kết quả ma trận nhầm lẫn của phương pháp Cây quyết định ( Decision Tree) 58

Hình 24.3 Kết quả ma trận nhầm lẫn của phương pháp Hồi quy logistic 58

Hình 25.3 Kết quả ma trận nhầm lẫn của phương pháp SVM 59

Hình 26.3 Mô hình kết quả dự báo dữ liệu hàng không 59

Hình 27.3 Mô hình kết quả dự báo 60

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC: 13

Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive statistics 14

Bảng 3.2 Bảng dữ liệu mỗi nhân viên đã thực hiện 15

Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện 16

Bảng 5.2 Doanh thu của 3 cửa hàng 17

Bảng 6.2 Bảng tổng hợp toàn bộ doanh số của 3 cửa hàng 18

Bảng 7.2 Bảng tổng hợp dữ liệu đa chiều với PivotTable 18

Bảng 8.2 Kết quả tổng hợp đa chiều với PivotTable 19

Bảng 9.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại Moving Average 20

Bảng 10.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại Exponential Smoothing 21

Bảng 11.2 Phân tích Doanh thu – Chi phí năm 2016 22

Bảng 12.2 Bảng kết quả Hồi quy 23

Bảng 13.2 Bảng số liệu Dự án 24

Bảng 14.2 Thiết lập bảng tính 25

Bảng 15.2 Kết quả lựa chọn phương án sản xuất và các báo cáo kèm theo lời giải 26

Trang 7

LỜI MỞ ĐẦU

Nhóm chúng em xin gửi lời biết ơn chân thành đến Thầy TS Nguyễn Quốc Hùng, người đã không ngần ngại chia sẻ kiến thức và hướng dẫn tận tình trong suốt quá trình thực hiện đồ án Khoa học dữ liệu Sự đồng hành và hỗ trợ của Thầy đã là nguồn động viên quan trọng, giúp chúng em vận dụng linh hoạt những kiến thức đã học để hoàn thiện đồ án một cách thành công.

Mặt khác, nhóm chúng em nhận thức rõ rằng trong quá trình nghiên cứu và triển khai đồ án, không thể tránh khỏi những thiếu sót Chúng em trân trọng mọi ý kiến đóng góp và đánh giá từ Thầy để có thể cải thiện và hoàn thiện hơn về mặt chất lượng Đồ án của chúng em không chỉ là sản phẩm cá nhân mà còn là kết quả của sự đóng góp nhiệt tình và chuyên sâu từ tất cả các thành viên trong nhóm 8 Qua quá trình này, chúng em hy vọng rằng đồ án sẽ mang lại giá trị và ý nghĩa tích cực cho lĩnh vực Khoa học dữ liệu.

Trong bối cảnh Việt Nam ngày càng hội nhập sâu rộng, tham gia vào cộng đồng quốc tế và khu vực, chúng em nhận thức rõ vai trò quan trọng của hệ thống thông tin trong việc khai thác thông tin chuyên sâu để hỗ trợ hoạt động kinh doanh Khoa học dữ liệu, như là một phương thức tiếp cận đa ngành, không chỉ giúp doanh nghiệp tận dụng thông tin mà còn nâng cao khả năng quyết định và phát triển.

Chúng em đã chọn thực hiện đồ án với ứng dụng Orange để phân lớp bộ dữ liệu marketing dịch vụ hàng không, tập trung vào Hàng Không Việt Nam, một đơn vị đóng vai trò quan trọng trong việc cung cấp dịch vụ vận chuyển cho xã hội Hy vọng rằng thông qua đồ án này, chúng em có thể đóng góp một phần nhỏ vào sự phát triển của lĩnh vực này.

Trang 8

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

TTHọ và tênCông việc phụ tráchMức độ hoàn

Lời mở đầu, Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.

1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu đề tài

Chương 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Kết luận và hướng phát triển Chỉnh sửa file Word

Kim Tuyền Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

3.1 Phân tích dữ liệu Marketing dịch vụ hàng không

3.2: Phân lớp dữ liệu, chạy dữ liệu trên Orange

100%

Trang 9

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI1.1 Giới thiệu về khoa học dữ liệu:

1.1.1 Dữ liệu:

Dữ liệu là một tập hợp đa dạng của sự kiện, số liệu, hình ảnh, và từ ngữ nhằm mô tả, đo lường hoặc quan sát về các hiện tượng và đối tượng trong thế giới xung quanh Sự tiến triển trong lĩnh vực công nghệ, đặc biệt là sự gia tăng của điện thoại thông minh, laptop và máy tính bảng, đã dẫn đến việc tích hợp văn bản, video và âm thanh vào bộ dữ liệu, cùng với sự thu thập thông tin từ nhật ký trang web Dữ liệu có thể được phân chia thành hai loại chính: dữ liệu có cấu trúc và dữ liệu không có cấu trúc

- Dữ liệu có cấu trúc:

 Thường được biết đến là dữ liệu định lượng  Chứa ý kiến chủ quan và đánh giá  Thường được biểu diễn ở dạng số hoặc chữ.

 Lưu trữ trong các nền tảng như Excel, SQL, hoặc Google Sheet  Dễ dàng thu nhập, truy xuất, lưu trữ và sắp xếp.

 Có khả năng trích xuất thông tin một cách hiệu quả - Dữ liệu không có cấu trúc:

 Thường được coi là dữ liệu định tính  Ý kiến chủ quan và đánh giá  Thường là dạng văn bản.

 Lưu trữ trong tài liệu Word, Elasticsearch hoặc Solr  Khó thu thập, xuất, lưu trữ và sắp xếp.

 Không thể kiểm tra bằng phương pháp và công cụ phân tích cụ thể.

1.1.2 Big Data

Big Data là một tập hợp các dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp, dẫn đến việc không có một công cụ truyền thống nào có thể hiệu quả lưu trữ và xử lý số lượng dữ liệu khổng lồ được tạo ra hàng phút Sự phát triển xã hội và kinh tế ngày càng cần đến công nghệ, và thông qua việc thu thập và phân tích thông tin, các tổ chức có cơ hội tạo ra những đột phá mang tính cách mạng, thúc đẩy năng suất và hiệu suất công ty.

Ứng dụng của Big Data đa dạng, từ ngành ngân hàng, y tế, thương mại đến lĩnh vực marketing Nó đóng vai trò quan trọng như một công cụ hỗ trợ phân tích, đánh giá, lưu trữ, chuẩn đoán và đảm bảo an ninh thông tin trong nhiều lĩnh vực khác nhau.

Trang 10

1.1.3 Tổng quan về khoa học dữ liệu

Khoa học Dữ liệu là một lĩnh vực nghiên cứu chuyên sâu về quản lý và phân tích dữ liệu, nhằm trích xuất giá trị từ thông tin để tạo ra hiểu biết, tri thức hành động, và đưa ra các quyết định hướng dẫn hành động

 Khoa học dữ liệu gồm 3 phần chính: - Tạo ra và quản trị dữ liệu

 Tập trung vào quá trình thu thập, lưu trữ và duy trì dữ liệu.

 Bao gồm các chiến lược quản lý dữ liệu và biện pháp để đảm bảo chất lượng và tính nhất quán của dữ liệu

- Phân tích dữ liệu:

 Kết hợp kiến thức từ thống kê toán học, công nghệ thông tin và tri thức chuyên ngành.

 Sử dụng công cụ và phương pháp để hiểu rõ hơn về thông tin chứa trong dữ liệu - Chuyển kết quả phân tích thành giá trị của hành động.

 Chuyển đổi các kết quả phân tích thành thông tin có ích để hỗ trợ quyết định và

Xây dựng các giả thuyết để kiểm tra và đánh giá trong quá trình phân tích - Tạo Các Bài kiểm tra:

Phát triển phương pháp và công cụ để kiểm tra giả thuyết - Phân tích Kết quả:

Áp dụng các kỹ thuật phân tích để đưa ra hiểu biết và thông tin - Khuyến nghị Thực tế:

Dựa trên kết quả phân tích, đưa ra gợi ý và hướng dẫn hành động thực tế.

 Mục đích chính của Khoa học Dữ liệu là biến đổi lượng lớn dữ liệu chưa qua xử lý thành mô hình kinh doanh Điều này giúp tổ chức:

Trang 11

- Tiết giảm chi phí - Gia tăng hiệu quả làm việc.

- Nhìn nhận cơ hội và rủi ro trên thị trường - Tăng cường lợi thế cạnh tranh.

- Các lĩnh vực của khoa học dữ liệu: Khai thác dữ liệu (Data mining), Thống kê (Statistic), Học máy (Machine learning), Phân tích (Analyze) và Lập trình (Programming).

 Các lĩnh vực của Khoa học Dữ liệu:

- Khai thác Dữ liệu (Data mining): Khám phá thông tin tiềm ẩn trong dữ liệu - Thống kê (Statistic): Sử dụng các phương pháp thống kê để phân tích và hiểu dữ

- Khoa học dữ liệu có thể giúp con người mô tả, chuẩn đoán, dự đoán và đề xuất từ đó phân tích đưa ra quyết định và có hành động chính xác, đạt hiệu quả cao nhất - Khoa học dữ liệu giúp các doanh nghiệp phân tích kinh doanh dựa trên các bảng phân tích dự báo, phân tích khuyến cáo, phân tích mô tả nhằm quản lý nhân sự, hiểu khách hàng, quyết định đầu tư vào thị trường nào và bán sản phẩm gì.

- Vai trò của khoa học dữ liệu trong lĩnh vực kinh tế thể hiện cụ thể thông qua 6 bài toán của doanh nghiệp như tài chính, khách hàng, bán hàng, thị trường, nhân sự và vận hành sản xuất.

- Khi nguồn dữ liệu của các doanh nghiệp là rất lớn và cần được xử lý, họ cần áp dụng những ứng dụng của khoa học dữ liệu vào mô hình kinh doanh.

Trang 12

1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu:

Các công ty hàng đầu trong lĩnh vực Khoa học Dữ liệu như Google, Amazon, Visa đã chứng minh sức mạnh của phân tích dữ liệu trong nhiều lĩnh vực khác nhau Dưới đây là một số ứng dụng tiêu biểu:

 Google:

- Tìm kiếm và Quảng cáo:

Sử dụng dữ liệu người dùng để cá nhân hóa kết quả tìm kiếm và quảng cáo.

Dựa vào lịch sử tìm kiếm và hành vi trực tuyến để hiển thị quảng cáo chính xác và hấp dẫn.

 Amazon: - Gợi ý Sản phẩm:

Phân tích lịch sử mua sắm và đánh giá sản phẩm để tạo ra gợi ý sản phẩm cá nhân hóa Tối ưu hóa trải nghiệm mua sắm và tăng cường khả năng chuyển đổi.

 Visa:

- Phòng chống Giao dịch Fraud:

Sử dụng machine learning để phân tích mô hình hành vi giao dịch và nhận biết bất thường.

Giúp bảo vệ khách hàng khỏi giao dịch gian lận.

1.2 Giới thiệu đề tài:

PHÂN LỚP BỘ DỮ LIỆU MARKETING DỊCH VỤ HÀNG KHÔNG DỰA TRÊN ỨNG DỤNG ORANGE

1.2.1 Lý do chọn đề tài:

Trong bối cảnh môi trường kinh doanh ngày càng đa dạng và cạnh tranh, việc hiểu rõ nhu cầu của thị trường là yếu tố quyết định sự thành công của các doanh nghiệp Lĩnh vực dịch vụ hàng không, đặc biệt là marketing, đóng vai trò quan trọng trong việc xác định và đáp ứng nhu cầu ngày càng tăng của khách hàng.

1.2.2 Khái niệm về Marketing dịch vụ hàng không.

Marketing dịch vụ hàng không không chỉ đơn thuần là việc quảng cáo và bán vé mà còn là quá trình tổ chức và quản lý toàn bộ hệ thống Từ việc phát hiện nhu cầu của khách hàng đến việc thỏa mãn nhu cầu đó thông qua chính sách và biện pháp cụ thể Trong ngữ cảnh này, Khoa học Dữ liệu đóng vai trò quan trọng trong việc hiểu rõ hơn về hành vi của khách hàng và tối ưu hóa chiến lược marketing.

Trang 13

Đề tài "Phân Lớp Bộ Dữ Liệu Marketing Dịch Vụ Hàng Không Dựa Trên Ứng Dụng Orange" được chọn nhằm áp dụng phương pháp Khoa học Dữ liệu để phân loại và hiểu rõ hơn về mô hình kinh doanh trong lĩnh vực hàng không Sự kết hợp giữa công nghệ Orange và dữ liệu marketing sẽ giúp chúng tôi rút ra những thông điệp quan trọng, hỗ trợ quyết định chiến lược và cải thiện hiệu suất trong marketing dịch vụ hàng không.

1.2.3 Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là tìm hiểu các thuộc tính của khách hàng và ảnh hưởng của chiến lược marketing dịch vụ hàng không đến nhu cầu và độ thỏa mãn của khách hàng Ngoài ra, nghiên cứu cũng nhằm dự báo tiềm năng phát triển và đề xuất các công cụ số để nâng cao hiệu quả trong lĩnh vực này.

Trang 14

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNGPHÁP SỬ DỤNG

2.1 Các phương pháp của Excel dùng để khai thác dữ liệu

- Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office, giúp khai phá,

phân tích, thống kế, tính toán các số liệu… Trong học phần Khoa Học Dữ Liệu, Excel được sử dụng để thống kê mô tả, phân tích dự báo các dữ liệu.

2.1.1 Phương pháp thống kê mô tả

2.1.1.1 Thống kê bằng công cụ Descriptive statistics:

Descriptive statistics là thống kê tóm tắt và sắp xếp đặc điểm của một tập dữ liệu Tập dữ liệu là tập hợp nhiều câu trả lời và quan sát từ một mẫu hoặc toàn bộ tập hợp

Cách thực hiện thống kê:

Bước 1: Chuẩn bị bảng số liệu cần thống kê.

Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, hộp thoại Descriptive Statistics xuất hiện.

Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.

Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 tại siêu

thị ABC

Bảng 1.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC:

Trong hộp thoại Descriptive Statistics,

Trang 15

+ Nhập vào Input Range là cột chứa nguyên phần dữ liệu Heo (kg) + Output range là ô xuất hiện dữ liệu

+ Confidence Level for Mean: 95%

+ Bảng kết quả gồm các giá trị trung bình, sai số chuẩn, trung vị, yếu vị, độ lệch chuẩn…

Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive statistics

2.1.1.2 Báo cáo tổng hợp nhóm (Subtotal)

- Chức năng của Subtotal

+ Subtotal là tổng hợp từng nhóm dữ liệu các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn và nhỏ nhất, trung bình

+ Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.

Thực hiện theo công cụ Subtotal:

Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là Cột Saleperson)

Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu Bước 3: Vào Data → Outline → Subtotal, hộp thoại Subtotal xuất hiện.

Trang 16

liệu mỗi nhân viên đã thực hiện

Hình 1.2 Hộp thoại Subtotal

Trong hộp thoại Subtotal

+ At each change in: chọn cột gom nhóm (Salesperson)

Trang 17

+ Use function: chọn hàng thống kê dùng để tổng hợp dữ liệu (Sum) + Add subtotal to: chọn cột thống kê giá trị (Order Amount)

+ Cuối cùng ta có bảng kết quả tổng hợp số tiền mà mỗi nhân viên thực hiện.

Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

2.1.1.3 Hợp nhất dữ liệu (Consolidate)

Chức năng của Consolidate:

- Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau - Consolidate có thể hợp nhất dữ liệu theo 2 hình thức; + Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.

+ Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc Cách thực hiện:

- Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.

- Bước 2: Chọn Data Data Tools Consolidate, xuất hiện hộp thoại Consolidate  Ví dụ: Hợp nhất doanh thu của Cửa hàng số 1, Cửa hàng số 2, Cửa hàng số 3

Trang 18

+ Reference: để tham chiếu lần lượt các bảng dữ liệu nguồn

+ All reference: Vùng dữ liệu cần thiết cụ thể là của bảng cửa hàng số 1, cửa hàng số 2, cửa hàng số 3

Trang 19

+ Cuối cùng ta có bảng kết quả.

Bảng 6.2 Bảng tổng hợp toàn bộ doanh số của 3 cửa hàng

2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

Chức năng:

- Trong quá trình phân tích và tổng hợp dữ liệu, người ta thường có nhu cầu gom nhóm dữ liệu theo một số tiêu chí nào đó để dễ dàng quản lý.

- Excel cung cấp công cụ PivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài (như MS Access, MS SQL Server…)

Cách thực hiện:

- Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

Bảng dữ liệu hiển thị như sau:

7.2 Bảng tổng hợp dữ liệu đa chiều với PivotTable

Trang 20

- Bước 2: Chọn Insert → Pivottable, hộp thoại Create PivotTable xuất hiện, xác định nguồn của dữ liệu và nơi chứa PivotTable, click nút OK.

Hình 3.2 Hộp thoại Create PivotTable

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK

Bước 4 Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS,: COLUMNS và VALUES Thao tác kéo thả và chọn đối tượng lọc ta được bảng tổng hợp như sau:

Bảng 8.2 Kết quả tổng hợp đa chiều với PivotTable

Trang 21

2.1.2 Phương pháp về phân tích dự báo

2.1.2.1 Phương pháp trung bình trượt (Moving Average)

Cách thực hiện trên Excel:

- Bước 1: Chuẩn bị bảng số liệu cần dự báo

- Bước 2: Chọn lệnh Data Data Analysis Moving Average, xuất hiện hộp  thoại Moving Average

- Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Số liệu bán hàng trong tháng 03 tại siêu thị ABC như sau:

Bảng 9.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại MovingAverage

+ Input Range: Vùng dữ liệu cần dự báo

+ Labels in First Row: Khai báo hàng đấu tiên của input range có chứa tiêu đề cột hay không.

+ Interval: ở ví dụ này là 3, có nghĩa là 3 kỳ trượt liên tiếp để dự báo số liệu thịt bò + Output Range: Vùng chứa dữ liệu kết quả thịt bò sau khi dự báo.

2.1.2.2.Phương pháp San bằng mũ (Exponential Smoothing)

Cách thực hiện trên Excel:

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Trang 22

Bước 2: Chọn lệnh Data Data Analysis Exponential Smoothing, xuất hiện hộp  thoại Exponential Smoothing.

Bước 3: Khai báo các thông số Input và Output Options Ví dụ: Dự báo số liệu bán thịt bò tại siêu thị ABC.

Bảng 10.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoạiExponential Smoothing.

Trong hộp thoại Exponential Smoothing gồm: + Input Range: Vùng dữ liệu cần dự báo

+ Damping factor: Giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.3 Còn hệ số san bằng theo ví dụ là a = 0.7

+ Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không.

+ Kết quả như trong hình sau là dự báo lượng thịt bò bán (kg) được tại siêu thị ABC với hệ số điều chỉnh a = 0.3 (Damping factor = 0.7) Như vậy lượng thịt bò dự báo cho ngày 17/03 là 29.88kg.

2.1.2.3 Phương pháp Hồi quy (Regression)

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn

Trang 23

gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)

Cách thực hiện trên Excel:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Data Data Analysis Regression , xuất hiện hộp thoại  Regression.

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Phân tích Doanh thu – Chi phí năm 2016 như sau:

Bảng 11.2 Phân tích Doanh thu – Chi phí năm 2016

Trang 24

Hình 4.2 Hộp thọai Regression

Trang 25

Bảng 12.2 Bảng kết quả Hồi quy

Trong hộp thoại Regression gồm: + Input Y Range: là cột Doanh thu + Input X Range: là cột Chi phí + Confidence Level: 95%

+ Output Range: Vùng chứa dữ liệu kết quả

2.1.3 Phương pháp phân tích tối ưu

Ví dụ: Dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì

và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

Trang 26

Bảng 13.2 Bảng số liệu Dự án

Các bước lập mô hình:

- Bước 1: Xác định biến quyết định

Gọi x1 là lượng lúa gạo, x2 là lượng múa mì (tấn) cần sản xuất - Bước 2: Xác định hàm mục tiêu là tối đa hóa lợi nhuận Mục tiêu bài toán là tối đa hóa lợi nhuận ta có

P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 max

Giả sử cho x1, x2 bằng 1 và nhập các hệ ràng buộc tương đương về diện tích, lượng nước, nhân công Sau đó dùng hàm Sumproduct để tích các giá trị bên cột vế trái theo biến khởi tạo.

Bảng 14.2 Thiết lập bảng tính

Bước 2: Chọn lệnh Data Data Analysis Solver 

Trang 27

Hình 5.2 Hộpthoại SolverParameters

Khai báo các tham số của bài toán

+ Set objective: Chọn ô chứa hàm mục tiêu, trường hợp này là $E$5 + To: Chọn Max vì bài toán này là tối đa hóa lợi nhuận

+ By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4:$D$4

+ Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add Bước 3: Nhấn nút Solver để giải mô hình

Trang 28

27 Bước 4: Nhấn nút OK để xem kết quả.

Bảng 15.2 Kết quả lựa chọn phương án sản xuất và các báo cáo kèm theo lời giải2.2 Phần mềm Orange

2.2.1 Tổng quan phần mềm Orange

Orange là một thư viện các quy trình xử lý, khai thác dữ liệu và là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining một cách hoàn hảo và là một bộ phần mềm học máy thông minh Bằng việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản được viết bằng ngôn ngữ điện toán Python, người dùng có thể dễ dàng sử dụng và tương tác mà không cần có kỹ năng mã hóa Orange kết hợp với nhiều tác vụ, nhờ đó có thể phân tích những dữ liệu từ đơn giản đến phức tạp, đọc những tài liệu ở định dạng dữ liệu gốc hay các định dạng dữ liệu khác Bên cạnh đó, Orange còn mang đến giao diện với đồ họa đẹp mắt nhờ tập hợp các widget đồ họa sinh động, cung cấp một bầu không khí tương tác thú vị hơn cho các công cụ phân tích buồn tẻ, những điều đó khiến nó trở nên thú vị đối với người sử dụng phần mềm.

Các widget là các thành phần của Orange, chúng là nền tảng cốt lõi của phần mềm, các widget cung cấp các chức năng quan trọng bao gồm từ tiền xử lý và trực quan hóa dữ liệu cho đến đánh giá các thuật toán và mô hình dự đoán Các widget sử dụng cơ chế giao tiếp với nhau cách đặc biệt để truyền dữ liệu chỉ bằng cách kéo và thả con trỏ chuột từ vị trí người sử dụng vô cùng tiện ích và đơn giản, phù hợp cho cả người mới và chuyên gia.

Trang 29

Phần mềm Orange được biết đến như một sự kết hợp giữa các công cụ khai thác dữ liệu khác nhau và là một máy học đơn giản, thông minh được lập trình bằng Python với sự tương tác dễ dàng và một giao diện trực quan Qua nhiều chức năng đã được tích hợp, phần mềm này có thể dễ dàng phân tích các tài liệu, dữ liệu được cho từ đơn giản đến phức tạp; tạo ra các đồ họa biểu lộ rõ ràng, phong phú các khía cạnh thông tin mà người sử dụng muốn biểu hiện trực tiếp; đồng thời giảm mức độ khó khăn trong việc khai thác dữ liệu và học máy cho chuyên gia cũng như người mới học

Bên cạnh các widget tiện ích thì Orange còn có nhiều công cụ trực quan và một số lượng đáng kể các vật dụng có xu hướng được hỗ trợ như biểu đồ thanh, hình ảnh, bản đồ nhiệt,…

Các chức năng của Orange

Data: Dùng để nhập dữ liệu, thay đổi cũng như trích xuất dữ liệu (ETL process).

Trang 30

Hình 7.2: Chức năng Transform trong Orange

Visualize: Dùng để thể hiện dữ liệu bẳng các biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn

Hình 8.2: Chức năngVisualize trong Orange

regression, Tree, và các hàm học máy (machine learning)

Trang 31

Hình 9.2: Chức năng Model trong Orange

Evalute: Là các phương pháp đánh giá mô hình như: Test & Score, Prediction,

Trang 33

mạng xã hội, xử lý ảnh (Deep Learning), xử lý dữ liệu lớn (Spark) Đây cũng là một trong các điểm cộng của Orange so với các phần mềm với công dụng tương tự khác.

Ứng dụng của orange

Ứng dụng Orange tạo điều kiện thuận lợi cho các hoạt động thống kê, xây dựng mô hình, thực nghiệm, dự đoán nhằm cung cấp các thông tin cần thiết cho việc đưa ra quyết định trên các lĩnh vực như:

- Trong kinh tế, Orange giúp đỡ các nhà kinh tế trong việc xác định các biến chủ yếu ảnh hưởng đến sự phát triển kinh tế của quốc gia trong một khoảng thời gian cụ thể, từ đó các nhà kinh tế có tạo dựng các báo cáo kinh tế hợp lý, gần sát với thực tế hơn - Trong y học, Orange được xem như một nền tảng nơi mà các triệu chứng bệnh được thiết lập mối quan hệ với nhau, từ đó cho ra chuẩn đoán về bệnh và phương hướng trị liệu bệnh đó.

- Trong mạng viễn thông, phần mềm được sử dụng để phân tích các cuộc gọi điện thoại nhằm phân tích hành vi người tiêu dùng với mục đích nâng cao chất lượng dịch vụ.

- Trong giáo dục, Orange được sử dụng như một công cụ giảng dạy của giáo viên về phương pháp học máy và khai phá dữ liệu cho học sinh.

2.2.2 Phương pháp phân cụm dữ liệu

Phương pháp phân cụm được thực hiện khi dữ liệu chưa có cấu trúc định dạng rõ ràng về bảng dữ liệu Không có biến phụ thuộc target y, chỉ có biến phụ thuộc feature x 2.2.2.1 Định nghĩa

Phân cụm dữ liệu là quá trình dữ liệu/đối tượng có những đặc điểm, tính chất tương đồng với nhau theo một tiêu chí nào đó được gom thành nhóm hoặc cụm (cluster) tương ứng.

Lưu ý: Dữ liệu của bài toán phân cụm là những dữ liệu chưa được gán nhãn (tên của từng đối tượng mà ta phân tích chưa được biết rõ), đây chính là những dữ liệu tự nhiên thường thấy trong thực tế.

Ngày đăng: 08/04/2024, 12:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan