ĐỒ án KHO dữ LIỆU và OLAP + (Full Đồ án)

129 904 23
ĐỒ án KHO dữ LIỆU và OLAP + (Full Đồ án)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

đồ án tham khảo môn KHO DỮ LIỆU VÀ OLAP, chia sẻ kiến thức về kho dữ liệu và kỹ thuật OLAP trong phân tích dữ liệu kinh doanh. Đồ án ứng dụng kỹ thuật OLAP vào phân tích dữ liệu bán hàng ở thị trường bán lẻ xe cộ. Từ kỹ thuật đó giúp phân tích rõ hơn về thị trường, xu hướng mua hàng, hành vi khách hàng, ...

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN – ĐHQG TP.HCM KHOA HỆ THỐNG THÔNG TIN BÁO CÁO ĐỒ ÁN MÔN KHO DỮ LIỆU VÀ OLAP ĐỀ TÀI: ANALYSIS OF SALES DATA (PHÂN TÍCH DỮ LIỆU BÁN HÀNG) Mơn học: Lớp: GVHD: Thành viên nhóm: Kho liệu OLAP IS217.K13.HTCL Đỗ Thị Minh Phụng Lê Hoàng Phương Thể (17521072) Bùi Hà Nguyên (17520815) TP Hồ Chí Minh, Tháng 12 Năm 2019 Lớp: IS217.K13.HTCL LỜI CẢM ƠN Lời mở đầu, nhóm xin gửi lời cảm ơn đến Cô Đỗ Thị Minh Phụng (Giảng viên hướng dẫn môn Kho liệu OLAP) Cô cung cấp kiến thức, bảo đóng góp ý kiến q báu giúp nhóm hồn thành đồ án mơn học Nhóm mong nhận góp ý từ phía nhằm rút kinh nghiệm quý báu hoàn thiện vốn kiến thức để nhóm tiếp tục hồn thành đồ án khác tương lai Xin chân thành cảm ơn Cô! Hiện nay, công nghệ thông tin ứng dụng rộng rãi tất lĩnh vực đời sống xã hội đặc biệt lĩnh vực Business Intelligence (BI) Vấn đề cốt lõi hệ thống BI kho liệu (Data Warehouse) khai phá liệu (Data Mining) liệu dùng BI liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán có tính lịch sử) đặc trưng kho liệu Đồng thời việc phân tích liệu BI khơng phải phân tích đơn giản (Query, Filtering) mà kỹ thuật khai phá liệu (Data Mining) dùng để phân loại (classification) phân cụm (Clustering), hay dự đoán (Prediction) Vì BI có mối quan hệ chặt chẽ với Data Warehouse Data Mining Do việc ứng dụng mơ hình OLAP vào lĩnh vực phân tích liệu kinh doanh đem lại nhiều giá trị cho doanh nghiệp lớn, giúp doanh nghiệp có nhìn tổng quan liệu, hỗ trợ định, khai phá liệu giúp định hướng phát triển doanh nghiệp, vv… Trong thời gian học đề tài, nhóm chúng em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức vận dụng tối đa thu thập để hồn thành đề tài đồ án tốt Tuy nhiên, trình thực hiện, nhóm chúng em khơng tránh khỏi thiếu sót Chính vậy, mong nhận góp ý từ phía Thầy Cơ nhằm hồn thiện kiến thức mà nhóm chúng em học tập hành trang để nhóm thực tiếp đề tài khác tương lai Lớp: IS217.K13.HTCL MỤC LỤC Lớp: IS217.K13.HTCL I TỔNG QUAN ĐỀ TÀI Giới thiệu đề tài 1.1 Lý chọn đề tài Phân tích liệu bán hàng mà hoạt động quan trọng doanh nghiệp, ảnh hưởng đến tồn phát triển nhiều doanh nghiệp thị trường nay, phân tích liệu kinh doanh có số vai trò quan trọng sau: • Cải thiện gắn kết khách hàng Một thử thách lớn nhà bán hàng làm để chuyển khách hàng mua sắm lần (one-time shoppers) thành khách hàng trung thành (brand loyalists) Những nhà bán hàng lớn giới Amazon theo dõi thói quen tiêu dùng khách hàng, lịch sử tìm kiếm, thị hiếu, Không công ty thương mại điện tử eCommerce lớn, mà kể công ty vừa nhỏ cần sử dụng phân tích này, kết hợp với phân tích dự báo (predictive analytics) để phát tiềm bán hàng, xu hướng bán hàng, chương trình thu hút tham gia khách hàng chí ý tưởng sản phẩm mà khách hàng tiềm cần Bằng việc kết hợp phân Lớp: IS217.K13.HTCL tích bán hàng (retail analytics) vào mơ hình dự báo, dự báo nhu cầu khách hàng khuyến khích họ quay trở lại • Cải thiện quản lý kho hàng chuỗi cửa hàng Có nhiều sản phẩm ứ đọng chưa bán được, chưa đủ sản phẩm cần thiết dẫn đến tổn thất lớn cho doanh nghiệp Sử dụng phân tích dự báo giúp doanh nghiệp giảm chi phí quản lý hàng tồn kho, tăng hiệu sử dụng kệ hàng, tập trung nguồn lực vào khu vực có nhu cầu cao, nắm bắt nhanh xu hướng bán hàng, tối ưu hóa việc vận chuyển, giảm chi phí tồn kho cải thiện chuỗi cung ứng, gia tăng lợi nhuận cho doanh nghiệp • Cải thiện định giá bán Trong xu hướng cắt giảm chi tiêu người tiêu dùng gia tăng kênh bán hàng, giá bán trở nên mục tiêu quan trọng mà nhà quản lý cần cân nhắc; nhiên, việc xác định giá bán phù hợp định dễ dàng Phân tích liệu nâng cao (advanced analytics) giúp nhà quản lý có mức giá bền vững, đo lường khác biệt nhu cầu phân khúc khách hàng, xác định sản phẩm chủ chốt, việc quản lý phân phối cửa hàng, phân tích hành vi người tiêu dùng qua kênh phân phối,… Những thông tin giúp nhà bán hàng đưa chiến lược giá hợp lý cân nhắc phân hóa đối tượng khách hàng, kênh bán hàng, đối thủ cạnh tranh, mặt hàng,… Theo báo cao phân tích Deloitte “Analytics in Retail” cho thấy giải pháp giá bán làm cải thiện tỷ suất hoạt động (margin performance) lên đến 2%-4% tăng trưởng doanh thu lên đến 1%-2% • Cải thiện chiến lược Marketing Ngày nay, nghiên cứu cho thấy chiến lược marketing “cá nhân hóa” (personalized marketing) có tác động mạnh đến hành vi người tiêu dùng Khi Facebook Instagram cho thấy quảng cáo liên quan dựa thơng tin chia sẻ ngày; nhà bán hàng thu thập thơng tin mang tính cá nhân sở thích, lịch sử tìm kiếm, xu hướng thói quen tiêu dùng, … Do đó, thay tạo chiến lược quảng bá lớn với chi phí khổng lồ Lớp: IS217.K13.HTCL lại có tác động trực tiếp, việc ứng dụng phân tích liệu dự báo “cá nhân hóa” (personalize) q trình tiếp thị Bằng việc đưa thông tin trực tiếp (direct messages) có nghĩa kiểm sốt khơng nội dung, mà nào, cách nào, sao, cuối cùng, giúp cải thiện ROI hiệu bán hàng cho công ty 1.2 Nội dung đề tài Đây liệu mô tả liệu bán hàng mẫu lấy trang www.kaggle.com bao gồm nhiều thông tin liệu bán hàng, thông tin khách hàng, thông tin order, doanh thu, giao hàng, … Dữ liệu dùng để phân khúc, phân tích, phân cụm khách hàng, sản phẩm liệu dùng cho phân tích liệu kinh doanh ngành bán lẻ Datasets gồm 2824 dòng có 25 cột thuộc tính Link Dataset: https://www.kaggle.com/kyanyoga/sample-sales-data Lớp: IS217.K13.HTCL 1.3 STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Mơ tả liệu gốc Tên thuộc tính ORDERNUMBER QUANTITYORDERED PRICEEACH ORDERLINENUMBER SALES ORDERDATE STATUS QTR_ID MONTH_ID YEAR_ID PRODUCTLINE MSRP PRODUCTCODE CUSTOMERNAME PHONE ADDRESSLINE1 ADDRESSLINE2 CITY STATE POSTALCODE COUNTRY TERRITORY CONTACTLASTNAME Ý nghĩa Mã Order hóa đơn Số lượng order Giá bán Mã order line hóa đơn Tổng chi phí hóa đơn Ngày order Trạng thái order Quý Tháng Năm Tên sản phẩm Giá niêm yết Mã sản phẩm Tên khách hàng (công ty) Số điện thoại khách hàng Địa khách hàng Địa khách hàng Tên thành phố Tên tiểu bang Mã bưu điện Tên đất nước Tên vùng Tên liên hệ cuối khách hàng CONTACTFIRSTNAME Tên liên hệ đầu khách hàng DEALSIZE Kích cỡ sản phẩm Kiểu liệu INT INT FLOAT INT FLOAT DATE STRING INT INT INT STRING FLOAT STRING STRING STRING STRING STRING STRING STRING STRING STRING STRING STRING STRING STRING Xử lý liệu Xử lý liệu loại bỏ trường không cần thiết lọc trường để tối ưu liệu Lớp: IS217.K13.HTCL 2.1 Dữ liệu gốc Hình Lớp: IS217.K13.HTCL Hình Lớp: IS217.K13.HTCL 2.2 Dữ liệu sau xử lý Hình Hình 10 Lớp: IS217.K13.HTCL VI KHAI PHÁ DỮ LIỆU (DATA MINING) Giới thiệu dataset Link dataset (thống kê số lượng học nghề tỷ lệ thành công kịp thời cho tổ chức theo giới tính): https://www.gov.uk/government/statistical-data-sets/sfa-nationalsuccess-rates-tables-2013-to-2014 Linkdataset (thống kê thơng tin khách hàng có khơng có khả mua xe máy): https://www.kaggle.com/rahulsah06/bike-buying-prediction-for-adventure- works-cycles? fbclid=IwAR0PSOlVan7Hvqqdyex0GX3yzBbjdxl6GvQWOSrobuPd6hkqTSCvSlGb_ kQ#AdvWorksCusts.csv Cây định 2.1 Thực Microsoft Visual Studio 2015 Chọn thuật toán khai phá định Microsoft Decision Trees 115 Lớp: IS217.K13.HTCL Sử dụng bảng National_mining để khai phá 116 Lớp: IS217.K13.HTCL Chọn Input Predictable 117 Lớp: IS217.K13.HTCL Chọn % data để test 118 Lớp: IS217.K13.HTCL 119 Lớp: IS217.K13.HTCL 2.2 Kết số luật rút • Đối với Apprenticeship Type = Advanced khả đỗ học nghề kịp thời Age = ‘24+’ Age = ’16-18’ 120 Lớp: IS217.K13.HTCL • Đối với Apprenticeship Type = All Levels tất độ tuổi có khả trường nghề kịp thời • Đối với Apprenticeship Type = Higher khả cao trường nghề kịp thời Age = ’all age’ sau Insitution Type = ‘General FE and Teriary College’ sau Timely Success Rate

Ngày đăng: 12/03/2020, 15:15

Từ khóa liên quan

Mục lục

  • I. TỔNG QUAN ĐỀ TÀI

    • 1. Giới thiệu đề tài

      • 1.1. Lý do chọn đề tài

      • 1.2. Nội dung đề tài

      • 1.3. Mô tả dữ liệu gốc

      • 2. Xử lý dữ liệu

        • 2.1. Dữ liệu gốc

        • 2.2. Dữ liệu sau khi xử lý

        • 3. Thiết kế kho dữ liệu

          • 3.1. Lược đồ hình sao

          • 3.2. Bảng FACT

          • 3.3. Bảng DIM

            • 3.3.1. DIM_CUSTOMER

            • 3.3.2. DIM_PRODUCT

            • 3.3.3. DIM_TIME

            • 3.3.4. DIM_SIZE

            • 3.3.5. DIM_STATUS

            • II. XÂY DỰNG KHO DỮ LIỆU (SSIS)

              • 1. Mô tả chủ đề

              • 2. Mô tả các trường dữ liệu cần phân tích

              • 3. Quá trình SSIS

                • 3.1. Chuẩn bị dữ liệu và công cụ

                • 3.2. Bắt đầu quá trình

                • 3.3. Kiểm tra kết quả sau khi đổ

                • III. PHÂN TÍCH KHO DỮ LIỆU (SSAS)

                  • 1. Tạo project SSAS

                  • 2. Tạo Data Source

                  • 3. Tạo Data Source View

Tài liệu cùng người dùng

Tài liệu liên quan