Khai phá dữ liệu Data mining

4 1 0
Khai phá dữ liệu  Data mining

Đang tải... (xem toàn văn)

Thông tin tài liệu

Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính

Khai phá liệu Khái niệm: Khai phá liệu (data mining) q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Các phương pháp khai thác liệu - Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước - Hồi qui (Regression): Khám phá chức học dự đoán, ánh xạ mục liệu thành biến dự đoán giá trị thực - Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến người ta tìm cách xác định tập hợp hữu hạn cụm để mô tả liệu - Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm mô tả nhỏ gọn cho (hoặc tập hợp con) liệu - Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục mơ tả phụ thuộc đáng kể biến giá trị tính tập liệu phần tập liệu - Dò tìm biến đổi độ lệch (Change and Deviation Detection): Khám phá thay đổi quan trọng liệu Các lĩnh vực ứng dụng - Thương mại điện tử - Phát lừa đảo - Quảng cáo - Marketing - Quản lý quan hệ khách hàng - Chăm sóc sức khỏe VD 1: Những ứng dụng đáng ý khai thác liệu Khai thác liệu xem phương pháp mà đơn vị Able Danger Quân đội Mỹ dùng để xác định kẻ đứng đầu công ngày 11 tháng 9, Mohamed Atta, ba kẻ công ngày 11 tháng khác thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động Mỹ năm trước công VD 2: Khai phá liệu lĩnh vực giáo dục có nhiều ứng dụng quan trọng nhằm cải thiện chất lượng giảng dạy, tối ưu hóa học tập nâng cao hiệu suất học tập Dưới số ví dụ cụ thể: Phân tích học tập cá nhân: Trường học sử dụng liệu điểm số, chuyên cần, dự án học tập học sinh để tạo hồ sơ học tập cá nhân Điều giúp giáo viên đưa đề xuất cụ thể cách học tốt giải nhu cầu học tập đặc biệt học sinh Dự đoán rủi ro bỏ học: Bằng cách sử dụng liệu chuyên cần, điểm số thơng tin xã hội, trường dự đốn học sinh có nguy bỏ học Điều giúp trường áp dụng biện pháp can thiệp kịp thời để giúp học sinh ổn định tâm lý học tập Tạo chương trình đào tạo cá nhân hóa: Dữ liệu học tập sử dụng để tạo khóa học đào tạo cá nhân hóa, cung cấp cho học sinh tài liệu giảng phù hợp với nhu cầu học tập họ Đánh giá hiệu suất giảng dạy: Các trường học sử dụng liệu học tập để đánh giá hiệu suất giáo viên Điều giúp xác định giáo viên có hiệu suất cao người cần thêm hỗ trợ đào tạo Quản lý tài nguyên trường học: Dữ liệu số lượng học sinh, lớp học nguồn tài trợ giúp trường học quản lý tài nguyên hiệu hơn, đảm bảo có đủ lớp học giáo viên cho tất học sinh Dự đoán xu hướng giảng dạy: Dữ liệu học tập sử dụng để dự đốn xu hướng giảng dạy cung cấp hướng dẫn cho việc phát triển chương trình học tập tương lai Những ứng dụng giúp cải thiện hiệu suất học tập, tạo môi trường học tập tốt đảm bảo giáo dục đáp ứng tốt nhu cầu học sinh Analytics and business inteligence Nghiệp vụ thông minh (BI) Khái niệm: Nghiệp vụ thông minh (BI) bao gồm loạt ứng dụng, thực tiễn cơng nghệ để trích xuất, chuyển đổi, tích hợp, trực quan hóa, phân tích, giải thích trình bày liệu để hỗ trợ việc định cải thiện Mục tiêu: - Để có giá trị cao từ thơng tin trình bày kết phân tích theo cách dễ hiểu mà người hiểu - Giúp tổ chức học hỏi từ sai lầm khứ, xây dựng dựa thành cơng q khứ Kiến thức sau đưa vào q trình lập kế sau đưa vào q trình lập kế hoạch sáng kiến, bắt chước hiệu thay đổi khơng hiệu Analytics (Phân tích) Khái niệm: Analytics (Phân tích) hiểu việc sử dụng rộng rãi liệu phân tích định lượng để hỗ trợ việc định dựa thực tế tổ chức Mục tiêu: - Analytics sử dụng thuật toán để xác định mối quan hệ liệu nhằm đưa dự đoán xảy tương lai - cho phép tổ chức dự đoán phát triển thực thay đổi để cải thiện kết tương lai Ví dụ: Phân tích tình hình kinh doanh doanh nghiệp để hiểu rõ hiệu kinh doanh tại, tiết lộ mơ hình mối quan hệ kinh doanh mới, giải thích lý số kết định xảy ra, tối ưu hóa hoạt động dự báo kết kinh doanh tương lai Lợi ích đạt từ BI Analytics - Phát gian lận VD: MetLife triển khai phần mềm phân tích để giúp đơn vị điều tra đặc biệt (SIU) xác định gian lận nhà cung cấp dịch vụ y tế, luật sư cửa hàng sửa chữa Mặc dù khiếu nại tai nạn khơng có đủ liệu để bị gắn cờ đáng ngờ gửi lần đầu tiên, có nhiều liệu khiếu nại thêm vào, phần mềm liên tục ghi lại khiếu nại Sau sáu tháng sử dụng phần mềm, số lượng khiếu nại SIU điều tra tăng 16% - Cải thiện khả dự báo VD: Kroger phục vụ khách hàng 2.422 siêu thị 1.950 hiệu thuốc cửa hàng Công ty nhận thấy cách dự đoán tốt nhu cầu khách hàng hiệu thuốc, cơng ty giảm số lượng đơn thuốc mà họ đáp ứng thuốc hết hàng Để làm vậy, Kroger phát triển hệ thống quản lý hàng tồn kho tinh vi cung cấp cho nhân viên hình ảnh trực quan mức tồn kho, thích ứng với phản hồi người dùng hỗ trợ phân tích "điều xảy nếu" Các đơn thuốc hết hàng giảm 1,5 triệu đơn thuốc năm, dẫn đến doanh thu tăng 80 triệu USD năm Ngoài ra, cách vận chuyển loại thuốc với số lượng phù hợp, Kroger giảm tổng chi phí tồn kho 120 triệu USD năm.15 - Tăng doanh số bán hàng VD: DaimlerChrysler nhiều nhà sản xuất ô tô khác đặt giá bán lẻ bán bn đề xuất năm, sau điều chỉnh giá thông qua ưu đãi theo mùa dựa tác động cung cầu DaimlerChrysler triển khai mơ hình co giãn theo giá để tối ưu hóa định giá cơng ty Hệ thống cho phép nhà quản lý đánh giá nhiều ưu đãi tiềm cho kết hợp mẫu xe (ví dụ: Jeep Grand Cherokee), phương thức mua lại (tiền mặt, tài cho thuê) chương trình khuyến khích (hồn tiền, APR khuyến mại kết hợp hồn lại tiền APR khuyến mại) Cơng ty ước tính việc sử dụng hệ thống tạo doanh thu bổ sung hàng năm 500 triệu USD.16 - Tối ưu hóa hoạt động VD: Chevron cơng ty lượng tích hợp hàng đầu giới Các nhà máy lọc dầu hoạt động với dầu thơ sử dụng để sản xuất nhiều loại sản phẩm dầu, bao gồm xăng, nhiên liệu máy bay phản lực, nhiên liệu diesel, chất bôi trơn sản phẩm đặc biệt phụ gia Với giá thị trường dầu thô sản phẩm khác liên tục thay đổi, việc xác định sản phẩm cần tinh chế thời điểm định phức tạp Chevron sử dụng hệ thống phân tích có tên Petro để hỗ trợ nhà phân tích việc tư vấn cho nhà máy lọc dầu nhà kinh doanh dầu cách kết hợp sản phẩm để sản xuất, mua bán nhằm tối đa hóa lợi nhuận." - Giảm chi phí VD: Coca-Cola Enterprises nhà đóng chai phân phối sản phẩm Coca Cola lớn giới Đội xe giao hàng gồm 54.000 xe tải họ có quy mơ đứng thứ hai sau Bưu điện Hoa Kỳ Bằng cách sử dụng phần mềm phân tích, cơng ty triển khai hệ thống tối ưu hóa lộ trình phương tiện, giúp tiết kiệm 45 triệu USD năm nhờ giảm mức tiêu thụ xăng giảm số lượng tài xế cần thiết Vai trò nhà khoa học liệu - Là cá nhân có nhạy bén, khả phân tích hạn chế việc đưa định - Hiểu biết sâu sắc phân tích đánh giá đắn hạn chế liệu, công cụ kỹ thuật để mang lại cải tiến thực việc định - Thu thập báo cáo liệu, xem xét tình từ nhiều góc độ - Xác định liệu cơng cụ giúp hiểu rõ tình đó, sau áp dụng liệu cơng cụ thích hợp Các yêu cầu trình độ để trở thành nhà khoa học liệu - Địi hỏi phải thơng thạo số liệu thống kê, tốn lập trình máy tính - Yêu cầu cấp cao, chẳng hạn thạc sĩ tiến sĩ, có đại học chun ngành phân tích Có kỹ lập trình máy tính quen thuộc với ngơn ngữ cơng cụ sử dụng để xử lý liệu lớn, chẳng hạn Hadoop, Hive, SQL, Python, R Java Các thành phần cần thiết cho BI phân tích hiệu  Đầu tiên quan trọng chương trình quản lý liệu vững chắc, bao gồm quản trị liệu Quản lý liệu tập hợp chức tích hợp xác định quy trình thu thập liệu, chứng nhận phù hợp để sử dụng, lưu trữ, bảo mật xử lý theo cách đảm bảo độ tin cậy khả truy cập tính kịp thời liệu đáp ứng nhu cầu người sử dụng liệu tổ chức Quản trị liệu thành phần cốt lõi quản lý liệu; xác định vai trị, trách nhiệm quy trình để đảm bảo liệu toàn tổ chức tin cậy sử dụng, với người xác định có trách nhiệm sửa chữa ngăn chặn vấn đề với liệu  Các nhà khoa học liệu sáng tạo Những người hiểu rõ hoạt động kinh doanh cơng nghệ phân tích kinh doanh, đồng thời nhận hạn chế liệu, công cụ kỹ thuật họ  Cuối việc quản lý - nhóm cố vấn tổ chức Phải có cam kết mạnh mẽ liệu-việc định có định hướng Các tổ chức đặt thành phần cần thiết chỗ hành động nhanh chóng để đưa định tốt điều kiện không chắn thay đổi môi trường để đạt lợi cạnh tranh mạnh mẽ

Ngày đăng: 02/11/2023, 21:17

Tài liệu cùng người dùng

Tài liệu liên quan