BÀI GIẢNG NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU

45 702 2
BÀI GIẢNG NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NHẬP MƠN LẬP TRÌNH KHOA HỌC DỮ LIỆU Bài 1: Giới Thiệu Môn Học Nội dung Thông tin chung môn học Data science (khoa học liệu) gì? Khoa học liệu khác khoa học khác điểm nào? Một số vấn đề khoa học liệu xung quanh Nghề làm khoa học liệu có ưu gì? Data scientist (nhà khoa học liệu) làm gì? Data scientist workflow Data scientist cần gì? TRƯƠNG XUÂN NAM Phần Thông tin chung môn học TRƯƠNG XUÂN NAM Giới thiệu môn học  Tên mơn: Nhập mơn Lập trình Khoa học Dữ liệu (Introduction to Programming for Data Science)  Số tín chỉ: (24 tiết lý thuyết + 21 tiết tập)  Nội dung chính:     Ngơn ngữ python (cơ bản) Một số thư viện xử lý liệu python Trực quan hóa liệu Học từ liệu  Giảng viên: Trương Xuân Nam, khoa CNTT  Email: truongxuannam@gmail.com TRƯƠNG XUÂN NAM Tài liệu môn học  Scipy Lecture Notes, www.scipy-lectures.org  Các tài liệu tham khảo nên đọc:  “Think Python: How to think like a computer scientist”  “Learning Python”  “Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Ipython”  “Python Crash Course, A Hands-On, Project-Based Introduction to Programming”  Bài giảng, tập, mã nguồn, điểm số,… đưa lên site https://txnam.net mục BÀI GIẢNG TRƯƠNG XUÂN NAM Kiến thức yêu cầu  Đã biết sử dụng tạm ổn ngơn ngữ lập trình (C/C++, C#, Java,…) – học nhanh phần ngôn ngữ python  Cấu trúc liệu: mảng, danh sách, cây,… – đặc biệt mảng nhiều chiều phép xử lý  Hiểu cách làm việc hệ thống file, đọc ghi liệu dạng văn từ file – hầu hết liệu môn học ngành học dạng text  Có kiến thức định dạng liệu thường dùng sống (văn bản, ảnh, âm thanh, phim, ) TRƯƠNG XUÂN NAM Phần mềm học tập TRƯƠNG XUÂN NAM Đánh giá kết  Điểm môn học = ĐQT x 50% + ĐTCK x 50%  Điểm trình:     Điểm danh Bài làm lớp, phòng lab Bài tập nhà (nộp qua email) Thi kỳ  Điểm thi cuối kỳ:  Thi thực hành máy  Được sử dụng tài liệu tham khảo  Chi thi học, khơng có giới hạn nội dung thi TRƯƠNG XUÂN NAM Tại phải học mơn này?  Để có kiến thức khoa học liệu  Để có kĩ viết chương trình phục vụ cho toan thuộc ngành khoa học liệu  Để có hiểu biết cơng việc người làm khoa học liệu tốn liên quan  Để có hiểu biết cách ứng dụng khoa học liệu vào vấn đề thực tế  Có thêm lựa chọn cho đề tài làm tốt nghiệp  Có điểm mơn học trường TRƯƠNG XUÂN NAM Phần Data science (khoa học liệu) gì? TRƯƠNG XUÂN NAM 10 Data scientist workflow TRƯƠNG XUÂN NAM 31 Data scientist workflow – Bước  Input  Workflow yêu cầu nhiệm vụ: “Nhu cầu tìm kiếm hình ảnh Google: đưa cho máy ảnh, trả ảnh tương tự”  Nhu cầu bắt nguồn từ: • Do phận business thu thập phản hồi từ người dùng đề nghị có thêm tính ABC • Hoặc, Data Scientist làm việc với liệu, nghiên cứu đặc tính sản phẩm/ cơng ty kiểu/ lượng data có… nảy sinh thêm sáng kiến phát minh tính XYZ TRƯƠNG XUÂN NAM 32 Data scientist workflow – Bước  Lên kế hoạch  Làm tính có khả thi hay ko?  Sẽ cần loại liệu gì? Ở đâu? Bao nhiêu đủ? Lấy liệu nào?  Cần resource (nhân lực, thời gian)  Tính gắn vào đâu sản phẩm cuối giúp ích cho người dùng TRƯƠNG XUÂN NAM 33 Data scientist workflow – Bước  Thu thập làm liệu  Để dạy cho máy biết phân biệt chó/mèo, phải học nhiều hình ảnh tốt Nên phải “gom liệu”  Dữ liệu gom xong lộn xộn nhiều rác phải “làm liệu” • Hình ảnh ko cần loại bỏ; Hình mờ làm cho rõ … • Đồng hóa liệu • Hình ảnh mang có kích thước khác nhau, phải đưa hết kích thước, định dạng theo mơ hình liệu chọn  Nếu liệu chưa đủ phải thu thập thêm TRƯƠNG XUÂN NAM 34 Data scientist workflow – Bước  Chọn giải pháp  Nếu vấn đề có sẵn giải pháp • Lựa chọn / kết hợp giải pháp lại, chạy thử nghiệm, kiểm tra thử nghiệm tốt sao, chọn giải pháp để phát triển thêm  Nếu vấn đề chưa có sẵn giải pháp • Cần làm nghiên cứu: tìm hiểu xem trước có làm vấn đề hay chưa • Sau đó, chọn một loạt phương pháp để thử nghiệm TRƯƠNG XUÂN NAM 35 Data scientist workflow – Bước  Máy học  Chạy thử mơ hình đánh giá hiệu • Tưởng tượng bạn điều khiển bảng điều khiển với nhiều nút Bạn thử chỉnh nút chút, thấy kết tốt chút xíu giữ lại chỉnh thử nút khác  Nhận diện yếu tố ảnh hưởng đến kết Điều chỉnh dấu hiệu ưu tiên để kết tốt TRƯƠNG XUÂN NAM 36 Data scientist workflow – Bước  Output  Kết gắn vào sản phẩm lớn có tính ứng dụng  Viết báo  Tổ chức hội thảo TRƯƠNG XUÂN NAM 37 Phần 3.2 Data scientist cần gì? TRƯƠNG XUÂN NAM 38 Data scientist: tố chất cần có? TRƯƠNG XUÂN NAM 39 Data scientist: tố chất cần có?  Kiên nhẫn  Tố chất quan trọng DS phải dành phần lớn thời gian để thu thập làm liệu TRƯƠNG XUÂN NAM 40 Data scientist: tố chất cần có?  Giao tiếp tốt  Với Team Business: để hiểu rõ sản phẩm requirements, từ tìm insights có giá trị  Với Team Engineer: để áp dụng mơ hình vào hệ thống đề nghị họ tổ chức/hệ thống data cho sử dụng  Trình bày, giải thích insights cho bên liên quan hiểu TRƯƠNG XUÂN NAM 41 Data scientist: tố chất cần có?  Thích tìm hiểu thử  Nghề Data Scientist mẻ sử dụng nhiều kiến thức liên ngành • Mỗi ngành riêng lại có bước tiến cơng nghệ mới: Bạn cần cập nhật kiến thức liên tục TRƯƠNG XUÂN NAM 42 Data scientist cần kỹ gì?  Nghề Data Scientist đòi hỏi nhiều kiến thức kĩ tổng hợp  Machine Learning: để học từ liệu, từ tạo mơ hình dự đốn  Database: giúp lưu trữ, truy xuất liệu thực tính tốn  Programming language: viết code để áp dụng mơ hình học nói vào sản phẩm cụ thể để thao tác với database  Visualization: giúp hiểu liệu trình bày kết phân tích TRƯƠNG XN NAM 43 Data scientist cần kỹ gì?  Kiến thức toán học: yếu tố quan trọng số  Nghề data science sử dụng nhiều kiến thức liên ngành • Machine learning kết hợp mơ hình tốn học chạy bên • Khi xử lý / làm việc với liệu, bạn cần sử dụng nhiều kiến thức toán, xác suất thống kê,… • Tư toán học giúp bạn dễ tiếp thu học kĩ khác TRƯƠNG XUÂN NAM 44 Data Scientist: Các kỹ cần thiết?  Khả Lập trình phần mềm  Cơng việc Data Scientist gần với Software Engineer Vì vậy, code cứng yêu cầu quan trọng  Sự nhạy bén  Khi nhìn vào liệu, bạn cần đủ nhạy để suy đoán: loại liệu nên làm với nó, nên estimate nào?  Sự nhạy bén tố chất song tích lũy dần theo kinh nghiệm thời gian TRƯƠNG XUÂN NAM 45 ... Analysis: Data Wrangling with Pandas, NumPy, and Ipython”  “Python Crash Course, A Hands-On, Project-Based Introduction to Programming”  Bài giảng, tập, mã nguồn, điểm số,… đưa lên site https://txnam.net... Email: truongxuannam@gmail.com TRƯƠNG XUÂN NAM Tài liệu môn học  Scipy Lecture Notes, www.scipy-lectures.org  Các tài liệu tham khảo nên đọc:  “Think Python: How to think like a computer scientist”... nghiệm, tính tốn,… kiểm chứng giả thiết  Ngành hóa học:… …  Ta gọi ngành khoa học “knowledge-driven” (dẫn dắt tri thức)  Có ngành có chút ngoại lệ, ví dụ: ngành xác suất TRƯƠNG XUÂN NAM 12

Ngày đăng: 19/03/2019, 14:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan