Cẩm nang máy học với Python: Chapter 3: Sắp xếp dữ liệu (data wrangling)

77 1 0
Cẩm nang máy học với Python: Chapter 3: Sắp xếp dữ liệu (data wrangling)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Data wrangling (Sắp xếp dữ liệu) là một thuật ngữ rộng được sử dụng, thường không chính thức, để mô tả quá trình chuyển đổi dữ liệu thô thành định dạng rõ ràng, có tổ chức, sẵn sàng để sử dụng. Đối với chúng ta, việc sắp xếp dữ liệu chỉ là một bước trong quá trình xử lý trước dữ liệu, nhưng đây là một bước quan trọng.

CHƯƠNG 3: SẮP XẾP DỮ LIỆU Giới thiệu Data wrangling (Sắp xếp liệu) thuật ngữ rộng sử dụng, thường khơng thức, để mơ tả q trình chuyển đổi liệu thơ thành định dạng rõ ràng, có tổ chức, sẵn sàng để sử dụng Đối với chúng ta, việc xếp liệu bước trình xử lý trước liệu, bước quan trọng Cấu trúc liệu phổ biến sử dụng để “sắp xếp” liệu khung liệu (Dataframe), vừa trực quan vừa linh hoạt Các khung liệu có dạng bảng, nghĩa chúng dựa hàng cột bạn thấy bảng tính Có hai điều quan trọng cần lưu ý khung liệu: - Đầu tiên, khung liệu, hàng tương ứng với quan sát (ví dụ: hành khách) cột tương ứng với đặc điểm (giới tính, tuổi, v.v.) - Thứ hai, cột chứa tên (ví dụ: Tên, PClass, Tuổi) hàng chứa số mục (ví dụ: dành cho cô Elisabeth Walton Allen) Chúng ta sử dụng thông tin để lựa chọn thao tác quan sát đặc điểm Trong chương này, đề cập đến nhiều kỹ thuật khác để thao tác khung liệu thư viện pandas với mục tiêu tạo tập hợp quan sát có cấu trúc rõ ràng, rõ ràng để xử lý trước Tạo series dataframe Pandas Series container chiều Pandas (hay gọi Python Iterable) tương tự list container có sẵn Python Nó loại liệu tượng trưng cho cột Dataframe Mỗi giá trị series phải lưu trữ loại data type Ví dụ có giá trị (interger) giá trị “orange” (string) series series có data type object dtype (hay string Python) Vì Dataframe xem dictionary series objects key tên cột value series, kết luận series tương đương với Python list, ngoại trừ việc giá trị series phải dtype giá trị list khác dtype Chúng ta thấy ndarray có cấu trúc tương tự series Các dễ để tạo series truyền list Python vào methods series() pandas Nếu truyền list gồm nhiều giá trị thuộc dtype khác pandas tự động chọn dtype phổ biến list Chúng ta thấy bên trái series hàng số, index number series Nó tương tự row name row index Do đặt tên cho row index Trong code cell dùng parameter index để định row number o person row number Who Do kết trình bày Person cho wes Mckinney Who trình bày cho Creatoe of pandas Khi sử dụng hàm print với series index trình bày dạng cột thứ giá trị trình bày cột thứ hai Nếu muốn trình bày index series thêm atrribute index dùng method key Nếu muốn biết index series thêm [0] với attribute index [0] với method key() Nếu muốn trình bày giá trị series cần dùng methods values Tính chất series định lượng (hay gọi vector số) Nếu trường hợp có hai vector có độ dài cộng hàng hai vector lại với Hoặc nhân hai vector độ dài lại với Khi áp dụng phép toán lên vector với số, số tái sử dụng cho tất thành tố vector Nếu hai series định lượng có chiều dài khơng pandas cộng hàng có index hai series cịn hàng khơng có giá trị để giá trị missing kí hiệu NaN Trong code series thứ hai có hai giá trị 100 tương ứng index number 1, Python cộng age series [1, 100] hai hàng có index mà Một đặc điểm hay Python ln thực phép tốn cho hai series dựa hoàn toàn vào index number, cho dù có đảo thứ tự hàng Đó Python luôn gắn index number mặc định cho giá trị bất kì, thay đổi thứ tự series giá trị ln có index Giả sử ta có series age series rev_ages nghĩa series ages xếp từ cao đến thấp Chúng ta nhận thấy index number giá trị 37 cho dù xếp lại thứ tự rev_ages Khi cộng hai series lại Python tự động cộng hàng có trùng số index number Tạo Dataframe Tạo Dataframe từ Python dictionary pandas có nhiều phương thức để tạo đối tượng DataFrame Một phương pháp dễ dàng khởi tạo DataFrame dictionary Python Trong từ điển, khóa tên cột giá trị danh sách, mục tương ứng với hàng: # Load library import pandas as pd # Create a dictionary dictionary = { "Name": ['Jacky Jackson', 'Steven Stevenson'], "Age": [38, 25], "Driver": [True, False] } # Create DataFrame dataframe = pd.DataFrame(dictionary) # Show DataFrame dataframe Name Ag Driv e er Jacky Jackson 38 True Steven 25 False Stevenson Chúng ta dễ dàng thêm cột Dataframe: # Add a column for eye color dataframe["Eyes"] = ["Brown", "Blue"] # Show DataFrame dataframe Name Jacky Jackson Ag Driv e er 38 True Eyes Brow n Steven 25 False Blue Stevenson pandas cung cấp vô số cách để tạo DataFrame Tuy nhiên thực tế, việc tạo DataFrame trống điền vào khơng xảy Thay vào đó, DataFrames tạo từ liệu thực mà tải từ nguồn khác (ví dụ: tệp CSV sở liệu) Khi tạo Dataframe thêm hai tham số index columns Index columns giúp quy định row index Dataframe thay dùng row number mặc định Python Còn tham số columns giúp quy định thứ tự columns Trong code cell trên, lấy cột name trước trở thành row index cho Dataframe Chúng ta thiết lập thứ tự cột colunns tham số Tính chất Dataframe Một Dataframe gồm phần: index, column values Để xem ba thành phần dùng thuộc tính index, column values Dataframe Với thuộc tính index thấy index Dataframe kết thúc 8, index cách đơn vị Hoặc Với thuộc tính column chúng xem tên cột dataframe Thuộc tính values có ích không muốn liệt kê index label mà muốn hiển thị giá trị dạng array numpy Dataframe cấu trúc từ series nên có tính chất broadcasting nghĩa thực phép tốn với tồn Dataframe Trong đoạn code lấy Dataframe scientist nhân cho kết giá trị cột string nhân lên hai giá trị cột số gấp đôi lên

Ngày đăng: 18/10/2023, 20:54

Tài liệu cùng người dùng

Tài liệu liên quan