Bài giảng Tin học ứng dụng - Chương 3: Các thống kê cơ bản, tương quan và hồi quy

20 114 0
Bài giảng Tin học ứng dụng - Chương 3: Các thống kê cơ bản, tương quan và hồi quy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Tin học ứng dụng - Chương 3: Các thống kê cơ bản, tương quan và hồi quy trình bày về việc cài đặt chức năng phân tích dữ liệu trong Excel, phân phối chuẩn, thống kê mô tả, biểu đồ tần xuất, hồi quy tuyến tính, Hồi quy phi tuyến.

7/16/16 TIN HỌC ỨNG DỤNG (CH3- CÁC THỐNG KÊ CƠ BẢN, TƯƠNG QUAN VÀ HỒI QUY) Phan Trọng Tiến BM Công nghệ phần mềm Khoa Công nghệ thông tin, VNUA Email: phantien84@gmail.com Website: http://timoday.edu.vn Ch3 - Các thống kê bản, tương quan hồi quy Nội dung 1.  2.  3.  4.  5.  6.  7.  Cài đặt chức phân tích liệu Excel Phân phối chuẩn Thống kê mô tả Biểu đồ tần xuất Tương quan Hồi quy tuyến tính Hồi quy phi tuyến Ch3 - Các thống kê bản, tương quan hồi quy 7/16/16 Cài đặt chức phân tích liệu Excel q  Excel cung cấp công cụ phân tích liệu cách vào q Data>Data Analysis q  Nếu khơng có chức q File>Options>Add-in>Analysis ToolPak để cài đặt Ch3 - Các thống kê bản, tương quan hồi quy File>Options>Add-In>Analysis ToolPak Ch3 - Các thống kê bản, tương quan hồi quy 7/16/16 Phân phối chuẩn q  Còn gọi phân bố Gauss q  Là phân bố quan trọng nhiều lĩnh vực q  Tâm phân phối giá trị có tần suất lớn thường giá trị kỳ vọng (hay gọi giá trị trung bình tập hợp) Ch3 - Các thống kê bản, tương quan hồi quy Phân phối chuẩn chuẩn hố standard normal distribution q  phân bố có giá trị trung bình phương sai (đường cong màu đỏ) q  Phân phối chuẩn gọi đường cong chuông (bell curve) Ch3 - Các thống kê bản, tương quan hồi quy 7/16/16 Tính chất phân phối chuẩn q  Hàm mật độ đối xứng qua giá trị trung bình q  Trị trung bình mode trung vị q  68.26894921371% diện tích đường cong nằm độ lệch chuẩn tính từ trị trung bình q  95.44997361036% diện tích đường cong nằm độ lệch chuẩn q  99.73002039367% diện tích đường cong nằm độ lệch chuẩn q  99.99366575163% diện tích đường cong nằm độ lệch chuẩn q  99.99994266969% diện tích đường cong nằm độ lệch chuẩn q  99.99999980268% diện tích đường cong nằm độ lệch chuẩn q  99.99999999974% diện tích đường cong nằm độ lệch chuẩn q  Điểm uốn đường cong xảy độ lệch chuẩn tính từ trị trung bình Ch3 - Các thống kê bản, tương quan hồi quy Độ nhọn (Kurtosis) Ch3 - Các thống kê bản, tương quan hồi quy 7/16/16 Độ xiên (Skewness) Ch3 - Các thống kê bản, tương quan hồi quy Độ lệch chuẩn q  Trong thực nghiệm thường giả thiết liệu lấy từ tổng thẻ có dạng phân phối xấp xỉ chuẩn q  Nếu giả thiết kiểm chứng q 68% số giá trị nằm khoảng q 95% nằm khoảng q 99.7% nằm khoảng độ lệch chuẩn q  Đó gọi “quy luật 68-95-99.7” Ch3 - Các thống kê bản, tương quan hồi quy 10 7/16/16 Thống kê mô tả q  Cho phép tính số đặc trưng mẫu/ giá trị thống kê mẫu trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode … Dữ liệu bố trí theo hàng theo cột q  Các bước q Data>Data Analysis Ch3 - Các thống kê bản, tương quan hồi quy 11 Chọn Descriptive Statistics Ch3 - Các thống kê bản, tương quan hồi quy 12 7/16/16 Xuất hộp thoại Miền liệu Nhóm số liệu theo hàng hay theo cột Nếu liệu có nhãn đầu dịng tích Nơi đặt kết Hiện thống kê Độ tin cậy Số lớn thứ Số nhỏ Ch3 - Các thống kê bản, tương quan hồi quy 13 Ch3 - Các thống kê bản, tương quan hồi quy 14 Kết 7/16/16 Phân tích kết q  Mean: cho ta trị trung bình cuả dãy số q  Median: cho gí trị điểm dãy số q Hai giá trị Mean Median xấp xỉ số liệu cân đối q  Phương sai mẫu hay độ lệch chuẩn cho ta biết độ phân tán số liệu quanh giá trị trung bình, giá trị nhỏ chứng tỏ số liệu tập chung Ch3 - Các thống kê bản, tương quan hồi quy 15 Phân tích kết q  Kurtosis đánh giá đường mật độ phân phối dãy số liệu có nhọn hay tù đường mật độ chuẩn tắc Nếu [-2,2] coi xấp xỉ chuẩn q  Skewness đánh giá đường phân phối lệch trái hay lệch phải Nếu [-2,2] coi số liệu cân đối gần số liệu phân phối chuẩn q  Confidence Level mức độ tin cậy Ví dụ Confidence Level m khoảng tin cậy trung bình tổng thể là: (Mean – m, Mean+m) Ch3 - Các thống kê bản, tương quan hồi quy 16 7/16/16 Biểu đồ tần xuất q  Chức năng: có nhiều số liệu cần chia lớp để thấy rõ nét đặc trưng dãy số liệu, sau kiểm tra tính chuẩn biến nghiên cứu q  Cách làm: q Để số liệu cột, hàng hay bảng chữ nhật q Tìm giá trị Min, Max miền dl, tính R = Max – Min q Chọn khoảng k, thực tế k: 20-30, số liệu k: 6-10 q Tính khoảng cách tổ: h = R/k (làm tròn) q Có Max, Min, R, k, h ta tạo miền phân tổ Min, giá trị cộng dồn với h, cho đên sát Max dừng Ch3 - Các thống kê bản, tương quan hồi quy 17 Tạo miền phân tổ q  Ví dụ: q Max = 49, Min = 11, R = 38, k = 10, h = 38/10 =3.8 ≈4 q Xuất phát từ Min 11 11 + = 15 15 + = 19 ………………… q Cho đến sát Max (49) 47 q  Tạo miền phân tổ tự động Excel (Ch2 – Slide 15) q  Vào Data>Data Analysis Ch3 - Các thống kê bản, tương quan hồi quy 18 7/16/16 Chọn Histogram Ch3 - Các thống kê bản, tương quan hồi quy 19 Cửa sổ Histogram Miền liệu Miền phân tổ Nhãn đầu dịng có Nơi chứa kết Tần số xếp giảm dần % Cộng dồn Biểu đồ Ch3 - Các thống kê bản, tương quan hồi quy 20 10 7/16/16 Kết biểu đồ Ch3 - Các thống kê bản, tương quan hồi quy 21 Phân tích kết q  Tần số rơi vào khoảng ghi cận khoảng q Ví dụ: (10,15] có số liệu ghi ứng với số 15 cận q  Phải đưa kết luận q Biểu đồ cho thấy khoảng số liệu xuất nhiều q Biểu đồ cho ta biết dãy số liệu khảo sát có tuân theo phân phối chuẩn hay không Ch3 - Các thống kê bản, tương quan hồi quy 22 11 7/16/16 Tính hệ số tương quan q  Dùng hệ số tương quan để xác định mối quan hệ hai đặc tính Ví dụ nghiên cứu mối quan hệ nhiệt độ trung bình vị trí việc dùng điều hịa q  Tính hệ số tương quan biến xếp thành bảng gồm n hàng, m cột (mỗi cột biến) q  Vào Data>Data Analysis Ch3 - Các thống kê bản, tương quan hồi quy 23 Chọn Corelation Ch3 - Các thống kê bản, tương quan hồi quy 24 12 7/16/16 Xuất cửa sổ Miền liệu kể nhãn Nhóm số liệu theo hàng hay cột Chọn nhãn đầu dịng khơng Chọn nơi để kết Ch3 - Các thống kê bản, tương quan hồi quy 25 Ch3 - Các thống kê bản, tương quan hồi quy 26 Kết 13 7/16/16 Phân tích kết q  Hệ số tương quan dòng cột ghi ô giao dòng cột q  Hệ số tương quan âm thể mối tương quan nghịch biến q  Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể mối tương quan tuyến tính mạnh Ch3 - Các thống kê bản, tương quan hồi quy 27 Hồi quy tuyến tính q  Cho phép tìm phương trình hồi quy tuyến tính đơn y=a*x +b hồi quy tuyến tính bội y=a1*x1 + a2*x2 + … + an*xn + b q  Các biến độc lập chứa n cột, biến phụ thuộc y để cột, giá trị tương ứng biến độc lập biến phụ thuộc xếp hàng q  Ví dụ: Tìm đường hồi quy cuả xuất lúa y phụ thuộc vào độ dài bông, trọng lượng 1000 hạt, số q  Vào Data>Data Analysis Ch3 - Các thống kê bản, tương quan hồi quy 28 14 7/16/16 Chọn Regression Ch3 - Các thống kê bản, tương quan hồi quy 29 Xuất hộp thoại Miền liệu Y Miền liệu X Có để nhãn đầu dịng khơng? Độ tin cậy Hệ số tự b = tích vào Hiện đồ thị phần dư Hiện phần dư hay sai lệch y thực nghiêm y theo hồi quy Hiện phần dư chuẩn hóa Hiện đồ thị xác xuất thơng thường Hiện đồ thị đường dự báo Ch3 - Các thống kê bản, tương quan hồi quy 30 15 7/16/16 Kết Ch3 - Các thống kê bản, tương quan hồi quy 31 Phân tích kết q  Nếu hệ số tương quan bội (Multiple R) xấp xỉ >= 0.75 mơ hình qui hoạch tuyến tính thích hợp q Ví dụ: Multiple R = 0.8589 -> mơ hình tuyến tính coi thích hợp q  Hệ số tương quan (R Square) cho biết biến động y x1, x2, x3 … gây nên Hệ số Adjusted R Square không sát R Square → tất biến đưa vào cần thiết q R Square =0.7377 cho biết 73.77% biến động y x1, x2, x3 gây nên q Adjusted R Square = 66.62% không sát R Square Ch3 - Các thống kê bản, tương quan hồi quy 32 16 7/16/16 Phân tích kết q  F thực nghiệm = 10.31281 với xác xuất 0.00158 < 0.05 nên phương trình hồi quy tuyến tính chấp nhận q  Dựa vào hệ số ta viết đường hồi quy dự báo y = -4.06364 + 0.1116x1 + 0.075684x2 + 0.02011x3 Hệ số x1 khơng đáng tin cậy P-value = 0.093621 > 0.05 (mức ý nghĩa chọn) -> cần tiến hành lọc bớt biến x1 để đường hồi quy với hệ số có ý nghĩa Ch3 - Các thống kê bản, tương quan hồi quy 33 Hồi quy phi tuyến q  Các dạng hồi quy phi tuyến hàm mũ, hàm logarit, hàm đa thức, hàm bậc hai … q  Có hai cách: q Thơng qua cách biến đổi đưa dạng hồi quy tuyến tính bội q Vẽ đồ thị tìm đường ngoại suy Ch3 - Các thống kê bản, tương quan hồi quy 34 17 7/16/16 6.1 Cách q  Thông qua biến đổi ta đưa dạng hồi quy tuyến tính bội hàm mũ, hàm logarit, hàm đa thức, hàm bậc hai … q  Ví dụ Nghiên cứu dân số, x năm, y dân số Tìm đường hồi quy phi tuyến dạng đa thức bậc hai: Y = ax2 + bx + c Khi ta thêm cột X2 = X2 sau thực tìm đường hồi quy bội tuyến tính với biến độc lập X, X2 hàm Y Ch3 - Các thống kê bản, tương quan hồi quy 35 Làm tương tự mục Ch3 - Các thống kê bản, tương quan hồi quy 36 18 7/16/16 Phân tích kết q  Phân tích kết phương trình: Y = 0.397435 X2 + 8.228951 X + 12.96242 Ch3 - Các thống kê bản, tương quan hồi quy 37 6.2 Cách q  Vẽ đồ thị XY (Scatter) biểu diễn tương quan y x, đồ thị dạng điểm, sau tìm đường ngoại suy phương trình hồi quy q  Sinh viên xem lại phần đồ thị q  Sau vẽ xong đồ thị dạng XY bạn vào Menu Layout>Trendline Ch3 - Các thống kê bản, tương quan hồi quy 38 19 7/16/16 Ví dụ Ch3 - Các thống kê bản, tương quan hồi quy 39 Tùy chọn Trendline Ch3 - Các thống kê bản, tương quan hồi quy 40 20 ... trung bình Ch3 - Các thống kê bản, tương quan hồi quy Độ nhọn (Kurtosis) Ch3 - Các thống kê bản, tương quan hồi quy 7/16/16 Độ xiên (Skewness) Ch3 - Các thống kê bản, tương quan hồi quy Độ lệch... bạn vào Menu Layout>Trendline Ch3 - Các thống kê bản, tương quan hồi quy 38 19 7/16/16 Ví dụ Ch3 - Các thống kê bản, tương quan hồi quy 39 Tùy chọn Trendline Ch3 - Các thống kê bản, tương quan hồi. .. Hiện đồ thị đường dự báo Ch3 - Các thống kê bản, tương quan hồi quy 30 15 7/16/16 Kết Ch3 - Các thống kê bản, tương quan hồi quy 31 Phân tích kết q  Nếu hệ số tương quan bội (Multiple R) xấp xỉ

Ngày đăng: 30/01/2020, 18:48

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan