Phân tích thống kê sử dụng Excel docx

32 405 2
Phân tích thống kê sử dụng Excel docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL® Nguyễn Ngọc Anh Nguyễn Đình Chúc Đồn Quang Hưng         Copyright © 2008 DEPOCEN    Development and Policies Research Center (DEPOCEN)  Page 1  Copyright© 2008 Development and Policies Research Center (DEPOCEN) PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL® Tác giả Nguyễn Ngọc Anh Nguyễn Đình Chúc Đồn Quang Hưng Copyright notice This material is copyrighted by DEPOCEN® Authorized users may be allowed to use this material for their personal educational and research purposes Other use, storage, reproduction, and distribution is strictly prohibited Copyright© 2008 Development and Policies Research Center (DEPOCEN) MỤC LỤC GIỚI THIỆU 4  NHẬP DỮ LIỆU 5  BỘ CÔNG CỤ DATA ANALYSIS TOOLPACT 5  THỐNG KÊ MÔ TẢ 6  PHÂN PHỐI CHUẨN* 8  XÂY DỰNG KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ 12  6.1  Khi qui mô mẫu thống kê lớn (n lớn 30) 12  6.2  Mẫu nhỏ (ít 30 quan sát) 15  7  KIỂM ĐỊNH GIẢ THUYẾT VỀ TRUNG BÌNH TỔNG THỂ 16  8  KIỂM ĐỊNH SỰ KHÁC BIỆT GIỮA HAI TRUNG BÌNH TỔNG THỂ 18  8.1  Mẫu lớn: 18  8.2  Mẫu nhỏ: Một hai mẫu có số lượng quan sát nhỏ 30 22  9  TƯƠNG QUAN TUYẾN TÍNH VÀ PHÂN TÍCH HỒI QUI* 26  9.1  Phân tích tương quan tuyến tính 27  9.2  Phân tích hồi qui 29  1  2  3  4  5  6  Lưu ý: Những mục đánh dấu * học viên đọc thêm Copyright© 2008 Development and Policies Research Center (DEPOCEN) GIỚI THIỆU  EXCEL chương trình bảng tính Microsoft® phát triển Đây chương trình bảng tính sử dụng rộng rãi Trong EXCEL có cơng cụ cho phép người sử dụng tiến hành phân tích liệu thống kê EXCEL sử dụng để tổ chức xếp liệu, trình bày liệu, lập bảng, vẽ đồ thị phân tích thống kê (thống kê mơ tả, kiểm định giả thuyết phân tích hồi qui).1 Tên biến Số liệu Hình 1: Ví dụ số liệu EXCEL Để thực phân tích thống kê phức tạp hơn, phải sử dụng phần mềm thống kê chuyên dụng khác SPSS, SAS, Splus, R, STATA, GAUSS Trong số phần mềm nêu trên, phần mềm R phần mềm miễn phí lại có ưu điểm vượt trội nhiều phần mềm thương mại khác Copyright© 2008 Development and Policies Research Center (DEPOCEN) Một số lưu ý: Dòng cho người sử dụng biết tên biến số Mỗi dòng bảng số liệu gọi quan sát Đơn vị quan sát cấp cá nhân (số liệu cá nhân), hộ gia đình (số liệu gia đình), cơng ty, quận, tỉnh, quốc gia Số liệu không thiết phải dạng số (numerics), mà dạng chữ (string) Trong Hình 1, cột thứ 2, thể biến số Tên cho ta thấy số liệu tên người dạng chữ NHẬP DỮ LIỆU  Để có số liệu Hình 1, thơng thương người sử dụng/nhà nghiên cứu phải tiến hành nhập số liệu vào EXCEL Việc nhập liệu Excel đơn giản Một bảng EXCEL (worksheet) chia thành dòng cột Dòng đánh dấu số cột đánh số chữ Dịng cột tạo worksheet Mỗi có địa theo số dịng chữ cột Để nhập liệu vào ô, cần phải ô cần nhập liệu ô hoạt động Để làm điều này, nhấn chuột vào Mỗi chứa dãy ký tự, giá trị số, giá trị logic chứa công thức Dãy ký tự bao gồm chữ, số ký hiệu Giá trị số số tự nhiên mà biết có số dùng tính tốn Giá trị logic giá trị cho ta biết điều “đúng” “sai” Cơng thức cho phép thực việc tính tốn cách tự động giá trị ô khác BỘ CƠNG CỤ DATA ANALYSIS TOOLPACT  Microsoft Excel có cơng cụ dùng để phân tích liệu gọi Analysis Toolpack mà sử dụng để phân tích liệu Nếu lệnh Data Analysis hiển thị cơng cụ Tool menu, cơng cụ Analysis Toolpack cài hệ thống Nếu khơng tiến hành cài cơng cụ sau Trước hết bạn chọn công cụ Tool, sau chọn Add-ins, sau nhấn nút OK Copyright© 2008 Development and Policies Research Center (DEPOCEN) Nếu như, mục Analysis Toolpack không liệt kê cửa sổ Add-ins bạn bấm nút Browse để tìm tệp Analys32.xll thường program files\microsoft office\office\ library\analysis Sau tìm chọn tệp analyse32.xll, bạn nhấn nút OK Sau làm thao tác này, công cụ Analysis Toolpack cài đặt bạn sử dụng Microsoft Excel phần mềm bảng tính mạnh sử dụng để trì thông tin liệu theo cột hàng Phần mềm Excel thực công việc theo workbooks, workbook lại có worksheet, worksheet nơi mà liệt kê phân tích liệu với Excel Khi bắt đầu khích hoạt phần mềm Excel, worksheet trắng hiển thị, bao gồm nhiều ổ bảng tính Mỗi bảng tính dẫn chiếu thơng qua toạ độ chúng THỐNG KÊ MƠ TẢ  Bộ cơng cụ Data Analysis Toolpack có cơng cụ để tiến hành thực phương pháp thống kê mô tả Để tiến hành tìm đại lượng thống kê mô tả, ta thực bước sau Bước Từ menu chọn Tool, thấy lệnh data analysis có hiển thị, chọn lệnh này, không chọn add-ins để cài đặt Analysis Toolpack nêu Bước Sau chon data analysis, chọn descriptive statistics Copyright© 2008 Development and Policies Research Center (DEPOCEN) Bước Khi xuất cửa sổ Descriptive statistics, nhập khoảng liệu, sau chọn ô để Excel xuất kết Sau bấm OK xem xét kết thu Copyright© 2008 Development and Policies Research Center (DEPOCEN) Ta thấy Excel cho ta đại lượng thống kê mơ tả trung bình (mean), độ lệch chuẩn (standard deviation), phương sai (variance), dải biến thiên (range), số quan sát (count), giá trị tối đa giá trị tối thiểu, trung vị (median), sai số chuẩn trung bình mẫu (standard error) PHÂN PHỐI CHUẨN  Giả sử muốn tìm xác suất biến X nhận giá trị nhỏ giá trị định Chúng ta giả sử điểm số cá nhân lớp phân bổ theo phân phối chuẩn có trị trung bình 500 độ lệch chuẩn 100 Các câu hỏi mà phải trả lời a Xác suất để sinh viên chọn ngẫu nhiên có điểm số thấp 600 bao nhiêu? b Xác suất để sinh viên chọn ngẫu nhiên có điểm số cao 600 bao nhiêu? c Xác suất để sinh viên chọn ngẫu nhiên có điểm số nằm khoảng 400600 bao nhiêu? Copyright© 2008 Development and Policies Research Center (DEPOCEN) Gợi ý: Khi sử dụng Excel tìm xác suất biến X nhận giá trị nhỏ giá trị cho trước Và biết trị trung bình độ lệch chuẩn, phải suy nghĩ cách “thơng minh” để tính tốn biết tổng xác suất nằm đường cong chuẩn Giải đáp Bước Chọn ô mà ta muốn Excel xuất kết quả, sau chọn Insert Bước Sau bấm vào insert chọn Function Bước Sau bấm vào Function, cửa sổ insert function xuất Chúng ta chọn statistical, sau chọn Normdist số hàm có sẵn Excel Copyright© 2008 Development and Policies Research Center (DEPOCEN) Bước Sau nhấn OK, cửa sổ Normdist xuất hiện, cung cấp thông số cần thiết Chúng ta điền 600 vào X, 500 vào ô mean, 100 vào ô standard deviation, điền true vào ô cumulative box, sau nhấn OK 10 Copyright© 2008 Development and Policies Research Center (DEPOCEN) KIỂM ĐỊNH SỰ KHÁC BIỆT GIỮA HAI TRUNG BÌNH TỔNG THỂ  8.1 Mẫu lớn:  Tại phần trình bầy cách sử dụng Excel để tiến hành kiểm định chênh lệch hay khác biệt trung bình hai tổng thể Giả thiết cở hai tổng thể có phương sai Giả sử trước tiến hành đưa sản phẩm thị trường, muốn tìm hiểu xem sức mua người dân thuộc hai thành phố Hà Nơi Hồ Chí Minh có tương đương hay khơng tiến hành điều tra mức thu nhập người dân hai thành phố Giả sử mẫu ngẫu nhiên gồm có 35 quan sát thể bảng Thu nhập người dân thành phố ký hiệu X1 X2 để dễ khái quát hoá Thu nhập Hà Nội Thu nhập Hồ Chí Minh X1 X2 6 6 6 6 6 6 6.5 6.5 6.5 6.5 6.5 6.5 10 6.5 6.5 11 6.5 12 6.5 13 7 14 7 15 7 16 7.5 17 7.5 18 7.5 19 7.5 18 Copyright© 2008 Development and Policies Research Center (DEPOCEN) 20 7.5 21 7.5 22 7.5 23 7.5 24 7.5 25 7.5 26 8 27 8.5 28 8.5 29 8.5 30 8.5 31 8.5 32 33 34 35 Miền giá trị X1 nằm khoảng 6-8 X2 biến động khoảng 6-9 Mục đích muốn tiến hành kiểm định xem có khác biệt đáng kể giá trị trung bình hai tổng thể hay không Giả thuyết trống hai tổng thể có trị trung bình nhau, H0: μ1=μ2, giả thuyết thay trung bình hay tổng thể khác H : μ1 ≠ μ , với μ1 μ2 trung bình tổng thể X1 X2 Sử dụng công cụ thống kê mơ tả trình bày tính tốn trung bình phương sai hai mẫu Excel tiến hành kiểm định chênh lệch hai tổng thể cần thông tin phương sai hai tổng thể Do phương sai tổng thể (trong hầu hết trường hợp tham số tổng thể kỳ vong toán hay phương sai đại lượng chưa biết), nên sử dụng phương sai mẫu để thay cho phương sai tổng thể Thống kê mô tả cho thấy phương sai mẫu X1 0.57, phương sai mẫu X2 0.98 19 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Để tiến hành kiểm định giả thuyết chênh lệch trung bình hai tổng thể với Excel ta thực bước sau: Bước Chọn Tools, sau chọn Data Analysis làm Bước Khi cửa sổ Data analysis xuất hiện, chọn Z-test: two sample for means, chọn OK Bước Khi số z-test: Two samples for means xuất hiện, điền khoảng liệu vào khoảng variable range variable range tương ứng với X1 X2 Tiếp sau điền (zero) vào ô Hypothesis mean difference (về mặt nguyên tắc điền giá trị mà ta muốn), sau ta điền giá trị phương sau mẫu biến X1 X2 vào ô variable variance variable variance cách tương ứng Tiếp phải chọn mức ý nghĩa α, chọn 0.05 ví dụ chọn giá trị mà ta muốn Cuối chọn nơi để Excel xuất kết quả, chọn OK 20 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Sau bấm OK ta có cửa sổ kết sau 21 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Ta để ý thấy số giá trị tới hạn đại lượng z với kiểm định bên kiểm định bên Tuy theo yêu cầu đầu ta chọn giá trị tới hạn bên hay hai bên cho phù hợp Nếu giá trị đại lượng kiểm định z nằm khoảng -1.96 tới +1.96 không bác bỏ giả thuyết trống Ngược lại z nằm khoảng ta bác bỏ giả thuyết trống 8.2 Mẫu nhỏ: Một trong hai mẫu có số lượng các quan sát nhỏ hơn 30.  Tại phần trình bầy sử dụng Excel để kiểm định giả thuyết khác biệt hai trung bình tổng thể hai tổng thể có phương sai số lượng quan sát mẫu nhỏ Tương tự trên, mục tiêu việc kiểm định để đánh giá xem hai trung bình tổng thể có khác hay khơng Giả thuyết trống hai tổng thể có trị trung bình nhau, H0: μ1=μ2, giả thuyết thay trung bình hay tổng thể khác H : μ1 ≠ μ , với μ1 μ2 trung bình tổng thể X1 X2 Giả sử lần có liệu X1 X2 sau 22 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Ở phần phải tính phương sai hai mẫu, phần Excel tự động tính tốn đại lượng sử dụng đại lượng việc tính toán giá trị đại lượng kiểm định Để kiểm định giả thuyết trường hợp thực bước sau Bước Trong Excel chọn Tool, sau chon Data Analysis, cửa sổ Data Analysis xuất hiện, chọn: t-test: Two sample assuming equal variance, sau nhấn OK Bước Khi cửa sổ t-test: Two samples assuming equal variance xuất hiện, nhập khoảng liệu biến X1 vào ô variable range, khoảng liệu biến X2 vào ô variable range, sau điền số (zero) vào ô Hypothesis mean difference (nếu muốn kiểm định với giá trị khác, ví dụ μ1-μ2=2, ta điền giá trị vào ô này), ta chọn labels để Excel nhận biết dòng hai cột liệu X1 X2 khơng phải số liệu dùng để tính tốn, tiếp ta chọn mức ý nghĩa α, ví dụ ta chọn 0.05 mức thường sử dụng, chọn mức α mà ta muốn, sau ta chọn nơi để Excel xuất kết quả, bấm OK 23 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Giá trị đại lượng kiểm định t -1.16563 Chúng ta bác bỏ giả thuyết hai tổng thể có kỳ vọng tốn (trung bình tổng thể) đại lượng kiểm định t+2.086 Các giá trị tìm cách tra bảng phân phối t, t giá trị biến ngẫu nhiên tuân thủ phân phối t có n1 + n2 − bậc tự với mức ý nghĩa α=0.05 Trong bảng kết Excel, ta thấy giá trị đại lượng kiểm định không nằm ngồi khoảng từ -2.086 đến +2.086, nên ta khơng bác bỏ giả thuyết trống Ta sử dụng đại lượng thống kê p, ta so sánh đại lượng với mức ý nghĩa α, ta không bác bỏ giả thuyết trống Lưu ý: Ở vừa tiến hành kiểm định dựa giả thiết hai tổng thể có phương sai Nếu không muốn sử dụng giả thiết này, chọn t-test: Two samples assuming unequal variances Trên thực tế ứng dụng, hai kiểm định hầu hết trường hợp cho kết Tuy nhiên, “an toàn” sử dụng kiểm định t không giả thiết hai tổng thể có phương sai 24 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Để thực kiểm định này, chọn t-test: Two samples assuming unequal variance sau: Sau lặp lại bước trường hợp hai tổng thể có phương sai ta có kết 25 Copyright© 2008 Development and Policies Research Center (DEPOCEN) TƯƠNG QUAN TUYẾN TÍNH VÀ PHÂN TÍCH HỒI QUI  Tại phần tìm hiểu xem liệu hai biến ngẫu nhiên x y có tương quan với hay khơng Sau xây dựng mơ hình để dự đốn biến thơng qua biến khác Có nhiều ví dụ mà sử dụng, đề cập tới ví dụ hay sử dụng kinh doanh Thông thường biến độc lập (biến giải thích) ký hiệu chữ X biến phụ thuộc ký hiệu chữ Y Một nhà kinh doanh muốn xem xét xem liệu có mối quan hệ số lượng hộp soda bán nhiệt độ ngày hè nóng dựa thơng tin khứ Đồng thời nhà kinh doanh muốn ước lượng số lượng hộp soda mà bán ngày hè nóng Để làm điều này, nhà kinh doanh ghi chép cẩn thận nhiệt độ số lượng hộp soda bán ngày Bảng liệu sau cho ta biết số liệu từ ngày 1/6 đến ngày 13/6 Người dự báo thời tiết truyền hình dự 26 Copyright© 2008 Development and Policies Research Center (DEPOCEN) báo nhiệt độ lên tới 94 độ F vào ngày 14/6, nhà kinh doanh muốn đáp ứng tất nhu cầu cho khách hàng đối vào ngày 14/6 Ngày 1/6 2/6 3/6 4/6 5/6 6/6 7/6 8/6 9/6 10/6 11/6 12/6 13/6 57 59 65 67 75 81 86 88 88 84 82 80 83 Nhiệt 56 58 63 66 73 78 85 85 87 84 88 84 89 Hộp soda bán độ Trước hết, sử dụng Excel để tìm hệ số tương quan tuyến tính lượng hộp soda bán nhiệt độ ngày Sau ta sử dụng Excel để tìm đường hồi qui 9.1 Phân tích tương quan tuyến tính  Hệ số tương quan tuyến tính đại lượng nằm khoảng -1 +1 Đại lượng ký hiệu r Để tìm r ta thực bước sau: Bước Mở Excel nhập liệu sau tơ đậm liệu ta cần phân tích, từ menu ta chọn Tool chọn Data analysis Khi ta tơ đậm liệu cần phân tích trên, bước sau Excel thơng minh để nhận biết liệu ta cần phân tích khoảng liệu nào, ta điền khoảng liệu bước 27 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Bước Khi cửa sổ Data Analysis xuất hiện, ta chọn correlation Bước Khi cửa sổ tương quan xuất ta điền khoảng liệu vào mục input range cửa sổ này, sau nhấn OK Nếu bước ta tơ đậm khoảng liệu Excel nhận biết điều ta điền vào khoảng liệu vào mục input 28 Copyright© 2008 Development and Policies Research Center (DEPOCEN) range Đồng thời ta chọn Labels in first row để Excel nhận biết ta chọn khoảng liệu đầu output range nơi để Excel xuất kết phân tích Sau ta thu kết sau Như ta thấy hệ số tương quan gần +1, quan hệ tương quan hai biến mạnh Điều có nghĩa nhiệt độ tăng lên nhu cầu nước uống soda hộp tăng lên 9.2 Phân tích hồi qui  Để tìm đường hồi qui, ta thực bước tương tự Bước 1: Sau nhập liệu, ta chọn Tool chọn data analysis Bước 2: Khi cửa sổ data analysis xuất hiện, ta chọn regression 29 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Bước 3: Khi cửa sổ regression xuất hiện, ta điền khoảng liệu vào cho biến phụ thuộc Y biến độc lập X, đồng thời chọn Labels Ở biến X Y hoàn toàn ta lựa chọn Người nghiên cứu phải thận trọng việc tiến hành phân tích hồi qui Excel la cơng cụ thực lệnh mà yêu cầu thực 30 Copyright© 2008 Development and Policies Research Center (DEPOCEN) Bước 4: Sau tiến hành chọn nơi để Excel xuất kết Ta thực điều cách cung cấp thông tin cho Excel cách điền vào output range, sau ấn OK Quan hệ số hộp soda bán nhiệt độ là: Y=0.879*X+9.178 Sử dụng cơng thức ta dự đốn cách xấp xỉ số lượng hộp soda bán vào ngày 31 Copyright© 2008 Development and Policies Research Center (DEPOCEN) 14/6 Nhiệt độ dự đoán lên tới 94F, số hộp soda bán là: Y=0.879*94+9.178 = khoảng 92 hộp Ở ta xem xét hàm hồi qui tuyến tính đơn giản, biến phụ thuộc chịu ảnh hưởng biến độc lập Chúng ta mở rộng mơ hình hồi qui cách đưa thêm biến khác vào mơ hình Điều thực Excel vơ đơn giản Ở bước vừa nêu trên, điền khoảng liệu cho biễn X ta chọn nhiều cột bảng tính Excel 32 ... thị phân tích thống kê (thống kê mơ tả, kiểm định giả thuyết phân tích hồi qui).1 Tên biến Số liệu Hình 1: Ví dụ số liệu EXCEL Để thực phân tích thống kê phức tạp hơn, phải sử dụng phần mềm thống. .. GIỚI THIỆU  EXCEL chương trình bảng tính Microsoft® phát triển Đây chương trình bảng tính sử dụng rộng rãi Trong EXCEL có cơng cụ cho phép người sử dụng tiến hành phân tích liệu thống kê EXCEL sử dụng. .. Microsoft Excel có cơng cụ dùng để phân tích liệu gọi Analysis Toolpack mà sử dụng để phân tích liệu Nếu lệnh Data Analysis hiển thị công cụ Tool menu, cơng cụ Analysis Toolpack cài hệ thống Nếu

Ngày đăng: 20/06/2014, 23:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan