ứng dụng tin học cho thống kê

15 116 0
ứng dụng tin học cho thống kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

bài tập này là bài tập nhóm được thực hành trên phần mềm Matlab, dưới đây là một số bài tập nhằm nêu ví dụ rõ ràng hơn về cách viết hàm cũng như tính toán liên qaun đén thống kê bằng Matlab, qua đó cho những sinh viên có thể tham khảo để vận dụng giải những bài tập cho bản thân mình. đây là một môn học rất quan trọng đối với chuyến ngadnh Toán ứng dụng.

THỐNG MƠ TẢ • Bài tập 1: Dưới số liệu huyết áp 40 bệnh nhân độ tuổi trung niên bệnh viện A: 93 78 83 126 130 81 134 85 137 139 84 81 90 143 100 79 96 145 146 120 139 120 124 114 111 129 85 96 97 102 146 126 135 143 134 123 111 86 98 108 a Tính thống giá trị thống mô tả biến huyết áp b Vẽ đồ thị cho cho dự liệu câu a c Xây dựng bảng tần số phân bố nhóm huyết áp 70 – 90, 90 – 110, 110 – 130, 130 – 150 Vẽ đồ thị đường biểu thị huyết áp theo nhóm BÀI LÀM • 16 11 23 19 Bài tập 2: Dưới số liệu nhân viên tin phân bố Khoa – Viện trực thuộc Đại học Trà Vinh 27 22 11 23 15 23 16 20 30 16 29 30 18 14 13 16 26 18 14 17 17 21 26 26 a Tính thống giá trị thống mô tả liệu b Vẽ đồ thị cho cho dự liệu câu a c Chia tập liệu thành nhóm xây dựng bảng tần số với nhóm chia Sau vẽ biểu đồ cột ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ THỐNG KIỂM ĐỊNH PHÂN PHỐI CHUẨN MỘT CHIỀU • Bài tập 1: Số điểm 25 sinh viên lựa chọn ngẫu nhiên tự lớp học tính tốn lớp đưa 47 73 90 22 68 94 32 88 86 80 48 70 61 82 67 78 86 97 73 78 55 63 59 42 46 Kiểm tra phân phối chuẩn liệu Bài tập 2: Dưới kết thu sau khảo sát ngẫu nhiên 30 sinh viên thời gian tự học trung bình tuần (đơn vị: phút) 60 120 45 90 55 80 70 75 65 100 115 60 30 150 90 40 135 140 110 40 120 50 80 100 120 100 60 Kiểm tra phân phối chuẩn liệu ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ THỐNG CƠ BẢN • • Bài tập 1: Một Bài tập 2: ƯỚC LƯỢNG VÀ KIỂM ĐỊNH HAI MẪU • Bài tập 1: • Bài tập 2: KIỂM ĐỊNH PHI THAM SỐ Kiểm định tính độc lập: Nhập hàm fuction: function [chi2, pvalue, eij]=tablerxc(O) [r,c]=size(O); n=sum(sum(O)); colums=sum(O); rows=sum(O')'; eij=rows*colums/n; size(eij); chi2=sum(sum((eij-O).^2./eij)); df=(r-1)*(c-1); pvalue=1-chi2cdf(chi2,df); gtqs=chi2inv(0.95,(r-1)*(c-1)); Tiến hành lưu file lại với tên tablerxc.m chạy fuction kiểm định độc lập: • Bài tập 1: Dưới bảng số liệu thống chất lượng sản phẩm ba sở công ty sản xuất trứng Cơ sở I Cơ sở II Cơ sở III Tốt 50 45 34 Chất lượng Đạt yêu cầu Cần sửa 121 15 95 16 88 17 Phế phẩm 20 21 30 80 70 95 Với mức ý nghĩa 5%, kiểm định xem chất lượng sản phẩm có phụ thuộc vào nơi đặt sở hay không Bài giải Đặt Giả thiết H0: Khơng có ảnh hưởng nơi đặt sở sản xuất chất lượng sản phẩm Đối thiết H1: Có hưởng nơi đặt sở sản xuất chất lượng sản phẩm >> O=[50 121 15 20;45 95 16 21;34 88 17 30] O= 50 121 15 20 45 95 16 21 34 88 17 30 >> [chi2, T, pvalue, eij]=tablerxc(O) chi2 = 7.7275 T= 12.5916 pvalue = 0.2588 eij = 48.1413 113.4493 17.9130 26.4964 41.3641 97.4783 15.3913 22.7663 39.4946 93.0725 14.6957 21.7373 Nhận xét: chi2 = 7.7275 < T=12.5916 p-value=0.2588>α=0.05 nên ta bác bỏ giả thiết khơng có ảnh hưởng nơi đặt sở sản xuất chất lượng sản phẩm • Bài tập 2: Người ta tiến hành khảo sát thời gian sử dụng facebook thiếu niên ngày nay, 445 người ngẫu nhiên, thu bảng kết Hãy tiến hành kiểm định xem có mối liên hệ giới tính thời gian sử dụng facebook hay không.(đơn vị: giờ/ngày) Giới tính Nữ nam Từ 2-3h 45 65 Thời gian sử dụng facebook Từ 3-4h Từ 4-5 Từ 5-6h 58 74 32 39 85 47 Bài giải Tổng 209 236 Đặt Giả thiết H0: Khơng có ảnh hưởng giới tính thời gian sử dụng facebook Đối thiết H1: Có hưởng giới tính thời gian sử dụng facebook >> TG=[45 58 74 32;65 39 85 47] TG = 45 58 74 32 65 39 85 47 >> [chi2,T, pvalue, eij]=tablerxc(TG) chi2 = 9.3634 T= 7.8147 pvalue = 0.0248 eij = 51.6629 45.5573 74.6764 37.1034 58.3371 51.4427 84.3236 41.8966 Nhận xét: p-value = 0.0248 < α=0.05 chứng tỏ kiểm định có ý nghĩa thống với mức ý nghĩa 5% chi2 = 9.3634 > T= 7.8147 nên ta kết luận mức ý nghĩa 5% chấp nhận gải thiết bác bỏ đối thiết Tức ta kết luận khơng có ảnh hưởng giới tính thời gian sử dụng facebook KIỂM ĐỊNH CHI BÌNH PHƯƠNG • Bài tập 1: • Bài tập 2: KIỂM ĐỊNH KOLMOGOROV-SMIRNOV • Bài tập 1: • Bài tập 2: KIỂM ĐỊNH TỶ SỐ PHƯƠNG SAI • Bài tập 1: • Bài tập 2: PHÂN TÍCH HỒI QUY HỒI QUY TUYẾN TÍNH ĐƠN Bài tập 1: người ta tiến hành thu thập số liệu 11 xe máy Honda qua sữ dụng sau: STT 10 11 Số năm sử dụng (năm)(X) 5 6 7 Giá bán (triệu đồng)(Y) 8.5 10.3 8.2 8.9 9.8 6.6 9.5 16.9 4.8 Lập mơ hình hồi quy tuyến tính biểu diễn mối liên hệ số năm sử dụng xe giá bán xe • Giải: Nhập số liệu tính tốn thông số bản: >> x=[5 5 6 7]; >> y=[8.5 10.3 8.2 8.3 9.8 6.6 9.5 16.9 4.8]; >> n=length(x) n= 11 >> Sxx=sum((x - mean(x)).^2) Sxx = 20.1818 >> Sxy=sum((x-mean(x)).*(y-mean(y))) Sxy = -40.7273 >> Syy=sum((y-mean(y)).^2) Syy = 97.3691 >> b1=Sxy/Sxx b1 = -2.0180 >> b0=mean(y) - b1*mean(x) b0= 19.4495 >> yhat=b0+b1*x Yhat= 9.3595 11.3775 7.3414 9.3595 9.3595 9.3595 7.3414 7.3414 15.4135 5.3234 5.3234 >> SSE=sum((y-yhat).^2) SSE = 15.1807 >> SSR=sum((yhat-mean(y)).^2) SSR = 82.1884 >> SST=Syy SST = 97.3691 >> R_squared=SSR/SST R_squared = 0.8441 Mức độ phù hợp mơ hình 84.41% >> R_adjsquared=1-((n-1)*SSE)/((n-2)*SST) R_adjsquared = 0.8268 Mức độ phù hợp mơ hình khơng có yếu tố tương tác 82.68% >> r=Sxy/sqrt((Sxx)*(Syy)) r= -0.9187 R =-0.9187 >0.8 cho thấy biến thời gian sử dụng giá bán có mơi tương quan chặc chẽ tương quan nghịch • Kiểm định tồn mơ hình: Đặt giả thiết H0: Khơng có tồn mơ hình Đối thiết H1: Có tồn mơ hình >> tinv(0.95,10) ans = 1.8125 Ta có miền bác bỏ =(-1.8125)(1.8125;+) Giá trị quan sát: >> T=b1/(sqrt(SSE/(n-2))/sqrt(Sxx)) T= -6.9804 Vì T = -6.9804 thuộc vào miền bác bỏ nên ta bác bỏ giả thiết, chấp nhận đối thiết Vậy ta kết luận mơ hình Y = 19.4495 - 2.0180*X có tồn Bài tập 2: Một sinh viên thống doanh nghiệp thực điều tra ngẫu nhiên mẫu gồm số người bạn tốt nghiệp mức lương khởi điểm điểm trung bình học đại học họ Kết sau: Mức lương khởi điểm (triệu đồng)(X) 3.1 2.5 2.5 1.9 2.2 2.8 1.6 2.2 Điểm trung bình học đại học (Y) 7.0 6.0 6.5 5.0 6.0 6.5 5.5 5.5 Giải: >> x=[3.1 2.5 2.5 1.9 2.2 2.8 1.6 2.2]; >> y=[7.0 6.0 6.5 5.0 6.0 6.5 5.5 5.5]; >> n=length(x) n= >> Sxx=sum((x-mean(x)).^2) Sxx = 1.6200 >> Sxy=sum((x-mean(x)).*(y-mean(y))) Sxy = 1.9500 >> Syy=sum((y-mean(y)).^2) Syy = >> b1=Sxy/Sxx b1 = 1.2037 >> b0=mean(y) - b1*mean(x) b0 = 3.1713 >> yhat=b0+b1*x yhat = 6.9028 6.1806 6.1806 5.4583 5.8194 6.5417 5.0972 5.8194 >> SSE=sum((y-yhat).^2) SSE = 0.6528 >> SSR=sum((yhat-mean(y)).^2) SSR = 2.3472 >> SST=Syy SST = >> R_squared=SSR/SST R_squared = 0.7824 Mức độ phù hợp mơ hình 78.24% >> R_adjsquared=1-((n-1)*SSE)/((n-2)*SST) R_adjsquared = 0.7461 Mức độ phù hợp mô hình khơng có yếu tố tương tác 74.61% >> r=Sxy/(sqrt((Sxx)*(Syy))) r= 0.8845 r = 0.8845 > 0.8 cho thấy biến mức lương điểm trung bình đại học có mơi tương quan chặc chẽ tương quan thuận • Kiểm định tồn mơ hình: Đặt giả thiết H0: Khơng có tồn mơ hình Đối thiết H1: Có tồn mơ hình >> tinv(0.95,10) ans = 1.8125 Ta có miền bác bỏ =(-1.8125) (1.8125;+) Giá trị quan sát: >> T=b1/(sqrt(SSE/(n-2))/sqrt(Sxx)) T= 4.6448 Vì T = 4.6448 thuộc vào miền bác bỏ nên ta bác bỏ giả thiết, chấp nhận đối thiết Vậy ta kết luận mô hình Y = 3.1713 + 1.2037*X có tồn HỒI QUY TUYẾN TÍNH BỘI Bài tập 1: Nhà nghiên cứu đo lường độ cholestrol máu 18 đối tượng nam Tỉ trọng thể (body mass index) ước tính cho đối tượng cơng thức tính BMI lấy trọng lượng (tính kg) chia cho chiều cao bình phương (m2) Kết đo lường sau: Age 46 20 52 30 BMI 25.4 20.6 26.2 22.6 Cholesterol 3.5 1.9 4.0 2.6 57 25.4 4.5 25 23.1 3.0 28 22.7 2.9 36 24.9 3.8 22 19.8 2.1 43 25.3 3.8 57 23.2 4.1 33 21.8 3.0 22 20.9 2.5 63 26.7 4.6 40 26.4 3.2 48 21.2 4.2 28 21.2 2.3 49 22.8 4.0 Hãy lập mơ hình hồi quy tuyến tính Cholesterol theo Age BMI >> age=[46; 20; 52; 30; 57; 25; 28; 36; 22; 43; 57; 33; 22; 63; 40; 48; 28; 49]; >> chol=[3.5; 1.9; 4.0; 2.6; 4.5; 3.0; 2.9; 3.8; 2.1; 3.8; 4.1; 3.0; 2.5; 4.6; 3.2; 4.2; 2.3; 4.0]; >> bmi=[25.4; 20.6; 26.2; 22.6; 25.4; 23.1; 22.7; 24.9; 19.8; 25.3; 23.2; 21.8; 20.9; 26.7; 26.4; 21.2; 21.2; 22.8]; >> LinearModel.fit([age, bmi],chol) ans = Linear regression model: y ~ + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue _ _ (Intercept) 0.45546 0.91823 0.49602 x1 0.054052 0.0075911 x2 0.033364 0.62707 7.1204 3.5039e-06 0.046866 0.71189 0.48746 Number of observations: 18, Error degrees of freedom: 15 Root Mean Squared Error: 0.307 R-squared: 0.881, Adjusted R-Squared 0.866 F-statistic vs constant model: 55.8, p-value = 1.13e-07 Xét thấy biến age(x1 ) có p-value=3.5039 × 10-6 0.05 nên ta suy mơ hình có tượng đa cộng tuyến Khắc phục đa cộng tuyến: >> corrcoef([age,bmi]) ans = 1.0000 0.6914 0.6914 1.0000 Ta thấy hệ số tương quan biến mạnh ta tiến hành chạy mơ hình sau loại bỏ biến Mơ hình lại biến BMI: >> LinearModel.fit([age],chol) ans = Linear regression model: y ~ + x1 Estimated Coefficients: Estimate SE tStat pValue (Intercept) x1 1.0892 0.22147 4.9182 0.00015439 0.057788 0.005399 10.704 1.0581e-08 Number of observations: 18, Error degrees of freedom: 16 Root Mean Squared Error: 0.303 R-squared: 0.877, Adjusted R-Squared 0.87 F-statistic vs constant model: 115, p-value = 1.06e-08 Mơ hình loại bỏ biến Age: >> LinearModel.fit([bmi],chol) ans = Linear regression model: y ~ + x1 Estimated Coefficients: Estimate SE tStat pValue _ _ (Intercept) -2.8319 1.6084 -1.7607 0.097393 năm 1928 1929 1230 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1945 1946 1947 1948 1949 1950 Tiêu dùng nội địa (y) 52.8 62.2 58.6 56.6 51.6 51.1 54 57.2 62.8 65 63.9 67.5 71.3 76.6 86.3 95.7 98.3 100.3 103.2 108.9 Thu nhập từ lương (x1) 39.21 42.31 40.37 39.15 34.00 33.59 36.88 39.27 45.51 46.06 44.16 47.68 50.79 57.78 78.97 73.54 74.92 74.01 75.51 80.971 Thu nhập khác phi nông nghiệp (x2) 17.73 20.29 18.83 17.44 14.76 13.39 13.93 14.67 17.2 17.15 15.92 17.59 18.49 19.18 19.12 19.76 17.55 19.17 20.20 22.12 Thu nhập từ nông nghiệp (x3) 4.39 4.6 3.25 2.61 1.67 2.44 2.39 5.00 3.93 5.48 4.37 4.51 4.90 6.37 8.42 9.27 8.87 9.3 6.95 7.15 x1 0.2641 0.068611 3.8492 0.0014178 Number of observations: 18, Error degrees of freedom: 16 Root Mean Squared Error: 0.623 R-squared: 0.481, Adjusted R-Squared 0.448 F-statistic vs constant model: 14.8, p-value = 0.00142 Nhìn vào kết ta thấy mơ hình phù hợp bi toỏn ny l Cholesterol = 1.0892 + 0.057788ìAge Bài tập 2:Ví dụ lấy từ William E.Griffiths et al, Learning and Practicing Econometrics, John Wiley&Sons Inc, 1998, trang 433 Nghiên cứu Klein Golberger(1995) quan hệ tiêu dùng nội địa C, thu nhập từ lương W, thu nhập khác phi nông nghiệp P thu nhập từ nông nghiệp A kinh tế Hoa Kỳ từ năm 1928 đến 1950, với số liệu năm 1942 đến 1944 bị loại khỏi liệu thực hồi quy tiêu dùng nội địa theo ba loại thu nhập sau: Giải: >>y=[52.8;62.2;58.6;56.6;51.6;51.1;54;57.2;62.8;65;63.9;67.5;71.3;76.6;86.3;95.7;98.3;100.3;103.2;108 9]; >>x1=[39.21;42.31;40.37;39.15;34.00;33.59;36.88;39.27;45.51;46.06;44.16;47.68;50.79;57.78;78.97;73 54;74.92;74.01;75.51;80.91]; >>x2=[17.73;20.29;18.83;17.44;14.76;13.39;13.93;14.67;17.20;17.15;15.92;17.59;18.49;19.18;19.12;19 76;17.55;19.17;20.20;22.12]; >> x3=[4.39;4.6;3.25;2.61;1.67;2.44;2.39;5;3.93;5.48;4.37;4.51;4.90;6.37;8.42;9.27;8.87;9.30;6.95;7.15]; >> LinearModel.fit([x1,x2,x3],y) ans = Linear regression model: y ~ + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue _ (Intercept) 7.2508 8.8889 0.81571 0.42664 x1 1.1358 0.17242 6.5874 6.2479e-06 x2 0.4078 0.64539 0.63188 0.53639 x3 -0.4112 1.1069 -0.37149 0.71515 Number of observations: 20, Error degrees of freedom: 16 Root Mean Squared Error: 4.52 R-squared: 0.954, Adjusted R-Squared 0.945 F-statistic vs constant model: 111, p-value = 6.6e-11 Trừ biến x1 ta thấy biến x2 & x3 có giá trị p-value > 0.05 nên suy mơ hình xuất đa cộng tuyến Khắc phục đa cộng tuyến: >> corrcoef([x1,x2,x3]) ans 1.0000 0.7093 0.9188 0.7093 1.0000 0.6306 0.9188 0.6306 1.0000 Ta thấy hệ số tương quan x3_x2 & x3_x1, x2_x1 & x2_x3 có hệ số tương quan lớn nên ta tiến hành loại biến x2 biến x3 o sanh mơ hình Mơ hình loại x3: >> LinearModel.fit([x1,x2],y) ans = Linear regression model: y ~ + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue _ (Intercept) 7.6638 x1 1.0806 x2 0.42592 8.5926 0.085219 0.8919 0.3849 12.68 4.3082e-10 0.62701 0.67928 0.50611 Number of observations: 20, Error degrees of freedom: 17 Root Mean Squared Error: 4.41 R-squared: 0.954, Adjusted R-Squared 0.948 F-statistic vs constant model: 175, p-value = 4.66e-12 Mơ hình loại x2 >> LinearModel.fit([x1,x3],y) ans = Linear regression model: y ~ + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue _ (Intercept) x1 12.324 3.7482 1.182 0.15338 3.2878 0.0043425 7.7062 6.0517e-07 x2 -0.46404 1.0841 -0.42806 0.67398 Number of observations: 20, Error degrees of freedom: 17 Root Mean Squared Error: 4.44 R-squared: 0.953, Adjusted R-Squared 0.947 F-statistic vs constant model: 172, p-value = 5.34e-12 Xét thấy mơ hình cho R2 cao, ta lựa chọn mơ hình có R cao làm mơ hình hồi quy thích hợp nhhaast Vậy mơ hình hồi quy cho biến tiêu dùng là: Tiêu dùng nội địa = 7.6638 + 1.0806× thu nhập từ lương + 0.42592×thu nhập khác phi nơng nghiệp ... viên tin phân bố Khoa – Viện trực thuộc Đại học Trà Vinh 27 22 11 23 15 23 16 20 30 16 29 30 18 14 13 16 26 18 14 17 17 21 26 26 a Tính thống kê giá trị thống kê mô tả liệu b Vẽ đồ thị cho cho... 111 129 85 96 97 102 146 126 135 143 134 123 111 86 98 108 a Tính thống kê giá trị thống kê mô tả biến huyết áp b Vẽ đồ thị cho cho dự liệu câu a c Xây dựng bảng tần số phân bố nhóm huyết áp 70... 2.0180*X có tồn Bài tập 2: Một sinh viên thống kê doanh nghiệp thực điều tra ngẫu nhiên mẫu gồm số người bạn tốt nghiệp mức lương khởi điểm điểm trung bình học đại học họ Kết sau: Mức lương khởi điểm

Ngày đăng: 05/05/2019, 14:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan