BÁO CÁO GIỮA KỲ Thống kê và phân tích dữ liệu

18 217 1
BÁO CÁO GIỮA KỲ Thống kê và phân tích dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thốngkê và phân tích dữ liệu

BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Thống kê phân tích liệu Mơ tả biến khả dụng I Thực lệnh describe Stata, ta bảng thống kê liệu: des Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA obs: 807 vars: 10 size: 19,368 16 Sep 1996 16:23 storage variable name type display value format label variable label educ float %9.0g years of schooling cigpric float %9.0g state cig price, cents/pack white byte %8.0g =1 if white age byte %8.0g in years income int %8.0g annual income, $ cigs byte %8.0g cigs smoked per day restaurn byte %8.0g =1 if rest smk restrictions lincome float %9.0g log(income) agesq int %9.0g age^2 lcigpric float %9.0g log(cigprice) Sorted by: Bảng Danh sách biến số liệt kê => Nhìn vào bảng 1, cho ta nhìn sơ lược mẫu quan sát ý nghĩa biến Lệnh describe cho ta biết mẫu có 807 quan sát, với 10 biến thực tổng kích cỡ liệu 19368 liệu Để đơn giản ta giải thích ý nghĩa cụ thể sau: Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Tên biến Kiểu liệu Dạng hiển thị Ý nghĩa educ Số thực Độ dài chữ số Số năm học cigpric Số thực Độ dài chữ số Giá bao thuốc lá, đơn vị cent/bao white Số nguyên Độ dài chữ số Bằng người da trắng age Số nguyên Độ dài chữ số Độ tuổi người khảo sát income Số nguyên Độ dài chữ số Thu nhập cigs Số nguyên Độ dài chữ số Số điếu thuốc hút ngày restaur n Số nguyên Độ dài chữ số Bang có hạn chế hút thuốc nhà hàng lincome Số thực Độ dài chữ số Loga tự nhiên thu nhập agesq Số nguyên Độ dài chữ số Độ tuổi bình phương lcigpric Số thực Độ dài chữ số Loga tự nhiên giá bao thuốc Bảng Giải thích chi tiết biến chọn Sau q trình phân tích đối chiếu số liệu, nhóm định chọn biến ngẫu nhiên rời rạc tổng số 10 biến làm biến độc lập mơ hình, gồm biến định lượng: “income”, “cigpric”, “educ”, “age” biến số định tính “restaurn” lượng hóa, để xét mối tương quan biến với biến phụ thuộc chọn là: “cigs” Mục đích nhóm đánh giá tác động biến thu nhập, chủng tộc, trình độ giá dục, độ tuổi khía cạnh trong luật để giải thích cho việc số điếu thuốc trung bình tiêu thụ ngày người tiêu dùng ngẫu nhiên Thực lệnh tabulate với số biến mô hình Thực lệnh tabulate với biến cigs Ta được: tab cigs Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình cigs | smoked per | day | Freq Percent Cum + | 497 61.59 61.59 | 0.87 62.45 | 0.62 63.07 | 0.62 63.69 | 0.25 63.94 | 0.87 64.81 | 0.37 65.18 | 0.25 65.43 | 0.37 65.80 | 0.25 66.05 10 | 28 3.47 69.52 11 | 0.25 69.76 12 | 0.50 70.26 13 | 0.25 70.51 14 | 0.12 70.63 15 | 23 2.85 73.48 16 | 0.12 73.61 18 | 0.37 73.98 19 | 0.12 74.10 20 | 101 12.52 86.62 25 | 0.87 87.48 28 | 0.37 87.86 30 | 42 5.20 93.06 33 | 0.12 93.18 35 | 0.25 93.43 40 | 37 4.58 98.02 50 | 0.74 98.76 55 | 0.12 98.88 60 | 0.99 99.88 80 | 0.12 100.00 + Total | 807 100.00 Bảng Bảng mô tả số lượng suất xuất Quan sát bảng tần suất biến số điếu thuốc trung bình hút ngày (cigs) ta biết tần suất lớn 497 quan sát 0, số người Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình khơng hút thuốc ngày chiếm tỷ lệ cao đạt 61,59% Tiếp theo sau quan sát: 20 điếu ngày với tần suất 101 lần xuất hiện, 30 điếu ngày với 42 lần quan sát Như vậy, thấy mẫu tỷ trọng người không điếu thuốc ngày cao điều ảnh hưởng lớn tới hệ số tương quan mơ hình chạy sau Tiếp tục thực lệnh tabulate với biến income ta bảng sau: tab income annual | income, $ | Freq Percent Cum + 500 | 0.62 0.62 1500 | 10 1.24 1.86 2500 | 10 1.24 3.10 3500 | 19 2.35 5.45 4500 | 13 1.61 7.06 5500 | 15 1.86 8.92 6500 | 32 3.97 12.89 8500 | 61 7.56 20.45 12500 | 125 15.49 35.94 20000 | 247 30.61 66.54 30000 | 270 33.46 100.00 + Total | 807 100.00 Bảng Bảng mô tả số lượng suất xuất Quan sát bảng tần số xác suất phân bố trên, dễ dàng nhận thu tần số xuất nhiều thường thấy mức thu nhập cao Cụ thể, mức 30000$ có tần suất xuất cao 270 lần, mức 20000$ có tần suất xuất thứ 247 lần mức 12500$ có tần suất 125 lần, sau giảm dần tần suất theo mức độ giảm thu nhập Như vậy, mẫu này, thu nhập cao từ 12500$ chiếm tỷ áp đảo gần 80% tần suất xuất Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Tiếp theo, để biết thông tin liên quan đến liệu thống kê biến mẫu (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ nhất) ta sử dụng lệnh summarize để xem Thực lệnh summarize với biến kể trên, ta có: sum cigs educ cigpric age income restaurn Variable | Obs Mean Std Dev Min Max -+ -cigs | 807 8.686493 13.72152 80 educ | 807 12.47088 3.057161 18 cigpric | 807 60.30041 4.738469 44.004 70.129 age | 807 41.23792 17.02729 17 88 income | 807 19304.83 9142.958 500 30000 -+ -restaurn | 807 2465923 4312946 Bảng Mô tả thông tin biến chọn Theo hiển thị bảng 5, theo thứ tự từ trái qua phải: Cột cho biết tên biến, cột cho biết số quan sát biến, cột cho biết giá trị trung bình biến, cột cho biết độ lệch chuẩn biến, cột cột giá trị lớn giá trị nhỏ Như nói trên, nhóm chọn biến để đưa vào mơ hình hồi quy mình, nhóm miêu tả lại khái quát biến sau: Biến cigs có 807 quan sát, giá trị trung bình 8,6864493, giá trị sai số tiêu chuẩn 13,72152 giá trị lớn nhất/ nhỏ là: 18 v.v Tiếp tục, muốn biết chi tiết mô tả biến cụ thể ta dùng lệnh có thêm detail, chọn biến cigs để làm miêu tả chi tiết, cụ thể sau: Thực lệnh tương tự, kèm thêm chữ detail sau dấu phẩy sum cigs, detail Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình cigs smoked per day Percentiles Smallest 1% 0 5% 0 10% 0 Obs 807 25% 0 Sum of Wgt 807 50% 75% 90% 95% 99% 20 30 40 60 Largest 60 60 60 80 Mean Std Dev 8.686493 13.72152 Variance Skewness Kurtosis 188.28 1.651144 5.413087 Bảng Mô tả chi tiết biến cigs Bảng 6, nêu rõ tất mô tả chi tiết biến phụ thuộc cigs Các thành phần xếp theo mức độ phần trăm Để biết quan hệ tương quan hay nhiều biến với nhau, ta sử dụng lệnh correlate, cụ thể sau: Thực lệnh correlate cho biến chọn: corr cigs educ cigpric age income restaurn (obs=807) | cigs educ cigpric age income restaurn -+ -cigs | 1.0000 educ | -0.0487 1.0000 cigpric | -0.0114 0.0310 1.0000 age | -0.0415 -0.1806 0.0293 1.0000 income | 0.0532 0.3344 0.0480 -0.0640 1.0000 restaurn | -0.0871 0.0605 0.1392 -0.0389 0.1060 Bảng Thống kê tương quan biến Nhóm 16 Trang 1.0000 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Kết quả: Tương quan r(x,y) Є [-1;1] Về mặt lý thuyết, tương quan biến phụ thuộc với biến độc lập cao tốt (cao hiểu gần phía -1 1), ngược lại thấp gần Qua Bảng 7, cho ta kết sau: Tương quan biến cho kết 1, nói chọn biến cigs biến phụ thuộc tương quan biến giải thích restaurn với cigs lớn (-0,0871), sếp sau biến, income, educ, age cuối cigpric Trong đó, biến educ, cigpric, age restaurn biến động ngược chiều với biến phụ thuộc cigs, có biến income lại biến động chiều Cụ thể sau: Biến số cigs Giá trị r(yi, xj) educ - 0.0487 cigpric - 0.0114 age - 0.0415 income 0.0532 restaur n - 0.0871 Ý nghĩa Tương quan tuyệt đối dương Tương quan âm (có nghĩa trình độ giáo dục thấp hút thuốc nhiều ngược lại) Tương quan âm (có nghĩa giá thuốc cao số điếu thuốc hút ngày giảm ngược lại) Tương quan âm (có nghĩa tuổi cao hút thuốc ngược lại) Tương quan dương (có nghĩa thu nhập tăng số điếu thuốc tiêu thụ ngày cao ngược lại) Tương quan âm (có nghĩa nhà hàng cấm hút thuốc số điếu thuốc hút giảm ngược lại) Bảng Tương quan biến độc lập so với biến phụ thuộc Cùng với bảng tương quan biến độc lập với biến phụ thuộc cigs ta có có bảng tương quan biến độc lập với Tương quan biến r(xi, xj) đê xác định xem biến độc lập đưa vào mơ hình có tương quan với hay không? Và mức độ tương quan nào? Nếu mức độ tương quan biến độc lập cao (r(xi, xj) > 0,8) mơ hình bị mắc bệnh Đa cộng tuyến cao Cụ thể sau: Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình corr educ cigpric age income restaurn (obs=807) | educ cigpric age income restaurn -+ educ | 1.0000 cigpric | 0.0310 1.0000 age | -0.1806 0.0293 1.0000 income | 0.3344 0.0480 -0.0640 1.0000 restaurn | 0.0605 0.1392 -0.0389 0.1060 1.0000 Bảng Bảng tương quan biến độc lập mơ hình Nhìn vào bảng 9, ta thấy r(xi, xj) biến độc lập thấp 0,8  Từ suy ra, biến chọn ngẫu nhiên làm biến độc lập có tương quan thấp với mơ hình khơng bị mắc bệnh Đa cộng tuyến II Phân tích liệu Trong phần này, nhóm tập trung vào tìm hiểu tác động biến ngẫu nhiên rời rạc chọn (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số điếu thuốc hút ngày (cigs) phương pháp ước lượng bình phương nhỏ OLS (Ordinary Least Squared) Những đánh giá kết luận phần dựa kết chạy mơ hình hồi quy đa biến tổng quát: Y = βo + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + ui  Y biến phụ thuộc mơ hình  βo hệ số chặn mơ hình  β1 đến β5 hệ số góc tương ứng biến X1 đến X5 mơ hình  X1 đến X5 biến độc lập mơ hình  ui thành phần nhiễu mơ hình Với biến số chọn, ta có: Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Tên biến Ứng với biến chọn Y X1 X2 X3 X4 X5 ui cigs educ cigpric restaurn income age Thành phần nhiễu mơ hình Thực lệnh hồi quy regress: reg cigs educ cigpric age income restaurn Source SS df MS Model Residual 2888.63535 148865.047 801 577.72707 185.848998 Total 151753.683 806 188.280003 cigs Coef educ cigpric age income restaurn _cons -.3680468 0046741 -.0438986 0001306 -2.982192 13.01946 Std Err .169172 1024819 028707 000056 1.130995 6.551227 t -2.18 0.05 -1.53 2.33 -2.64 1.99 Number of obs F( 5, 801) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.030 0.964 0.127 0.020 0.009 0.047 = = = = = = 807 3.11 0.0087 0.0190 0.0129 13.633 [95% Conf Interval] -.7001196 -.1964908 -.1002484 0000207 -5.202256 1598616 -.0359739 2058389 0124512 0002405 -.7621274 25.87906 Bảng 10 Kết hồi quy mơ hình cho biến chọn Mơ hình sau chạy stata 12 cho kết Bảng 9, phương trình hồi quy mẫu chọn sau: Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+ 0.0001306* X4 – 0.0438986* X5 Nhóm 16 Trang BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Kiểm định giả thiết thống kê: Kiểm định phù hợp mơ hình Sau chạy mơ hình, để kiểm tra phù hợp mơ hình ta dùng công cụ: Kiểm định thống kê F-statistic mơ hình, điểm định giá trị P-value giá trị F với mức ý nghĩa thống kê α mà nhóm chọn 10% Vì vậy, cơng cụ thuận tiện sử dụng để kiểm định Kiểm định cặp giả thiết: : Ho: R2 = (Với mức ý nghĩa nhóm chọn α = 10%) H1: R2 > Ta có: P-value kiểm định F 0.0000 < 10% từ có bác bỏ H o Điều có nghĩa mơ hình nhóm chọn phù hợp sử dụng để phân tích thống kê Kiểm định mức độ ảnh hưởng biến độc lập biến phụ thuộc Như phân tích trên, thừa nhận biến độc lập có tương quan với biến phụ thuộc Tuy nhiên, chưa hẳn tương quan thực nói lên biến độc lập thực ảnh hưởng tới biến phụ thuộc Chính lẽ đó, ta tới kiểm định giả thiết thống kê: Có cơng cụ để kiểm định giả thiết thống kê là: dùng thống kê t, giá trị P>ItI khoảng tin cậy Cả công cụ cho kết quả, công cụ thuận tiện ta sử dụng, nhóm định chọn cơng cụ giá trị P>ItI  Đầu tiên xét với biến educ biến định lượng Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn α = 10%) H1: β1#0 Xét thấy P-value kiểm định t biến educ cho kết 0.03 < 10% từ có bác bỏ H o Đồng nghĩa với việc biến educ có ảnh hưởng tới biến phụ thuộc cigs  Tiếp theo biến cigpric biến định lượng Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn α = 10%) H1: β1#0 Nhóm 16 Trang 10 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình P-value kiểm định t biến cigpric cho kết 0.964 > 10% từ có bác bỏ Ho Đồng nghĩa với việc biến cigpric không ảnh hưởng tới biến phụ thuộc cigs  Biến restaurn biến định lượng Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn α = 10%) H1: β1#0 Biến restaurn cho kết P-value kiểm định t 0.009< 10% từ có bác bỏ Ho Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc cigs  Biến age biến định lượng Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn α = 10%) H1: β1#0 Biến age cho kết P-value kiểm định t 0.127 > 10% từ có bác bỏ Ho Đồng nghĩa với việc biến age khơng có ảnh hưởng tới biến phụ thuộc cigs  Biến income biến định lượng Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn α = 10%) H1: β1#0 Biến income cho kết P-value kiểm định t 0.020 < 10% từ có bác bỏ Ho Đồng nghĩa với việc biến age có ảnh hưởng tới biến phụ thuộc cigs Kết cụ thể thể bảng sau: (Với mức ý nghĩa 10%) Tên biến educ cigpric restaurn Nhóm 16 Giá trị P > ItI 0.030 0.964 0.009 Mức độ tác động Có ảnh hưởng tới biến cigs Không ảnh hưởng tới biến cigs Có ảnh hưởng tới biến cigs Trang 11 BÁO CÁO GIỮA KÌ age income GVHD: TS Đinh Thị Thanh Bình 0.127 0.026 Khơng ảnh hưởng tới biến cigs Có ảnh hưởng tới biến cigs Bảng 11 Tác động biến độc lập lên biến phụ thuộc Kết luận: Như thấy ngoại trừ biến cigpric age không ảnh hưởng tới biến phụ thuộc cigs biến lại ảnh hưởng tới biến phụ thuộc cigs Như xác định tính chất ảnh hưởng biến độc lập với biến phụ thuộc cigs Vậy mức độ ảnh hưởng biến độc lập tới biến phụ thuộc nào! Mức độ ảnh hưởng phân tích sau: Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+ 0.0001306* X4 – 0.0438986* X5  Đầu tiên, dể dàng nhận thấy điều kiện yếu tố khác khơng đổi, biến độc lập khơng có tác động tỷ lệ số điếu thuốc hút trung bình ngày 13.01946%  Xét với biến độc lập educ ta có: = - 0.368468 điều đồng nghĩa điều kiện yếu tố khác khơng đổi, số năm học giảm tỷ lệ hút thuốc có xu hướng tăng lên 0.368468 %  Xét với biến độc lập cigpric ta có: = 0.0046741 điều mang ý nghĩa Trong điều kiện yếu tố khác không đổi, giá thuốc tăng th số điếu thuốc tăng 0.0046741%  Xét với biến độc lập restaurn ta có: = – 2.982192 điều mang ý nghĩa Trong điều kiện yếu tố khác khơng đổi, có nghĩa nhà hàng cấm hút thuốc số điếu thuốc hút giảm 2.982192 %  Xét với biến độc lập income ta có: = 0.0001306 điều mang ý nghĩa Trong điều kiện yếu tố khác khơng đổi, thu nhập tăng 1% số điếu thuốc tiêu thụ ngày cao tăng thêm 0.2092152 % Nhóm 16 Trang 12 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình  Xét với biến độc lập age ta có: = – 0.0438986 điều mang ý nghĩa Trong điều kiện yếu tố khác khơng đổi, tuổi tăng 1% số điếu thuốc hút ngày giảm 0.0438986% Nhóm 16 Trang 13 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Hệ số xác định mơ hình R-squared (R2) Trên đây, đánh giá mức độ tác động biến độc lập biến phụ thuộc cigs Bây đánh giá mức độ tác động tất biến độc lập biến phụ thuộc cigs Từ mơ hình, có số cho ta biết xác mức độ tác động biến độc lập đối biến phụ thuộc số R2 hay gọi hệ số xác định mơ hình Ý nghĩa: Cho biết biến độc lập giải thích % thay đổi biến phụ thuộc Từ bảng kết hồi quy (Theo bảng 7) dể dàng tìm R2 = 0.0190 hay 0.19% biến giải thích (bao gồm: educ, cigpric, age, income, restaurn)mà nhóm chọn cho vào mơ hình giải thích 0.19% thay đổi biến phụ thuộc cigs Kiểm định khuyết tật mơ hình Kiểm định Đa cộng tuyến (ĐCT) Từ bảng thống kê tương quan biến với (Bảng 5), thấy biến độc lập có hệ số tương quan với thấp r(xi, xj) < 0.8 kết luận mơ hình khơng mắc khuyết tật Đa cộng tuyến Bảng phân tích cụ thể: educ cigpric age income restaurn educ cigpric age 1.0000 0.0310 -0.1806 0.3344 0.0605 1.0000 0.0293 0.0480 0.1392 1.0000 -0.0640 -0.0389 income restaurn 1.0000 0.1060 Bảng 10 Bảng tương quan biến độc lập Nhóm 16 Trang 14 1.0000 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Để chắn sau hồi quy mơ hình ta dùng lệnh vif để tính số VIF mơ hình số VIF > 10 tức mơ hình mắc bệnh Đa cộng tuyến, ngược lại khơng mắc bệnh Cụ thể sau: Chạy lệnh vif: vif Variable VIF 1/VIF educ income age restaurn cigpric 1.16 1.14 1.04 1.03 1.02 0.862048 0.880131 0.965071 0.969071 0.977810 Mean VIF 1.08 Quan sát thấy Mean VIF = 1.08 < 10 từ kết luận lần mơ hình hồn tồn khơng mắc bệnh Đa cộng tuyến Kiểm định Phương sai sai số thay đổi (PSSSTĐ) Kiểm định phương sai sai số thay đổi (PSSSTĐ) kiểm định lại mà nhóm thực với mơ hình Có cơng cụ để kiểm định khuyết tật kiểm định White-test, kiểm định Breusch-Pagan Cameron & Trivedi's decomposition of IM-test Cụ thể sau (với mức ý nghĩa nhóm chọn α = 10%) Nhóm 16 Trang 15 BÁO CÁO GIỮA KÌ • GVHD: TS Đinh Thị Thanh Bình Với kiểm định White-test: imtest, white White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(19) Prob > chi2 = = 38.00 0.0059 Cameron & Trivedi's decomposition of IM-test • Source chi2 df p Heteroskedasticity Skewness Kurtosis 38.00 57.26 8.24 19 0.0059 0.0000 0.0041 Total 103.51 25 0.0000 Với kiểm định B-G: hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of cigs Nhóm 16 chi2(1) Prob > chi2 = = 10.02 0.0016 Trang 16 BÁO CÁO GIỮA KÌ GVHD: TS Đinh Thị Thanh Bình Để biết xem liệu mơ hình có mắc khuyết tật PSSS thay đổi ta thực hiện: Kiểm định cặp giả thiết: : Ho: PSSS không đổi H1: PSSS thay đổi Từ bảng kết kiểm định White-test, cho giá trị P-value quan sát chi2 0.0059 < 10% từ bác bỏ Ho Như vậy, mơ hình mắc bệnh phương sai sai số (PSSS) thay đổi Tương tự, với kiểm định B-G, cho kết giá trị P-value quan sát chi2 0.0016

Ngày đăng: 28/09/2019, 06:16

Từ khóa liên quan

Mục lục

  • Thống kê và phân tích dữ liệu

    • I. Mô tả các biến khả dụng

    • Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:

    • II. Phân tích dữ liệu

    • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan