phân tích thống kê mô tả các biến có trong dữ liệu discrim

18 0 0
Tài liệu đã được kiểm tra trùng lặp
phân tích thống kê mô tả các biến có trong dữ liệu discrim

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Điều này có nghĩa là mỗi khi tăng giảm tỉ lệ da màu 1 đơn vị thì trung bình giá củasoda sẽ tăng giảm khoảng 0,065 đơn vị.+ Tuy nhiên, do có sự hiện diện của một biến khác income trong mô

Trang 1

BÀI TẬP NHÓM 7

Câu 1: Phân tích thống kê mô tả các biến có trong dữ liệu DISCRIM

Câu 2: Xét mô hình: psoda = 0 + 1prpblck + 2income + u (1)a) Ước lượng mô hình hồi quy (1) và báo cáo kết quả hồi quy

- Mô hình (1): psoda = 0,956 + 0,115prpblck + 1,6.10-6income + u

Trang 2

b) Ý nghĩa thống kê và ý nghĩa kinh tế của các tham số trong mô hình (1)- Ý nghĩa kinh tế:

+ Hệ số ^β0=0,956 cho biết: Trong điều kiện các yếu tố khác không đổi, khi không có tỉ lệ damàu và thu nhập, giá soda trung bình là khoảng 0,95632 đơn vị.

+ Hệ số ^β1=0,115 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệda màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,115 đơn vị.

+ Hệ số ^β2=1,6 10−6cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) thunhập 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 1,6.10-6 đơn vị.

- Ý nghĩa thống kê:

 Hệ số ^β0:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 10%

Kết luận: Hệ số ^β0 có ý nghĩa thống kê

Trang 3

 Hệ số ^β1:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Hệ số ^β1 có ý nghĩa thống kê

 Hệ số ^β2:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Hệ số ^β2 có ý nghĩa thống kê.

Trang 4

c) Xây dựng khoảng tin cậy 99%, 95% và 90% của các tham số độ dốc

Kết luận:

CI90% (β1) = [0,0722; 0,158]CI90% (β2) = [1,01.10−6; 2,2.10−6]CI95% (β1) = [0,064; 0,166]

CI95% (β2) = [8,91.10−7; 2,31.10−6]CI99% (β1) = [0,048; 0,182]

Trang 5

+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)H1: R2 ≠ 0 (Mô hình phù hợp)

Ta có: p-value = 0,000002 < 0,1

=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Mô hình hồi quy là phù hợp.

- Kiểm định giả thuyết về phân phối chuẩn của phần dư:

+ Mức ý nghĩa 1%

Ta có: p-value = 0,0000 < 0,01=> Bác bỏ H0 ở mức ý nghĩa 1%.

+ Mức ý nghĩa 5%

Ta có: p-value = 0,0000 < 0,05=> Bác bỏ H0 ở mức ý nghĩa 5%.

Trang 6

+ Mức ý nghĩa 10%

Ta có: p-value = 0,0000 < 0,1=> Bác bỏ H0 ở mức ý nghĩa 10%.

Kết luận: Phần dư không có phân phối chuẩn.- Kiểm định giả thuyết phương sai sai số không đổi:

+ Mức ý nghĩa 1%

Đặt giả thuyết: H0: Phương sai sai số không đổi H1: Phương sai sai số thay đổiTa có: Fstat = 0,148 với p-value = 0,863

p-value > 0,01

=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 1%.

Trang 7

+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: Phương sai sai số không đổi H1: Phương sai sai số thay đổiTa có: Fstat = 0,148 với p-value = 0,863

p-value > 0,1

=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 10%.

Kết luận: Phương sai sai số không đổi.

Câu 3: Loại biến income ra khỏi mô hình (1) và ước lượng mô hình hồi quy đơn psodatheo prpblck? So sánh tác động của prpblck đến psoda ở mô hình hồi quy đơn với môhình (1)?

- Mô hình hồi quy đơn psoda theo prpblck: psoda = 1,037 + 0,065prpblck + u

Trang 8

- So sánh tác động:

 Mô hình hồi quy đơn: Tác động của prpblck đến psoda được mô tả bởi hệ số hồi quylà 0,065 Điều này có nghĩa là mỗi khi tăng (giảm) tỉ lệ da màu 1 đơn vị thì trung bình giá củasoda sẽ tăng (giảm) khoảng 0,065 đơn vị.

+ Tuy nhiên, do có sự hiện diện của một biến khác (income) trong mô hình, tácđộng của prpblck đến psoda có thể bị biến đổi do sự tương tác giữa các biến.

+ Đồng thời, Tác động của prpblck đến psoda được mô tả bởi hệ số hồi quy là1,6.10-6 Điều này có nghĩa là mối quan hệ giữa income và psoda cũng được tính đến trong môhình (1).

Kết luận: Như vậy, trong mô hình hồi quy đơn, tác động của prpblck đến psoda được môtả một cách độc lập; trong khi mô hình (1), tác động này có thể bị ảnh hưởng bởi sự hiệndiện của một biến khác (income) vì sự tương tác giữa các biến.

Câu 4: Xét mô hình log(psoda) = 0 + 1prpblck + 2log(income) + u (2)

Phân tích các nội dung như Câu 2

a) Ước lượng mô hình (2) và báo cáo kết quả hồi quy

- Mô hình (2): log(psoda) = -0,794 + 0,122prpblck + 0,077log(income) + u

Trang 9

b) Ý nghĩa thống kê và ý nghĩa kinh tế của các tham số trong mô hình (2)- Ý nghĩa kinh tế:

+ Hệ số ^β0=−0,794 cho biết: Trong điều kiện các yếu tố khác không đổi, khi không có tỉ lệ

da màu và thu nhập, giá soda trung bình là khoảng e−0,794 = 0,452 đơn vị.

+ Hệ số ^β1=0,122 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệda màu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 12,2%.

+ Hệ số ^β2=0,077 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) thunhập 1% thì trung bình giá của soda sẽ tăng (giảm) khoảng 0,077%.

- Ý nghĩa thống kê:

 Hệ số ^β0:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 0 = 0 H1: 0 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β0 có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Hệ số ^β0 có ý nghĩa thống kê.

 Hệ số ^β1:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 1%.

Trang 10

+ Mức ý nghĩa 5%Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 1 = 0 H1: 1 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β1 có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Hệ số ^β1 có ý nghĩa thống kê.

 Hệ số ^β2:

+ Mức ý nghĩa 1%Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,01 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,05 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 5%.+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: 2 = 0 H1: 2 ≠ 0

p-value = 0,0000 < 0,1 => Bác bỏ H0 => Hệ số ^β2 có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Hệ số ^β2 có ý nghĩa thống kê

Trang 11

c) Xây dựng khoảng tin cậy 99%, 95% và 90% của các tham số độ dốc

Kết luận:

CI90% (β1) = [0,079; 0,164]CI90% (β2) = [0,049; 0,104]CI95% (β1) = [0,071; 0,172]CI95% (β2) = [0,044; 0,109]CI99% (β1) = [0,055; 0,188]CI99% (β2) = [0,034; 0,119]

d) Đánh giá sự phù hợp của mô hình Kiểm định giả thiết về phân phối chuẩn và phươngsai sai số không đổi của phần dư

- Ý nghĩa R2 (R2 = 0,068 = 6,8%): Các biến độc lập (prpblck, log(income)) phản ánh được 6,8%biến động của biến phụ thuộc (psoda) trong mô hình hồi quy.

- Kiểm định và đưa ra kết luận về sự phù hợp của mô hình hồi quy:

Trang 12

+ Mức ý nghĩa 10%

Đặt giả thuyết: H0: R2 = 0 (Mô hình không phù hợp)H1: R2 ≠ 0 (Mô hình phù hợp)

Ta có: p-value = 0,000001 < 0,1

=> Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê ở mức ý nghĩa 10%.

Kết luận: Mô hình hồi quy là phù hợp.

- Kiểm định giả thuyết về phân phối chuẩn của phần dư:

+ Mức ý nghĩa 1%

H1: Phần dư có phân phối không chuẩn Ta có: p-value = 0,0000 < 0,01

=> Bác bỏ H0 ở mức ý nghĩa 1%.+ Mức ý nghĩa 5%

H1: Phần dư có phân phối không chuẩn Ta có: p-value = 0,0000 < 0,05

Trang 13

=> Bác bỏ H0 ở mức ý nghĩa 5%.

+ Mức ý nghĩa 10%

H1: Phần dư có phân phối không chuẩn Ta có: p-value = 0,0000 < 0,1

=> Bác bỏ H0 ở mức ý nghĩa 10%.

Vậy phần dư không có phân phối chuẩn.

- Kiểm định giả thuyết phương sai sai số không đổi của phần dư:

Trang 14

+ Mức ý nghĩa 1%

Đặt giả thuyết: H0: Phương sai sai số không đổi H1: Phương sai sai số thay đổiTa có: Fstat = 0,083 với p-value = 0,921

p-value > 0,1

=> Không đủ cơ sở để bác bỏ H0 ở mức ý nghĩa 10%.

Kết luận: Phương sai sai số không đổi.

Nếu prpblck tăng 0,2 đơn vị thì psoda thay đổi như thế nào?

Nếu prpblck tăng 0,2 đơn vị thì psoda tăng khoảng (0,2.12,2%) = 2,44%.

Trang 15

Câu 5: Thêm biến prppov vào mô hình (2) và gọi là mô hình (3) Ước lượng mô hình (3).Nhận xét về hệ số ước lượng của prpblck

- Xét mô hình: log(psoda) = 0 + 1prpblck + 2log(income) + 1prppov + u (3)

- Mô hình (3): log(psoda) = -1,463 + 0,073prpblck + 0,137log(income) + 0,38prppov + u- Nhận xét về hệ số ước lượng của prpblck:

Hệ số ^β1=0,073 cho biết: Trong điều kiện các yếu tố khác không đổi, khi tăng (giảm) tỉ lệ damàu 1 đơn vị thì trung bình giá của soda sẽ tăng (giảm) khoảng 7,3%.

Câu 6: Phân tích sự tương quan giữa prppov và log(income)? Ý nghĩa thực tế của sự tươngquan này? Từ đó nhận xét về vấn đề đa cộng tuyến trong mô hình (3)? Ý nghĩa thực tế cảumô hình (3) đối với ý tưởng của nhà nghiên cứu ở đề bài?

Đặt X là biến đại diện cho log(income)

Trang 16

- Hệ số tương quan giữa prpblck và log(income) là -0,838 Hệ số này cho biết mối quan hệ

nghịch biến giữa hai biến.

- Ý nghĩa thực tế của sự tương quan này:

+ Khi tỷ lệ nghèo (prppov) tăng, thu nhập trung bình của hộ gia đình (log(income)) có xuhướng giảm.

+ Điều này có thể được giải thích bởi:

 Người nghèo có xu hướng tiêu dùng ít hơn, dẫn đến nhu cầu thấp hơn cho cácsản phẩm và dịch vụ, từ đó làm giảm thu nhập trung bình.

 Người nghèo có thể có ít cơ hội giáo dục và đào tạo hơn, dẫn đến năng lực laođộng thấp hơn và thu nhập thấp hơn.

- Nhận xét về vấn đề đa cộng tuyến trong mô hình (3):

+ Giá trị hệ số tương quan giữa hai biến prppov và log(income) là 0,838 (> 0,8) là khácao, do đó mô hình (3) có dấu hiệu đa cộng tuyến.

+ Thực hiện hồi quy phụ:

Trang 17

=> Từ kết quả của bảng trên, ta thấy R2 = 0,703 là cũng khá cao, do đó mô hình (3) xảy ra hiệntượng đa cộng tuyến cao.

+ Tính thừa số tăng phương sai VIF: VIF = 1/(1 – 0,703) = 3,367

Kết luận: Từ 3 dấu hiệu nhận biết trên, ta có thể xác định mô hình (1) xảy ra hiện tượng đacộng tuyến là khá cao.

- Ý nghĩa thực tế của mô hình (3) đối với ý tưởng của nhà nghiên cứu ở đề bài là:

+ Mô hình (3): log(psoda) = -1,463 + 0,073prpblck + 0,137log(income) + 0,38prppov + ucho phép nhà nghiên cứu kiểm tra mối quan hệ giữa:

 Giá của soda (psoda) Tỉ lệ da màu (prpblck)

 Thu nhập trung bình của hộ gia đình (log(income)) Tỉ lệ nghèo (prppov)

+ Ý nghĩa thực tế của mô hình (3) có thể được giải thích như sau: Biến độc lập prpblck(tỷ lệ da màu) có hệ số hồi quy dương và có ý nghĩa thống kê, điều này có thể cho thấy rằng giácủa psoda có xu hướng tăng khi tỷ lệ người da màu tăng lên Điều này có thể được diễn giải rằngnhững khu vực có đông người da màu hơn thì có thể có nhu cầu tiêu thụ soda cao hơn hoặc cácnhà hàng thức ăn nhanh trong khu vực đó có thể định giá sản phẩm cao hơn

=> Vì vậy mô hình (3) phù hợp với ý tưởng của nhà nghiên cứu.

Ngày đăng: 14/05/2024, 20:45

Tài liệu cùng người dùng

Tài liệu liên quan