Hướng dẫn phân tích số liệu và vẽ biểu đồ bằng R - Phần 10 potx

73 933 2
Hướng dẫn phân tích số liệu và vẽ biểu đồ bằng R - Phần 10 potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hướng dẫn phân tích số liệu vẽ biểu đồ R 10 Phân tích hồi qui tuyến tính Phân tích hồi qui tuyến tính (linear regression analysis) có lẽ phương pháp phân tích số liệu thơng dụng thống kê học Có người viết “Cho người vũ khí – hệ số tương quan, hồi qui tuyến tính bút, người sử dụng ba”! Trong chương này, giới thiệu cách sử dụng R để phân tích hồi qui tuyến tính phương pháp liên quan hệ số tương quan kiểm định giả thiết thống kê Ví dụ Để minh họa cho vấn đề, thử xem xét nghiên cứu sau đây, mà nhà nghiên cứu đo lường độ cholestrol máu 18 đối tượng nam Tỉ trọng thể (body mass index) ước tính cho đối tượng cơng thức tính BMI lấy trọng lượng (tính kg) chia cho chiều cao bình phương (m2) Kết đo lường sau: Bảng Độ tuổi, tỉ trọng thể cholesterol Nhìn sơ qua số liệu thấy người có độ tuổi cao độ cholesterol cao Chúng ta thử nhập số liệu vào R vẽ biểu đồ tán xạ sau: > age bmi chol data plot(chol ~ age, pch=16) Biểu đồ 10.1 Liên hệ độ tuổi cholesterol Biểu đồ 10.1 cho thấy mối liên hệ độ tuổi (age) cholesterol đường thẳng (tuyến tính) Để “đo lường” mối liên hệ này, sử dụng hệ số tương quan (coefficient of correlation) 10.1 Hệ số tương quan Hệ số tương quan (r) số thống kê đo lường mối liên hệ tương quan hai biến số, độ tuổi (x) cholesterol (y) Hệ số tương quan có giá trị từ đến Hệ số tương quan (hay gần 0) có nghĩa hai biến số khơng có liên hệ với nhau; ngược lại hệ số -1 hay có nghĩa hai biến số có mối liên hệ tuyệt đối Nếu giá trị hệ số tương quan âm (r 0) có nghĩa x tăng cao y tăng, x giảm cao y giảm theo Thực có nhiều hệ số tương quan thống kê, tơi trình bày hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r, Spearman Kendall , 10.1.1 Hệ số tương quan Pearson Cho hai biến số x y từ n mẫu, hệ số tương quan Pearson ước tính cơng thức sau đây: Trong đó, định nghĩa phần trên, giá trị trung bình biến số x y Để ước tính hệ số tương quan độ tuổi age cholesterol, sử dụng hàm cor(x,y) sau: > cor(age, chol) [1] 0.936726 Chúng ta kiểm định giả thiết hệ số tương quan (tức hai biến x y khơng có liên hệ) Phương pháp kiểm định thường dựa vào phép biến đổi Fisher mà R có sẵn hàm cor.test để tiến hành việc tính toán > cor.test(age, chol) Pearson's product-moment correlation data: age and chol t = 10.7035, df = 16, p-value = 1.058e-08 alternative hypothesis: true correlation is not equal to 95 percent confidence interval: 0.8350463 0.9765306 sample estimates: cor 0.936726 Kết phân tích cho thấy kiểm định t = 10.70 với trị số p=1.058e-08; đó, có chứng để kết luận mối liên hệ độ tuổi cholesterol có ý nghĩa thống kê Kết luận kết luận đến phần phân tích hồi qui tuyến tính 10.1.2 Hệ số tương quan Spearman Hệ số tương quan Pearson hợp lí biến số x y tuân theo luật phân phối chuẩn Nếu x y không tuân theo luật phân phối chuẩn, phải sử dụng hệ số tương quan khác tên Spearman, phương pháp phân tích phi tham số Hệ số ước tính cách biến đổi hai biến số x y thành thứ bậc (rank), xem độ tương quan hai dãy số bậc Do đó, hệ số cịn có tên tiếng Anh Spearman’s Rank correlation R ước tính hệ số tương quan Spearman hàm cor.test với thông số method=”spearman” sau: > cor.test(age, chol, method="spearman") Spearman's rank correlation rho data: age and chol S = 51.1584, p-value = 2.57e-09 alternative hypothesis: true rho is not equal to sample estimates: rho = 0.947205 Warning message: Cannot compute exact p-values with ties in: cor.test.default(age, chol, method = "spearman") Kết phân tích cho thấy giá trị rho=0.947, trị số p=0.00000000257 Kết từ phân tích khơng khác với phân tích hồi qui tuyến tính: mối liên hệ độ tuổi cholesterol cao có ý nghĩa thống kê 10.1.3 Hệ số tương quan Kendall Hệ số tương quan Kendall (cũng phương pháp phân tích phi tham số) ước tính cách tìm cặp số (x, y) “song hành" với Một cặp (x, y) song hành định nghĩa hiệu (độ khác biệt) trục hồnh có dấu hiệu (dương hay âm) với hiệu trục tung Nếu hai biến số x y khơng có liên hệ với nhau, số cặp song hành hay tương đương với số cặp khơng song hành Bởi có nhiều cặp phải kiểm định, phương pháp tính tốn hệ số tương quan Kendall địi hỏi thời gian máy tính cao Tuy nhiên, liệu 5000 đối tượng máy vi tính tính tốn dễ dàng R dùng hàm cor.test với thông số method=”kendall” để ước tính hệ số tương quan Kendall: > cor.test(age, chol, method="kendall") Kendall's rank correlation tau data: age and chol z = 4.755, p-value = 1.984e-06 alternative hypothesis: true tau is not equal to sample estimates: tau 0.8333333 Warning message: Cannot compute exact p-value with ties in: cor.test.default(age, chol, method = "kendall") Kết phân tích hệ số tương quan Kendall lần khẳng định mối liên hệ độ tuổi cholesterol có ý nghĩa thống kê, hệ số tau = 0.833 trị số p = 1.98e-06 Kết cho thấy y có liên hệ với biến x1, x5 x6 Ngồi ra, biến x5 x6 có mối liên hệ mật thiết (gần đường thẳng) với hệ số tương quan 0.88 Ngoài ra, x5 x1 hay x6 x5 có liên hệ với theo hàm số nghịch đảo Điều có nghĩa biến x5 x6 cung cấp lượng thơng tin để tiên đốn y, tức không cần hai mơ hình Để tìm mơ hình tối ưu bối cảnh có nhiều mối tương quan thế, ứng dụng step sau Chú ý cách cung cấp thơng số lm(y ~ ),dấu “.” có nghĩa yêu cầu R xem xét tất biến đối tượng REGdata > reg step(reg, direction=”both”) Start: AIC= 134.07 Step 1: AIC= 132.13 y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 y ~ x1 + x2 + x3 + x4 + x6 + x7 Df Sum of Sq RSS AIC - x5 4.54 2145.37 132.13 - x1 23.17 2164.00 132.36 - x1 22.7 2168.1 130.4 - x2 109.34 2250.18 133.42 - x2 113.8 2259.1 131.5 - x3 130.90 2271.74 133.68 - x3 133.5 2278.9 131.8 2145.4 132.1 2140.83 134.07 Df Sum of Sq RSS AIC - x4 168.31 2309.14 134.12 - x4 170.8 2316.2 132.2 - x7 377.09 2517.92 136.45 + x5 4.5 2140.8 134.1 - x6 681.09 2821.92 139.53 - x7 375.7 2521.1 134.5 - x6 1058.5 3203.8 141.0 Step 2: AIC= 130.42 Step 3: AIC= 129.59 y ~ x2 + x3 + x4 + x6 + x7 y ~ x3 + x4 + x6 + x7 Df Sum of Sq RSS AIC Df Sum of Sq RSS AIC - x2 96.8 2264.9 129.6 - x3 25.4 2290.3 127.9 - x3 122.0 2290.0 129.9 - x4 90.9 2355.8 128.7 2168.1 130.4 2264.9 129.6 - x4 187.4 2355.5 130.7 + x2 96.8 2168.1 130.4 + x1 22.7 2145.4 132.1 + x5 8.3 2256.5 131.5 + x5 4.1 2164.0 132.4 + x1 5.7 2259.1 131.5 - x7 385.0 2553.1 132.8 - x7 384.9 2649.7 131.8 - x6 1526.2 3694.3 142.8 - x6 2015.6 4280.5 144.8 Step 4: AIC= 127.9 Step 5: AIC= 126.75 y ~ x4 + x6 + x7 y ~ x6 + x7 Df Sum of Sq - x4 RSS AIC Df Sum of Sq RSS AIC 73.5 2363.8 126.7 2363.8 126.7 2290.3 127.9 + x4 73.5 2290.3 127.9 + x3 25.4 2264.9 129.6 + x1 33.4 2330.4 128.4 + x1 11.3 2279.0 129.8 + x3 8.1 2355.8 128.7 + x5 6.3 2284.0 129.8 + x5 7.7 2356.1 128.7 + x2 0.3 2290.0 129.9 + x2 7.3 2356.6 128.7 - x7 486.6 2776.9 131.1 - x7 497.3 2861.2 129.9 - x6 1993.8 4284.1 142.8 - x6 4477.0 6840.8 153.4 Call: lm(formula = y ~ x6 + x7, data = REGdata) Coefficients: (Intercept) 2.52646 x6 0.01852 x7 2.18575 Q trình tìm mơ hình tối ưu dừng mơ hình với hai biến x6 x7, mơ hình có giá trị AIC thấp Phương trình tuyến tính tiên đốn y là: y = 2.526 + 0.0185(x6) + 2.186(x7) > summary(lm(y ~ x6+x7, data=REGdata)) Call: lm(formula = y ~ x6 + x7, data = REGdata) Residuals: Min 1Q Median 3Q Max -23.2035 -4.3713 0.2513 4.9339 21.9682 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 2.526460 3.610055 0.700 0.4908 x6 0.018522 0.002747 6.742 5.66e-07 *** x7 2.185753 0.972696 2.247 0.0341 * - Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Residual standard error: 9.924 on 24 degrees of freedom Multiple R-Squared: 0.6996, Adjusted R-squared: 0.6746 F-statistic: 27.95 on and 24 DF, p-value: 5.391e-07 Phân tích chi tiết (kết trên) cho thấy hai biến giải thích khoảng 70% phương sai y 10.6 Xây dựng mơ hình tuyến tính Bayesian Model Average (BMA) Một vấn đề cách xây dựng mơ hình mơ hình với x6 x7 xem mơ hình sau cùng, biết mơ hình x5 x7 mơ hình khả dĩ, x5 x6 có mối tương quan gần Nếu nghiên cứu tiến hành tiếp với thêm số liệu mới, có lẽ mơ hình khác “ra đời” Để đánh giá bất định việc xây dựng mơ hình thống kê, phép tính khác có triển vọng tốt cách phép tính BMA (Bayesian Model Average) Bạn đọc muốn tìm hiểu thêm phép tính tham khảo vài báo khoa học Nói cách ngắn gọn, phép tính BMA tìm tất mơ hình (với biến độc lập, số mơ hình 27 = 128, chưa tính đến mơ hình tương tác!) trình bày kết mơ hình xem “tối ưu” lâu dài Tiêu chuẩn tối ưu dựa vào giá trị AIC Để tiến hành phép tính BMA, phải dùng đến package BMA (có thể tải từ trang web R http://cran.R-project.org) Sau có cài đặt package BMA máy tính, phải nhập BMA vào môi trường vận hành R lệnh:  library(BMA) Sau đó, tạo ma trận gồm biến độc lập Trong data frame biết REGdata có biến, với biến số y Do đó, lệnh REGdata[, -1] có nghĩa tạo data frame ngoại trừ cột thứ (tức y) > xvars co2 bma summary(bma) Call: bicreg(x = xvars, y = co2, strict = FALSE, OR = 20) 16 models were selected Best models (cumulative posterior probability = 0.6599 ): p!=0 EV SD model model model Intercept 100.0 5.75672 14.6244 2.5264 6.1441 x1 12.4 -0.01807 0.1008 x2 10.4 -0.00075 0.0282 x3 10.7 0.00011 0.0791 x4 20.2 -0.03059 0.1020 x5 10.5 -0.00023 0.0030 x6 100.0 0.01815 0.0040 0.0185 0.0193 x7 73.7 1.60766 1.2821 2.1857 8.6120 nVar -0.1419 0.0164 2.1628 r2 0.700 BIC -25.8832 -24.0238 -23.4412 post prob 0.311 0.636 0.123 0.709 0.092 model model Intercept x1 7.5936 7.3537 -0.1393 x2 x3 x4 x5 -0.0572 x6 0.0162 0.0179 x7 2.1233 2.2382 nVar 3 r2 0.704 BIC -22.9721 -22.6801 post prob 0.072 0.701 0.063 BMA trình bày kết mơ hình đánh giá tối ưu cho tiên đoán y (model 1, model 2, … model 5)  Cột thứ liệt kê danh sách biến số độc lập;  Cột trình bày xác suất giả thiết biến độc lập có ảnh hưởng đến y Chẳng hạn xác suất x6 có ảnh hưởng đến y 100%; xác suất mà x7 có ảnh hưởng đến y 73.7% Tuy nhiên xác suất biến khác thấp hay 20% Do đó, nói mơ hình với x6 x7 có lẽ mơ hình tối ưu  Cột (EV) (SD) trình bày trị số trung bình độ lệch chuẩn hệ số cho biến số độc lập  Cột ước tính hệ số ảnh hưởng (regression coefficient) mơ hình Như thấy cột này, mơ hình gồm intercept (tức ), hai biến x6 x7 Mơ hình giải thích (như biết qua phân tích phần trên) 70% phương sai y Trị số BIC (Bayesian Information Criterion) thấp Trong số tất mơ hình mà BMA tìm, mơ hình có xác suất xuất 31.1%  Cột ước tính hệ số ảnh hưởng mơ hình Như thấy cột này, mơ hình gồm intercept (tức ), biến x6 Mơ hình giải thích 64% phương sai y Trong số tất mơ hình mà BMA tìm, mơ hình có xác suất xuất 12.3%  Các mơ hình khác diễn dịch cách tương tự Một cách thể kết qua biểu đồ sau: > imageplot.bma(bma) Tài liệu tham khảo cho BMA Raftery, Adrian E (1995) Bayesian model selection in social research (with Discussion) Sociological Methodology 1995 (Peter V Marsden, ed.), pp 111196, Cambridge, Mass.: Blackwells ... 0.0791 Biểu đồ 10. 2 Phân tích phần dư để kiểm tra giả định phân tích hồi qui tuyến tính Để kiểm tra giả định trên, vẽ loạt đồ thị treân sau: > op lines(resp$lwr ~ resp$age, col=4) > lines(resp$upr ~ resp$age, col=4) (Chú ý lệnh trên, sử dụng biến số resc$fit, resc$lwr,resc$upr,resp$lwr,resp$upr Cách viết có nghĩa trích biến số fit từ... '' Residual standard error: 0.3027 on 16 degrees of freedom Multiple R- Squared: 0.8775, Adjusted R- squared: 0.8698 F-statistic: 114.6 on and 16 DF, p-value: 1.058e-08 Lệnh thứ hai, summary(reg),

Ngày đăng: 30/07/2014, 03:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan