Thống kê và ngôn ngữ r (4) phân tích phương sai (anova) gs ngvantuan

11 Phân tích phương sai (Analysis of variance) Phân tích phương sai, tên gọi, số phương pháp phân tích thống kê mà trọng điểm phương sai (thay số trung bình) Phương pháp phân tích phương sai nằm “đại gia đình” phương pháp có tên mơ hình tuyến tính (hay general linear models), bao gồm hồi qui tuyến tính mà gặp chương trước Trong chương này, làm quen với cách sử dụng R phân tích phương sai Chúng ta bắt đầu phân tích đơn giản, sau xem đến phân tích phương sai hai chiều, phương pháp phi tham số thơng dụng 11.1 Phân tích phương sai đơn giản (one-way analysis of variance - ANOVA) Ví dụ Bảng thống kê 11.1 so sánh độ galactose nhóm bệnh nhân: nhóm gồm bệnh nhân với bệnh Crohn; nhóm gồm 11 bệnh nhân với bệnh viêm ruột kết (colitis); nhóm gồm 20 đối tượng khơng có bệnh (gọi nhóm đối chứng) Câu hỏi đặt độ galactose nhóm bệnh nhân có khác hay khơng? Gọi giá trị trung bình ba nhóm µ1, µ2, µ3, nói theo ngơn ngữ kiểm định giả thiết giả thiết đảo là: Và giả thiết là: Ho: µ1 = µ2 = µ3 HA: có khác biệt µj (j=1,2,3) Bảng 11.2 Độ galactose cho nhóm bệnh nhân Crohn, viêm ruột kết đối chứng Nhóm 1: bệnh Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890 Nhóm 2: bệnh viêm ruột kết 1264 1314 1399 1605 2385 2511 2514 2767 2827 2895 Nhóm 3: đối chứng (control) 1809 2850 1926 2964 2283 2973 2384 3171 2447 3257 2479 3271 2495 3288 2525 3358 2541 3643 2769 3657 3011 n=9 n=11 n=20 Trung bình: 1910 Trung bình: 2226 Trung bình: 2804 SD: 516 SD: 727 SD: 527 Chú thích: SD độ lệch chuẩn (standard deviation) Thoạt đầu có lẽ bạn đọc, sau học qua phương pháp so sánh hai nhóm kiểm định t, nghĩ cần làm so sánh kiểm định t: nhóm 2, nhóm 3, nhóm Nhưng phương pháp khơng hợp lí, có ba phương sai khác Phương pháp thích hợp cho so sánh phân tích phương sai Phân tích phương sai ứng dụng để so sánh nhiều nhóm lúc (simultaneous comparisons) 11.1.1 Mơ hình phân tích phương sai Để minh họa cho phương pháp phân tích phương sai, phải dùng kí hiệu Gọi độ galactose bệnh nhân i thuộc nhóm j (j = 1, 2, 3) xij Mơ hình phân tích phương sai phát biểu rằng: xij = µ + α i + ε ij [1] Hay cụ thể hơn: xi1 = µ + α1 + εi1 xi2 = µ + α2 + εi2 xi3 = µ + α3 + εi3 Tức là, giá trị galactose củ bệnh nhân giá trị trung bình tồn quần thể (µ) cộng/trừ cho ảnh hưởng nhóm j đo hệ số ảnh hưởng α i , sai số ε ij Một giả định khác ε ij phải tuân theo luật phân phối chuẩn với trung bình phương sai σ2 Hai thơng số cần ước tính µ α i Cũng phân tích hồi qui tuyến tính, hai thơng số ước tính phương pháp bình phương nhỏ nhất; tức tìm ước số µˆ αˆ j cho ∑( x ij − µˆ − αˆ j ) nhỏ Quay lại với số liệu nghiên cứu trên, có tóm tắt thống kê sau: Nhóm Số đối tượng (nj) n1 = Trung bình – Viêm ruột kết n2 = 11 x2 = 2226 s22 = 473387 – Đối chứng n3 = 20 x3 = 2804 s32 = 277500 Toàn bô mẫu n = 40 x = 2444 – Crohn x1 = 1910 Phương sai s12 = 265944 xij = x + ( x j − x ) + ( xij − x j ) Chú ý rằng: [2] Trong đó, x số trung bình tồn mẫu, x j số trung bình nhóm j Nói cách khác, phần ( x j − x ) phản ánh độ khác biệt (hay gọi hiệu số) trung bình trừng nhóm trung bình tồn mẫu, phần ( xij − x j ) phản ánh hiệu số galactose đối tượng số trung bình nhóm • Theo đó, tổng bình phương cho tồn mẫu là: SST = ∑∑ ( xij − x ) i j = (1343–2444)2 + (1393–2444)2 + (1343 – 2444)2 + … + (3657– 2444)2 = 12133923 • tổng bình phương khác nhóm: SSB = ∑∑ ( xi − x ) = i j ∑n (x j j j − x) = 9(1910 – 2444)2 + 11(2226 – 2444)2 + 20(2804 – 2444)2 = 5681168 • tổng bình phương dao động nhóm: SSW = ∑∑ ( xij − x j ) = i j ∑(n j j − 1) s 2j = (9-1)(265944) + (11-1)(473387) + (20-1)(277500) = 12133922 Có thể chứng minh dễ dàng rằng: SST = SSB + SSW SSW tính từ bệnh nhân cho nhóm, trung bình bình phương cho nhóm (mean square – MSW) là: MSW = SSW / (N – k) = 12133922 / (40-3) = 327944 trung bình bình phương nhóm là: MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810 Trong N tổng số bệnh nhân (N = 40) ba nhóm, k = số nhóm bệnh nhân Nếu có khác biệt nhóm, kì vọng MSB lớn MSW Thành ra, để kiểm tra giả thiết, dựa vào kiểm định F: F = MSB / MSW = 8.67 [3] Với bậc tự k-1 N-k Các số liệu tính tốn trình bày bảng phân tích phương sai (ANOVA table) sau: Tổng bình phương (sum of squares) 5681168 Kiểm định Trung bình bình phương F (mean square) 2841810 8.6655 37 12133923 327944 39 12133923 Nguồn biến thiên (source of variation) Bậc tự (degrees of freedom) Khác biệt nhóm (between-group) Khác biệt nhóm (with-group) Tổng số 11.1.2 Phân tích phương sai đơn giản với R Tất tính tốn tương đối rườm rà, tốn nhiều thời gian Tuy nhiên với R, tính tốn làm vòng giây, sau liệu chuẩn bị cách (a) Nhập liệu Trước hết, cần phải nhập liệu vào R Bước thứ báo cho R biết có ba nhóm bệnh nhân (1, vả ), nhóm gồm người, nhóm có 11 người, nhóm có 20 người: > group group galactose data attach(data) Sau có dử liệu sẵn sàng, dùng hàm lm() để phân tích phương sai sau: > analysis anova(analysis) Analysis of Variance Table Response: galactose Df Sum Sq Mean Sq F value Pr(>F) group 5683620 2841810 8.6655 0.0008191 *** Residuals 37 12133923 327944 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Trong kết trên, có ba cột: Df (degrees of freedom) bậc tự do; Sum Sq tổng bình phương (sum of squares), Mean Sq trung bình bình phương (mean square); F value giá trị F định nghĩa [3] vừa đề cập phần trên; Pr(>F) trị số P liên quan đến kiểm định F Dịng group kết có nghĩa bình phương nhóm (betweengroups) residual bình phương nhóm (within-group) Ở đây, có: SSB = 5683620 MSB = 2841810 và: MSB = 2841810 MSB = 327944 Thành ra, F = 2841810 / 327944 = 8.6655 Trị số p = 0.00082 có nghĩa tín hiệu cho thấy có khác biệt độ galactose ba nhóm (c) Ước số Để biết thêm chi tiết kết phân tích, dùng lệnh summary sau: > summary(analysis) Call: lm(formula = galactose ~ group) Residuals: Min 1Q Median -995.5 -437.9 102.0 3Q 456.0 Max 979.8 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1910.2 190.9 10.007 4.5e-12 *** group2 316.3 257.4 1.229 0.226850 group3 894.3 229.9 3.891 0.000402 *** Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Residual standard error: 572.7 on 37 degrees of freedom Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822 F-statistic: 8.666 on and 37 DF, p-value: 0.0008191 Theo kết đây, intercept µˆ mơ hình [1] Nói cách khác, µˆ = 1910 sai số chuẩn 190.9 Để ước tính thơng số αˆ j , R đặt αˆ1 =0, αˆ = αˆ − αˆ1 = 316.3, với sai số chuẩn 257, kiểm định t = 316.3 / 257 = 1.229 với trị số p = 0.2268 Nói cách khác, so với nhóm (bệnh nhân Crohn), bệnh nhân viêm ruột kết có độ galactose trung bình cao 257, độ khác biệt khơng có ý nghĩa thống kê Tương tự, αˆ = αˆ − αˆ1 = 894.3, với sai số chuẩn 229.9, kiểm định t = 894.3/229.9=3.89, trị số p = 0.00040 So với bệnh nhân Crohn, nhóm đối chứng có độ galactose cao 894, mức độ khác biệt có ý nghĩa thống kê 11.2 So sánh nhiều nhóm (multiple comparisons) điều chỉnh trị số p Cho k nhóm, có k(k-1)/2 so sánh Ví dụ có nhóm, tổng số so sánh (giữa nhóm 2, nhóm 3, nhóm 3) Khi k=10, số lần so sánh lên cao Như đề cập chương 7, có nhiều so sánh, trị số p tính tốn từ kiểm định thống kê khơng cịn ý nghĩa ban đầu nữa, kiểm định cho kết dương tính giả (tức kết với p10, phương pháp Bonferroni trở nên “bảo thủ” Bảo thủ có nghĩa phương pháp tuyên bố so sánh có ý nghĩa thống kê, dù thực tế có thật! Trong trường hợp này, hai phương pháp Tukey, Holm Scheffé áp dụng Ở đây, tơi khơng giải thích lí thuyết đằng sau phương pháp (vì bạn đọc tham khảo sách giáo khoa thống kê), cách sử dụng R để tiến hành so sánh theo phương pháp Tukey Quay lại ví dụ trên, trị số p trị số chưa điều chỉnh cho so sánh nhiều lần Trong chương trị số p, tơi nói trị số phóng đại ý nghĩa thống kê, không phản ánh trị số p lúc ban đầu (tức 0.05) Để điều chỉnh cho nhiều so sánh, phải sử dụng đến phương pháp điều chỉnh Bonferroni Chúng ta dùng lệnh pairwise.t.test để có tất trị số p so sánh ba nhóm sau: > pairwise.t.test(galactose, group, p.adj="bonferroni") Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.6805 0.0012 0.0321 P value adjustment method: bonferroni Kết cho thấy trị số p nhóm (Crohn) viêm ruột kết 0.6805 (tức khơng có ý nghĩa thống kê); nhóm Crohn đối chứng 0.0012 (có ý nghĩa thống kê), nhóm viêm ruột kết đối chứng 0.0321 (tức có ý nghĩa thống kê) Một phương pháp điều chỉnh trị số p khác có tên phương pháp Holm: > pairwise.t.test(galactose, group) Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.2268 0.0012 0.0214 P value adjustment method: holm Kết không khác so với phương pháp Bonferroni Tất phương pháp so sánh sử dụng sai số chuẩn chung cho ba nhóm Nếu muốn sử dụng cho nhóm lệnh sau (pool.sd=F) đáp ứng yêu cầu đó: > pairwise.t.test(galactose, group, pool.sd=FALSE) Pairwise comparisons using t tests with non-pooled SD data: galactose and group 2 0.2557 0.0017 0.0544 P value adjustment method: holm Một lần nữa, kết không làm thay đổi kết luận 11.2.1 So sánh nhiều nhóm phương pháp Tukey Trong phương pháp trên, biết trị số p so sánh nhóm, khơng biết mức độ khác biệt khoảng tin cậy 95% nhóm Để có ước số này, cần đến hàm khác có tên aov (viết tắt từ analysis of variance) hàm TukeyHSD (HSD viết tắt từ Honest Significant Difference, tạm dịch nơm na “Khác biệt có ý nghĩa thành thật”) sau: > res TukeyHSD (res) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = galactose ~ group) $group diff lwr upr p adj 2-1 316.3232 -312.09857 944.745 0.4439821 3-1 894.2778 333.07916 1455.476 0.0011445 3-2 577.9545 53.11886 1102.790 0.0281768 Kết cho thấy nhóm khác khoảng 894 đơn vị, khoảng tin cậy 95% từ 333 đến 1455 đơn vị Tương tự, galactose nhóm bệnh nhân viêm ruột kết thấp nhóm đối chứng (nhóm 3) khoảng 578 đơn vị, khoảng tin cậy 95% từ 53 đến 1103 3-2 3-1 2-1 95% family-wise confidence level 500 1000 1500 Differences in mean levels of group Biểu đồ 11.1 Trung bình hiệu khoảng tin cậy 95% nhóm 2, 3, và Trục hoành độ galactose, trục tung ba so sánh 11.2.2 Phân tích biểu đồ Một phân tích thống kê khơng thể hồn tất khơng có đồ thị minh họa cho kết Các lệnh sau vẽ đồ thị thể độ galactose trung bình sai số chuẩn cho nhóm bệnh nhân Biểu đồ cho thấy, nhóm bệnh nhân Crohn có độ galactose thấp (nhưng khơng thấp nhóm viêm ruột kết), hai nhóm thấp nhóm đối chứng sứ khác biệt có ý nghĩa thống kê > > > > > > > xbar F) sample 8.5 2.8 2.2667 0.1810039 variety 123.5 41.2 32.9333 0.0004016 *** method 4801.5 1600.5 1280.4000 8.293e-09 *** Residuals 7.5 1.3 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Tất kết (dĩ nhiên) kết mà tóm tắt bảng phân tích phương sai cách “thủ công” Tuy nhiên, R cung cấp cho trị số p (trong Pr > F) để suy luận thống kê Và, qua trị số p, phát biểu mẫu ruộng khơng có ảnh hưởng đến sản lượng, loại giống phương pháp canh tác có ảnh hưởng đến sản lượng Để biết mức độ khác biệt phương pháp canh tác loại giống, dùng hàm TukeyHSD sau: > TukeyHSD(latin) $variety diff lwr 2-1 1.25 -1.4867231 3-1 -5.75 -8.4867231 4-1 -3.50 -6.2367231 3-2 -7.00 -9.7367231 4-2 -4.75 -7.4867231 4-3 2.25 -0.4867231 $method diff 2-1 -5.25 3-1 -31.50 4-1 -41.25 3-2 -26.25 4-2 -36.00 4-3 -9.75 upr 3.9867231 -3.0132769 -0.7632769 -4.2632769 -2.0132769 4.9867231 lwr -7.986723 -34.236723 -43.986723 -28.986723 -38.736723 -12.486723 p adj 0.4528549 0.0014152 0.0173206 0.0004803 0.0038827 0.1034761 upr -2.513277 -28.763277 -38.513277 -23.513277 -33.263277 -7.013277 p adj 0.0023016 0.0000001 0.0000000 0.0000004 0.0000000 0.0000730 So sánh loại giống cho thấy có khác biệt giống 1, 1, 2, Tất so sánh phương pháp canh tác có ý nghĩa thống kê Nhưng loại có sản lượng cao nhất? Để trả lời câu hỏi này, sử dụng biểu đồ hộp: xlab="Methods (1=Aa, 2=Ab, 3=Ba, 4=Bb", Production 130 140 150 160 170 180 > boxplot(y ~ method, ylab=”Production") Methods (1=Aa, 2=Ab, 3=Ba, 4=Bb Biểu đồ so sánh sản lượng bốn phương pháp canh tác 11.8 Phân tích phương sai cho thí nghiệm giao chéo (crossover experiment) Ví dụ Để thử nghiệm hiệu ứng thuốc chứng mồ hôi (thuốc bào chế để chữa trị bệnh tim, mồ hồi ảnh hưởng phụ), nhà nghiên cứu tiến hành nghiên cứu 16 bệnh nhân Số bệnh nhân chia thành nhóm (tạm gọi nhóm AB BA) cách ngẫu nhiên Mỗi nhóm gồm bệnh nhân Bệnh nhân theo dõi hai lần: tháng thứ tháng thứ Đối với bệnh nhân nhóm AB, tháng thứ họ điều trị thuốc, tháng thứ hai họ cho sử dụng giả dược (placebo) Ngược lại, với bệnh nhân nhóm BA, tháng thứ sử dụng giả dược, tháng thứ hai điều trị thuốc Tiêu chí để đánh giá thời gian mồ hôi trán (tính từ lúc uống thuốc đến mồ hơi) sau sử dụng thuốc hay giả dược Kết nghiên cứu trình bày bảng số liệu sau đây: Bảng 11.7 Kết nghiên cứu hiệu ứng mồ thuốc điều trị bệnh tim Nhóm Thời gian (phút) mồ hôi trán Mã số bệnh nhân số (id) AB 10 13 15 BA 11 12 14 16 Tháng Tháng A 12 11 Placebo 9 Placebo 10 A 11 13 Câu hỏi có khác biệt thời gian mồ hai nhóm điều trị thuốc giả dược hay không Để trả lời câu hỏi trên, cần tiến hành phân tích phương sai Nhưng cách thiết kế nghiên cứu đặc biệt (hai nhóm bệnh nhân với cách xếp can thiệp theo hai thứ tự khác nhau), nên phương pháp phân tích khơng thể áp dụng Có phương pháp thơng dụng phân tích phương sai nhóm, sau so sánh hai nhóm Một vấn đề cần phải lưu ý khả hiệu ứng kéo dài (cịn gọi carry-over effect), tức nhóm AB, hiệu tháng thứ chịu ảnh hưởng kéo dài từ tháng thứ bệnh được điều trị thuốc thật Trước hết, thử tóm lược liệu bảng sau đây: Bảng 11.8 Tóm lược kết thí nghiệm hiệu ứng mồ thuốc điều trị bệnh tim Nhóm Mã số bệnh nhân số (id) AB 10 13 15 Thời gian (phút) mồ hôi trán Tháng Tháng A Placebo 12 10 11 8 Trung bình cho bệnh nhân 5.0 7.5 9.0 7.5 9.5 5.0 8.5 8.0 Trung bình BA 11 12 14 16 Trung bình Trung bình cho nhóm 8.375 Placebo 9 7.000 7.6875 6.625 A 11 13 8.125 7.3750 7.50 6.0 7.5 9.0 5.5 8.5 4.5 8.5 11.0 7.5625 7.5312 Trung bình cho nhóm A = (8.375 + 8.125) / = 8.25 Trung bình cho nhóm P (giả dược) = (6.625 + 7.000) / = 6.8125 Qua bảng tóm lược trên, tính tốn số tổng bình phương: • Tổng bình phương khác biệt hai nhóm điều trị thuốc giả dược: SSTreat = 16(8.25 – 7.5312)2 + 16(8.8125 – 7.5312)2 = 16.53 • Tổng bình phương khác biệt tháng tháng 2: SSPeriod = 16(7.6875 – 7.5312)2 + 16(7.3750 – 7.5312)2 = 0.781 • Tổng bình phương khác biệt hai nhóm AB BA (thứ tự): SSseq = 16(7.50 – 7.5312)2 + 16(7.5625 – 7.5312)2 = 0.031 • Tổng bình phương khác biệt bệnh nhân nhóm AB hay BA: SSw = (5.0 – 7.50)2 + (7.5 – 7.50)2 + (9.0 – 7.50)2 + … + (8.0 – 7.50)2 + (6.0 –7.5625)2 + (7.5 – 7.5625)2 + (9.0 – 7.5625)2 + … + (11.0 – 7.5625)2 = 103.44 • Tổng bình phương cho tồn mẫu: SStotal = (6 – 7.5312)2 + (9 – 7.5312)2 + … + (13 – 7.5312)2 + (9 – 7.5312)2 = 167.97 • Tổng bình phương lại (tức phần dư): SSres = 167.97 – 16.53 – 0.781 – 0.031 – 103.44 = 47.19 Đến đây, lập bảng phân tích phương sai sau: Bảng 11.9 Kết phân tích phương sai số liệu bảng 11.7 Nguồn biến thiên Giữa hai nhóm điều trị Giữa hai tháng Giữa AB BA Trong nhóm Phần dư (residual) Tổng số Bậc tự (degrees of freedom) 1 14 14 31 Tổng bình phương (Sum of squares) 16.53 0.781 0.031 103.44 47.19 167.97 Trung bình Kiểm định bình phương F (Mean square) 16.53 4.90 0.781 0.23 0.031 0.004 7.39 3.37 Qua phân tích trên, thấy độ khác biệt thuốc giả dược lớn độ khác biệt hai tháng hay hai nhóm AB BA Kiểm định F để thử nghiệm giả thiết thuốc giả dược có hiệu kiểm định F = 16.53 / 3.37 = 4.90 với bậc tự 14 Dựa lí thuyết xác suất, trị số F với bậc tự 14 4.60 Do đó, kết luận thuốc có hiệu ứng làm mồ lâu nhóm giả dược Tất tính tốn “thủ công” minh họa cho cách phân tích phương sai cho thí nghiệm giao chéo Trong thực tế, sử dụng R để tiến hành tính tốn cách tính phương sai cho thí nghiệm đơn giản Vấn đề tổ chức số liệu cho phân tích R (cũng nhiều phần mềm khác) yêu cầu người sử dụng phải nhập số liệu một, số liệu phải gắn liền với bệnh nhân, nhóm điều trị, tháng (hay giai đoạn), nhóm thứ tự Đó u cầu quan trọng, tổ chức số liệu khơng đúng, kết phân tích sai Trong phần sau đây, tơi mơ tả bước một: # bước 1: nhập liệu đặt tên object y > y seq seq period period treat treat id id data data seq period treat id y 1 1 1 1 12 1 1 9 1 10 1 13 11 1 15 2 10 2 11 2 12 2 13 2 10 14 2 10 15 2 13 16 2 15 17 2 18 2 19 2 11 20 2 21 2 11 22 23 24 25 26 27 28 29 30 31 32 2 2 2 2 2 2 2 1 1 1 1 1 2 2 2 2 12 14 16 13 7 11 12 14 16 Bây sẵn sàng dùng hàm lm R để phân tích số liệu Chú ý cách dùng hàm lm cho phân tích phương sai áp dụng cho thí nghiệm giao chéo hồn tồn khơng khác với cách dùng cho thí nghiệm khác Khía cạnh khác biệt cách tổ chức liệu cho phân tích trình bày > xover anova(xover) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treat 16.531 16.531 4.9046 0.04388 * seq 0.031 0.031 0.0093 0.92466 period 0.781 0.781 0.2318 0.63764 id 14 103.438 7.388 2.1921 0.07711 Residuals 14 47.187 3.371 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Phân tích lần khẳng định cách tính thủ cơng mà tơi trình bày phần Nói tóm lại, mức độ khác biệt thuốc giả duợc có ý nghĩa thống kê, với trị số F 0.044 Chúng ta yêu cầu khoảng tin cậy 95% cho độ khác biệt hai nhóm (bằng cách lệnh TukeyHSD) sau (chú ý với TukeyHSD sử dụng hàm aov lm): > TukeyHSD(aov(y ~ treat+seq+period+id)) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = y ~ treat + seq + period + id) $treat diff lwr upr p adj 2-1 -1.4375 -2.829658 -0.04534186 0.0438783 $seq diff lwr upr p adj 2-1 0.0625 -1.329658 1.454658 0.924656 $period diff lwr upr p adj 2-1 -0.3125 -1.704658 1.079658 0.6376395 Chú ý kết quả: $treat diff lwr upr p adj 2-1 -1.4375 -2.829658 -0.04534186 0.0438783 cho biết tính trung bình thời gian mồ nhóm điều trị cao nhóm giả dược khoảng 1.44 phút, khoảng tin cậy 95% từ 0.05 phút đến 2.8 phút Còn kết so sánh hai nhóm AB BA (seq) hay tháng tháng (period) ý nghĩa thống kê 11.9 Phân tích phương sai cho thí nghiệm tái đo lường (repeated measure experiment) Ví dụ Một nghiên cứu sơ khởi (pilot study) tiến hành để đánh giá hiệu nghiệm vắc-xin chống bệnh thấp khớp Nghiên cứu gồm bệnh nhân, chia thành nhóm cách ngẫu nhiên Nhóm gồm bệnh nhân điều trị vắc-xin; nhóm gồm bệnh nhân nhận giả dược (placebo, hay đối chứng) Bệnh nhân theo dõi tháng, tháng, bệnh nhân hỏi tình trạng bệnh Tình trạng bệnh “đo lường” số có giá trị từ (khơng có hiệu nghiệm, bệnh trước) đến 10 (có hiệu nghiệm tuyệt đối, hết bệnh) Kết nghiên cứu tóm tắt bảng số liệu sau đây: Bảng 11.10 Kết nghiên cứu vắc-xin chống đau thấp khớp Nhóm Chỉ số bệnh qua tháng Tháng Tháng Mã số bệnh nhân số (id) Tháng 1 3 5 Vắc-xin Placebo Câu hỏi có khác biệt hai nhóm vắc-xin giả dược hay khơng Để đơn giản hóa cách phân tích phương sai cho thí nghiệm tái đo lường, tơi tránh dùng kí hiệu tốn, mà minh họa vài phép tính “thủ cơng” để bạn đọc theo dõi Trước hết, cần phải tóm lược số liệu cách tính trung bình cho bệnh nhân, nhóm điều trị, tháng sau: Bảng 11.11 Tóm lược số liệu nghiên cứu vắc-xin chống đau thấp khớp Nhóm điều trị Vắc-xin Placebo id Trung bình SD Trung bình SD Trung bình cho hai nhóm Chỉ số bệnh qua tháng 3 6.25 1.71 2.75 1.26 1.50 1.29 5 6.50 1.73 6.375 3.50 1.29 3.125 4.50 1.29 3.000 Trung bình 3.000 3.667 2.333 5.000 3.500 5.333 6.333 4.000 3.667 4.833 4.167 Qua bảng trên, thấy có nguồn làm cho kết thí nghiệm khác nhau: (a) vắc-xin giả dược (có lẽ nguồn mà cần biết!); (b) tháng theo dõi; (c) mối ba tháng nhóm điều trị, mà giới thống kê thường đề cập đến “interaction” (tương tác), trường hợp này, tương tác nhóm điều trị thời gian; (d) bệnh nhân nhóm điều trị; (e) sau phần dư, tức phần mà khơng thể “giải thích” sau xem xét nguồn (a) đến (d) • Trước hết tổng bình phương hai nhóm điều trị (vắc-xin giả dược), gọi SStreat: SStreat = 12(3.500 – 4.167)2 + 12(4.833 – 4.167)2 = 10.667 • Kế đến tổng bình phương tháng điều trị, gọi SStime: SStime= 8(6.375 – 4.167)2 + 8(3.125 – 4.167)2 + 8(3.000 – 4.167)2 = 58.583 • Nguồn thứ ba tổng bình phương tương tác điều trị thời gian, gọi SSint SSint= 4(6.25 – 4.167)2 + 4(2.75 – 4.167)2 + 4(1.50 – 4.167)2 + 4(6.50 – 4.167)2 + 4(3.50 – 4.167)2 + 4(4.50 – 4.167)2 – SSvắcxin –SStime = 77.833 – 10.667 – 58.583 = 8.583 • Nguồn thứ tư tổng bình phương tương tác bệnh nhân nhóm điều trị, tơi gọi SSpatient(treat): SSpatient(treat) = 3(3.000–3.350)2 + 3(3.667–3.350)2 + 3(2.333–3.350)2 +3(5.000–3.350)2+ 3(5.333–4.833)2 + 3(6.333–4.833)2 + 3(4.000–4.833)2 +3(3.667–4.833)2 = 25.333 • Ngồi ra, tổng bình phương cho tồn mẫu là: SStotal = (6-4.167)2 +(3-4.167)2 +(0-4.167)2 + … +(3-4.167)2 = 115.333 • Từ đó, ước tính tổng bình phương cho phần dư: SSE = SStotal – SSvắcxin – SStime – SSpatient(vắcxin)– SSvắcxin-time = 115.333 – 10.667 – 58.583 – 25.333 – 8.583 = 12.167 Đến đây, lập bảng phân tích phương sai sau: Nguồn biến thiên Bậc tự (degrees of freedom) Giữa vắcxin placebo Bệnh nhân (nhóm điều trị) Giữa tháng Thời gian nhóm điều trị Phần dư (residual) 12 Tổng số 23 Tổng bình phương (Sum of squares) 10.667 25.333 58.583 8.583 12.167 115.333 Trung bình bình phương (Mean square) 10.667 4.222 29.292 4.292 1.014 Kiểm định F 2.53 28.89 4.23 - Tất tính tốn thủ cơng trên, bạn đọc thấy, rườm rà, dễ sai sót Nhưng R, có kết vòng giây, sau số liệu xếp cách thích hợp Sau đây, tơi trình bày cách phân tích phương sai tái đo lường R: • Trước hết, nhập liệu cho bệnh nhân Cũng phần mềm thống kê nào, giá trị phải kèm theo biến số đặc trưng cho bệnh nhân, nhóm, thời gian: y

Thống kê và ngôn ngữ r (4) phân tích phương sai (anova) gs ngvantuan

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan