Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 - Đặng Thế Gia

18 513 0
Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 - Đặng Thế Gia

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 cung cấp cho người học các kiến thức: Phép đo các vị trí trung tâm (Measures of Central Location); Phép đo các biến động (Measures of Variability); Qui tắc thực nghiệm; Vị trí tương đối (Measures of Relative Standing); Biểu đồ hộp (Box Plot); Phép đo dữ liệu nhóm (Approximating Descriptive Measures for grouped Data); Phép đo sự liên hợp (Measures of Association). Mời các bạn cùng tham khảo!

1/21/2019 Nội dung chương MÔN HỌC THỐNG KÊ ỨNG DỤNG - XD (KC107) Phép đo vị trí trung tâm (Measures of Central Location) Phép đo biến động (Measures of Variability) Qui tắc thực nghiệm Vị trí tương đối (Measures of Relative Standing) GIÁO VIÊN GIẢNG DẠY ĐẶNG THẾ GIA Biểu đồ hộp (Box Plot) Phép đo liệu nhóm (Approximating Descriptive Measures for grouped Data) Phép đo liên hợp (Measures of Association) Bộ môn Kỹ Thuật Xây Dựng Khoa Công Nghệ, Trường Đại Học Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Chương 4: PHÉP ĐO MƠ TẢ SỐ Phép đo vị trí trung tâm NUMERICAL DESCRIPTIVE MEASURES Measures of Central Location Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Thông thường tập trung mối quan tâm vào hai vấn đề phép đo vị trí trung tâm:    Trung bình số học (Arithmetic Mean)  Đây phép đo vị trí trung tâm phổ biến Đo điểm trung tâm liệu (trung bình) Đo phân tán (dispersion) liệu quanh giá trị trung bình Mean = Sum of the measurements Number of measurements TB mẫu Điểm trung tâm liệu phản ánh vị trí tất điểm liệu thực tế nini11xxi i x nn Kích thước mẫu Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Thông thường tập trung mối quan tâm vào hai vấn đề phép đo vị trí trung tâm:   Đo điểm trung tâm liệu (trung bình) Đo phân tán (dispersion) liệu quanh giá Nhưng liệu thứ ba xuất phía trái, trị trung bình “kéo” điểm trung tâm bên trái Với điểm liệu, điểm trung tâm nằm vị trí liệu Nếu liệu thứ ba nằm vị trí trung tâm, điểm trung tâm khơng thay đổi Với liệu, điểm trung tâm năm vị trí (nhằm phản ánh vị trí hai điểm liệu) Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ TB tổng thể  Ni1 x i  N Kích thước tổng thể Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ • Ví dụ Trung bình mẫu có liệu 7, 3, 9, -2, 4, tính x  i61 x i x71  x3  x93  x24  x45  x66   6 4.5 • Ví dụ Giả sử có hóa đơn tiền điện (tổng thể) Trung bình tổng thể  x42.19  x15.30   x53.21  i200 200 1 x i   200 200 43.59 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019 • Ví dụ  Giá trị thường gặp (Mode) Khi nhiều liệu có giá trị, liệu gộp lại thành bảng tần suất Giả sử số lao động trẻ em nhóm lao động (mẫu) gồm 16 (kích thước) người sau: SỐ TRẺ EM SỐ LAO ĐỘNG   Giá trị thường gặp giá trị suất với tần suất lớn (xuất nhiều lần nhất) Nhóm liệu có GTTG (hoặc nhóm TG), nhiều GTTG Nhóm thường gặp 16 người lao động x 16 i 1 x i 16 x  x  x16 3(0)  4(1)  7(2)  2(3)    1.5 16 16 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Với liệu nhóm lớn, nhóm TG thường dùng GTTG Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Trung vị (Median)  Trung vị nhóm liệu giá trị nằm liệu xếp theo thứ tự độ lớn Ví dụ Lương người lao động (đơn vị triệu đồng): 28, 60, 26, 32, 30, 26, 29 Tìm trung vị lương Giả sử người lao động nhận lương 31 triệu VNĐ thêm vào nhóm Tìm trung vị lương Số lượt quan sát số chẵn Số lượt quan sát số lẽ Trước tiên, xếp lương theo thứ tự tăng dần Trước tiên, xếp lương Sau tìm giá trị nằm Sau tìm giá trị nằm 26,26,28,29, 29.5,30,31,32,60 26,26,28,29,30,32,60  Ví dụ • Nhà quản lý của hiệu quấn án nam quan sát thấy size thắt lưng (inches) bán ngày hôm qua là: 31, 34, 36, 33, 28, 34, 30, 34, 32, 40 • Giá trị thường gặp nhóm liệu 34 in Thơng tin có vẽ hữu ích (ví dụ, cho trường hợp thiết kế nhập thêm hàng kho), giá trị trung vị 33.5 hay giá trị bình qn 33.2 Có giá trị nằm giữa! Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Mối quan hệ Mean, Median, Mode • Ví dụ Thầy giáo dạy môn TKUD muốn báo cáo kết thi kỳ 100 sinh viên Số liệu bảng sau (file XM04-06) Tìm giá trị bình quân, trung vị, & GTTG? cho biết chúng mô tả thông tin gì? Giá trị bình qn cung cấp thơng tin Marks Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count 73.98 2.1502163 81 84 21.502163 462.34303 0.3936606 -1.073098 89 11 100 7398 100 trình độ tổng thể lớp Có thể xem công cụ để so sánh với lớp khác Trung vị rằngkỳcóthi½khác số sinh viên điểm 81 ½ số sinh viên đạt 81 GTTG sử dụng cho liệu chất KếtNếu quảđiểm Excel lượng số chữ (A,B,C,…), tần suất điểm tính tốn Khi GTTG phép đo hợp lý Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Biểu đồ tần suất Excel (Histogram) Bin 10 20 30 40 50 60 70 80 90 100 More Frequency 6 10 16 28 24 Frequency 30 Biểu đồ tần suất nghiên trái 20  Nếu phân phối đối xứng, mean, median mode trùng  Nếu phân phối bất đối xứng, nghiêng (độ xiên) trái hay phải, giá trị khác Phân phối xiên dương Mode Mean Median Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Mối quan hệ Mean, Median Mode  Nếu phân phối đối xứng, mean, median mode trùng  Nếu phân phối bất đối xứng, nghiêng trái hay phải, giá trị khác 10 Phân phối xiên dương Phân phối xiên âm Mode Mean Median Mean Mode Median Nhóm thường gặp (Modal class) Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Bình quân hình học   Đây phép đo cho bình quân tăng trưởng (average R g  n (1  R )(1  R ) (1  R n )  growth rate) Gọi Ri suất thu lợi (RoR) năm i (i=1,2…,n) Bình quân hình học năm R1, R2, …,Rn Rg chọn cho n giai số Rg cho kết tương đương đến cuối đoạn cho kết năm thứ n Suất thu lợi n năm xác định công thức (1  R1 )(1  R ) (1  R n ) = Nếu suất thu lợi Rg cho tất năm, suất thu lợi trung bình tính (1  R g ) n Phép đo biến động (Nhìn xa giá trị bình quân) Measures of Variability (Look beyond the average) (1  R g )n Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Ví dụ • Doanh thu năm trước doanh nghiệp $1,000,000 • Doanh thu tăng hàng năm 20%, 10%, -5% • Tìm bình quân hình học mức tăng doanh thu  Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Các phép đo vị trí trung tâm khơng mơ tả tồn câu chuyện phân phối  Vẫn thác mắc chưa trả lời: Giải • Gọi Rg bình qn hình học (1+R)3 = (1+.2)(1+.1)(1-.05)= 1.2540 Vì vậy, R g  (1  2)(1  1)(1  05)   0784, or 7.84% Điển hình giá trị bình quân toàn liệu nào? Dự liệu trải rộng bao xa quanh giá trị bình quân? Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019 Quan sát hai liệu  Phương sai/Độ lệch quân phương  Dữ liệu biến động thấp  Phép đo phân tán phản ánh giá trị tất số liệu Phương sai tổng thể N số liệu x1, x2,…,xN có giá trị bình qn  xác định Giá trị bình quân đại diện tương đối tốt cho toàn liệu   Dữ liệu biến động cao Dữ liệu trước đây, …  … thay đổi thành Cùng giá trị bình quân, khơng mơ tả tốt cho tồn liệu trước   s   ni1( x i  x) n 1 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Khoảng giá trị liệu chênh lệch giá trị lớn giá trị nhỏ Xác định khoảng giá trị việc đơn giản Tuy nhiên, liệu trải nào? trị chưa lời tả câu hỏi phân tán KhoảngKhoảng giá trịgiá chưatrảmô Khoảng giá?trị ? ? liệu hai đầu Số liệu nhỏ N Phương sai mẫu n số liệu x1, x2, …,xn có giá trị bình qn x xác định  Khoảng giá trị  N ( x  ) i 1 i Số liệu lớn Xét tổng thể nhỏ: Tổng thể A: 8, 9, 10, 11, 12 Tổng thể B: 4, 7, 10, 13, 16 9-10= -1 11-10= +1 8-10= -2 12-10= +2 Do vậy, giá trị bình quân chưa đủ Cần phép đo phân tán thích hợp với quan sát Sum = Thử tính tổng độ lệch (deviation) A 10 11 12 Giá trị bình quân hai tổng thể 10 Tổng đại số độ lệch zero, chưa phản ánh tính chất phân tán số liệu, cần phép đo khác 4-10 =-6 16-10 = +6 7-10 = -3 …nhưng số liệu B phân tán rộng A B Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 10 13 16 13-10 = +3 Sum = Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019 9-10= -1 11-10= +1 Tổng bình phương độ lệch phù hợp để mô tả khác biệt Bộ liệu phân tán nhiều hơn? 8-10= -2 12-10= +2 Ta tính tổng bình phương độ lệch cho liệu Dữ liệu B phân tán nhiều giá sai trị bình Tuy nhiên, khiquanh tính tốn biệt quân cho “từng” số liệu, phân tán số liệu “tích lũy” Sum = Tổng đại số độ lệch zero, chưa phản ánh tính chất phân tán số liệu, cần phép đo khác 4-10 =-6 A 10 11 12 16-10 = +6 7-10 = -3 B 10 13 16 A B SumA = (1-2)2 lần 13-10 = +3 Sum = 2A  2 2 ! SumB = (1-3)2 + (5-3)2 = Còn nữa, tổng bình phương độ lệch tăng giá trị phân tán nhóm liệu tăng lên!! B2 = SumB/N = 8/2 = Ví dụ • Tìm giá trị bình quân, trung vị, GTTG phương sai liệu mẫu sau (đơn vị: năm) (8  10)  (9  10)  (10  10)  (11 10)  (12  10) 2 Tại phương sai định nghĩa giá trị bình quân bình phương độ lệch? Tại khơng dùng giá trị tổng bình phương? A = SumA/N = 10/10 = Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  (4  10)2  (7  10)2  (10  10)2  (13  10)2  (16  10)2 B2   18 5 lần Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Thử tính phương sai hai tổng thể A & B +…+(1-2)2 +(3-2)2 +… +(3-2)2= 10 3.4, 2.5, 4.1, 1.2, 2.8, 3.7  Giải Công thức rút gọn  xi 3.4  2.5  4.1  1.2  2.8  3.7 17.7 x  i1    2.95 n 2  i 1( x i  x ) s   n 1 6 n 2   n ( i 1 xi )  x    n  i 1 i n   = [3.42+2.52+…+3.72] - [(17.7)2/6] = 1.075 (năm)2 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Hệ số biến thiên (Coefficient of Variation)  Độ lệch tiêu chuẩn (Standard Deviation) liệu bậc hai phương sai  Đô lêch quân phuong mãu : s  s Đô lêch quân phuong tông thê :    Hệ số biến thiên (CV), gọi Độ lệch chuẩn tương đối (Relative SD, RSD) đại lượng thống kê mô tả dùng để đo mức độ biến động tương đối tập hợp liệu chưa phân tổ có giá trị bình qn khác Hệ số biến thiên tỷ số độ lệch chuẩn giá trị bình s quân Sample coefficient of variation : cv  Độ lệch chuẩn 10 xem làxlớn giá trị bình quân 100, được Population coefficient of variation : CV  xem vừa phải giá trị bình quân 500   Hệ số CV tỷ lệ với mức độ biến động liệu Dùng để: • So sánh độ phân tán tượng có đơn vị tính khác • Hoặc tượng loại có số trung bình khơng Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ   Hệ số biến thiên (Coefficient of Variation) Ví dụ Suất thu lợi 10 năm qua hai quỹ tương hỗ cho bên Quỹ có mức rủi ro cao hơn? Quỹ A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05 Quỹ B: 12.1, -2.8, 6.4, 12.2, 27.8, 18.2, 10.7, -1.3, Quỹ25.3, A Quỹ B11.4  Giải – Bảng tính bên lấy từ MS Excel (file Xm04-10) Quỹ A xem rủi ro có độ lệch chuẩn lớn Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count 16 5.295 14.6 #N/A 16.74 280.3 -1.34 0.217 49.1 -6.2 42.9 160 10 Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count   12 3.152 11.75 #N/A 9.969 99.37 -0.46 0.107 30.6 -2.8 27.8 120 10   Giữa tập hợp liệu, tập có hệ số biến thiên lớn tập có mức độ biến động lớn Hệ số biến thiên cao, độ phân tán lượng biến lớn, tính chất đại diện số bình qn thấp ngược lại Trong thực tế, thống kê thực nghiệm cho CV > 40% tính chất đại biểu số bình quân thấp Nhược điểm hệ số biến thiên dùng để đo mức độ biến động giá trị bình quân gần biến động nhỏ giá trị bình qn khiến cho hệ số thay đổi lớn Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Ví dụ 10 • Thời gian 30 gọi đường dài mô tả hình vẽ Kiểm tra quy tắc thực nghiệm Qui tắc thực nghiệm • Giải Trước tiên kiểm tra liệu biểu đồ tần suất có dạng hình chng! 10 2 11 14 More • Tính giá trị bình qn độ lệch chuẩn: Mean = 10.26; SD = 4.29  Độ lệch chuẩn dùng để  20 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  17 So sánh độ biến động phân phối khác Mơ tả hình dạng tổng qt phân phối  Quy tắc thực nghiệm: Nếu mẫu số liệu có phân phối dạng hình chng (gò), khoảng giá trị • Kiểm tra khoảng: ( x  s , x  s )  (10.26 - 4.29, 10.26  4.29)  (5.97, 14.55) ( x  s , x  s )  (1.68, 18.84) ( x  s , x  s )  (-2.61, 23.13) ( x  s, x  s ) chúa khoang 68% sô liêu ( x  2s, x  s ) chúa khoang 95% sô liêu ( x  3s, x  3s ) chúa hâu nhu tồn bơ sơ liêu (99.7%) Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Khoảng 5.97, 14.55 1.68, 18.84 -2.61, 23.13 Quy tắc TN 68% 95% 99.7% Phần trăm xuất 70% 96.7% 100% Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Kết luận khác  Theo quy tắc thực nghiệm, khoảng 95% diện tích phía hình chng nằm khoảng ( x  2s, x  2s) Định lý Chebyshev (1-1/k2) cho tập liệu với hình dạng phân phối 95% diện tích Khoảng giá trị cácxcuộc  2s, gọi xđường xdài  2là s 19.5-2.3=17.2 phút Khoảng cách hai điểm đầu cuối 4s,  tính gần S s 17.2  4.3 phút s KhoangGiáT ri Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Định lý Chebyshev (theorem) Cho liệu số k (không nhỏ 1), tỉ lệ liệu nằm khoảng k lần độ lệch chuẩn quanh Mean tối thiểu 1-1/k2 1-1/22=3/4  Định lý cho tập liệu với hình dạng phân phối 1-1/32=8/9 K Khoảng Chebyshev Quy tắc TN  x  s, x  s x  2s, x  s x  s, x  s tối thiểu 0% tối thiểu 75% tối thiểu 89% Vị trí tương đối Measures of Relative Standing xấp xỉ 68% xấp xỉ 95% xấp xỉ 99.7% Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019   Phân vị  • Xếp số liệu theo thứ tự Phân vị pth liệu giá trị 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 • Khơng p% liệu nhỏ giá trị • Khơng q (1-p)% tất liệu lớn giá trị  Tứ phân vị thứ 15 số liệu Ví dụ Tối đa (.25)(15) = 3.75 số liệu nằm Q1 Để ý số liệu phía trái • Giả sử 600 phân vi 78% điểm GMAT Khi 78% điểm số nằm 200  Tứ phân vị thứ ba Giải 22% 600 Không (.75)(15)=11.25 số liệu nằm Q1 Để ý số liệu phía phải 800 Phân vị 50%, gọi Tứ Phân Vị thứ nhì, số trung vị (Median) Nếu số số liệu chẵn, có hai số liệu để cân nhắc xem số liệu Q1 Khi chọn trung bình hai số liệu Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Phân vị thơng dụng • • • • •  Thập phân vị thứ (First [lower]decile) Tứ phân vị thứ (First [lower]quartile, Q1) Tứ phân vị thứ nhì (Second [middle]quartile,Q2) Tứ phân vị thứ ba (Third [upper]quartile, Q3) Thập phân vị thứ chín (Ninth [upper]decile) = 10% = 25% = 50% = 75% = 90% Biểu đồ hộp Box Plot Ví dụ 11 Tìm tứ phân vị tập liệu sau 7, 18, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019   • Ta có bảng số liệu mơ tả tỉ lệ CO2 bình qn đầu người quốc gia đông dân số giới sau : Là dạng mô tả hình cho phép đo mơ tả chủ yếu tập số liệu      Ví dụ 12 – Điều chỉnh có giá trị ngoại biên L - giá trị lớn số liệu Q3 - tứ phân vị Khi có giá trị ngoại biên, cần phải điều chỉnh biểu đồ Q2 - trung vị Q1 - tứ phân vị hộp tổng quát S - giá trị nhỏ số liệu Quốc Gia Xem ví dụ phía sau S Q1 Q2 Q3 L China India The US Indonesia Brazil Pakistan Russia 4.9 1.4 18.9 1.8 1.9 0.9 10.8 Bangladesh 0.3 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Các kiểu “râu” Biểu đồ hộp    Tối thiểu tối đa tất liệu (tổng quát) Mốc thấp vòng 1,5*IQR tứ phân vị dưới, mốc cao vòng 1,5*IQR tứ phân vị (thường gọi biểu đồ hộp Tukey, hay John W Tukey)  Một độ lệch chuẩn giá trị bình quân  9% 91%  2% 98% CO2/đầu người Giải • Trước vẽ boxplot, ta tính tốn tham số sau: – – – – – – – – Min = 0.3 Q1 = 1.275 Trung vị = 1.85 Q3 = 6.375 Max = 18.9 IQR = Q3 – Q1 = 5.1 Lower = Q1 – 1.5*IQR = -6.375 Upper = Q3 + 1.5*IQR = 14.025 • Độ trãi (Interquartile Range, IQR = Q3 – Q1) • Từ Lower Upper, ta suy US = 18.9 giá trị ngoại biên khơng tính vẽ râu biểu đồ hộp Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019 440  670 Ví dụ 13 – điểm GMAT • Vẽ biểu đồ hộp cho liệu điểm GMAT 200 sinh viên (file Xm04-12) S 410 Q1 530 25%  Q2 560 50% 25% Diễn giải kết từ biểu đồ hộp • • • • Phổ điểm GMAT trải từ 410 đến 700 Một nửa số điểm thấp 650, nửa 650 Một nửa số điểm nằm khoảng 530 590 Một phần tư số điểm thấp 530 ¼ số điểm 590 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 440 S 410 L 700 Q3 590 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 670 Q1 530 Q2 560 L 700 Q3 590 S 410 Q1 530 25% Q2 560 50% L 700 Q3 590 25% Phân phối theo phân vị không đối xứng -> Nghiêng dương IQR = Q3 - Q1 = 590 - 530 = 60 Khoảng trải (Fences) ={Q1-1.5(IQR), Q3+1.5(IQR} = {440, 670} 50% Các giá trị ngoại biên (outliers) 700 410 Do vậy, hai “râu” dời đến ranh giới (440, 670), đến giá trị ngoại biên (410 and 700) Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 25% 51 25% 217 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Các vị trí tương đối hàm mật độ phân phối chuẩn Phép đo liệu nhóm Approximating Descriptive Measures for grouped Data Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Biến thể Biểu đồ hộp Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Xấp xỉ phép đo mô tả cần thiết trường hợp sau:   Khi việc xấp xỉ cần thiết, Khi có liệu nhóm thứ cấp Số lượng nhóm n = f1+f2+…+ fk Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Điểm nhóm i  ki1 fi m i x Tần suất nhóm i n (  ki1 fi m i )  k s2   f m   i i  n   i1 n  fimi giá trị tương đương xấp xỉ số liệu nhóm i Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Ví dụ 14 • Xấp xỉ giá trị bình quân độ lệch chuẩn độ dài gọi từ liệu dạng tần suất x 10 k s82    fim i  n   i1 Class i k (  i1 f.imi ) n6 i61 fimi 312.0   10.4 30 Class Frequency Midpoint limits fi mi fimi fimi2 2-5 3.5 10.5 36.75 Real values : 39.0 5-8 6.5 253.5 8-11 8 10.26 9.5 and 76.0 722.o x s  18 40   17-20 18.5 37.0 684.5    312  3,751    17 47 30 17   20 More 11 14  3.5 6.5 29 2 n = 30 312.0  Hai phép đo mơ tả quan hệ tuyến tính hai biến biểu diễn sơ đồ phân tán (scatter diagram)  Hiệp phương sai (Co-variance) – Liệu biến biến thiên theo mơ hình khơng?  Hệ số tương quan (Correlation coefficient) – Quan hệ tuyến tính biến mạnh nào? 3,751.5 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ  Hiệp phương sai (Co-variance) Phép đo liên hợp Measures of Association Population covariance  COV(X, Y)  N x , y giá trị bình quân biến X Y N số phần tử tổng thể n kích thước mẫu Sample covariance  cov(X, Y)  Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ (x i   x )( y i   y ) (x i   x )( y i   y ) n-1 Đặng Thế Gia, BM Kỹ thuật xây dựng ĐH Cần Thơ 1/21/2019  Nếu hai biến di chuyển theo hướng (cùng tăng giảm), hiệp phương sai có giá trị dương lớn  Nếu hai biến khơng có quan hệ, hiệp phương sai gần với zero COV(X,Y)>0 Hoặc +1 Quan hệ tuyến tính dương mạnh  r = Khơng quan hệ tuyến tính COV(X,Y)=0  Nếu hai biến di chuyển theo hướng (một tăng, giảm), hiệp phương sai có giá trị âm lớn -1 Quan hệ tuyến tính âm mạnh COV(X,Y)

Ngày đăng: 12/01/2020, 21:23

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan