Đang tải... (xem toàn văn)
Môn thống kê ứng dụng, chương 2 thống kê mô tả, tổng hợp lý thuyết và các công thức cần nhớ, giáo trình chuẩn, bậc đại học, bài giảng đầy đủ và chi tiết
Trang 1CHƯƠNG II
THỐNG KÊ MÔ TẢ
• Biểu đồ cành và lá: • Phân tổ thống kê
• Bảng phân phối và đồ thị phân phối
• Mô tả một bến định lượng bằng các chỉ tiêu• Mô tả liên hệ giữa hai biến bằng các chỉ tiêu
Trang 21 BIỂU ĐỒ CÀNH VÀ LÁ
• Dữ liệu phải là số nguyên Nếu không phải số nguyên chuyển về số nguyên
• Mỗi trị số chia làm hai phần cành và lá Lá là chữ số hàng đơn vị Cành gồm các chữ số còn lại bên trái chữ số của lá
• Các trị số có cành giống nhau sắp xếp cùng một hàng, phân biệt nhau bằng lá sắp xếp theo thứ tự từ nhỏ đến lớn
• Các cành sắp xếp theo thứ tự Mỗi cành cách nhau một đơn vị, không có dữ liệu vẫn được ghi, nhưng ở phần lá của nó thì để trống • Giữa cành và lá cách nhau bằng một đường thẳng đứng
• Số cành = giá trị cành lớn nhất – giá trị cánh nhỏ nhất + 1
Trang 3Ví dụ: Dữ liệu về NSLĐ của một số công nhân trong XN X được trình bày
dưới biểu đồ cành và lá như sau:
Trang 4* Nhân đôi số cành biểu đồ cành lá thành cành thấp và cành cao
+ Cành thấp nhận các lá có giá trị từ 0 đến 4 + cành cao nhận các lá có giá trị từ 5 đến 9
* Dữ liệu có số thập phân:
+ Chuyển về số nguyên bằng cách nhân dữ liệu cho 10, 100,1000… Tùy thuộc vào số chữ số sau dấu thập phân
1 BIỂU ĐỒ CÀNH VÀ LÁ
Trang 5Stem-and-Leaf Display
Analyze > Descriptive Statictis > Explore
Trang 6+ Có ít biểu hiện: Có thể xem mỗi biểu hiện là một tổ
+ Có nhiều biểu hiện: Nhóm gộp các biểu hiện giống nhau về một tính chất nào đó thành một tổ
• Biến định lượng:
+ Có ít trị số: Có thể xem mỗi trị số là một tổ
Trang 72 PHÂN TỔ THỐNG KÊ
+ Có nhiều trị số: Theo nguyên tắc lượng đổi kéo theo chất đổi; phân tổ có khoảng
cách tổ; mỗi tổ có ximin và Ximax Trị số khoảng cách tổ của mỗi tổ: hi = ximax - ximin ; Số tổ có 2 cách xác định: Dựa vào kinh nghiệm hoặc dựa vào công thức:
K số tổ (Số tổ là một số nguyên dương và làm tròn theo TOÁN HỌC Đặt thêm giả thuyết phân tổ đều
- Xác định trị số khoảng cách tổ của phân tổ đều:
Trang 8* Xác định trị số khoảng cách tổ đều và giới hạn của các tổ
- Trị số khoảng cách tổ làm tròn LÊN, số thập phân tùy thuộc vào nguồn dữ liệu ban đầu
- X1min = x min
- Ximax = Ximin + hi ( h1 = h2 = ….= hk ) - Ximax = x(i+1)min
- Nếu 1 quan sát có lượng biến bằng Ximax sẽ được xếp vào tổ (i+1)
B3 Bảng kết quả phân tổ
Trang 11*Phân tổ mở:
- Tổ đầu tiên không có x1min
- Tổ cuối cùng không có xkmax
- Sử dụng qui ước để tìm x1min và xkmax
h1 = h2 = x2max - x2min Vậy x1min = x1max – h1
hk = hk-1 = x(k-1)max - x(k-1)min Vậy xkmax = xkmin + hk
2 PHÂN TỔ THỐNG KÊ
Trang 133 DÃY SỐ PHÂN PHỐI
* Dãy số phân phối là kết quả của phân tổ thống kê cho phép nghiên cứu sự phân phối số đơn vị tổng thể giữa các tổ
* Các chỉ tiêu cơ bản của dãy số phân phối
+ Tần số: ký hiệu fi , ni , mi là số đơn vị tổng thể tổ i + Tần suât: ký hiệu di là tần số tính theo số tương đối
+ Tần số tích lũy: ký hiệu si là tần số lũy kế
Trang 143 DÃY SỐ PHÂN PHỐI
Trang 154 ĐỒ THỊ
• Đồ thị mô tả 1 biến: Có 2 loai đồ thị cơ bản thường dùng
+ Đồ thị tần số, đồ thị với trục hoành thể hiện biến phân tổ và trục
tung là tần số
+ Đồ thị tần suất (hay còn gọi là đồ thị kết cấu, đồ thị cơ cấu)
Đồ thị hình tròn hay còn gọi là đồ thị hình bánh
Trang 1610Marada Inn Quality Ratings
4 ĐỒ THỊ PHÂN PHỐI MỘT BIẾN ĐỊNH TÍNH
Trang 17Tune-up Parts Cost
Ví dụ: Sửa xe ô tô Hudson
4 ĐỒ THỊ PHÂN PHỐI MỘT BIẾN ĐỊNH LƯỢNG(Histogram)
Trang 1950 60 70 80 90 100 110
Chi phí ($)
Chi phí cho phần điều chỉnh Ví dụ: Sửa xe ô tô Hudson
4 ĐỒ THỊ PHÂN PHỐI MỘT BIẾN ĐỊNH LƯỢNG (Dot Plot)
Trang 23 Xác định nhãn các tổ lề trái và phía đầu cho hai biến
Bảng chéo có thể sử dụng khi:
• Một biến là định tính và biến khác là định lượng • Cả hai là biến định tính
• Cả hai là biến định lượng
Bảng chéo một là một bản tóm tắt các dữ liệu cho bảng hai biến
5 BẢNG PHÂN PHỐI KẾT HỢP (BẢNG CHÉO)
Trang 24Ví dụ: Số căn nhà Finger Lakes bán được cho mỗi loại
và giá cả trong hai năm qua được thể hiện dưới đây
5 BẢNG PHÂN PHỐI KẾT HỢP (BẢNG CHÉO)
Trang 28Analyze > Descriptive Statictis > Crosstabulation>
Trang 29ColonialLog Split-Level A-Frame Split-LevelA-Frame
Trang 30ColonialLog Split A-Frame
Trang 316.MÔ TẢ MỘT BIẾN ĐỊNH LƯỢNG BẰNG CÁC CHỈ TIÊU
Các chỉ tiêu mô tả khuynh hướng hội tụ (vị trí trung tâm)
Các chỉ tiêu mô tả độ phân tán
Trang 326.1 CÁC CHỈ TIÊU MÔ TẢ KHUYNH HƯỚNG HỘI TỤ
1 Số trung bình 2 Số mốt
3 Số trung vị
Nếu các đo lường này được tính cho dữ liệu
từ một mẫu chúng được gọi là thống kê mẫu
Nếu các đo lường này được tính cho dữ liệu
từ một mẫu chúng được gọi là thống kê mẫu
Nếu các đặc trưng này được tính cho dữ liệu từ
một tổng thế, chúng được gọi là các tham số
tổng thể.
Nếu các đặc trưng này được tính cho dữ liệu từ
một tổng thế, chúng được gọi là các tham số
Trang 33SỐ TRUNG BÌNH
Số trung bình là thước đo quan trọng nhất của đo lường độ hội tụ
Giá trị trung bình của một tập dữ liệu là mức trung bình của tất cả các giá trị dữ liệu
Giá trị trung bình của một tập dữ liệu là mức trung bình của tất cả các giá trị dữ liệu
Trang 34SỐ TRUNG BÌNH
Trung bình mẫu
Trung bình tổng thể
Trang 35SỐ TRUNG BÌNH CỘNG GIẢN ĐƠN
Lượng biến xi là chỉ tiêu khối lượng và tài liệu không phân tổ
Trang 37
SỐ TRUNG BÌNH CỘNG GIA QUYỀN
1.Lượng biến xi là chỉ tiêu khối lượng và tài liệu phân tổ
2.Lượng biến xi là chỉ tiêu chất lượng và trong số Wi là tần số (tần suất)
Trang 38ĐỐI VỚI TÀI LI U PHÂN TỔ CÓ KHOẢNG CÁCH TỔỆU PHÂN TỔ CÓ KHOẢNG CÁCH TỔ
Xi gọi là trị số giữa tổ i
Trang 41SỐ TRUNG BÌNH CỘNG CÓ TRỌNG SỐ
Lượng biến xi là chỉ tiêu chất lượng có thông tin về xi và Wi
Trang 44SỐ TRUNG BÌNH ĐIỀU HÒA GIA QUYỀN
Lượng biến xi là̀ chỉ tiêu chất lượng có thông tin về xi và Mi
Trang 47SỐ TRUNG BÌNH ĐỀU HÒA GIẢN ĐƠN
Lượng biến xi là̀ chỉ tiêu chất lượng có thông tin về xi và M1 = M2=… = Mn(N)
Trang 49SỐ TRUNG BÌNH NHÂN
(TỐC ĐỘ PHÁT TRIỂN TRUNG BÌNH)
Lượng biến xi là tốc độ phát triển (số tương đối động thái, tỷ lệ phát triển, chỉ số ptriển) Tốc độ tăng (tỷ lệ tăng) = tốc độ phát triển -1 (lần)
Số trung bình nhân giản đơn
Số trung bình nhân gia quyền
Trang 55SỐ MỐT (MODE)
• Số mốt của một tập dữ liệu là giá trị mà lặp lại với tần số lớn nhất.
• Tần số lớn nhất có thể xảy ra tại hai hoặc nhiều giá trị khác nhau • Nếu dữ liệu có chính xác hai số mốt, dữ liệu là hai mốt
• Nếu dữ liệu có nhiều hơn hai mốt, dữ liệu Đa mốt
• Chú ý: Nếu dữ liệu là hai mốt hoặc đa mốt, Chức năng của Excel sẽ
xác định sai một mốt duy nhất.M0 = Xfmax
Trang 576.2 CÁC CHỈ TIÊU MÔ TẢ ĐỘ PHÂN TÁN
1 Khoảng biến thiên
2 Độ lệch tuyệt đối bình quân
Trang 58SỐ TRUNG BÌNH
• Chú ý: Số trung bình dùng trong đánh giá độ phân tán là số trung
bình số học, không quan tâm đến LƯỢNG BIẾN là chỉ tiêu gì• Tài liệu không phân tổ
• Tài liệu phân tổ
Trang 59KHOẢNG BIẾN THIÊN (Range)
Khoảng biến thiên của bộ dữ liệu là chênh lệch giữa giá trị dữ liệu lớn nhất và giá trị dữ liệu nhỏ nhất
Đây là thang đo đơn giản nhất của độ phân tán
Nó rất nhạy cảm với các giá trị dữ liệu nhỏ nhất và giá trị dữ liệu lớn nhất.
Trang 60KHOẢNG BIẾN THIÊN (Range)
Range = Xmax - Xmin
Trang 61ĐỘ LỆCH TUYỆT ĐỐI BÌNH QUÂN
Trang 62
PHƯƠNG SAI (Variance)
+ Phương sai là thước đo của sự phân tán mà sử dụng tất cả các dữ liệu.
+ Nó được dựa trên sự khác biệt giữa giá trị mỗi quan sát (xi) và trung bình + Phương sai hữu ích trong việc so sánh sự thay đổi của hai hay nhiều biến + Phương sai là mức trung bình của bình phương sự khác biệt giữa các
giá trị dữ liệu và giá trị trung bình
PHƯƠNG SAI (Variance)
Trang 64Cho mẫu
Cho tổng thể
Tài liệu không phân tổ:
PHƯƠNG SAI (Variance)
Trang 65Cho mẫu Cho tổng thể
Tài liệu có phân tổ
PHƯƠNG SAI (Variance)
Trang 67ĐỘ LỆCH CHUẨN (Standard Deviation)
+ Độ lệch chuẩn của bộ dữ liệu là căn bậc hai của phương sai
+ Nó được đo bằng đơn vị tương tự như dữ liệu, dùng nó giải thích dễ dàng hơn phương sai
Độ lệch chuẩn được tính theo công thức sau:
Chú ý: Cả 4 chỉ tiêu khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai và độ lệch chuẩn không dùng so sánh 2 tổng thể (mẫu) có qui mô khác nhau và Không dùng so sánh 2 biến khác nhau
Trang 68
HỆ SỐ BIẾN THIÊN (Coefficient of Variation)
+ Hệ số biến thiên cho thấy sự lớn như thế nào của độ lệch chuẩn quan hệ đến giá trị trung bình
Chú ý: Hệ số biến thiên khắc phục các nhược điểm của 4 chỉ tiêu trên, cho phép so sánh 2 tổng thể (mẫu) có qui mô khác nhau, 2 biến khác nhau
Trang 71PHƯƠNG SAI TỶ LỆ
Cho mẫu
Tỷ lệ mẫu Tỷ lệ tổng thể ( tỷ lệ của biến thay phiên)
ni : Tần số biểu hiện biến nghiên cứu của mẫu
Ni : Tần số biểu hiện biến nghiên cứu của tổng thể
Trang 72PHƯƠNG SAI MẪU, ĐỘ LỆCH CHUẨN MẪU VÀ HỆ SỐ BIẾN THIÊN MẪU
Trang 737 TỨ PHÂN VỊ VÀ BIỂU ĐỒ HỘP
1 Tứ phân vị2 Biểu đồ hộp
Trang 76BIỂU ĐỒ HỘP (Box Plot)
+ Một biểu đồ hộp là bản tóm tắt đồ họa của dữ liệu mà dựa trên một bản tóm tắt năm số.
+ Chìa khóa cho sự phát triển của một một biểu đồ hộp là tính toán của trung vị , tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3).
+ Biểu đồ cung cấp một cách khác để xác định giá trị ngoại lai.
Giới hạn được định vị trí (không vẽ) bằng cách sử dụng khoảng tứ phân vị (IQR = Q3 – Q1).
Giới hạn dưới: Q1 - 1.5(IQR)
Giới hạn trên: Q3 + 1.5(IQR)
Dữ liệu bên ngoài những giới hạn này được coi là giá trị ngoại lai.
Các vị trí của mỗi cái nằm ngoài được hiển thị với biểu tượng *.
Trang 77• Ria (đường đứt nét) được rút ra từ các đầu của hộp để các giá trị dữ liệu nhỏ nhất và lớn nhất bên trong các giới hạn
Trang 788 CÁC CHỈ TIÊU MÔ TẢ HÌNH DÁNG PHÂN PHỐI
1 HỆ SỐ KURTOSIS
2 HỆ SỐ SKEWNES
Trang 79 Một đo lường quan trọng hình dạng của phân phối được gọi là độ lệch
Công thức 1:
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trong đó: n: kích thước mẫu
xi Lượng biến thứ i
trung bình mẫu Độ lệch chuẩn mẫu
Trang 80 Công thức 2:
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 81 Đối xứng (Symmetric) (Không lệch (not skewed))
• Mean và median bằng nhau
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 82• Mean thường sẽ nhỏ hơn median.
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 83• Hơi lệch về phía phải (Moderately Skewed Right)
• Mean thường sẽ lớn hơn median.
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 84 Rất lệch phải (Highly Skewed Right)
• Skewness mang dấu dương (thường trên 1.0) • Mean thường sẽ lớn hơn median nhiều.
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 85Bảy mươi căn là mẫu lấy ngẫu nhiên trong một làng đại học Giá thuê hàng tháng cho các căn hộ đều được liệt kê dưới đây theo thứ tự tăng dần
Trang 86 Ví dụ: Căn hộ cho thuê
8.1 HÌNH DÁNG PHÂN PHỐI: SKEWNES
Trang 878.2 HÌNH DÁNG PHÂN PHỐI: KURTOSIS
Kurtosis là đại lượng đo lường mức độ tập trung tương đối của các quan sát xung quanh trung tâm của nó trong mối quan hệ so sánh với hai đuôi
Trang 89 Mô tả liên hệ tương quan giữa hai biến định lượng:
Hiệp phương sai
Hệ số tương quan (Pearson)
Hệ số tương quan hạng (Spearman)
9.MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN BẰNG CÁC CHỈ TIÊU
Mô tả liên hệ giữa hai biến định danh:
Trang 909.1 MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN ĐỊNH LƯỢNG
xi lượng biến trung bình mẫu biến x
yi lượng biến trung bình mẫu biến y
Độ lệch chuẩn mẫu biến x
Độ lệch chuẩn mẫu biến y Sxy : Hiệp phương sai mẫu
Trang 919.1 MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN ĐỊNH LƯỢNG
Trang 92Tổng thể
9.1.1 HIỆP PHƯƠNG SAI (Covariance)
Sxy = 0 hai biến không có liên hệ tương quan
Sxy > 0 hai biến có liên hệ tương quan tuyến tính thuận
Sxy < 0 hai biến có liên hệ tương quan tuyến tính nghịch
+ Hiệp phương sai là thước đo tương quan tuyến tính giữa hai biến + giá trị dương cho thấy một mối quan hệ thuận
+ giá trị âm cho thấy một mối quan hệ nghịch
Trang 93Tổng thể
9.1.2 HỆ SỐ TƯƠNG QUAN PEARSON ( Pearson Correlation Coefficient)
+ Tương quan là một biện pháp liên hợp tuyến tính và không nhất thiết nhân quả + Chỉ vì hai biến có liên quan chặt chẽ, nó không có nghĩa là một biến là nguyên nhân của biến khác.
+ -1 ≤ rxy ≤ 1
+ rxy gần -1 tương quan hệ tuyến tính nghịch mạnh mẽ + rxy gần 1 tương quan hệ tuyến tính thuận mạnh mẽ + rxy gần với 0, tương quan càng yếu
Trang 979.1.3 HỆ SỐ TƯƠNG QUAN HẠNG SPEARMAN( Rank Correlation Coefficient)
-1 ≤ rxy ≤ 1
rxy gần -1 tương quan hệ tuyến tính nghịch mạnh mẽ rxy gần 1 tương quan hệ tuyến tính thuận mạnh mẽ rxy gần với 0, tương quan càng yếu
di = hạngxi – hạngyi Chênh lệch về hạng của biến x và biến y
Xếp hạng theo nguyên tắc:
+ Sắp xếp các lượng biến từ nhỏ đến lớn
+ Giá trị nhỏ xếp hạng nhỏ, giá trị lớn xếp hạng lớn + Các giá trị bằng nhau xếp hạng trung bình
Trang 100 Hệ số Cramer:
K: số hàng hoặc cột trong bảng (chọn K nào nhỏ hơn) n: Số quan sát trong mẫu
Cramer cho biết độ mạnh của mối liên hệ giữa các biến định danh
9.2 MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
- V càng gần 0: Liên hệ càng yếu
Trang 1019.2 MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
Hệ số liên hợp (coefficient of contingency)
C = 0 hai biến không có mối quan hệ 0 ≤ C ≤ 1
Trang 104ÔN TẬP CHƯƠNG
Trang 105 Hệ số Gamma:
(liên hệ nghịch hoàn toàn) -1 ≤ Gramma ≤ 1 (liên hệ thuận hoàn toàn) Gramma = 0 hai biến độc lập
Gramma được tính dựa trên thông tin mẫu Để chắc chăn đúng, ta kiểm định ý nghĩa của Gramma ( Với H0: Gramma của tổng thể = 0)
9.3 MÔ TẢ LIÊN HỆ GIỮA HAI BIẾN THỨ BẬC
Hệ số Kendall-Tau
Tau-b: Thích hợp với bảng cân đối Tức số hàng = số cột Tau-c: thích hợp bảng không cân đối