Ước lượng phi tham số cho hàm mật độ ngẫu nhiên

46 437 1
Ước lượng phi tham số cho hàm mật độ ngẫu nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA TOÁN-TIN KHÓA LUẬN TỐT NGHIỆP ƯỚC LƯỢNG PHI THAM SỐ CHO HÀM MẬT ĐỘ CỦA MẪU NGẪU NHIÊN Giảng viên hướng dẫn: TS Ngô Hoàng Long Sinh viên: Đỗ Thị Phượng Lớp: K58E HÀ NỘI Mục lục Cơ sở lí thuyết 1.1 1.2 Một số toán ví dụ mô hình phi tham số Ước lượng hạch mật độ 1.2.1 Sai số bình phương trung bình 1.2.2 Sự xây dựng hạch cấp l 12 1.2.3 1.2.4 Sai số tích phân bình phương ước lượng hạch 15 Sự thiếu tính tối ưu tiệm cận cho mật độ cố định 22 1.3 Giải tích Fourier ước lượng hạch mật độ 30 1.4 Sai số ước lượng không chệch Sự thừa nhận chéo ước lượng mật độ 40 Thực nghiệm 45 Chương Cơ sở lí thuyết 1.1 Một số toán ví dụ mô hình phi tham số Ước lượng mật độ xác suất Cho X1 , · · · , Xn dãy biến ngẫu nhiên giá trị thực có phân phối mà phân phối chung liên tục tuyệt đối theo độ đo Lebesgue R Mật độ phân phối hàm số chưa biết p : R → [0, +∞] Vấn đề ta quan tâm tìm ước lượng p dựa quan sát X1 , X2 , · · · , Xn Mỗi ước lượng p hàm số x → pn (x) = pn (x, X1 , · · · , Xn ) đo quan sát X = (X1 , X2 , · · · , Xn ) Nếu ta biết trước p phụ thuộc vào họ tham số{g(x, θ) : θ ∈ Θ}, g( , ) hàm cho trước θ tập Rk với k cố định không phụ thuộc vào số quan sát n, toán ước lượng p tương đương với toán ước lượng tham số hữu hạn chiều θ Khi toán gọi toán ước lượng tham số Ngược lại, ta xét toán phi tham số ta chưa biết trước thông tin p Trong toán ước lượng phi tham số ta thường giả sử p thuộc vào lớp hàm mật độ P Ví dụ, P tập tất hàm mật độ xác suất liên tục R tập tất mật độ xác suất Lipschitz liên tục R Các lớp hàm gọi lớp hàm phi tham số CHƯƠNG CƠ SỞ LÍ THUYẾT 1.2 Ước lượng hạch mật độ Cho X1 , X2 , · · · , Xn dãy biến ngẫu nhiên độc lập phân phối (i.i.d) với mật độ xác suất p theo độ đo Lebesgue R Hàm phân phối tương ứng là: x F (x) = P(X ≤ x) = p(t)dt −∞ Ta xét hàm phân phối thực nghiệm: Fn (x) = n n I(Xi ≤ x), i=1 I(.) kí hiệu hàm tiêu Đặt Yi = I(Xi ≤ x) Khi đó: Fn (x) = Y1 + Y2 + · · · + Yn n Vì (Xn ) i.i.d nên (Yi ) i.i.d Khi đó: P(Y1 = 1) = P(Y2 = 1) = · · · = P(Yn = 1) = P(X1 ≤ x) Theo luật mạnh số lớn, ta có: Fn (x) = Y1 + Y2 + · · · + Yn hcc −→ EY1 = P(X1 ≤ x) = FX (x), n hcc n → ∞ Vậy Fn (x) −→ F (x), ∀x ∈ R Tức là, Fn (x) ước lượng vững F (x) với x thuộc R Vấn đề ta quan tâm làm để ước lượng mật độ p? Một cách trực quan, vấn đề giải sau: CHƯƠNG CƠ SỞ LÍ THUYẾT Với h > đủ nhỏ, ta có: p(x) = F (x) F (x + k) − F (x) = lim+ k→0 k F (x + k) − F (x − k) = lim+ k→0 2k F (x + h) − F (x − h) ≈ 2h Và ta ước lượng p bởi: pˆR n = Fn (x + h) − Fn (x − h) 2h pˆR n gọi ước lượng Rosenblatt Vì Fn (x + h) − Fn (x − h) = n n i=1 I(x − h < Xi ≤ x + h) nên ta viết lại ước lượng Rosenblatt dạng: pˆR n = 2nh n I(x − h < Xi ≤ x + h) = i=1 nh n K0 ( i=1 Xi − x ), h K0 = 12 I(−1 < u ≤ 1) Một dạng khái quát đơn giản ước lượng Rosenblatt là: pˆn = nh n K( i=1 Xi − x ), h K : R → R hàm khả tích thỏa mãn (1.1) K(u)du = Hàm K gọi hạch tham số h gọi dải thông ước lượng (1.1) Hàm x → pˆn (x) gọi ước lượng hạch mật độ ước lượng Parzen-Rosenblatt Khi xét đến tính tiệm cận ước lượng, tức n → ∞, ta ý dải thông h phụ thuộc vào n, kí hiệu hn , giả sử dãy (hn )n≥1 tiến tới n → ∞ Để đơn giản kí hiệu, ta thường viết h thay CHƯƠNG CƠ SỞ LÍ THUYẾT cho hn gây nhầm lẫn Một số ví dụ điển hình hạch K(u) = 12 I(|u| ≤ 1) (Hạch chữ nhật), K(u) = (1 − |u|)I(|u| ≤ 1) (Hạch tam giác), K(u) = 34 (1 − u2 )I(|u| ≤ 1) (Hạch parabol hạch Epanechnikov), K(u) = K(u) = K(u) = 15 (1 − u2 )2 I(|u| ≤ 1) (Hạch song trọng), 16 √1 exp(−u2 /2) (Hạch Gaussian), 2π √ √ exp(− |u| / 2)sin(− |u| / + π/4) (Hạch Silverman) Chú ý hạch K nhận giá trị không âm X1 , · · · , Xn cố định pˆn (x) thực mật độ xác suất Hơn nữa, ước lượng Parzen-Rosenblatt khái quát hóa cho trường hợp nhiều chiều Ví dụ, định nghĩa ước lượng hạch mật độ hai chiều sau: Giả sử quan sát n cặp biến ngẫu nhiên (X1 , Y1 ), · · · , (Xn , Yn ) (Xi , Yi ) i.i.d với mật độ p(x, y) R2 Ước lượng hạch p(x, y) xác định công thức: pˆn (x, y) = nh2 n K( i=1 Yi − y Xi − x )K( ), h h (1.2) K : R → R hạch định nghĩa h > dải thông 1.2.1 Sai số bình phương trung bình Một độ đo cho độ xác ước lượng pˆn sai số bình phương trung bình (MSE) MSE điểm cố định x0 ∈ R xác định công thức: M SE = M SE(x0 ) = Ep (ˆ pn (x0 ) − p(x0 ))2 Ep xác định sau: n Ep (ˆ pn (x0 ) − p(x0 ))2 = ··· (ˆ pn (x0 , x1 , · · · , xn ) − p(x0 ))2 [p(xi )dxi ] i=1 CHƯƠNG CƠ SỞ LÍ THUYẾT Ta có M SE = b2 (x0 ) + σ (x0 ), (1.3) b(x0 ) = Ep [ˆ pn (x0 )] − p(x0 ) σ (x0 ) = Ep (ˆ pn (x0 ) − Ep [ˆ pn (x0 )])2 Định nghĩa 1.2.1 Đại lượng b(x0 ) σ (x0 ) tương ứng gọi độ chệch phương sai ước lượng pˆn điểm x0 Để đánh giá sai số trung bình bình phương pˆn ta phân tích phương sai độ chệch pˆn Phương sai ước lượng pˆn Mệnh đề 1.2.1 Giả sử mật độ p thỏa mãn p(x) ≤ pmax < ∞, ∀x ∈ R Cho K : R → R hàm số cho K (u)du < ∞ (1.4) Khi đó, với x0 ∈ Rvàh > đủ nhỏ ta có σ (x0 ) ≤ C1 = pmax C1 , nh K (u)du Chứng minh Đặt X i − x0 h ηi (x0 ) = K − Ep K( Xi − x ) h Dãy biến ngẫu nhiên ηi (x0 ), i = 1, · · · , n i.i.d với trung bình phương sai Ep ηi2 (x0 ) = Ep K X i − x0 h − Ep K X i − x0 h Vậy nên Ep ηi2 (x0 ) ≤ Ep K X i − x0 h = K2 z − x0 h p(z)dz ≤ pmax h K (u)du CHƯƠNG CƠ SỞ LÍ THUYẾT  σ (x0 ) = Ep  nh n ηi (x0 ) i=1   = Ep η12 (x0 ) ≤ C1 nh2 nh (1.5) Như vậy, hn chọn cho nhn → ∞ n → ∞ phương sai σ (x0 ) → n → ∞ Độ chệch ước lượng pˆn Độ chệch ước lượng hạch mật độ có dạng: b(x0 ) = Ep [ˆ pn (x0 )] − p(x0 ) = h K z − x0 h p(z)dz − p(x0 ) Bây mô tả dáng điệu b(x0 ) hàm số h số điều kiện quy mật độ p hạch K Sau đây, ta kí hiệu β số tự nhiên lớn nhỏ số thực β lim Định nghĩa 1.2.2 Cho T khoảng R β, L hai số dương Lớp H o¨lder (β, L) T định nghĩa tập hàm f : T → L khả vi cấp l = β thỏa mãn β−l f (l) (x) − f (l) (x ) ≤ L |x − x | , ∀x, x ∈ T Định nghĩa 1.2.3 Giả sử l số tự nhiên lơn Ta nói K : R → R hạch cấp l hàm u → uj K(u), j = 1, · · · , l khả tích thỏa mãn K(u)du = 1, uj K(u)du = 0, j = 1, · · · , l Một vài ví dụ hạch cấp l ta viết Mục 1.2.2 Bây giờ, ta giả sử p thuộc vào lớp mật độ P = P(β, L) định nghĩa sau: P(β, L) = p | p ≥ 0, p(x)dx = p ∈ (β, L) R giả sử K hạch cấp l Ta có kết sau CHƯƠNG CƠ SỞ LÍ THUYẾT Mệnh đề 1.2.2 Giả sử p ∈ P(β, L) cho K hạch cấp l = β thỏa mãn |u|β |K(u)| du < ∞ Với x0 ∈ R, h > n ≥ 1, ta có |b(x0 )| ≤ C2 h3 , C2 = L l! |u|β |K(u)| du Chứng minh Ta có b(x0 ) = Đặt u = z−x0 , h h K z − x0 h p(z)dz − p(x0 ) z = x0 + uh dz = hdu Nên b(x0 ) = h K (u) p(x0 + uh)hdu − p(x0 ) = K(u) [p(x0 + uh) − p(x0 )] du Mà (uh)l (l) p (x0 + τ uh), l! ≤ τ ≤ Do K có cấp l = β nên p(x0 + uh) = p(x0 ) + p, uh + · · · + b(x0 ) = K(u) (uh)l (l) p (x0 +τ uh)du = l! |b(x0 )| ≤ |K(u)| K(u) (uh)l (l) p (x0 + τ uh) − p(l) (x0 ) du, l! |uh|l (l) p (x0 + τ uh) − p(l) (x0 ) du l! Từ Định nghĩa 1.2.2, ta có p(l) (x0 + τ uh) − p(l) (x0 ) ≤ L |τ uh|β−1 Do đó: |uh|l |b(x0 )| ≤ |K(u)| L |τ uh|β−1 du l! L = |τ |β−l |h|β |K(u)| |u|β du l! = |τ |β−l |h|β C2 ≤ C2 |h|β ≤ τ ≤ (1.6) CHƯƠNG CƠ SỞ LÍ THUYẾT Cận sai số bình phương trung bình Từ Mệnh đề 1.2.1 1.2.2, ta thấy cận độ chệch phương sai có dáng điệu ngược Khi h nhỏ độ chệch nhỏ, phương sai cao Ngược lại, h lớn phương sai nhỏ, độ chệch cao (hình ??) Khi chọn h đủ nhỏ tương ứng với phương sai đủ lớn gọi thô Khi chọn h đủ lớn độ chệch điều chỉnh hợp lí, gọi trơn Giá trị h tối ưu cân độ chệch phương sai nằm hai cực trị chúng Hình 1.2.1 đồ thị tiêu biểu tương ứng ước lượng mật độ Để chọn giá trị tối ưu h, ta cực tiểu hóa h cận MSE thu kết Nếu p K thỏa mãn giả thiết Mệnh đề 1.2.1 1.2.2, ta C1 nh Giá trị nhỏ vế phải (1.7) đạt M SE ≤ C22 h2β + h= h∗n = 2β+1 C1 2βC22 (1.7) n− 2β+1 Do đó, chọn h = h∗n 2β M SE(x0 ) = O n− 2β+1 , n→∞ theo x0 Chúng ta có kết sau Định lí 1.2.1 Giả sử điều kiện (1.4) giả thiết Mệnh đề 1.2.2 thỏa mãn Cố định α > lấy h = αn− 2β+1 Khi ước lượng hạch pˆn thỏa mãn 2β sup sup Ep (ˆ pn (x0 ) − p(x0 ))2 ≤ Cn− 2β+1 , x∈R p∈P C > số phụ thuộc vào β, L, α hạch K Chứng minh Bất đẳng thức (1.7) M SE ≤ C22 h2β + C1 , nh CHƯƠNG CƠ SỞ LÍ THUYẾT i = √ 31 −1 Định lý Plancherel phát biểu +∞ g (t)dt = −∞ |F [g] (ω)|2 dω, 2π (1.41) với g ∈ L1 (R) ∩ L2 (R) Tổng quát hơn, L1 (R) ∩ L2 (R) trù mật L2 (R), định nghĩa biến đổi Fourier mở rộng cho hàm g ∈ L2 (R) Ví dụ, K hạch sin c, biến đổi Fourier K F [K] (ω) = I(|ω| ≤ 1) Biến đổi Fourier hàm g ∈ L2 (R) xác định sai khác tập có độ đo Lebesgue Với g ∈ L2 (R) ta có F [g(·/h)/h] (ω) = F [g] (hω), ∀h > 0, (1.42) F [g(t − ·)] (ω) = eitω F [g] (−ω), ∀t ∈ R (1.43) Hàm đặc trưng tương ứng với mật độ p xác định +∞ +∞ e φ(ω) = itω eitω dF (t), p(t)dt = −∞ ω ∈ R, −∞ hàm dực trưng thực nghiệm +∞ itω φn (ω) = e −∞ dFn (t) = n n eiXj ω , ω ∈ R j=1 Kết hợp với (1.42) (1.43) ta có biến đổi Fourier ước lượng pˆn , với hạch K ∈ L2 (R) có dạng n eiXj ω F h−1 K(·/h) (−ω) = φn (ω)F [K] (−hω) F [ˆ pn ] (ω) = j=1 CHƯƠNG CƠ SỞ LÍ THUYẾT 32 Nếu K hạch đối xứng, F [K] (−hω) = F [K] (hω) Bởi vậy, kí hiệu ˆ K(ω) = F [K] (ω), với hạch đối xứng K ∈ L2 (R) bất kì, ta có ˆ F [ˆ pn ] (ω) = φn (ω)K(hω) (1.44) Ep [φn (ω)] = φ(ω), (1.45) Bổ đề 1.3.1 Ta có Ep |φn (ω)|2 = 1− n Ep |φn (ω) − φ(ω)|2 = , n (1.46) (1 − |φ(ω)|2 ) n (1.47) |φn (ω)|2 + Chứng minh Thật +∞ eitω dFn (t) Ep [φn (ω)] = Ep = −∞ +∞ itω e dF (t) = φ(ω) −∞ Và Ep |φn (ω)|2 = Ep [φn (ω)φn (−ω)] = Ep n2 ei(Xj −Xk )ω + j,k;j=k n n−1 = φn (ω)φn (−ω) + n n 1 = 1− |φn (ω)|2 + n n Tiếp theo Ep |φn (ω) − φ(ω)|2 = Ep [|φn (ω)|]2 − 2Ep [|φn (ω)|] |φ(ω)| + |φ(ω)|2 1 = 1− |φn (ω)|2 + − |φ(ω)|2 + |φ(ω)|2 n n = (1 − |φ(ω)|2 ) n CHƯƠNG CƠ SỞ LÍ THUYẾT 33 Bây giả sử hạch K mật độ p thuộc L2 (R) K hạch đối xứng Áp dụng Định lý Plancherel (1.44) ta viết MISE ước lượng hạch pˆn sau M ISE = Ep (ˆ pn (x) − p(x))2 dx Ep 2π = Ep 2π = |F [ˆ pn ] (ω) − φ(ω)|2 dω ˆ φn (ω)K(hω) − φ(ω) dω Định lí 1.3.1 Giả sử p ∈ L2 (R) mật độ xác suất K ∈ L2 (R) hạch đối xứng Khi với n ≥ h > sai số tích phân bình phương trung bình M ISE = 2π − ˆ − K(hω) |φ(ω)|2 dω + n 2πn ˆ K(hω) dω (1.48) ˆ |φ(ω)|2 K(hω) dω = Jn (K, h, φ) (1.49) Chứng minh Từ φ ∈ L2 (R), K ∈ L2 (R) |φ(ω)| ≤ với ω ∈ R, tích phân (1.48) hữu hạn, áp dụng (1.48) ta có ˆ φn (ω)K(hω) − φ(ω) dω 2πM ISE = Ep ˆ ˆ (φn (ω) − φ(ω)) K(hω) − − K(hω) φ(ω) dω = Ep = = 2 ˆ ˆ − |φ(ω)|2 K(hω) dω + − K(hω) |φ(ω)|2 dω n 2 1 ˆ ˆ ˆ − K(hω) |φ(ω)|2 dω + K(hω) dω − K(hω) |φ(ω)|2 dω, n n từ suy (1.48) CHÚ Ý (1) Trong Định lí 1.3.1 giả sử hạch K hạch đối xứng, ˆ K có giá trị thực biến đổi Fourier K (2) Biểu thức bên dấu ngoặc vuông (1.48) số hạng CHƯƠNG CƠ SỞ LÍ THUYẾT 34 MISE Giống biểu thức MISE mà ta có Định lí 1.2.3 mà ta chưa sử dụng phân tích Fourier Trên thực tế, Định lí Plancherel (1.42), 2πn ˆ dω = K(hω) nh K (u)du, (1.50) biểu thức trùng với cận tích phân phương sai Mục 1.2.3 Chú ý biểu thức (1.48) dựa phân tích Fourier xác biểu thức chứa số hạng điều chỉnh âm − 2πn ˆ dω |φ(ω)|2 K(hω) ˆ ∈ L∞ (R), Tuy nhiên, số hạng có bậc nhỏ (1.50) Trên thực tế, K theo định lí Plancherel 2πn ˆ |φ(ω)|2 K(hω) dω ≤ = ˆ K ∞ ˆ ∞ K 2πn ˆ ∞ K n |φ(ω)|2 dω p2 (u)du, ˆ Vì vậy, số hạng điều chỉnh có chuẩn L∞ (R) K cấp O(1/n), số hạng biểu thức (1.50) có cấp O(1/(nh)) Nên, với h nhỏ, tích phân phương sai cho biểu thức (1.50) Tuy nhiên, tích phân độ chệch (1.48) khác: 2π ˆ |φ(ω)|2 dω − K(hω) Trái với Định lí 1.2.3, tích phân độ chệch có dạng tổng quát; không chứa đạo hàm p (3) Không cần điều kiện K = Định lí 1.3.1; ta không cần giả thiết K khả tích Thêm vào đó, Định lí 1.3.1 áp dụng cho K khả tích mà K = Về nguyên tắc, việc đưa tới ước lượng với MISE nhỏ Tuy nhiên, ta thấy việc xét hạch K thỏa mãn K = không thực có ý nghĩa Dễ dàng thấy giá trị nhỏ MISE (1.48) đạt ˆ ∗ (hω) = K |φ(ω)|2 , ε2 (ω) + |φ(ω)|2 (1.51) CHƯƠNG CƠ SỞ LÍ THUYẾT 35 ε2 (ω) = (1 − |φ(ω)|2 )/n Đây kết đạt việc cực tiểu hóa biểu thức dấu tích phân (1.48) cố định ω Chú ý ˆ ∗ (0) = 1, ≤ K(ω) ˆ ˆ ∗ = L1 (R) ∩ L2 (R) Rõ K ≤ với ω ∈ R, K ˆ ∗ để xây dựng ước lượng phụ thuộc vào hàm ràng, ta dùng K ˆ ∗ (hω) hạch đặc trưng chưa biết φ Do biến đổi Fourier ngược K lí tưởng dùng để so sánh, đánh giá với hạch khác Chú ý vế phải (1.51) không phụ thuộc vào h, điều có nghĩa là, để thỏa ˆ ∗ (·) phụ thuộc vào h Sai số giả (tức MISE mãn (1.51) hàm K ˆ =K ˆ ∗ ) với K M ISE = 2π ∗ ε2 (ω) |φ(ω)|2 dω ε2 (ω) + |φ(ω)|2 (1.52) Định nghĩa 1.3.1 Một hạch đối xứng K ∈ L2 (R) gọi không chấp nhận tồn hạch đối xứng khác, K0 ∈ L2 (R), thỏa mãn điều kiện sau: (i) với hàm đặc trưng φ ∈ L2 (R) Jn (K0 , h, φ) ≤ Jn (K, h, φ), ∀h > 0, n ≥ 1; (1.53) (ii) tồn hàm đặc trưng φ0 ∈ L2 (R) cho Jn (K0 , h, φ0 ) < Jn (K, h, φ0 ), ∀h > 0, n ≥ (1.54) Trường hợp khác, hạch K gọi chấp nhận Vấn đề tìm hạch chấp nhận phức tạp ta không đề cập đến Chúng ta đưa tiêu chuẩn đơn giản để tìm hạch không chấp nhận Mệnh đề 1.3.1 Cho K ∈ L2 (R) hạch đối xứng Nếu ˆ ∗ ∈ [0, 1]) > Leb(ω : K K hạch không chấp nhận (1.55) CHƯƠNG CƠ SỞ LÍ THUYẾT 36 ˆ (ω) phép chiếu K(ω) ˆ Chứng minh Kí hiệu K [0, 1], tức là, ˆ (ω) = min(1, max(K(ω), ˆ K 0)) Rõ ràng, ˆ (ω) ≤ K(ω) ˆ K , ˆ (ω) ≤ − K(ω) ˆ 1−K , ∀ω ∈ R (1.56) ˆ ∈ L2 (R), ta có K ˆ ∈ L2 (R) Bởi vậy, tồn hàm K0 ∈ L2 (R) với Từ K ˆ Vì K hạch đối xứng, biến đổi Fourier K ˆ K ˆ biến đổi Fourier K có giá trị thực, nên K0 hạch đối xứng Ta có Jn (K, h, φ) − Jn (K0 , h, φ) 2 ˆ (hω) ˆ |φ(ω)|2 dω − 1−K − K(hω) = 2π 2 ˆ ˆ (hω) )dω + (1 − |φ(ω)|2 )( K(hω) − K n ≥ 0, ˆ |φ(ω)| ≤ theo (1.56) − K(hω) ˆ ˆ (hω) K(hω) − K ˆ (hω) − 1−K (1.57) ≥ ≥ Từ suy (1.53) Để kiểm tra (ii) Định nghĩa 1.3.1, ta sử dụng giả thiết (1.55) Chọn φ0 (ω) = e−ω /2 hàm đặc trưng hàm phân phối chuẩn tắc ˆ ˆ R Từ (1.55) suy Leb(ω : K(ω) < 0) > Leb(ω : K(ω) > 1) > ˆ ˆ cố định h đặt B = ω : K(hω) h ˆ ω | h : K(hω) < Khi Leb(Bh0 ) > Thật vậy, Bh0 phép giãn ˆ tập ω : K(hω) < độ đo Lebesgue dương Xét Jn (K, h, φ0 ) − Jn (K, h, φn ) ˆ ˆ (hω) − |φ0 (ω)|2 K(hω) −K ≤ 2πn Bh0 2 ˆ = − e−ω K(hω) dω > 0, 2πn Bh0 − e−ω ˆ K(hω) (1.58) dω > hầu khắp nơi Bh0 ˆ ˆ Nếu Leb(ω : K(ω) > 1) > 0, ta xét Bh1 = ω : K(hω) > , tương tự CHƯƠNG CƠ SỞ LÍ THUYẾT 37 ta Jn (K, h, φ0 ) − Jn (K0 , h, φ0 ) ˆ ˆ (hω) ≥ − K(hω) − 1−K 2πn Bh1 2 ˆ = − K(hω) e−ω dω > 2πn Bh1 |φ0 (ω)|2 dω Từ suy điều phải chứng minh ˆ Vì biến đổi Fourier hàm khả tích K hàm liên tục K(0) = K(u)du, Mệnh đề 1.3.1 có nghĩa hạch đối xứng khả tích thỏa mãn K(u)du > hạch không chấp nhận Kết luận không với hạch mà < K(u)du < 1: Mệnh đề 1.3.1 không nói tất hạch không chấp nhận Tuy nhiên, việc xét hạch ˆ < K ˆ liên tục tồn ý nghĩa Trên thực tế, K ˆ số ε dương δ cho inf |t|≤ε − K(t) = δ Khi đó, ta có ˆ |φ(ω)|2 dω ≥ δ − K(hω) |φ(ω)|2 dω → δ |φ(ω)|2 dω > |ω|≤ε/h h → Bởi vậy, tích phân độ chệch MISE ước lượng hạch (1.48) không tiến tới h → Hệ 1.3.1 Hạch Epanechnikov hạch không chấp nhận Chứng minh Biến đổi Fourier hạch Epanechnikov ˆ K(ω) = (sin ω ω3 − ω cos ω) ˆ Ta thấy tập ω : K(ω) L > số kí hiệu φ = F [p], hàm đặc trưng p Ta chứng tỏ với β nguyên, lớp PS (β, L) trùng với tập tất mật độ xác suất thuộc lớp Sobolev S(β, L) Chú ý β số nguyên đạo hàm p(β−1) liên tục tuyệt đối, điều kiện p(β) (u) du ≤ L2 (1.59) kéo theo |ω|2β |φ(ω)|2 dω ≤ 2πL2 (1.60) Thật vậy, biến đổi Fourier p(β) (−iω)β φ(ω), L2 ≥ p(β) (u) 2π = 2π du (−iω)2β |φ(ω)|2 dω = |ω|2β |φ(ω)|2 dω Suy |ω|2β |φ(ω)|2 dω ≤ 2πL2 Định lí 1.3.2 Giả sử K ∈ L2 (R) hạch đối xứng Giả sử với β > tồn số A cho ˆ − K(t) ess sup t∈R\{0} |t|β ≤ A (1.61) Cố định α > lấy h = αn− 2β+1 Khi với n ≥ ước lượng hạch pˆn thỏa mãn sup 2β Ep (ˆ pn (x) − p(x))2 dx ≤ Cn− 2β+1 p∈PS (β,L) C > số phụ thuộc vào L, α, A hạch K Chứng minh Từ (1.61) định nghĩa PS (β, L) ta có ˆ − K(hω) |φ(ω)|2 dω ≤ A2 h2β |ω|2β |φ(ω)|2 dω ≤ 2πA2 L2 h2β CHƯƠNG CƠ SỞ LÍ THUYẾT 39 Từ (1.48) (1.50), h = αn− 2β+1 ta có Ep (ˆ pn (x) − p(x))2 dx = 2π ˆ − K(hω) |φ(ω)|2 dω ˆ − |φ(ω)|2 K(hω) dω 2πn 1 ˆ 2πA2 L2 h2β + K(hω) dω 2π 2πn K (u)du A2 L2 h2β + nh 2β A2 L2 α2β n− 2β+1 + K (u)du − 2β+1 nαn 2β 2β A2 L2 α2β n− 2β+1 + n− 2β+1 K (u)du α 2β K (u)du n− 2β+1 A2 L2 α2β + α + ≤ = = = = Vì K (u)du < ∞ nên ta đặt C = A2 L2 α2β + α K (u)du Khi sup 2β Ep (ˆ pn (x) − p(x))2 dx ≤ Cn− 2β+1 p∈PS (β,L) ˆ liên tục Điều kiện (1.61) kéo theo tồn K ˆ ˆ K(0) = Chú ý K(0) = xem mở rộng giả thiết K = cho hàm K không khả tích, ví dụ hạch sin c chẳng hạn Hơn nữa, giả thiết Định lí 1.3.2, điều kiện (1.61) tương đương với ˆ − K(t) ∃t0 , A < ∞ : ess sup 0 đó, thỏa mãn với β mà < β < β0 Với hạch liệt kê Mục 1.2, trừ hạch Silverman, điều kiện (1.61) đảm bảo với β ≤ Mặt khác, biến đổi Fourier hạch Silverman ˆ K(ω) = , + ω4 nên ta có điều kiện (1.61) thỏa mãn với β = Tồn hạch thỏa mãn (1.61) với β > Hai ví dụ quan trọng hạch với biến đổi Fourier ˆ K(ω) = 1 + |ω|β ˆ K(ω) = − |ω|β , (1.63) Hạch Pinsker (1.64) + ˆ Có thể rằng, với β = 2m, m số nguyên, ước lượng hạch K thỏa mãn (1.63) ước lượng Splines Còn hạch (1.64) liên quan đến lí thuyết Pinsker Biến đổi Fourier ngược (1.63) (1.64) viết chi tiết β ∈ Z Ví dụ, với β = hạch Pinsker xác định sau K(u) = (sin u πu3 3π − u cos u) u = 0, u = 0, Tóm lại, tồn "siêu hạch", tức là, hạch đồng thời thỏa mãn (1.61) với β > Ví dụ hạch sin c (1.40) Chú ý hạch sin c không sử dụng tốt phạm vi Định lí 1.3.2 mà lớp mật độ khác nữa, hàm đặc trưng giảm với tốc độ hàm mũ Bởi vậy, hạch sin c linh hoạt hạch thảo luận 1.4 Sai số ước lượng không chệch Sự thừa nhận chéo ước lượng mật độ Trong mục giả sử hạch K cố định quan tâm đến cách chọn dải thông h Viết M ISE = M ISE(h) tức sai số tích CHƯƠNG CƠ SỞ LÍ THUYẾT 41 phân bình phương hàm phụ thuộc vào dải thông h giá trị lí tưởng h xác định sau hid = arg M ISE(h) (1.65) h>0 Tuy nhiên, giá trị lí thuyết M ISE(h) phụ thuộc vào mật độ p chưa biết Những kết mục trước không cho phép ta xây dựng ước lượng với giá trị lí tưởng Để giải vấn đề ta ứng dụng phương pháp khác Trong hoàn cảnh này, ý tưởng chung sử dụng sai số ước lượng không chệch Thay cho M ISE(h) (1.65) việc đề cập đến cực tiểu hóa ước lượng không chệch xấp xỉ không chệch M ISE(h) Bây giờ, ta mô tả thực hành phổ biến ý tưởng thừa nhận chéo Đầu tiên, ý M ISE(h) = Ep (ˆ pn − p)2 = Ep pˆ2n − pˆn p + p2 Trong biểu thức phần lại mục ta viết ngắn gọn (· · · ) thay cho (· · · )dx Vì tích phân p2 không phụ thuộc vào h, cực tiểu hóa hid M ISE(h) định nghĩa (1.65) cực tiểu hóa hàm pˆ2n − J(h) = Ep pˆn p Bây quan sát ước lượng không chệch J(h) Việc đủ pˆ2n Ep để tìm ước lượng không chệch cho lượng Ep pˆn p Tồn ước lượng không chệch thường pˆ2n lượng Ep pˆ2n Bởi phần lại phải tìm ước lượng không chệnh Ep pˆn p Ta có pˆn,−i (x) = (n − 1)h K j=i Xj − x h Chúng ta ước lượng không chệch G = Ep ˆ= G n n pˆn,−i (Xi ) i=1 pˆn p CHƯƠNG CƠ SỞ LÍ THUYẾT 42 Thật vậy, Xi i.i.d, ta có ˆ = Ep Ep (G) = Ep = h pˆn,−1 (Xi ) (n − 1)h p(x) Xj − z h K j1 Xj − x h K p(z)dz p(z)dzdx với điều kiện biểu thức cuối hữu hạn Mặt khác, G = Ep = Ep = h pˆn p nh n Xj − z h K i=1 p(x) K x−z h p(z)dz p(z)dzdx, ˆ tức G = Ep G Tóm lại, ước lượng không chệch J(h) viết sau: CV (h) = pˆ2n − n n pˆn,−i (Xi ), i=1 CV viết tắt "sự thừa nhận chéo" Hàm CV (·) gọi tiêu chuẩn thừa nhận chéo Vì ta có kết sau Mệnh đề 1.4.1 Giả sử hàm K : R → R, với mật độ xác suất p thỏa mãn p2 < ∞ h > ta có p(x) K x−z h p(z)dzdx < ∞ Khi Ep [CV (h)] = M ISE(h) − p2 CHƯƠNG CƠ SỞ LÍ THUYẾT 43 Bởi vậy, CV (h) cho ước lượng không chệch M ISE(h), p2 không phụ thuộc vào h Điều có nghĩa cực tiểu hóa hàm h → M ISE(h) h → Ep [CV (h)] giống Nói cách khác, cực tiểu hóa Ep [CV (h)] xấp xỉ hàm CV (·) hàm mà tính từ quan sát X1 , X2 , · · · , Xn : hCV = arg CV (h) h>0 Khi hàm CV (·) đạt giá trị cực tiểu (như hình 1.4) Tóm lại, ta định nghĩa ước lượng thùa nhận chéo pˆn,cv mật độ p sau: pˆn,cv (x) = nhcv n K i=1 Xi − x hcv Đây ước lượng hạch vơi dải thông ngẫu nhiên hcv phụ thuộc vào mẫu X1 , · · · , Xn Ước lượng điều kiện phù hợp, sai số tích phân bình phương ước lượng pˆn,cv tương đương cách tiệm cận tới giả thiết ước lượng hạch có dải thông hid mà ta định nghĩa (1.65) Không thừa nhận chéo đưa tới cách xây dựng ước lượng không chệch Mà tồn phương pháp khác: ví dụ, ta sử dụng giải tích Fourier ước lượng mật độ, đặc biệt, công thức (1.48) Cho K hạch ˆ K thuộc L1 (R) ∩ L2 (R) đối xứng (giá trị thực) mà biến đổi Fourier K ˜ xác định Xét hàm J(·) ˆ ˆ2 − −2K(hω) +K n ˜ J(h) = + = n |φn (ω)|2 dω (1.66) ˆ K(hω)dω ˆ ˆ2 − −2K(hω) +K n |φn (ω)|2 dω + 4πK(0) , nh φn hàm đặc trưng thực nghiệm ta sử dụng, biến đổi Fourier CHƯƠNG CƠ SỞ LÍ THUYẾT ngược, 44 ˆ K(ω)dω = 2πK(0) Từ (1.46) Định lí 1.3.1 ta có ˆ ˆ (hω) − −2K(hω) +K (1 − ) |φn (ω)|2 dω (1.67) n n 1 ˆ + 1− K(hω)dω n n ˆ − K(hω) |φ(ω)|2 − |φ(ω)|2 dω = 1− n ˆ (hω)dω + − |φ(ω)|2 K n Ep = ˜ Vì vậy, cực tiểu hóa hàm h → Ep J(h) h → M ISE(h) giống Giống ta xấp xỉ cực tiểu hóa M ISE(·) ˜ = arg J(h) ˜ h h>0 Đây dải thông đạt từ sai số ước lượng không chệch khác dải thông thừa nhận chéo hcv Ước lượng mật độ tương ứng với dải thông p˜n (x) = ˜ nh n K i=1 Xi − x ˜ h Có thể rằng, điều kiện phù hợp, dáng điệu ước lượng p˜n tương tự pˆn,cv : MISE p˜n tiệm cận tới giả ước lượng hạch lí tưởng tương ứng với dải thông hid định nghĩa (1.65) Chương Thực nghiệm 45 [...]... cận của MISE của ước lượng pˆn và pˆ+ n trong Mệnh đề 1.2.8 là nhỏ hơn của giả ước lượng Epanechnikov Chú ý rằng pˆn và pˆ+ n là các ước lượng đúng, không phải các ước lượng giả Do đó, nếu việc đánh giá sai số của ước lượng dựa vào giá trị tiệm cận của MISE của ước lượng ứng với mỗi hàm CHƯƠNG 1 CƠ SỞ LÍ THUYẾT 29 mật độ cố định p thì có vô số các ước lượng hoàn toàn tốt hơn giả ước lượng Epanechnikov... khác ước lượng (1.15) đúng với mật độ p bất kì Tuy nhiên ước lượng cho độ chệch b2 (x)dx trong (1.14) đòi hỏi cần có thêm giả thiết về tính trơn của p Tức là chúng ta chỉ có thể kiểm soát được độ chệch trên một tập con nào đó của tập các hàm mật độ p Vì MISE là một sai số ứng với chuẩn trong L2 (R), một cách tự nhiên ta giả sử rằng p là trơn ứng với chuẩn này Ví dụ, ta có thể giả sử rằng p thuộc lớp hàm. .. các ước lượng p Ta có thể chứng tỏ rằng 2β cận dưới sai số minimax có dạng Rn∗ (P(β, L)) ≥ C ψn2 = C n− 2β+1 với hằng số C > 0 Điều này cho thấy rằng dưới giả thiết của Định lí 1.2.1 thì ước β lượng hạch đạt đến tốc độ tối ưu n− 2β+1 tương ứng với lớp mật độ P(β, L) Ràng buộc dương Dễ thấy rằng từ Định nghĩa 1.2.3, hạch cấp l ≥ 2 nhận giá trị âm trên tập các độ đo Lebesgue dương Do đó ước lượng của mật. .. Gegenbauer, giá của K là [−1, 1]) 1.2.3 Sai số tích phân bình phương của ước lượng hạch Trong Mục 1.2.1 ta đã phân tích số của ước lượng hạch pˆn một cách địa phương của mật độ tại mỗi điểm cố định tùy ý x0 Việc đánh giá sai số toàn cục của ước lượng cũng rất cần thiết Một tiêu chuẩn để đánh giá sai số toàn cục là kỳ vọng của tích phân của bình phương sai số (MISE): +∞ (ˆ pn (x) − p(x))2 dx M ISE =... tích Fourier của ước lượng hạch của mật độ Trong Mục 1.2.3 chúng ta đã nghiên cứu MISE của ước lượng hạch của mật độ dưới các giả thiếtcổ điển khá còn hạn chế Thật vậy, các kết quả chỉ đúng với mật độ p có đạo hàm thỏa mãn các điều kiện nhất định Trong mục này chúng ta sẽ đạt được các kết quả tổng quát hơn bằng các sử dụng giải tích Fourier Hơn nữa, chúng ta có thể phân tích MISE của ước lượng hạch với... hạch không âm Mệnh đề 1.2.8 đưa ra một ước lượng ˆn , và có giá trị pˆ+ n không âm, và có tiệm cận tương đương với ước lượng p tiệm cận của MISE nhỏ hơn giá trị tiệm cận của giả ước lượng Epanechnikov Mệnh đề 1.2.8 đóng vai trò phản ví dụ Trên thực tế ước lượng pˆn và pˆ+ n −1 chưa phải ước lượng tốt nhất Dải thông h chứa thừa số ε có thể nhận giá trị lớn bất kì Thừa số này có tác dụng làm giảm phương... Định lí 1.2.1, tốc độ hội tụ của ước lượng pˆn (x0 ) là β ψn = n− 2β+1 , tức là tồn tại hằng số C hữu hạn sao cho sup Ep (ˆ pn (x0 ) − p(x0 ))2 ≤ Cψn2 , p∈P(β,L) với mọi n ≥ 1 Bây giờ ta có hai câu hỏi như sau: Liệu chúng ta có thể cải thiện tốc độ ψn bởi ước lượng mật độ khác không? Tốc độ hội tụ tốt nhất có thể đạt được là bao nhiêu? Để trả lời hai câu hỏi trên người ta sử dụng sai số minimax R∗n tương... 0, (1.38) trong đó inf Tn là cận dưới đúng lấy trên tập tất cả các ước lượng hạch hoặc lấy trên tập tất cả các phần dương của ước lượng hạch dương Ngoài ra, đưa phần ước lượng dương pˆ+ n vào trong Mệnh đề 1.2.8 là có mục đích riêng Vì trên thực tế, ta thường phải sử dụng các hạch không âm bởi hàm mật độ là không âm Điều này sẽ hỗ trợ cho tính "tối ưu" của hạch Epanechnikov vì hạch này thu được bằng... và (1.35) là ước lượng tốt nhất có thể đạt được của MISE Ước lượng giả Epanechnikov được cho là ước lượng tối ưu khi ta thay (p”(x))2 dx bằng một ước lượng dựa trên các quan sát (Xi ) Bây giờ chúng ta sẽ giải thích tại sao phương pháp tiếp cận tới tối ưu như thế là sai lầm Mệnh đề 1.2.8 Giả sử rằng điều kiện (ii) của Mệnh đề 1.2.7 được thỏa mãn và K là một hạch cấp 2 (do đó, SK = 0), sao cho K 2 (u)du... đạo hàm cấp 2 của mật độ p chưa biết Do đó, khi thay K và h xác định bởi công thức (1.33), (1.34) vào (1.1) thì biểu thức thu được không là một ước lượng của p Ta gọi biểu thức này là giả ước lượng hay ước lượng giả Epanechnikov, và kí hiệu là pE n Từ Mệnh đề 1.2.7 ta có lim n n→∞ 4/5 Ep (pE n (x) 34/5 − p(x)) dx = 1/5 5 2 1/5 2 (p”(x)) dx (1.35) Điều này thường được đưa ra như một tiêu chuẩn cho ... toán ước lượng tham số Ngược lại, ta xét toán phi tham số ta chưa biết trước thông tin p Trong toán ước lượng phi tham số ta thường giả sử p thuộc vào lớp hàm mật độ P Ví dụ, P tập tất hàm mật độ. .. chéo ước lượng mật độ 40 Thực nghiệm 45 Chương Cơ sở lí thuyết 1.1 Một số toán ví dụ mô hình phi tham số Ước lượng mật độ xác suất Cho X1 , · · · , Xn dãy biến ngẫu nhiên. .. tục R tập tất mật độ xác suất Lipschitz liên tục R Các lớp hàm gọi lớp hàm phi tham số CHƯƠNG CƠ SỞ LÍ THUYẾT 1.2 Ước lượng hạch mật độ Cho X1 , X2 , · · · , Xn dãy biến ngẫu nhiên độc lập phân

Ngày đăng: 07/12/2015, 07:14

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan