Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

27 940 8
Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BÀI 4 – PHẦN 2PHÂN LỚP DỮLIỆU 3NỘI DUNG1. Gii thiu2. Phương pháp Naïve Bayes3. Phương pháp dựa trên thểhiện4. Đánh giá mô hình4GIỚI THIỆUCustomer AgeIncome(K)No. cardsResponseLâm 35 35 3 YesHưng 22 50 2 NoMai 28 40 1 YesLan 45 100 2 NoThủy 20 30 3 YesTuấn 34 55 2 NoMinh 63 200 1 NoVân 55 140 2 NoThiện 59 170 1 NoNgọc 25 40 4 YesChâu 30 45 3 ???Thời gian : 5’Yêu cầu :Trình bày ý tưởng xác định lớp cho mẫu cuối cùng (Châu) khi cho biết các mẫu còn lại. 5GIỚI THIỆU1. Phân lớp :Cho tập các mẫu đã phân lớp trước, xây dựng mô hình cho từng lớpMc đích : Gán các mu mi vào các lp vi đ chính xác cao nht có th.Cho CSDL D={t1,t2,…,tn} và tập các lớp C={C1,…,Cm}, phân lp là bài toán xác định ánh xạ f : DC sao cho mỗi ti được gán vào một lớp.6Hành độngMô hìnhDữ liệuLượng giá, hồi qui, học, huấn luyện Phân loại, ra quyết địnhGIỚI THIỆU 7NI DUNG1. Gii thiu2. Phng phỏp Naùve Bayes3. Phng phỏp da trờn th hin4. ỏnh giỏ mụ hỡnh8GII THIU1. Phõn lp theo mụ hỡnh xỏc sut :D oỏn xỏc sut hay d oỏn xỏc sut l thnh viờn ca lpNn tng : da trờn nh lý BayesCho X, Y l cỏc bin bt k ( ri rc, s, cu trỳc, )D oỏn Y t XLng giỏ cỏc tham s ca P(X | Y) , P(Y) trc tip t tp DL hun luynS dng nh lý Bayes tớnh P(Y | X=x) 92. Định lý Bayes)x(P)y(P)y|x(P)x|y(P⋅=Cụ thể :Biến bất kỳGiá trị thứ iGIỚI THIỆU102. Định lý BayesTương đương :GIỚI THIỆU 113. Phân loại BayesXD mô hình : Lượng giá P(X |Y), P(Y)Phân lớp : Dùng định lý Bayes để tính P(Y | Xnew)Tập DL huấn luyệnGIỚI THIỆU124. Độc lập điều kiện (Conditional independence)Ta thường viết : Định nghĩa : X độc lập điều kiện với Y khi cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trị của Z.Ví d : P(Sm sét | Ma, Chp) = P(Sm sét | Chp)GIỚI THIỆU 13Thut toỏn Naùve BayesGi s : D : tp hun luyn gm cỏc mu biu din di dng X = <x1, ., xn> Ci,D: tp cỏc mu ca D thuc lp Civi i = {1, , m} Cỏc thuc tớnh x1, ., xn c lp iu kin ụi mt vi nhau khi cho lp CKhi ú : ta cn xỏc nh xỏc sut P(Ci|X) ln nht14Thut toỏn Naùve BayesTheo nh lý Bayes :)|( .)|()|(1)|()|(21CixPCixPCixPnkCixPCiPnkììì===X)()()|()|(XXXPiCPiCPiCP =Theo tớnh cht c lp iu kin : Lut phõn lp cho Xnew= {x1, .,xn} l :=nkCixPCPkiCk1)|()( maxarg 15Thut toỏn Naùve BayesB1 : Hun luyn Naùve Bayes (trờn tp DL hun luyn) Lng giỏ P(Ci)Lng giỏ P(Xk|Ci)B2 : Xnew c gỏn vo lp cho giỏ trcụng thc ln nht : =nkCixPCPkiCk1)|()( maxarg 16Trng hp X giỏ tr ri rcGi s : X = <x1, .,xn> xinhn cỏc giỏ tr ri rcKhi ú : Lng giỏ P(Ci) v lng giỏP(Xk|Ci) theo cụng thc DiCkxDiCiCkxP,}{,#)|( DDiCiCP,)( 17Trường hợp X – giá trị rời rạc• Để tránh trường hợp giá trị P(Xk|Ci) = 0 do không có mẫu nào trong DL huấn kuyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo.Khi đó :• Làm trơn theo Laplace :rDiCkxDiCiCkxP++≈,1}{,#)|(mDDiCiCP++≈1,)(với m – số lớp và r là số giá trị rời rạc của thuộc tính18VÍ DỤ 1 : Cho tập dữ liệu huấn luyện :Outlook Temperature Humidity Windy Play?sunny hot high weak Nosunny hot high strong Noovercast hot high weak Yesrain mild High weak Yesrain cool Normal weak Yesrain cool normal strong Noovercast cool normal strong Yessunny mild high weak Nosunny cool normal weak Yesrain mild normal weak Yessunny mild normal strong Yesovercast mild high strong Yesovercast hot normal weak Yesrain mild high strong No 19B1 : Ước lượng P(Ci) với C1= “yes”, C2= “no” vàP(xk|Ci) Ta thu được P(Ci) :Với thuộc tính Outlook, ta có các giá trị : sunny, overcast, rain. Trong đó P(sunny|Ci) là :P(C1) = 9/14=0.643P(C2) = 5/14=0.357OutlookP(sunny | yes) = 2/9 P(sunny | no) = 3/5VÍ DỤ 1 : 20Bài tập theo nhóm• Thi gian : 5’Ước lượng P(xk|Ci) với C1= “yes”, C2= “no”• P(Outlook|Ci)• Nhóm :• P(Temperature|Ci)•Nhóm :•P(Humidity|Ci)•Nhóm :,•P(windy|Ci) •Nhóm : [...]... luyn  Giá trị k thường là = 10  Leave-one-out : k=s mu trong DL (dành cho tp DL nh)  Stratified cross-validation : dùng phương pháp lấy mẫu để phân bố các lớp trong từng tập con như trên toàn bộ DL. 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : NGUYỄN HOÀNG TÚ ANH 2 BÀI 4 – PHẦN 2 PHÂN LỚP DỮ LIỆU 15 Thuật tốn Nạve Bayes B1 : Huấn luyện Nạve Bayes (trên tập DL huấn luyện) Lượng giá... DL nh.  Các mẫu có thể khơng đại diện cho toàn bộ DL : thiếu lớp trong tập thử nghiệm  Cải tiến :  Dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập DL huấn luyện và thử nghiệm  Lấy mẫu ngẫu nhiên : thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác 44 Phương pháp đánh giá  Phương pháp Cross-validation (k-fold)  Phân chia DL thành k... 5 GIỚI THIỆU 1. Phân lớp : Cho tập các mẫu đã phân lớp trước, xây dựng mơ hình cho từng lớp Mc đích : Gán các mu mi vào các lp vi đ chính xác cao nht có th. Cho CSDL D={t 1 ,t 2 ,…,t n } và tập các lớp C={C 1 ,…,C m }, phân lp là bài toán xác định ánh xạ f : D  C sao cho mỗi t i được gán vào một lớp. 6 Hành động Mơ hình Dữ liệu Lượng giá, hồi qui, học, huấn luyện Phân loại, ra quyết... DUNG 1. Gii thiu 2. Phương pháp Naïve Bayes 3. Phương pháp dựa trên thể hiện 4. Đánh giá mơ hình 4 GIỚI THIỆU Customer Age Income (K) No. cards Response Lâm 35 35 3 Yes Hưng 22 50 2 No Mai 28 40 1 Yes Lan 45 100 2 No Thủy 20 30 3 Yes Tuấn 34 55 2 No Minh 63 200 1 No Vân 55 140 2 No Thiện 59 170 1 No Ngọc 25 40 4 Yes Châu 30 45 3 ??? Thời gian : 5’ Yêu cầu : Trình bày ý tưởng xác định lớp cho mẫu cuối... : P(Sm sét | Ma, Chp) = P(Sm sét | Chp) GIỚI THIỆU 7 NỘI DUNG 1. Giới thiệu 2. Phơng pháp Naïve Bayes 3. Phương pháp dựa trên thể hiện 4. Đánh giá mơ hình 8 GIỚI THIỆU 1. Phân lớp theo mơ hình xác suất : Dự đốn xác suất hay dự đoán xác suất là thành viên của lớp Nn tng : da trên đnh lý Bayes Cho X, Y là các bin bt kỳ ( ri rc, s, cu trúc, …) D đoán Y t X Lượng giá các tham số của... CẦN LÀM 1. Thực hiện bài tập nhóm chương 4 – Phần 2.  Nộp bài qua Moodle trước 23h00 ngày thứ 4 – 10/9/2008 2. Thảo luận và tự thực hiện các bài tập của chương 4 –Phần 1và Phần 2 (khơng nộp) 3. Chuẩn bị bài 5 : Gom nhóm dữ liệu  Xem nội dung các bài tập nhóm thuộc bài 5.  Cách thực hiện :  Đọc slide, xem các ví dụ  Tham khảo trên Internet và tài liệu tham khảo 54 Q & A 11 3. Phân loại Bayes XD... cards=3 Rachel: Age=41 Income=215K No. of credit cards=2 34 K- LÁNG GIỀNG GẦN NHẤT  Cần phải chuẩn hoá dữ liệu : ánh xạ các giá trị vào đoạn [0,1] theo công thức : vi : v i là giá tr thc t ca thuc tính i a i là giá tr ca thuc tính đã chun hóa ii ii i vv vv a minmax min − − = 43 Đánh giá mơ hình  Phương pháp đánh giá  Phương pháp Holdout :  Phân chia ngẫu nhiên tập DL thành 2 tập độc lập : ... 28 40 1 Yes Lan 45 100 2 No Thủy 20 30 3 Yes Tuấn 34 55 2 No Minh 63 200 1 No Vân 55 140 2 No Thiện 59 170 1 No Ngọc 25 40 4 Yes Dũng 37 50 2 ??? Thời gian : 15’ Sử dụng thuật toán k-NN với k = 3 để xác định lớp cho “Dũng” 46 TÓM TẮT  Phân lớp là hình thức phân tích DL để rút ra các mơ hình mơ tả các lớp DL quan trọng  Nhiều thuật tốn hiệu quả được phát triển.  Khơng thuật toán nào vượt trội... huấn luyện  Gán E vào lớp có nhiều mẫu nhất trong số k mẫu láng giềng đó (hoặc E nhận giá trị trung bình của k mẫu) Response Response No response No response No response Class: Response 32 K- LÁNG GIỀNG GẦN NHẤT • Tính khoảng cách giữa 2 mẫu/ đối tượng • Mỗi mẫu - tập thuộc tính số • Khoảng cách Euclide gia X=(x 1 ,…x n ) và Y=(y 1 ,…y n ) là: • Khi thực hiện so sánh, có thể bỏ qua căn bậc 2 ∑ = −= n i ii yxYXD 1 2 )(),( ... ,x n } là : ∏ = n k C i x PCP k i C k 1 )|()( maxarg 33 K- LÁNG GIỀNG GẦN NHẤT • Ví dụ tính khoảng cách giữa John và Rachel D(John, Rachel) =sqrt [(3 5-4 1) 2 +(95K-215K) 2 +( 3-2 ) 2 ] • Các thuộc tính có giá trị lớn sẽ ảnh hưởng nhiều đến khoảng cách giữa các đối tượng (VD: thuộc tính income) • Các thuộc tính có miền giá trị khác nhau -& gt; Cn chun hóa giá tr thuc tính John: Age=35 Income=95K No. . THIỆU  Phương pháp phân lớp dựa trên thể hiện (Instance-based) : Lưu trữ các mẫu/đối tượng huấn luyện và chỉ xử lý khi có yêu cầu phân lớp mẫu/đối. THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BÀI 4 – PHẦN 2PHÂN LỚP DỮLIỆU 3NỘI DUNG1. Gii thiu2. Phương pháp Naïve Bayes3. Phương pháp

Ngày đăng: 31/08/2012, 16:13

Hình ảnh liên quan

4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

4..

Đánh giá mơ hình Xem tại trang 2 của tài liệu.
Thời gia n: 5’ - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

h.

ời gia n: 5’ Xem tại trang 2 của tài liệu.
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

4..

Đánh giá mơ hình Xem tại trang 4 của tài liệu.
1. Phân lớp theo mơ hình xác suất : - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

1..

Phân lớp theo mơ hình xác suất : Xem tại trang 4 của tài liệu.
XD mơ hình : Lượng giá P(X |Y), P(Y) Phân lớp : Dùng định lý Bayes để tính  - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

m.

ơ hình : Lượng giá P(X |Y), P(Y) Phân lớp : Dùng định lý Bayes để tính Xem tại trang 6 của tài liệu.
Th ời gian thi hành tương tự như cây quyết - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

h.

ời gian thi hành tương tự như cây quyết Xem tại trang 14 của tài liệu.
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

4..

Đánh giá mơ hình Xem tại trang 14 của tài liệu.
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

4..

Đánh giá mơ hình Xem tại trang 19 của tài liệu.
của mơ hình cĩ thể phụ thuộc vào - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

c.

ủa mơ hình cĩ thể phụ thuộc vào Xem tại trang 19 của tài liệu.
Độ chính xác của mơ hình M, acc(M) - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

ch.

ính xác của mơ hình M, acc(M) Xem tại trang 20 của tài liệu.
39Đ ánh giá mơ hình  - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

39.

Đ ánh giá mơ hình Xem tại trang 20 của tài liệu.
Độ lỗi của mơ hình M, error_rate(M) =1-acc(M) - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

l.

ỗi của mơ hình M, error_rate(M) =1-acc(M) Xem tại trang 21 của tài liệu.
Phân lớp là hình thức phân tích DL để rút ra - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

h.

ân lớp là hình thức phân tích DL để rút ra Xem tại trang 23 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan