MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÁO CÁO CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN. PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN. GVHD : PGS Tiến sỹ Đỗ Phúc Người thực hiện : Phạm Hùng Phương Mã số : CH1102006 Lớp : Cao học khóa 6 HÀ NỘI – 2014 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. LỜI CẢM ƠN Em xin chân thành cảm ơn khoa sau đại học trường Đại học Công nghệ thông tin – Đại học Quốc gia TP.HCM đã tạo điều kiện giúp em hoàn thành môn học. Em xin cám ơn sâu sắc đến PGS.TS Đỗ Phúc. Thầy đã tận tình giảng dạy chuyển tải thông tin đến cho lớp chúng em trong suốt thời gian học tập và nghiên cứu môn Khai phá dữ liệu và kho dữ liệu. Bằng lượng kiến thức đã học tập và nghiên cứu được em cố gắng hoàn thành bài thu hoạch trong phạm vi cho phép, nhưng do thời gian và kiến thức còn hạn chế nên bài thu hoạch vẫn còn nhiều thiếu sót. Kính mong thầy quan tâm giúp đỡ và chỉ bảo để em hoàn thiện bài thu hoạch tốt hơn nữa. Một lần nữa em xin được tỏ lòng biết ơn thày đã giảng dạy và chỉ bảo tận tình, cám ơn các thày cô khoa sau đại học và nhà trường đã tạo điều kiện để chúng em hoàn thành môn học. Hà Nội, tháng 11/2012 Học viên thực hiện Phạm Hùng Phương Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 2 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. MỤC LỤC M C L CỤ Ụ 3 CH NG 1. M T S K THU T PHÂN L P.ƯƠ Ộ Ố Ỹ Ậ Ớ 5 CH NG 2. NG D NG PHÂN L P NAIVE BAYES PHÂN LO I THÔNG ƯƠ Ứ Ụ Ớ ĐỂ Ạ I P TRÊN DI N ÀN.ĐỆ Ễ Đ 21 CH NG 3. K T LU NƯƠ Ế Ậ 31 TÀI LI U THAM KH OỆ Ả 32 LỜI MỞ ĐẦU. Với sự phát triển của Internet, lượng thông tin chứa đựng trong các trang web ngày càng nhiều, một trong những hình thức của trang web đó là diễn đàn thảo luận. Có rất nhiều diễn đàn trên mạng Internet với nhiều lĩnh vực khác nhau . Việc tổ chức, quản lý nội dung thông tin trên diễn đàn không phải là một công việc đơn giản, thường có những vấn đề nảy sinh: - Người đưa tin sai diễn đàn chuyên đề. - Người quản trị có ít công cụ để kiểm duyệt và xem các thông điệp trên từng chủ đề. - Chức năng thống kê của điễn đàn chưa thật mạnh cho người quản trị có thể thống kê theo từ khoá… Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực đời sống đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu của nguồn thông tin từ các cơ sở dữ liệu lớn trong việc hỗ trợ tiến trình ra quyết định, bên cạnh những phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã phát triển nhiều phương pháp, kỹ thuật và phần mềm mới hỗ trợ tiến trình khám phá, phân tích tổng hợp thông tin. Có thể chia khai thác dữ liệu thành hai dạng chính: khai thác dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá. Trong khai thác dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết. Khai thác dữ liệu theo hướng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê… Ngược lại, khai thác dữ liệu theo hướng khám phá sẽ tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ. Do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của các thuật giải tìm kiếm. Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 3 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. Ngày nay, khi công cụ thu thập dữ liệu tự động và công nghệ lưu trữ dữ liệu ngày càng hoàn thiện giúp con người tạo lập và quản lý một lượng dữ liệu khổng lồ trong các CSDL, kho dữ liệu thì nhu cầu nắm bắt dữ liệu, trích rút thông tin trở thành cấp thiết và có ý nghĩa. Mặt khác, với nhu cầu ngày càng cao hơn, con người không bằng lòng với những dữ liệu đơn giản thu được từ những kỹ thuật trước đây. Từ nhu cầu về những sự kiện rời rạc trong lĩnh vực ứng dụng nay phát sinh nhu cầu nắm bắt tri thức về các mối quan hệ giữa chúng, xa hơn nữa là phát hiện những quy luật trong lĩnh vực đó. Khai thác dữ liệu ra đời nhằm đáp ứng các nhu cầu cấp thiết đó. Do đó việc phát triển công cụ hỗ trợ quản lý nội dung và tổ chức thông tin trên diễn đàn thảo luận là cần thiết. Trong đó bài toán phân loại thông điệp trên diễn đàn mang nhiều ý nghĩa và đem lại hiệu quả trong quản lý thông tin trên diễn đàn. Với những lý do trên và qua quá trình được học môn Khai phá dữ liệu và kho dữ liệu, em chọn đề tài Một số kỹ thuật phân lớp và ứng dụng trong việc phân loại thông điệp trên diễn đàn thảo luận để viết bài thu hoạch. Em rất mong tiếp tục nhận được sự quan tâm chỉ bảo của Thầy. Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 4 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. CHƯƠNG 1. MỘT SỐ KỸ THUẬT PHÂN LỚP. 1.1. Khái niệm phân lớp. Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước. Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hình . Xây dựng mô hình nhằm mục tiêu mô tả một tập những lớp đã được định nghĩa trước trong đó mỗi bộ hoặc mẫu sẽ được gán về một lớp đã xác định trước bởi thuộc tính nhãn lớp. Vận hành mô hình nhằm mục đích xác định lớp của dữ liệu trong tương lai hoặc phân lớp những đối tượng chưa biết . Lớp sẽ được định nghĩa bởi một phân hoạch không gian các mẫu dữ liệu (tức là không gian các thuộc tính hay không gian đặc trưng của mẫu). Có thể nói lớp là một hàm của các thuộc tính (đặc trưng). Như vậy việc phân lớp một mẫu mới sẽ không tốt nếu mẫu đề đặt ra là làm thế nào để có thể chọn ra một không gian thuộc của các mẫu đạt kết quả tốt mà vẫn đảm bảo không gian các thuộc tính này đại diện cho các tập mẫu đã cho trước đó . Có nhiều cách tiếp cận bài toán phân lớp nhưng nhìn chung có ba xu hướng nghiên cứu chính: tiếp cận phân lớp theo thống kê, theo máy học và mạng nơron. Tiếp cận phân lớp theo hướng thống kê có đặc điểm chung là dựa trên mô hình xác suất cơ sở rõ ràng, đưa ra xác suất của một mẫu có thể thuộc lớp nào, cụ thể hơn phân lớp thuần tuý . Một số phương pháp được áp dụng trong lĩnh vực phân lớp như: Cây quyết định, Luật kết hợp, Mạng noron, Xác suất Naive Bayes… Bài thu hoạch này trình bày các bước để xây dựng mô hình phân lớp và nêu lên một số vấn đề quan tâm trong các hệ thống phân lớp hiện nay, giới thiệu một số phương pháp phân lớp cơ bản. Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 5 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. Như đã nói ở trên, phân lớp là một tiến trình gồm 2 bước: 1.1.1 Bước 1: Xây dựng mô hình (hay bộ phân lớp) từ tập huấn luyện. - Mỗi bộ/mẫu dữ liệu được phân vào một lớp xác định trước. - Lớp của một bộ/mẫu dữ liệu được xác định bởi thuộc tính gán nhãn lớp. - Tập các bộ/mẫu dữ liệu huấn luyện (còn được gọi là tập huấn luyện) được dùng để xây dựng mô hình. - Mô hình được biểu diễn bởi các luật phân lớp, các quyết định hoặc các công thức toán học. 1.1.2. Bước 2: Vận hành (sử dụng) mô hình. Sử dụng mô hình là kiểm tra tính đúng đẵn của mô hình và dùng mô hình để phân lớp dữ liệu mới: - Phân lớp cho những mẫu mới hoặc chưa được phân lớp. - Đánh giá độ chính xác của mô hình bằng cách: * Lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình. * Tỉ lệ chính xác bằng phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra. Hiện nay có nhiều kỹ thuật phân lớp được nghiên cứu trên thế giới, tuy nhiên , trong thực tế khi áp dụng các kỹ thuật phân lớp cho thấy rằng không có một kỹ thuật phân lớp nào là tốt nhất cho mọi ứng dụng mà mỗi kỹ thuật phân lớp chỉ tốt đối với từng trường hợp cụ thể mà thôi. Có nhiều vấn đề mà một bộ phận lớp cần phải quan tâm và giải quyết. Một trong số các vấn đề đó là: * Độ chính xác: Độ tin cậy của một luật dựa vào độ chính xác khi phân lớp, mặc dù có một số lỗi được xem là nghiêm trọng hơn các lỗi khác nhưng vấn đề quan trọng là được hiệu chỉnh và đánh giá chính xác đối với các lớp quan trọng. * Tốc độ: Trong một số tình huống, tốc độ phân lớp được xem như là một yếu tố quan trọng. Khi đó, một bộ phân lớp với độ chính xác 92% có thể được ưa chuộng hơn bộ phận lớp có độ chính xác 95% nhưng chậm hơn 100 lần trong các phép kiểm tra. Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 6 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. * Dễ hiểu: Một bộ phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống. * Thời gian để học: Vấn đề này đặc biệt nghiêm trong khi hệ thống được sử dụng trong các môi trường thay đổi thường xuyên, điều đó yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanh chóng điều chỉnh một luật đã được học cho phù hợp với thực tế. Sau đây sẽ trình bày một số kỹ thuật phân lớp chính: Phân lớp dựa trên cây quyết định, phân lớp dựa vào mạng nơron và phân lớp xác suất Naive Bayes. 1.2. Phân lớp dựa trên cây quyết định (Decision tree). 1.2.1. Giới thiệu. Phương pháp học dựa trên cây quyết định là một phương pháp xấp xỉ hàm đích có giá trị rời rạc, trong đó mỗi hàm đã học được thể hiện bởi một cây quyết định . Các cây đã học cũng có thể đựơc trình bày lại như là tập các luật dạng nếu thì để cho dễ hiểu hơn. Cây quyết định là một cây trong đó: - Mỗi nút trong xác định một phép kiểm tra trên một thuộc tính. - Mỗi nhánh của cây là đầu ra của một phép kiểm tra. - Mỗi nút lá là nhãn phân lớp hoặc sự phân chia vào lớp. Ví dụ: Bảng 1.1. minh họa tập dữ liệu mẫu dùng trong phân lớp cây quyết định , lớp = C (có chơi tennis), lớp = K (không chơi tennis) Bảng 1.1. Tập dữ liệu học “chơi tennis”. STT Thời tiết Nhiệt độ Độ ẩm Gió Lớp 1 Nắng Nóng Cao Không K 2 Nắng Nóng Cao Không K 3 U ám Nóng Cao Không C 4 Mưa ấm áp Cao Không C 5 Mưa Mát Vừa Không C 6 Mưa Mát Vừa Có K 7 U ám Mát Vừa Có C 8 Nắng ấm áp Cao Không K 9 Nắng Mát Vừa Không C 10 Mưa ấp áp Vừa Không C 11 Nắng ấp áp Vừa Có C 12 U ám ấp áp Cao Có C Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 7 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. 13 U ám Nóng Vừa Không C 14 Mưa ấm áp Cao Có K Minh hoạ cây quyết định thu được với thuật toán ID3 trên tập dữ liệu huấn luyện mẫu được phân lớp trong bảng 1.1. trên. Cây quyết định xây dựng từ tập huấn luyện mẫu bảng 1. Phân lớp một thể hiện được bắt đầu từ nút gốc của cây, kiểm tra giá trị của thụôc tính tại nút này, sau đó đi xuống nhánh mà thoả giá trị thuộc tính của thể hiện cần phân lớp. Tiến trình được lặp đi lặp lại cho đến nút lá thì dừng. Tiếp tục phân lớp cho các thể hiện khác cũng phải bắt đầu từ nút gốc. 1.2.2. Tạo cây quyết định 1.2.2.1. Thuật toán Tiến trình tạo cây quyết định gồm hai giai đoạn: xây dựng cây và thu gọn cây. Giai đoạn 1: Xây dựng cây - Bắt đầu, tất cả các mẫu huấn luyện đều ở gốc. - Phân chia các mẫu dựa trên các thuộc tính được chọn - Kiểm tra các thuộc tính được chọn dựa trên một độ đo thống kê hoặc heuristic. Giai đoạn 2: Thu gọn cây - Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm - Thuật toán mô tả tiến trình học dựa trên cây quyết định được thực hiện theo hướng xây dựng một cây đệ quy phân chia và xác định các thuộc tính từ trên xuống như sau: Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 8 Thời tiết Độ ẩm Gió P U ám K C Vừa Cao K C Không Có Mưa Nắng Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. • Các thuộc tính được xem là rõ ràng, rời rạc • Có nhiều thuật toán khác nhau: ID3, C4,5, CART, CHAID, tuỳ thuộc vào các điểm khác biệt chính: tiêu chuẩn/ thuộc tính phân chia, độ đo để lựa chọn thuộc tính. Một độ đo để lựa chọn thuộc tính được sử dụng khá rộng rãi là độ lợi thông tin (hay còn là Information Gain). Nhiều thụât toán sử dụng tiêu chuẩn này để lựa chọn thuộc tính tốt nhất giữa các thuộc tính tại mỗi bước trong quá trình xây dựng cây . 1.2.2.2. Độ lợi thông tin (Information Gain) Các thuộc tính được xem là rõ ràng, rời rạc. Gọi A là tập thuộc tính trên toàn bộ tập dữ liệu mẫu, A = {A1, A1, An} ( ví dụ trong bảng 1: A = {thời tiết, nhiệt độ, độ ẩm, gió} ). Thuật toán phân lớp dựa trên cây quyết định quan trọng ở việc chọn thụôc tính A nào (tiêu chuẩn nào) để kiểm tra tại mỗi nút của cây (theo thứ tự từ trên xuống). Do đó ta sẽ chọn thụôc tính A có chỉ số độ lợi thông tin lớn nhất – gọi là Gain (A). • Cho P và N là 2 lớp và S là một tập dữ liệu có p mẫu học thuộc lớp P và n mẫu thuộc lớp N. • Định nghĩa khối lượng thông tin cần thiết để quyết định một mẫu tuỳ ý có thuộc về lớp P hay N hay không là I (p,n): np n np n np p np p npI ++ − ++ −= 22 loglog),( Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 9 Tạo_cây (Tập dữ liệu học toàn bộ S) Phân hoạch (S) Phân_hoạch (Tập dữ liệu phân mảnh S i ) Nếu tất cả các mẫu trong S 1 có cùng lớp thì dừng Ngược lại, tính khả năng tách nhánh cho mỗi thuộc tính A Chọn ra một khả năng tách nhánh tốt nhất được tìm thấy từ các khả năng tách nhánh trên để phân hoạch S i , thành S i1 và S i2 . Phân hoạch (S i1 ) Phân hoạch (S i2 ) Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu. • Cho các tập {S 1 , S 2 , S v } là một phân hoạch trên S khi sử dụng thuộc tính A. S 1 đến S v là v tập con của tập dữ liệu mẫu được phân mảnh bởi v giá trị thuộc tính A. Mỗi S i chứa p i , mẫu lớp P và n i mẫu lớp N. • Định nghĩa “Entropy” là thông tin mong muốn cần thiết để phân lớp các đối tượng trong tất cả các cây con S i : ∑ = + + = p i ii ii npI np np AE 1 ),(.)( • Độ lợi thông tin có được bởi việc phân nhánh trên thuộc tính A được tính bằng công thức: Ví dụ: Từ tập dữ liệu mẫu bảng 1.1 ta có: • Lớp P: chơi tennis = “C” • Lớp N: chơi tennis = “K” • Thông tin cần thiết để phân lớp một mẫu được cho: I(p,n) = T(9,5) = 0.940 • Tính entropy cho thuộc tính A = “thời tiết” => phân hoạch dữ liệu (s 1 ,s 2 ,s 3 ) Thời tiết p i N i I(p i ,n i ) Nắng 2 3 0.971 s 1 (thời tiết = nắng) U ám 4 0 0 s 2 (thời tiết = u ám) Mưa 3 2 0.971 s 3 (thời tiết = mưa) Ta có: E (thời tiết) = I(2,3) + I(4,0) + I(3,2) = 0.694 Do đó: Gain (thời tiết) = I(9,5) – E (thời tiết) = 0.246 Tương tự, tính được Gain (nhiệt độ) = 0.029 Gain (độ ẩm) = 0.151 Phạm Hùng Phương: Lớp Cao học CNTT QM Khoá 06. Trang 10 Gain (A) = I (p,n) – E (A) [...]... phõn lp nh hỡnh sau: Din n tho lun Cỏc chuyờn mc H thng phõn lp Gồm Cỏc din n Sắp xếp thông điệp sai diễn đàn chuyên đề Thnh viờn din n Gồm Chủ đề mới Cỏc ch trao i Gồm Thông điệp mới Classified=0 Phm(cha phân lớp) Lp Cao hc CNTT thụng ip Hựng Phng: Cỏc QM Khoỏ 06 Cập nhật trờng forum_id,topic_id Classified=1 (đã phân lớp) Trang 25 Bi thu hoch mụn hc: Khai phỏ d liu v kho d liu Hỡnh 2.2 Cp nht c s d... hỡnh 2.1 Trích danh từ cụm danh từ Chọn ngỡng Điều chỉnh trọng số Tạo tập hợp đặc trng Đặc trng cho mỗi lớp (giá trị, tần suất xuất hiện, số message chứa đặc trng) (tạo vector đặc trng) Tính xác suất thuộc mối lớp Phân lớp Naive Baives Phm Hựng Phng: Lp Cao hc Xác suấtQM Khoỏ ng Lớp dự đoán CNTT từng đặc tr06 (xác suất cao nhất) trong mỗi lớp Trang 22 Bi thu hoch mụn hc: Khai phỏ d liu v kho d liu Hỡnh... c danh t, cm danh t trong Doc m cú mt trong Vocabulary (tp term) hoc ng ngha vi cỏc term trong Vocabulary (da vo t in ng ngha) v a vo positions _Gỏn P_min = xỏc sut nh nht ca term trong Vocbulary /*tỡm xỏc sut nh nht trong tt c xỏc sut ca cỏc term trong Vocabulary a vo P_min*/ _ Tớnh v tr v xỏc sut cao nht ca lp j no ú trong cỏc lp ca tp lp C Nu term th i ca Doc ng ngha vi term trong lp c j xỏc sut... nỳt trong lp n Tng t, cỏc nỳt trong lp xut cng nhn c cỏc tớn hiu tớch hp t cỏc nỳt trong lp n Mi nỳt trong lp xut tng ng mt bin ph thuc Trong thc t, hu ht cỏc bi toỏn gp phi thng cú nhiu bin c lp v thng cú nhiu bin ph thuc Vỡ th ta cn mt mng tng quỏt cú nhiu nỳt nhp v nhiu nỳt xut Phn ln cỏc bi toỏn ch cú mt bin ph thuc, nhng mng nron cho phộp cú s bin ph thuc tu ý Vớ d trong bi toỏn phõn lp, chỳng... Trang 15 Bi thu hoch mụn hc: Khai phỏ d liu v kho d liu lp ca cỏc mu mi (vd: mi mu cú 100 thuc tớnh (c trng)) trong tng s 12 lp cú th cú thỡ chỳng ta cú th xõy dng mt mng vi 100 nỳt trong lp nhp v 12 nỳt trong lp xut, giỏ tr nỳt trong lp xut no cao nht thỡ kh nng mu mi s thuc v lp tng ng vi nỳt trong lp xut ú Mng lan truyn tng quỏt cú th cú n lp (n>2): lp th nht gi l lp nhp, lp th n l lp xut, v n - 2... danh t) xut hin trong tp hun luyn Samples Thut toỏn hc Naive Bayes c thit k nh sau: _For mi lp cj trong tp lp C do _Class j lc tt c w (danh t, cm danh t) khụng trựng, m s ln xut hin ca mi w trong lp cj, tớnh tng s ln xut hin ca tt c nhng w trong cj Tớnh mi Fj(w) _For mi lp cj trong tp lp C do _ For mi w trong Classj do F j ( w) _ Tớnh G(w)=Fj(w)* Fi ( w) (vi i l tt c lp khỏc nhau) i _Vocabulary w... term tk l i din cho w th k trong tp Vocabulary 2 Tớnh xỏc sut iu kin cho tng lp P(c j) (mi lp l mt din n chuyờn ) v cỏc xỏc sut P(tk/cj) m mi term tk trong Vocabulary thuc v lp cj _ For mi lp cj trong tp hp lp C do _docsj trớch cỏc on vn bn thuc lp cj trong Samples a vo docsj _P(cj)= docs j Samples /*s vn bn lp cj chia s vn bn tp Samples*/ _ntớnh tng s ln xut hin ca cỏc term trong docsj (k c trựng) /*n:... chia s vn bn tp Samples*/ _ntớnh tng s ln xut hin ca cỏc term trong docsj (k c trựng) /*n: tng s ln xut hin ca cỏc term trong tp vn bn ca lp cj*/ _For mi term tk trong Vocabulary do _nktớnh s ln term tk xut hin trong docsj / *trong lp cj*i nk + _P(tkcj)= n + hc CNTT /*xỏc sut term tk trong lp cj*/Trang 29 Phm Hựng Phng: Lp CaoVocabulary QM Khoỏ 06 Bi thu hoch mụn hc: Khai phỏ d liu v kho d liu Thut toỏn... hỡnh phõn lp da trờn xỏc sut Trong mt s lnh vc, kh nng ỏp dng ca nú cú th so sỏnh vi cỏc phng phỏp khỏc nh mng nron hoc cõy quyt nh Trong thc t, mụ hỡnh phõn lp Naive Bayes thc hin rt tt trong phõn lp vn bn nh h thng phõn loi vn bn Rainbow, hay trong cỏc h thng phõn loi email Cỏc lut toỏn Bayes tớnh toỏn cỏc kh nng c th i vi cỏc gi nh, chng hn nh b phn lp Naive Bayes l mt trong cỏc cỏch tip cn thc t... 5 trong hỡnh 1.5 l O5 = f (W3,5A3 + W4,5A4) = f (W3,5 f(W1,3I1 + W2,3I2) + W4,5 f(W1,4I1 + W2,4I2) Mng nron nhỡn theo hng khỏc gm cỏc lp: lp nhp (input), lp n (hidden), v lp xut (output) D liu xut Lp n Lp n Lp nhp D liu nhp Hỡnh 1.6 Mụ hỡnh mng nron nhỡn hng khỏc Mi nỳt trong lp nhp nhn giỏ tr ca mt bin c lp v chuyn vo mng D liu t tt c cỏc nỳt trong lp nhp c tng trng hoỏ v chuyn kt qu cho cỏc nỳt trong . Thông Tin BÁO CÁO CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN. kỹ thuật phân lớp và ứng dụng trong việc phân loại thông điệp trên diễn đàn thảo luận để viết bài thu hoạch. Em rất mong tiếp tục nhận được sự quan tâm chỉ bảo của Thầy. Phạm Hùng Phương: Lớp. tế. Sau đây sẽ trình bày một số kỹ thuật phân lớp chính: Phân lớp dựa trên cây quyết định, phân lớp dựa vào mạng nơron và phân lớp xác suất Naive Bayes. 1.2. Phân lớp dựa trên cây quyết định (Decision

MỘT SỐ KỸ THUẬT PHÂN LỚP VÀ ỨNG DỤNG TRONG VIỆC PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

CHƯƠNG 1. MỘT SỐ KỸ THUẬT PHÂN LỚP.

1.1. Khái niệm phân lớp.

1.1.1 Bước 1: Xây dựng mô hình (hay bộ phân lớp) từ tập huấn luyện.

1.1.2. Bước 2: Vận hành (sử dụng) mô hình.

1.2. Phân lớp dựa trên cây quyết định (Decision tree).

1.2.1. Giới thiệu.

1.2.2. Tạo cây quyết định

1.2.2.2. Độ lợi thông tin (Information Gain)

1.2.2.3. Tỉ lệ độ lợi (Gain Ration)

1.2.3. Rút luật phân lớp từ cây quyết định

1.2.4. Đánh giá

1.3. Phân lớp dựa vào mạng nơron (Neural Network)

1.3.1. Giải thuật mạng nơron

1.3.2. Đánh giá

1.4. Phân lớp Naive Bayes.

1.4.1. Sự phân hoạch và công thức Bayes

1.4.2. Mô hình phân lớp Naive Bayes

1.4.3. Đánh giá.

CHƯƠNG 2. ỨNG DỤNG PHÂN LỚP NAIVE BAYES ĐỂ PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN.

2.1. Hệ thống chương trình.

2.2. Qui trình thực hiện.

2.2.1. Cơ sở dữ liệu lưu trữ thông điệp

2.2.2. Xây dựng Website diễn đàn thảo luận

2.2.3. Quá trình trích chọn đặc trưng thông điệp.

2.2.3.1. Sửa tiếng Việt không dấu.

2.2.3.2. Loại bỏ các thẻ HTML

2.2.3.3. Loại bỏ các phụ từ.

2.2.3.4. Chuyển mã văn bản

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan