Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"

34 962 0
Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo môn học : Công nghệ tri thức (cao học : Khoa học máy tính) Đề tài : XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM" Chương trình xin liên hệ : vuongthienminh@gmail.com

Tiểu luận Công nghệ tri thức Tramg 1/40 A – LÝ THUYẾT I TÌM HIỂU TỔNG QUAN VỀ DATA MINING II CÁC PHƯƠNG PHÁP MÁY HỌC ỨNG DỤNG TRONG DATA MINING Tìm luật kết hợp (Mining Association Rules) Phân lớp (Classification) Gom nhóm (Clustering) III THUẬT TỐN TÌM LUẬT KẾT HỢP ỨNG DỤNG TRONG DATA MINING Giới thiệu – định nghĩa liên quan Các vấn đề luật kết hợp Support Confidence Tổng quan thuật tốn tìm luật kết hợp 2.1 Thuật toán sở 2.2 Các thuật toán (Sequential) Thuật toán AIS Thuật toán SETM Thuật toán Apriori Thuật toán Apriori-TID Thuật toán Apriori-Hybrid Một số thuật toán khác:  Off-line Candidate Determination (OCD)  Partitioning  Sampling  Dynamic Itemset Counting (Brin1997a)  CARMA (Continuous Association Rule Mining Algorithm) 2.2 Các thuật toán song song phân tán Các thuật toán song song liệu (Data Parallelism)  CD  PDM  DMA  CCPD Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 2/40 Các thuật toán song song tác vụ (Task Parallelism)  DD  IDD  HPA  PAR Các thuật toán khác  Candidate Disstribution  SH  HD So sánh thuật tốn IV TỞNG KẾT B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐỐN, PHỊNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM” I Xây dựng sở trí thức cho bài toán II Cài đặt chương trình DEMO Tài liệu tham khảo LỜI CẢM ƠN Nhóm học viên thực xin gửi lời cảm ơn chân thành đến Thầy Phan Huy Khánh, Thầy tận tình truyền đạt kiến thức cần thiết cho chúng em suốt thời gian môn học Tuy mơn học mang tính trừu tượng cao qua giảng cụ thể ví dụ thực tiễn sinh động Thầy, chúng em nắm bắt nội dung môn học có định hướng xác Do thời gian trình độ cịn nhiều hạn chế số lượng lớn thuật tốn cần trình bày, chắn khóa luận cịn có chỗ sai sót Nhóm chúng em mong nhận ý kiến góp ý động viên Thầy tất Anh/Chị bạn để tiểu luận hoàn thiện Chúng em xin chân thành cảm ơn! Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 3/40 A – LÝ THUYẾT I TÌM HIỂU TỔNG QUAN VỀ DATA MINING Data Mining gì? Data Mining (khai phá liệu) việc sử dụng cơng cụ phân tích liệu phức tạp để tìm tri thức chưa biết đến, mơ hình thích hợp, mối quan hệ sở liệu lớn Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy (regularities) tập liệu Vì vậy, Data Mining tập hợp, quản lý liệu mà cịn phân tích, tiên đốn liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu (Knowledge Discovery in Database – KDD) để tồn q trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu bước đặc biệt tồn q trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu (pattern) (hay mơ hình) từ liệu Data Mining thao tác liệu dạng định lượng, có cấu trúc đa phương tiện Những ứng dụng Data Mining sử dụng phương pháp khác để khảo sát liệu như: - Mô hình kết hợp: kiện kết hợp với kiện khác, ví dụ: mua bút mua giấy - Mơ hình phân tích đường đi: kiện dẫn đến kiện khác, ví dụ: đứa trẻ đời dẫn đến việc mua tã lót - Mơ hình phân lớp: xác định mơ hình - Mơ hình gom nhóm: tìm kiếm ghi lại thành nhóm kiện chưa khám phá trước đây, vị trí địa lý, mức độ ưu tiên - Mơ hình dự báo: khám phá mơ hình mà người tiên đốn kiện tương lai Data Mining xem tiến trình phát tri thức (Knowledge Discovery) sở liệu Hạn chế Data Mining Data Mining xem công cụ mạnh thân khơng thể ứng dụng độc lập Data Mining đòi hỏi chuyên gia phân tích chuyên Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 4/40 gia kỹ thuật có kỹ để phân tích minh họa đầu liệu Vì vậy, hạn chế Data Mining liên quan đến liệu người mặt cơng nghệ Mặc dầu Data Mining khám phá mơ hình quan hệ sở liệu, khơng thể cho người dùng biết giá trị ý nghĩa mơ hình đó, mà địi hỏi người sử dụng phải tự xác định Tương tự, giá trị mơ hình khám phá tùy thuộc vào so sánh với “thế giới thực” Một hạn chế khác Data Mining xác định liên quan hành vi biến, khơng cần thiết phải xác định nguyên nhân quan hệ Ứng dụng Data Mining Data Mining ứng dụng cho nhiều mục đích khác hai lĩnh vực chung riêng Những ngành ngân hàng, bảo hiểm, y tế buôn bán lẻ, Data Mining sử dụng để giảm chi phí, nâng cao việc tìm kiếm thị trường tăng cường khả buôn bán Ví dụ, ngành bảo hiểm ngân hàng sử dụng Data Mining để kiểm tra gian lận giúp đỡ việc đánh giá rủi ro Sử dụng liệu khách hàng qua nhiều năm, công ty phát triển mơ hình để tiên đốn khách hàng có đáng tin cậy hay khơng báo cáo tai nạn gian lận nên điều tra nghiên cứu lại Trong lĩnh vực chung, ứng dụng Data Mining dùng phương tiện để kiểm tra gian lận lãng phí mà cịn dùng cho mục đích đo lường cải tiến việc thực chương trình Data Mining giúp đỡ phủ liên bang thu hồi hàng triệu đôla bị gian lận quĩ hỗ trợ chăm sóc người già, giúp đỡ tư pháp đưa mơ hình tội phạm phân phối nguồn lực thích hợp, trợ giúp tiên đốn thay đổi nhân ước lượng tốt nhu cầu ngân sách, Gần đây, Data Mining xem công cụ quan trọng vấn đề an ninh quốc gia Một số người đề nghị Data Mining nên sử dụng phương tiện xác định hoạt động khủng bố chuyển tiền thông tin, xác định định, đánh dấu người khủng bố qua hồ sơ du lịch, di cư Hai ứng dụng Data Mining gây ý mạnh mẽ dự án nhận biết thông tin khủng bố (Terrorism Information Awareness-TIA) hệ quan sát hành khách trước hình máy tính trợ giúp (Computer Assisted-Passenger Prescreening System II-CAPPS II) Cả hệ thống đời sau kiện 11-09-2001, ngày nước Mỹ bị bọn khủng bố cơng, nhằm đảm bảo an tồn cho chuyến bay trước nguy khủng bố Hiện tại, dự án TIA không tiếp tục CAPPS II thay hệ thống Chuyến bay an toàn (Security Flight) Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 5/40 Một số vấn đề Data Mining a Chất lượng liệu Chất lượng liệu thách thức lớn Data Mining Chất lượng liệu biết độ xác tồn vẹn liệu Chất lượng liệu bị ảnh hưởng cấu trúc quán liệu phân tích Sự diện ghi trùng nhau, thiếu liệu chuẩn, liệu cập nhật lúc lỗi người tác động đáng kể đến hiệu kỹ thuật Data Mining, cụ thể khác tinh vi tồn liệu Để cải tiến chất lượng liệu, phải tinh chế liệu loại bỏ ghi trùng nhau, hình thức hóa giá trị biểu diễn sở liệu (ví dụ: “no” thay thành hay N ), tính tốn điểm liệu bị thiếu, loại bỏ trường liệu không cần thiết, b Tương tác thành phần Đó tương tác thành phần sở liệu phần mềm Data Mining Sự tương tác ám khả hệ thống máy tính và/hoặc liệu để làm việc với hệ thống khác, liệu sử dụng tiến trình tiêu chuẩn chung Đối với Data Mining, tương tác thành phần sở liệu phần mềm Data Mining quan trọng phép việc tìm kiếm phân tích nhiều sở liệu lúc, đảm bảo cho tương thích Data Mining với hoạt động trạm làm việc khác c Sứ mệnh cao (Mission Creep) Mission Creep rủi ro hàng đầu Data Mining Mission creep biết việc sử dụng liệu cho mục đích khác thu thập liệu gốc, không quan tâm liệu cung cập tùy chọn hay thu thập qua phương tiện khác d Tính bảo mật (Privacy) Khái niệm vấn đề bảo mật liên quan đến mục đích thực dự án tiềm ứng dụng Data Mining để phát triển xa mục đích ban đầu Ví dụ, vài chun gia đề nghị ứng dụng Data Mining chống khủng bố ứng dụng để kết hợp với loại tội phạm khác II CÁC PHƯƠNG PHÁP MÁY HỌC ỨNG DỤNG TRONG DATA MINING Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 6/40 Tìm luật kết hợp (Mining Association Rules) Nhiệm vụ tìm luật kết hợp tìm mối quan hệ tập đối tượng (còn gọi phần tử ) CSDL Các mối quan hệ diễn tả luật kết hợp luật có hai phép đo: độ hỗ trợ (support) độ tin cậy (Confidence) Tìm luật kết hợp thích hợp cho các ứng dụng crossing-marketing attached mailing Ngồi cịn áp dụng thiết kế catalog, add-on sale, store layout phân đoạn khách hàng dựa đơn mua hàng Bên cạnh lĩnh vực kinh doanh, tìm luật kết hợp áp dụng lĩnh vực khác chẩn đoán y học, Phân lớp (Classification) Phân lớp Data Mining công nhận phương pháp máy học hiệu áp dụng nhiều mặt khoa học thống kê, ghi nhận mẫu, lý thuết định, máy học, mạng nơ-ron,… Ba bước xử lý phân lớp: » Bước 1: xây dựng mơ hình sử dụng tập liệu biết, gọi liệu tập huấn (Training data) hay mẫu (Sample) » Bước 2: đánh giá độ xác ước đốn mơ hình sử dụng liệu thử (test data) » Bước 3: sử dụng mơ hình để dự đốn liệu chưa biết (nếu độ xác chấp nhận) Chuẩn bị liệu để phân lớp: » Làm liệu: xóa nhiễu giá trị thất lạc » Kiểm tra khơng thích hợp: loại bỏ thuộc tính dư thừa khơng thích hợp » Chuyển đổi liệu: liệu tổng quát hóa lên mức khái niệm cao chuẩn hóa Gom nhóm (Clustering) Gom nhóm nhóm tập đối tượng vào nhóm tương đồng nhau,đích nhắm lớp có tính tương tự cao ngồi lớp có tính tương tự thấp lớp Ví dụ khám phá nhóm khách hàng khác biệt, phân loại gen theo chức tương tự nhau, nhận diện nhóm người mua bảo hiểm xe ơ-tơ có tỉ lệ u cầu trung bình cao, Gom nhóm khác phân lớp (Classification) chỗ khơng xác định trước lớp không đánh nhãn lớp cho tập mẫu tập huấn Phân lớp phương pháp học theo mẫu, học có giáo viên cịn gom nhóm học theo quan sát, khơng có giáo viên III THUẬT TỐN TÌM LUẬT KẾT HỢP ỨNG DỤNG TRONG DATA MINING III.1 Giới thiệu – định nghĩa liên quan Cho tập phần tử Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Một tập X = {i1, i2,…,ik} ⊆ chứa k phần tử Tramg 7/40 gọi tập phần tử (itemset), hay tập k Một giao tác T T có dạng T = (tid, I) tid số định danh giao tác I itemset Một sở liệu (CSDL) giao tác D tập giao tác Một luật kết hợp thể có dạng X ⇒ Y, X,Y ⊆ I itemset X ∩ Y = ∅ X gọi số hạng đứng trước Y gọi vế thứ hai Luật nghĩa X xác định Y Phủ tập X D gồm tập định danh giao tác D hố trợ X: cover(X,D) := {tid | (tid,I) ∈ D, X ⊆ I} Độ hỗ trợ (support) tập X D số giao tác có phủ X D: support(X,D) := | cover(X,D) | Hay nói cách khác, độ hỗ trợ X tỷ số giao tác T hỗ trợ tập phần tử X sở liệu D: support(X) = |{T∈D | X ⊆ T}| / |D| Trong [Agrawal1993] [Cheung1996c], support(s) luật kết hợp tỉ số (tính theo phần trăm) ghi có chứa X ∪ Y tổng số ghi CSDL Như ta nói, độ hỗ trợ luật 5% có nghĩa có 5% tổng số ghi có chứa X ∪ Y Độ hỗ trợ luật X ⇒ Y định nghĩa sau: support(X⇒Y) = support(X∪Y) Tính phổ biến tập X D khả xuất X giao tác T ∈ D: frequency(X,D) := P(X) = support(X,D) / |D| Một tập phần tử gọi phổ biến độ hỗ trợ khơng nhỏ trị tuyệt đối ngưỡng hỗ trợ tối thiểu (minimal support threshold) σabs với ≤ σabs ≤ |D| Khi làm việc với tập phổ biến, thay sử dụng support dùng khái niệm liên quan ngưỡng phổ biến tối thiểu (minimal frequency threshold) σrel với ≤ σrel ≤ Hiển nhiên σabs = [σrel |D| ] Độ tin cậy (confidence) hay độ xác (accuracy) luật kết hợp X ⇒ Y D định nghĩa sau: confidence(X⇒ Y ,D):=P(Y|X) = support(X ∪ Y,D) / support(X,D) Một luật gọi tin cậy (confident) P(Y|X) vượt ngưỡng tin cậy tối thiểu γ với ≤ γ ≤ Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 8/40 Trong [Agrawal1993] [Cheung1996c], confidence(α) tỉ số (tính theo phần trăm) số ghi có chứa X ∪ Y tổng số ghi CSDL có chứa X Nghĩa nói độ tin cậy 85% 85% số ghi chứa X chứa Y Tiên đề: Cho CSDL giao tác D , X,Y ⊆ hai itemset, đó: X ⊆ Y ⇒ support(Y) ≤ support(X) Chứng minh: Điều có từ cover(Y) ⊆ cover(X) (ĐPCM)  III.2 Tổng quan thuật tốn tìm luật kết hợp Thuật tốn sở Tìm luật kết hợp từ sở liệu bao gồm trình tìm tất luật phù hợp với ngưỡng support confidence người dùng ấn định Vấn đề phân thành vấn đề nhỏ [Agrawal1994] trình bày thuật tốn Thuật tốn Thuật toán sở Input I, D, s, α Output Các luật kết hợp thoả s α Thuật toán  Tìm itemset xuất có tần số lớn support s người dùng ấn định  Phát sinh luật thoả mãn độ tin cậy confidence α Bước thứ thuật tốn tìm mục liệu thường xuyên xuất sở liệu thoả ngưỡng minsupp (các tập phổ biến) Các mục liệu khác gọi small itemset – không phổ biến Một nhận xét đáng ý là: tập mục liệu X không thoả support s tập lớn (superset) không thoả s ngược lại, X thoả s superset X thoả s Bước thứ hai thuật tốn tìm luật kết hợp sử dụng tập phổ biến tìm bước Xem xét ví dụ sau Ví dụ 1: Giả sử có sở liệu nhỏ với bốn mục liệu I={Bánh mì, Bơ, Trứng, Sữa} có bốn giao dịch bảng Bảng tập liệu có I Giả sử minsupp minconf 40% 60% Hãy xem bảng 3: ta phải tìm luật thoả minsupp, sau phải xem xét luật có độ tin cậy minconf tối thiểu 60% Các mục liệu thoả mãn hai điều kiện {Bánh mì, Bơ} {Bơ, Trứng} Minsupp cho mục liệu đơn tối thiểu 40% (xem bảng 2), mục liệu phổ biến Độ tin cậy luật trình bày bảng 3, dễ dàng thấy Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 9/40 luật (Bánh mì → Bơ) hiển nhiên thoả Tuy nhiên luật thứ hai (Bơ → Trứng) khơng thoả có minconf nhỏ 60% Bảng 1: sở liệu cho ví dụ Transaction ID Mục liệu T1 Bánh mì, Bơ, Trứng T2 Bơ, Trứng, Sữa T3 Bơ T4 Bánh mì, Bơ Ghi chú: Bảng 2: minsupp cho tập phần tử bảng Large: phổ biến Small: không phổ biến Mục liệu Support, s (%) Large/Small Bánh mì 50 Large Bơ 100 Large Trứng 50 Large Sữa 25 Small Bánh mì, Bơ 50 Large Bánh mì, Trứng 25 Small Bánh mì, Sữa Small Bơ, Trứng 50 Large Bơ, Sữa 25 Small Sữa, Trứng 25 Small Bánh mì, Bơ, Trứng 25 Small Bánh mì, Bơ, Sữa Small Bánh mì, Trứng, Sữa Small Bơ, Trứng, Sữa 25 Small Bánh mì, Bơ, Trứng, Sữa Small Bảng 3: luật thoả minconf ≥ 60% Luật Độ tin cậy (%) Chọn luật 100 Có Bánh mì → Bơ 50 Khơng Bơ → Bánh mì 50 Khơng Bơ → Trứng 100 Có Trứng → Bơ Việc tính tốn mục liệu phổ biến tốn [Agrawal1994] Tuy nhiên, có thuật tốn trực tiếp tìm luật kết hợp thuật tốn sau (thuật tốn trình bày [Agrawal1994]) Thuật tốn – Tìm luật kết hợp dựa vào tập phổ biến cho Input I, D, s, α, L Output Các luật kết hợp thoả s α Thuật toán Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 10/40  Tìm tất tập x không rỗng tập phổ biến, l ∈ L  Đối với tập x, xác định luật dạng x ⇒ (lx) tỷ lệ tần số xuất l với tần số cuất x lớn ngưỡng tin cậy Ví dụ, giả sử ta cần xác định luật (Bánh mì → Bơ) có chọn ví dụ Ở đây, l={Bánh mì, Bơ} x={Bánh mì}, (l-x)={Bơ} Khi support(Bánh mì, Bơ) với support(Bánh mì) 100%, lớn ngưỡng tin cậy cho, luật chọn Để làm rõ thêm ta xét luật thứ (Bơ → Trứng), x = {Bơ} (l-x) = {Trứng} Tỷ lệ support(Bơ, Trứng) support(Bơ) 50%, nhỏ ngưỡng tin cậy tối thiểu 60% Như ta nói khơng đủ sở để kết luận luật (Bơ → Trứng) đạt độ tin cậy 60% Quá trình tìm luật kết hợp sở liệu cực lớn tốn đạt hiệu suất thấp Vì hầu hết cải tiến sau theo hướng tìm thuật toán hiệu cho bước thứ [Algrawal1994] [Cheung1996c] [Klemettien1994] Phần trình bày thuật toán Các thuật toán (Sequential Algorithm) Phần trình bày cách tổng quát thuật tốn có để tìm luật kết hợp Hầu hết thuật toán dùng để nhận dạng tập phổ biến phân thành lớp: song song Trong hầu hết trường hợp, thuật toán giả thiết tập phần tử nhận dạng xếp theo thứ tự đồ thị lexico (lexicographic – đồ thị dựa tên mục liệu) Kiểu xếp cung cấp cách quản lý logic mà theo tập phần tử phát sinh thống kê Đây hướng tiếp cận tiêu chuẩn với thuật toán On the other hand, thuật toán song song tập trung vào phương pháp cho xử lý song song tác vụ tìm kiếm tập phổ biến Sau thảo luận thuật toán loại 2.1 Thuật toán AIS AIS thuật tốn cơng bố để nhận dạng tất tập phổ biến sở liệu giao tác [Agrawal1993] Nó tập trung vào nâng cao CSDL để xử lý câu hỏi hỗ trợ định Thuật toán đích nhắm để khám phá luật kết hợp chất lượng (qualitative rule) Thuật toán AIS duyệt sở liệu đầu vào nhiều lần lần duyệt, AIS quét qua giao tác Trong lần duyệt đầu tiên, AIS đếm support mục liệu riêng biệt xác định chúng thuộc tập phổ biến hay không Tập phổ biến lần duyệt mở rộng để phát sinh tổ hợp tập phần tử Sau quét giao tác, tập phần tử chung lần quét trước phần tử giao tác xác định Tập phần tử chung mở rộng với phần tử khác giao tác nhằm tạo tổ hợp Một tập mục liệu phổ biến l mở rộng với mục liệu phổ biến xuất trễ thứ tự xếp lexicographic mục liệu có l Để đạt hiệu tác vụ này, AIS sử dụng công cụ ước lượng kỹ thuật cắt tỉa (pruning) Các kỹ thuật ước lượng cắt tỉa xác định tổ hợp cách bỏ qua tập phần tử không cần thiết từ tập tổ hợp Sau đó, support tổ hợp tính tốn Các tổ hợp có support lớn minsupp Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Bánh mỳ, Trứng Bơ, Trứng Tramg 20/40 T3 T4 Processor D3 C2 Count Global Redution Hình 2: Mơ hình Data Parallelism Trong mơ hình Task Parallelism, tập tổ hợp phân chia phân bố xử lý chéo CSDL Mỗi xử lý chịu trách nhiệm giữ global support count tập tổ hợp Hướng tiếp cận u cầu phải có hai vịng giao tiếp lần lặp: vòng thứ nhất, xử lý gửi phần chia liệu cho xử lý khác; vòng thứ hai, xử lý phát tập phổ biến tìm thấy đến xử lý khác để tính tốn tổ hợp cho lần lặp Với liệu bảng 1, mơ hình diễn tả sau: bốn giao tác phân chia mơ hình Data Paralleism Ba tập tôe hợp phân bố xử lý chéo với xử lý có tổ hợp Sau quét CSDL cục phân khu CSDL xuất phát từ xử lý khác, global count tổ hợp tìm thấy 3.1 Các thuật toán song song liệu (Data Parallelism) Các thuật toán xét đến CD [Agrawal1996], PDM [Park1995], DMA [Cheung1996] CCPD [Zaki1996]  CD [Agrawal1996] Trong CD, CSDL D phân chia thành {D1, D2, ,Dp} phân bố qua n xử lý Thuật tốn có ba bước bản: Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 21/40  Bước 1: local support count tổ hợp Ck phân vùng CSDL cục Di tìm thấy  Bước 2: xử lý trao đổi local support count tổ hợp để lấy global support count tất tổ hợp  Bước 3: tập phổ biến Lk nhận dạng tổ hợp kích thước (k+1) phần tử tạo cách áp dụng thủ tục Apriori_gen() với Lk xử lý cách độc lập Bánh mỳ, Bơ T1 Processor D1 C21 Count Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Bánh mỳ, Trứng Tramg 22/40 T2 Processor D2 C22 Count Bơ, Trứng T3 T4 Processor D3 C23 Count Itemset broadcast Database broadcast Hình 3: Mơ hình Task Parallelism CD lặp lại bước đến khơng tìm thấy thêm tổ hợp Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 23/40  PDM [Park1995a] PDM (Parallel Data Mining) sửa đổi thuật toán CD sử dụng kỹ thuật băm trực tiếp (direct hashing) đề xuất [Park1995a] Kỹ thuật dùng để tách bớt số tổ hợp lần duyệt Nó đặc biệt hữu dụng cho lần duyệt thứ hai, Apriori khơng có rút tỉa trình tạo C2 từ L1 Trong lần duyệt đầu tiên, để thống kê tất tập có phần tử, PDM trì bảng băm nhằm lưu trữ số thống kê tập có phần tử Tại lần duyệt thứ k, PDM cần đổi local count bảng băm có số phần tử (k+1) với local count tập có k phần tử  DMA [Cheung1996] DMA (Distributed Mining Algorithm) [Cheung1996] dựa mơ hình Data Parallelism với bổ sung kỹ thuật tách tổ hợp kỹ thuật giảm bớt thông điệp giao tiếp (communication message reduction technique) Nó sử dụng local count tập phổ biến xử lý để định tính heavy (vừa phổ biến phần chia vừa phổ biến toàn CSDL) tập phần tử sau tạo tổ hợp từ tập phần tử heavy Ví dụ, giả sử A B hai mục liệu heavy xử lý tách biệt Nghĩa là, A phổ biến cục toàn cục xử lý 1, B phổ biến xử lý DMA không tạo AB tổ hợp phần tử thuật toán Apriori tạo AB local count xử lý Để giao tiếp, thay phân phát local count tổ hợp thuật toán CD, DMA gửi local count đến vị trí, làm giảm lượng giao tiếp từ O(p2) xuống O(p)  CCPD (Common Candidate Partitioned Database) CCPD [Zaki1996] thực thi CD shared-memory SGI Power Challenge với vài cải tiến CCPD đề xuất kỹ thuật nhằm tăng hiệu phát sinh tổng hợp tổ hợp môi trường nhớ dùng chung Nó nhóm tập tổ hợp vào lớp tương đương dựa tiền tố chung (thông thường mục đầu tiên) phát sinh tổ hợp từ lớp Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Cơng nghệ tri thức Tramg 24/40 Việc lập thành nhóm không làm giảm bớt số lượng giảm bớt thời gian phát sinh tổ hợp Thuật toán giới thiệu phương pháp kiểm tra tập ngắn mạch (short-circuited subset checking) nhằm tăng hiệu tính tốn tổ hợp cho giao tác 3.2 Các thuật toán song song tác vụ (Task Parallelism) Các thuật toán loại khác Data Parallelism phương thức tổ hợp CSDL phân chia Đại diện cho lớp thuật toán DD [Agrawal1996], IDD [Han1997], HPA [Shintani1996], PAR [Zaki1997]  DD (Data Distribution) Trong DD [Agrawal1996], tổ hợp phân chia phân bố khắp xử lý theo mơ hình vịng robin (round-robin) Có ba bước tất Tại bước 1, xử lý duyệt phân vùng liệu cục nhằm thu nhận local count tất tổ hợp phân bố Bước hai, xử lý phân phát phân vùng liệu nhận phân vùng liệu đến từ xử lý khác Sau duyệt phân vùng liệu nhận để lấy global support count toàn CSDL Ở bước cuối cùng, xử lý tính tốn tập phổ biến phân vùng tổ hợp nó, trao đổi với tất để nhận tập phổ biến Tiếp tiến hành phát sinh tổ hợp, phân vùng phân bố tổ hợp đến tất xử lý Bước lặp lại không tổ hợp sinh Lưu ý tượng tràn giao tiếp việc loan truyền phân vùng liệu giảm bớt giao tiếp không đồng [Agrawal1996]  IDD (Intelligent Data Distribution) IDD thuật toán cải tiến từ DD [Han1997]: phân chia tổ hợp xử lý chéo dựa phần tử tổ hợp Điều có nghĩa tổ hợp có phần tử phân chia vào phân vùng Bởi xử lý cần kiểm tra tập có phần tử tương ứng với chúng Điều làm giảm thiểu dư thừa tính tốn DD: thay xử lý cần phải kiểm tra tất tập giao tác cần tiến hành kiểm tra Để phân tán tổ hợp cân bằng, thuật toán sử dụng kỹ thuật nén nhị phân (bin-packing technique) nhằm phân phối tổ hợp Đầu tiên, IDD tính số tổ hợp bắt đầu phần tử đặc biệt, sau sử dụng thuật tốn nén nhị phân để định phần tử cho vùng tổ hợp cho số lượng tổ hợp Thuật tốn sử dụng kiến trúc vịng để làm giảm tràn giao tiếp, tức dùng giao tiếp điểm-điểm không đồng phần tử cạnh vòng thay cho việc loan truyền phần tử  HPA (Hash-based Parallel mining of Association rules) HPA sử dụng kỹ thuật băm để phân phối tổ hợp vào xử lý khác [Shintani1996], nghĩa xử lý sử dụng hàm băm (hash function) để tính tốn tổ hợp phân bố Trong q trình thống kê, thuật toán di chuyển tập phần tử giao tác (thay cho việc phải dịch chuyển phân vùng liệu) đến xử lý đích chúng kỹ thuật băm Vì vậy, thay Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 25/40 phải đến n xử lý, tập mục liệu giao tác đến xử lý mà HPA cải tiến cách dùng kỹ thuật skew handling [Shintani1996] Đây kỹ thuật lại vài tổ hợp có đủ nhớ xử lý, tải trọng làm việc xử lý cân  PAR (Parallel Association Rules) PAR (Zaki1997] gồm có tập thuật tốn sử dụng việc phân chia thống kê tổ hợp khác Tất giả sử CSDL phân chia dọc (liệt kê tid cho phần tử biến nhận dạng) tương phản với phân chia ngang tự nhiên (liệt kê giao tác) Bằng cách tổ chức chia dọc CSDL, việc thống kê tập phần tử đơn giản tìm giao liệt kê tid tập phần tử Tuy nhiên địi hỏi phải có biến đổi CSDL sang phân tách dọc CSDL nguyên thủy phân tách ngang CSDL lại cách chọn lọc nhằm giảm bớt tính đồng Hai thuật toán dạng (Par-Eclat Par-MaxEclat) sử dụng lớp tương đương dựa phần tử đâu tiên tổ hợp hai thuật toán khác (Par-Clique ParMaxClique, nằm lớp thuật toán PAR) lại dùng siêu đồ thị cực đại (maximum hypergraph) để phân phối tổ hợp 3.3 Lớp thuật toán khác Một số thuật tốn song song khác khơng thể xếp vào hai mơ hình trên, có ý tưởng chúng lại có đặc tính khác biệt Ta xem xét qua thuật toán sau  Candidate Distribution Thuật toán Candidate Distribution (tạm dịch phân phối tổ hợp) [Agrawal1996] cố gắng làm giảm đồng tràn giao tiếp hai thuật toán CD DD Tại lần duyệt l, chia tập phổ biến Ll-1 xử lý theo cách mà xử lý phát sinh tập tổ hợp độc lập với xử lý khác Tại thời điểm, CSDL phân chia lại xử lý thống kê tổ hợp phát sinh độc lập Tùy thuộc vào đặc tính phân chia tổ hợp mà phần CSDL tái tạo lại số xử lý Sự phân chia tập phần tử tiếp tục cách nhóm lại dựa tiền tố Sau phân chia tổ hợp, xử lý cách độc lập thống kê tổ hợp thuộc phần chia cách dùng phân vùng CSDL cục Khơng có giao tiếp (thống kê liệu) yêu cầu Ngay trước phân chia tổ hợp dùng thuật tốn phân chia số đếm thuật toán phân chia liệu thuật toán phân chia tổ hợp, nên thuật tốn kiểu lai hai mơ hình  SH Trong SH [Harada1998], tổ hợp không phát sinh từ tập phổ biến trước đó, điều dường khác với thuật toán Apriori Thay tổ hợp tạo độc lập xử lý suốt trình duyệt phân vùng CSDL, bước lặp k, xử lý phát sinh thống kê tập k phần tử từ giao tác có phân vùng liệu chúng Chỉ tập k phần tử tập Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 26/40 (k-1) phần tử mà phổ biến toàn cục phát sinh Tại điểm cuối bước lặp, xử lý trao đổi tập k phần tử local count chúng, nhận global count tất tập k phần tử.Tập k phần tử phổ biến xác định ảnh (bitmap) tập phổ biến lập xử lý Trong trường hợp việc thống kê không thực cân bằng, giao tác chuyển từ xử lý tải sang xử lý khác rảnh Trường hợp không đủ nhớ, tập k phần tử lưu trữ đợi đĩa, tổ hợp k phần tử phát sinh thống kê hết phân vùng CSDL Tại thời điểm cuối bước lặp, local count tập k phần tử kết hợp trao đổi với xử lý khác để nhận global count SH dựa thuật tốn khác với Apriori lại tương đồng với thuật tốn Đầu tiên, lặp lại Apriori, nghĩa điểm cuối bước lặp gia tăng tổ hợp (có kích thước mới) phát sinh Điểm khác so với Apriori SH tạo tổ hợp trình lặp Apriori tạo điểm cuối bước lặp Điểm thứ hai tổ hợp phát sinh SH xác Apriori CSDL phân tán đều, CSDL vô lệch việc phát sinh tổ hợp dẫn đến khác biệt Ví dụ, A B không xuất (A B phổ biến) phần chia liệu i, nghĩa thống kê 0, SH không phát sinh AB tổ hợp bước thứ hai xử lý i Nhưng AB xuất lần, AB phát sinh tổ hợp thuật toán SH Vì ta xếp SH vào mơ hình thuật tốn Data Parallelism với việc kiểm sốt lệch khơng đủ nhớ  HD (Hybrid Distribution) HD đề xuất [Han1997] kết hợp hai mơ hình Thuật tốn giả sử có p xử lý xếp mảng chiều có r hàng p/r cột CSDL phân bổ tương tự cho p xử lý Tập tổ hợp Ck phân chia lên cột mảng (nghĩa p/n phần chia với cột có phần chia tập tổ hợp) phần chia tập tổ hợp cột lại tất xử lý theo hàng cột Bây thuật toán phân bổ liệu áp dụng độc lập cột mảng global count tập Ck nhận thao tác giảm theo hàng mảng mô hình Data Parallelism Kiến trúc lưới xem mơ hình tổng qt hai mơ hình trên: số cột mơ hình Task Parallelism; số hàng một: mơ hình Data Parallelism Theo HD, tràn giao tiếp di chuyển CSDL giảm xuống, phân vùng CSDL cần di chuyển theo cột thay tồn bảng Thuật tốn HD tự động chuyển thành CD lần duyệt nhằm làm giảm thiểu tràn giao tiếp KẾT LUẬN: Cả hai mơ hình Data Task có mặt mạnh yếu riêng Mơ hình Data Parallelism đơn giản việc giao tiếp bị tràn giao tiếp Nó cần trao đổi local count tất tổ hợp vòng lặp Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Cơng nghệ tri thức Tramg 27/40 Thuật tốn CD cải tiến kỹ thuật băm (PDM), kỹ thuật tách tổ hợp (DMA) thống kê ngắn mạch (CCPD) Tuy nhiên mơ hình Data Parallelism yêu cầu tổ hợp phải nạp vừa đủ nhớ xử lý Nếu vài vịng lặp đó, số tổ hợp cần nạp lớn so với nhớ, thuật tốn dựa mơ hình khơng làm việc (ngoại trừ SH) hiệu suất chúng giảm xuống Riêng SH cố gắng giải tượng cách chuyển tổ hợp xuống đĩa Một vấn đề xáy thêm SH có nhiều tổ hợp cần phải ghi lên đĩa, tổng số local count trình dẫn đến cần nhiều thao tác I/O Thêm nữa, SH xảy trường hợp tràn tính toán phát sinh tổ hợp thực trực tuyến Ví thuật tốn cần kiểm tra tập (k-1) tập k phần tử giao tác phổ biến hay không cách tìm kiếm ảnh tập phần tử phổ biến (k-1); Apriori cần kiểm tra tập phần tử kết nối hai tập Lk+1 Mơ hình Task Parallelism ban đầu đề xuất nhằm tăng khả sử dụng nhớ máy tính song song Nó phân chia phân tán tổ hợp xử lý vòng lặp dùng nhớ xử lý khơng xảy trường hợp thiếu nhớ với số lượng xử lý ngày tăng Bởi lớp thuật toán dùng để tìm luật kết hợp với ngưỡng minsupp thấp Tuy nhiên, Task Parallelism yêu cầu di chuyển phân vùng liệu để trao đổi Thông thường, CSDL dùng tìm luật lớn, việc di chuyển liệu làm xảy lỗi tràn giao tiếp khủng khiếp Như lớp thuật toán gặp vấn đề CSDL lớn Trong thuật tốn mơ hình này, độ phức tạp di chuyển liệu O(p2) với p số lượng xử lý Thuật toán IDD dùng kiến trúc vòng giao tiếp diễn đồng thời phầhn tử kề độ phức tạp O(p) HPA dùng kỹ thuật băm để di chuyển trực tiếp phân vùng liệu, di chuyển giao tác (chính xác tập giao tác) đến xử lý đích thích hợp Tương tự tổ hợp phân bổ hàm băm, tập giao tác lưu trữ hàm băm, độ phức tạp O(p) Những nghiên cứu [Agrawal1996], [Park1995a], [Cheung1996], [Cheung1998], [Zaki1996] [Han1997] [Shintani1996] hiệu suất hai mơ hình chúng tỷ lệ tuyến tính theo kích thước CSDL số lượng xử lý Mơ hình Task Parallelism khơng đạt quy mơ tốt mơ hình Data đạt hiệu với ngưỡng minsupp thấp Điều quản lý với mơ hình Data Parallelism có thấp Một hướng đầy triển vọng cho tương lai việc kết hợp hai mơ hình Phân tán lai (HD) [Han1997] scalable mơ hình Task Parallelism làm giảm bớt tượng thiếu nhớ Tất thuật tốn song song để tìm luật kết hợp dựa thuật tốn Apriori Khi Apriori cải tiến nhiều thuật toán khác, đặc biệt giảm số lượng CSDL cần duyệt, thuật toán song song cải tiến trông chờ đem lại thành tốt đẹp So sánh thuật tốn Các tiêu chí so sánh: Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 28/40  Không gian: đánh giá số lượng tối đa tổ hợp thống kê suốt trình duyệt CSDL  Thời gian: thống kê số lượng tối đa lần duyệt CSDL (ước lượng I/O) số lượng tối đa phép toán so sánh (ước lượng CPU) Do hầu hết CSDL giao tác lưu trữ đĩa thứ yếu và việc tràn thao tác I/O quan trọng tràn CPU nên trọng tâm số lần duyệt CSDL đầu vào Trường hợp xấu xảy giao tác CSDL có tất phần tử Gọi m số phần tử giao tác, Lk tập phổ biến gồm có k phần tử CSDL D số tập phổ biến tối đa 2m Trong các kỹ thuật level-wise (như AIS, SETM, Apriori), tập phổ biến L1 nhận trình duyệt CSDL lần Tương tự, tập phổ biến L2 nhận dạng lần duyệt thứ hai, tiếp tục Mọi thuật toán dừng khơng có thêm phần tử thuộc tập phổ biến phát sinh CSDL đầu vào cần duyệt nhiều (m+1) lần C Apriori-TID duyệt CSDL lần duyệt đầu tiên, sau dùng k thay cho CSDL bước thứ (k+1) Tuy nhiên điều khơng giúp ích trường hợp xấu C Nguyên nhân k chứa giao tác với phần tử chúng suốt trình xử lý đầu vào OCD duyệt CSDL đầu vào lần thời điểm bắt đầu thuật toán để xác định tập phổ biến L1 Sau này, OCD Sampling dùng phần CSDL đầu vào thông tin nhận lần duyệt dùng để tìm tổ hợp tập phần tử Lk với ≤ k ≤ m Trong lần duyệt thứ hai, thuật tốn tính support cho tổ hợp phần tử Bởi có hai lần duyệt trường hợp xấu Kỹ thuật PARTITION làm giảm bớt tràn I/O cách giảm số lượng CSDL cần duyệt xuống CARMA tương tự Sự tinh túy thuật toán dựa tính xác số lượng tổ hợp “đúng” mà phát Như đề cập trên, thuật toán sử dụng tập phổ biến (hoặc nhiều) lần duyệt trước nhằm phát sinh tập tổ hợp Các tập tổ hợp đưa vào nhớ để xác định tập tổ hợp phần tử tập lần nạp vào nhớ để nhận support chúng Khi không đủ nhớ, thuật toán đề xuất phương pháp quản lý đệm cấu trúc lưu trữ khác C AIS đề nghị Lk-1 giữ đĩa, cần thiết Theo SETM, k lớn để nạp vào nhớ ghi xuống đĩa với chế quản lý FIFO Lớp thuật toán Apriori khuyến cáo giữ Lk-1 đĩa mang lên nhớ khối thời C điểm nhằm tìm Ck Tuy nhiên, k phải nằm nhớ để xác định support hai thuật toán Apriori-TID Apriori-Hybrid Tuy vậy, kỹ thuật khác giả sử có đủ lượng nhớ để quản lý vấn đề dạng Tất kỹ thuật khác (như PARTITION, Sampling, DIC CARMA) cân nhắc phần thích hợp liệu để nạp vừa đủ nhớ Lớp thuật tốn Apriori đề xuất cấu trúc liệu băm mảng cho tập phổ biến nhiên AIS SETM lại Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 29/40 không đưa hướng giải cụ thể Cấu trúc liệu đề nghị cho thuật tốn cụ thể trình bày bảng Về phương diện thương mại, kỹ thuật Apriori tin dùng để khai phá luật kết hợp Một số thuật toán phù hợp đạt điều kiện cụ thể AIS không đạt hiệu tốt khi số lượng phần tử CSDL lớn phù hợp với CSDL giao tác có số phần tử tổ hợp nhỏ Apriori tốn thời gian thực so với Apriori-TID lần duyệt đầu, Apriori-TID lại làm tốt Apriori lần duyệt sau Vì thuật tốn Apriori-Hybrid lựa chọn tốt chuyển qua Apriori-TID từ thuật tốn Apriori Tuy nhiên, cần xác định trả chuyển từ Apriori sang Apriori-TID Mặc dù OCD sử dụng kỹ thuật gần hiệu để tìm tập phổ biến với ngưỡng support thấp CARMA hướng kỹ thuật tương tác người dùng trực tuyến có hồi đáp thích hợp chuỗi giao tác nhận từ mạng máy tính Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 30/40 Bảng 4: So sánh thuật toán trình bày Thuật tốn Duyệt Cấu trúc liệu Chú thích AIS m+1 khơng xác định Thích hợp cho CSDL có số yếu tố tổ hợp thấp; Vế thứ hai đơn thuộc tính SETM m+1 khơng xác định tương thích với SQL Apriori m+1 Lk-1: bảng băm CSDL giao tác có số yếu tố tổ hợp vừa phải; Ck: băm Thực tốt AIS SETM; Thuật toán cho thuật toán song song AprioriTID m+1 Lk-1: bảng băm Ck: mảng xếp theo TID C Rất chậm với số lượng lớn k C k :cấu trúc ID: bitmap AprioriHybrid m+1 Lk-1: bảng băm Pha thứ nhất: C Thực tốt Apriori với số lượng k nhỏ Tốt Apriori Tuy nhiên, tốn để chuyển từ Apriori sang Apriori-TID Ck: băm Pha thứ hai: Ck: mảng theo TID C k : cấu trúc ID: bitmap OCD khơng xác định Thích hợp CSDL lớn với ngưỡng support thấp Partition Bảng băm Thích hợp cho CSDL lớn với số yếu tố tổ hợp lớn Đồng liệu phân tán Sampling DIC Tuỳ thuộc vào kích thước interva khơng xác định Được áp dụng cho CSDL lớn với support thấp Cây tiền tố (prefix-tree) CSDL xem interval giao tác; Sự tăng trưởng tổ hợp phát sinh điểm cuối interval Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 31/40 l CARMA Bảng băm Có thể dùng giao tác đọc từ Network; Trực truyến, người dùng nhận thông tin phản hồi liên tục thay đổi support và/hoặc confidence thời điểm suốt trình xử lý CD m+1 bảng băm Data Parallelism PDM m+1 bảng băm Data Parallelism với việc tách sớm tổ hợp DMA m+1 bảng băm Data Parallelism với việc tách tổ hợp CCPD m+1 bảng băm Data Parallelism; nhớ dùng chung DD m+1 bảng băm Task Parallelism; phân chia vòng robin IDD m+1 bảng băm Task Parallelism; phân chia theo phần tử HPA m+1 bảng băm Task Parallelism; phân chia hàm băm SH m+1 bảng băm Data Parallelism; tổ hợp phát sinh độc lập xử lý HD m+1 bảng băm Lai Data Task Parallelism; kiến trúc lưới song song Bảng tổng hợp cung cấp so sánh ngắn gọn thuật tốn trình bày khóa luận Ngoại trừ thuật tốn Apriori sử dụng chương trình demo nên trình bày chi tiết, hầu hết thuật tốn khác nêu tóm tắt kỹ thuật TỞNG KẾT Bài tốn tìm luật kết hợp lớp tốn khó có độ phức tạp cao Việc nhận xét đánh giá hiệu thuật tốn cần phải có thời gian thực nghiệm cụ thể Trong phần kết luận này, chúng em chưa tổng kết lại tồn nội dung khóa luận giới thiệu hướng phát triển chi tiết cho thuật tốn mà mang tính chất liệt kê phần trình bày [1] Tổng quan Data Mining Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 32/40 Phần trình bày ngắn gọn lý thuyết khai mỏ liệu nhằm tạo mục đích xác định hướng cho phần [2] Các thuật tốn tìm luật kết hợp Tìm hiểu thuật tốn tìm luật kết hợp, ưu điểm hạn chế chúng Các thuật tốn trình bày hầu hết lớp thuật tốn tìm kiếm theo chiều rộng BFS (Breadth First Search – thuật giải theo nguyên lý Apriori) so sánh chúng dựa số tiêu chí định Các thuật tốn trình bày ngắn gọn, chủ yếu giải thích nguyên lý hoạt động Trong tương lai, hướng mở rộng khoá luận cài đặt tất thuật toán nhằm đưa so sánh xác hiệu nhóm thuật tốn Trần Thanh Liêm – Nguyễn Trọng Ngun – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Tramg 33/40 B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐỐN, PHỊNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM” I Xây dựng sở trí thức cho bài toán Trong bài tập lớn sử dụng sở tri thức chủ yếu thơng qua việc phân tích tài liệu: “Những đường chẩn đoán y học lâm sàng” “Hướng dẫn xử trí lồng ghép bệnh thường gặp trẻ em” Dựa vào phác đồ bệnh, ta xây dựng luật có dạng: Luật i: Nếu < triệu chứng1, triệu chứng2 thỏa> Thì n ( i= ) Dưới nhóm luật bệnh liên quan đến bệnh Sốt trẻ em (ứng với phác đồ bệnh liên quan đến bệnh sốt trẻ em Hình 4) Luật 1: Nếu ban sởi Trẻ bị bệnh sởi Nếu khó thở , tiếng ran, không ỉa chảy Trẻ bị viêm phổi Nếu thóp phịng Trẻ bị viêm màng não Nếu cứng gáy trẻ lớn Thì Trẻ bị viêm màng não Nếu apxe, cổ, nóng đau Thì Luật 7: Trẻ bị sởi kèm viêm phổi Thì Luật 6: ban sởi tiếng ran Thì Luật 5: Nếu Thì Luật 4: Trẻ bị sởi kèm viêm phổi Thì Luật 3: ban sởi khó thở Thì Luật 2: Nếu Trẻ bị nhiễm khuẩn Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT Tiểu luận Công nghệ tri thức Luật 8: Tramg 34/40 apxe, cổ Thì Luật 9: Nếu Trẻ bị nghi lao Nếu apxe Thì Luật 10: Nếu Thì Luật 11: Trẻ bị nhiễm khuẩn mủ amyđan Trẻ bị viêm Amyđan cấp Nếu tai xuất tiết, đau Thì Trẻ bị viêm tai Luật 12:Nếu đái buốt, đau thắt lưng Thì Nếu phù mặt Thì Luật 13: Trẻ bị viêm mủ thận cấp Trẻ bị viêm thận cấp Ban sởi Tiếng ran khó thở, khơng ỉa chảy Thóp phồng cứng gáy trẻ lớn Áp xe Ban sởi Viêm phổi Sởi kèm viêm phổi Khó thở tiếng ran Viêm màng não Nhiễm khuẩn Nghi lao Nhiễm khuẩn Nóng đau Ở cổ Mủ Amydan Viêm amydan cấp Trần Thanh Liêm – Nguyễn Trọng Nguyên – Nguyễn Minh Quỳnh _ K26.KMT ... KẾT B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐỐN, PHỊNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRI? ??U CHỨNG LÂM SÀNG Ở TRẺ EM” I Xây dựng sở tri? ? thức cho bài... 33/40 B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐỐN, PHỊNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRI? ??U CHỨNG LÂM SÀNG Ở TRẺ EM” I Xây dựng sở tri? ? thức cho bài... dạng: Luật i: Nếu < tri? ??u chứng1 , tri? ??u chứng2 thỏa> Thì n ( i= ) Dưới nhóm luật bệnh liên quan đến bệnh Sốt trẻ em (ứng với phác đồ bệnh liên quan đến bệnh sốt trẻ em Hình 4) Luật

Ngày đăng: 13/03/2014, 11:06

Hình ảnh liên quan

Bảng 1: cơ sở dữ liệu cho ví dụ 1 Transaction ID Mục dữ liệu - Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"

Bảng 1.

cơ sở dữ liệu cho ví dụ 1 Transaction ID Mục dữ liệu Xem tại trang 9 của tài liệu.
Bảng 4: So sánh các thuật tốn đã trình bày - Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"

Bảng 4.

So sánh các thuật tốn đã trình bày Xem tại trang 30 của tài liệu.
- Giao diện chưa được thân thiện đối với người sử dụng cần phải đưa thêm hình ảnh và âm thanh để minh hoạ - Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"

iao.

diện chưa được thân thiện đối với người sử dụng cần phải đưa thêm hình ảnh và âm thanh để minh hoạ Xem tại trang 39 của tài liệu.
IV. KẾT QUẢ DEMO - Bao cao cong nghe tri thuc (có chương trình) - XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN, PHÒNG NGỪA, CHỮA TRỊ MỘT SỐ BỆNH THƯỜNG GẶP TỪ CÁC TRIỆU CHỨNG LÂM SÀNG Ở TRẺ EM"
IV. KẾT QUẢ DEMO Xem tại trang 39 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan