Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú

72 752 3
Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI XUÂN TRỌNG MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, NĂM 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI XUÂN TRỌNG MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ VŨ THỊ HỒNG NHẠN HÀ NỘI, NĂM 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn công trình nghiên cứu tôi, hướng dẫn Tiến sĩ Vũ Thị Hồng Nhạn Luận văn không chép từ hay từ luận văn khác Nếu sai xin hoàn toàn chịu trách nhiệm trước nhà trường pháp luật BÙI XUÂN TRỌNG LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Vũ Thị Hồng Nhạn, cô hướng dẫn, dạy tận tình để hoàn thành luận văn Tôi xin chân thành cảm ơn thầy, cô giáo khoa Công nghệ thông tin Trường Đại học công nghệ - Đại học Quốc gia Hà nội truyền thụ kiến thức cho suốt trình học tập Tôi muốn bày tỏ lòng biết ơn tới gia đình, người thân đồng nghiệp động viên, khích lệ, giúp đỡ, tạo điều kiện để hoàn thành khóa học luận văn TÓM TẮT Bệnh tim mạch nguyên nhân gây tử vong cao Với phát triển Công nghệ, người ta sử dụng thiết bị không dây, thiết bị cảm ứng tích hợp người để thu thập liên tục liệu tình trạng sức khỏe bệnh nhân nội trú ngoại trú Trong luận văn này, nghiên cứu cách tiếp cận khai phá liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú Quá trình chẩn đoán thực qua hai bước Trong bước thứ nhất, bệnh nhân chẩn đoán nguy mắc bệnh dựa vào luật kết hợp Luật kết hợp tìm dựa vào liệu lâm sàng Dữ liệu lâm sàng bệnh nhân tiền xử lý sau khai phá để tìm luật kết hợp dựa thuật toán Apriori Sau bước này, dựa kết chẩn đoán, bác sĩ định bệnh nhân có nguy bị bệnh tim mạch cao tiếp tục chẩn đoán thêm bước sau Ở bước chẩn đoán thứ hai áp dụng thuật toán GNG tập liệu thay đổi nhịp tim Dữ liệu điện tâm đồ biểu diễn thay đổi nhịp tim bệnh nhân thu hoạt động ngày Tín hiệu điện tâm đồ tiền xử lý dựa kỹ thuật Poincaré để chuyển sang định dạng véc tơ đầu vào Thuật toán GNG áp dụng để khai phá liệu tiền xử lý Thuật toán đáp ứng yêu cầu việc học liên tục GNG có khả huấn luyện với liệu không quên mẫu huấn luyện từ trước Một số thực nghiệm thực để đánh giá độ xác phương pháp chẩn đoán Từ kết thu được, ta thấy rằng, phương pháp áp dụng hệ hệ thống y tế để hỗ trợ việc chẩn đoán sớm trường hợp tim mạch bất bình thường, phòng tránh hậu nghiêm trọng, đặc biệt theo dõi bệnh nhân ngoại trú ứng cứu kịp thời trường hợp cần thiết Mục lục Mục lục iii Danh sách hình vẽ v Danh sách bảng vii Giới thiệu 1.1 Động nghiên cứu 1.2 Đóng góp luận văn Cơ sở lý thuyết 2.1 Giới thiệu bệnh tim mạch 2.2 Các hệ thống chuẩn đoán bệnh Tim 2.2.1 Các Hệ thống chẩn đoán dựa vào số nguy mắc bệnh tim 2.2.2 Hệ thống hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ thuật khai phá liệu 2.3 Một số thuật toán khai phá liệu 10 2.3.1 K-means 10 2.3.2 Cây định 12 2.3.3 Thuật toán Mạng Perceptron nhiều lớp 14 2.3.4 2.3.3.1 Mạng Perceptron lớp 14 2.3.3.2 Mạng Perceptron lan truyền thẳng nhiều lớp 16 SOM 19 Quá trình chẩn đoán bệnh tim dựa kỹ thuật khai phá liệu 24 3.1 Tổng quan trình chẩn đoán 24 3.2 Chẩn đoán bệnh Tim mạch dựa thông tin lâm sàng 25 3.2.1 Tiền xử lý Dữ liệu 26 iii 3.3 3.2.2 Các khái niệm định nghĩa 26 3.2.3 Thuật toán Apriori 30 Chẩn đoán bệnh tim dựa vào thay đổi nhịp tim 31 3.3.1 Tiền xử lý liệu 32 3.3.2 Thuật toán GNG 35 3.3.2.1 Nguyên lý mô hình mạng 35 3.3.2.2 Thuật toán GNG 36 Thực nghiệm Đánh giá 4.1 44 Môi trường thực nghiệm liệu 44 4.1.1 Môi trường thực nghiệm cho bước chẩn đoán dựa vào thông tin lâm sàng 44 4.1.2 Môi trường thực nghiệm cho bước chẩn đoán dựa vào thay đổi nhịp tim 45 4.2 Kết thực nghiệm 49 4.2.1 Kết đánh giá hiệu thuật toán Apriori 49 4.2.1.1 Đánh giá thay đổi số lượng tập mục phổ biến theo thay đổi độ hỗ trợ minsup 49 4.2.1.2 Đánh giá số lượng luật sinh theo thay đổi độ hỗ trợ minsup 50 4.2.1.3 Đánh giá số lượng luật tạo độ tin cậy minconf thay đổi 51 4.2.2 Kết đánh giá hiệu thuật toán GNG 53 4.2.2.1 Đánh giá lỗi phân lớp tập liệu D(O) 53 4.2.2.2 Đánh giá số lượng nút cạnh thuật toán GNG tập liệu D(O) 54 4.2.2.3 Đánh giá lỗi bình phương trung bình MSE D(O) 55 4.2.2.4 So sánh GNG với SOM 56 Kết luận 58 Tài liệu tham khảo 60 iv Danh sách hình vẽ 2.1 Bệnh Tim mạch vành 2.2 Đặc điểm hệ thống ước tính nguy bệnh Tim mạch 2.3 Cụm liệu khai phá K-mean 11 2.4 Bảng liệu 12 2.5 Cây định 12 2.6 Mạng Perceptron lớp 15 2.7 Lan truyền tín hiệu trình huấn luyện theo phương pháp lan truyền ngược sai số 18 2.8 Mô hình SOM 19 2.9 Ma trận trọng số 20 2.10 Các lân cận 20 2.11 Nút khớp 22 2.12 Hàm lân cận 23 3.1 Tổng quan hệ thống trình chẩn đoán bệnh tim 25 3.2 Chẩn đoán bệnh tim dựa vào thông tin lâm sàng bệnh nhân 26 3.3 Kỹ thuật Poincaré 34 3.4 Đồ thị RR 34 4.1 Tập liệu đầu vào thuật toán Apriori 45 4.2 Sự thay đổi itemset theo minsup 50 4.3 Số lượng luật theo minsup 51 4.4 Số lượng luật theo minconf 52 4.5 Tập luật sinh với minsup=0.1 minconf=0.97 52 4.6 Giá trị lỗi phân lớp GNG tập liệu D(O) 53 4.7 Số nút cạnh GNG tập liệu với O=0% 54 4.8 Số nút cạnh GNG tập liệu với O=1% 55 v 4.9 Số nút cạnh GNG tập liệu với O=2% 55 4.10 MSE Mức độ giao lớp 56 4.11 GNG SOM tập liệu D(0%) 56 4.12 GNG SOM tập liệu D(1%) 57 4.13 GNG SOM tập liệu D(2%) 57 vi Danh sách bảng 3.1 Bảng thuộc tính mẫu liệu cho bệnh tim 27 3.2 Quy tắc chuyển đổi liệu 43 4.1 Tổng hợp tham số sử dụng để sinh tín hiệu điện tâm đồ 46 4.2 Tham số sử dụng để sinh tập liệu (BT-Bình thường, BBT- Bất bình thường) 47 4.3 Tổng hợp tham số sử dụng GNG 48 4.4 Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ 50 4.5 Sự thay đổi số lượng luật sinh theo độ hỗ trợ 51 4.6 Sự thay đổi số lượng luật sinh theo độ tin 51 vii ta thấy huấn luyện môi trường có ưu điểm nhiều môi trường, huấn luyện nhiều môi trường dễ xảy tình trạng giao vùng định Từ Bảng 4.2, lớp giao trường hợp sau: • Đối tượng ngủ, nhịp tim tự tăng đối tượng bị nguy hiểm, nhầm lẫn đối tượng bình thường làm việc • Đối tượng làm việc, nhịp tim tăng cao bình thường Nhưng bị nhầm lẫn đối tượng tốt tập thể dục Ký hiệu Ý nghĩa D(O) Tập huấn luyện với mức giao vùng định O Khoảng thời gian kỹ thuật Poincaré Tốc độ huấn luyện nút khớp Tốc độ huấn luyện nút lân cận nút khớp Tốc độ huấn luyện không gian đầu Tham số để cập nhật giá trị lỗi nút khác nút khớp Tham số để cập nhật lỗi nút khớp Tham số sử dụng để xem xét việc chèn nút Giá trị tuổi (Age) lớn ∆t lb lc lo β γ λ amax Giá trị mặc định 50ms 0.1 0.001 0.1 0.995 0.8 30 50 Bảng 4.3: Tổng hợp tham số sử dụng GNG Bảng 4.3 mô tả tham số với giá trị mặc định sử dụng thực nghiệm với thuật toán GNG Trong thực nghiệm, không giá trị tham số giá trị mặc định sử dụng Để đánh giá xác hiệu thuật toán, sử dụng giá trị lỗi phân lớp Giá trị lỗi phân lớp tính tỷ lệ số lượng mẫu mà phân lớp sai toàn mẫu tập kiểm tra Đánh giá tập kiểm tra mô tả giúp kiểm tra tính ổn định, mềm dẻo GNG hội tụ thuật toán tới ngưỡng chấp 48 nhận Gọi số lượng mẫu bị phân lớp sai m Gọi n số mẫu tập kiểm tra Giá trị lỗi = m n (4.1) Ngoài ra, chất lượng phân lớp đánh giá dựa giá trị lỗi bình phương trung bình M SE Mục đích MSE để xem lớp tách biệt sau huấn luyện M SE = n n (Oi − Ti )2 (4.2) i đó, Oi giá trị đầu dự đoán chương trình cho mẫu i n mẫu Ti giá trị đầu mong muốn i MSE dao động từ tới vô tận, tương ứng với trường hợp lý tưởng Dựa vào MSE ta biết lỗi thay đổi mô hình mạng thay đổi( trình huấn luyện) Kết thúc trình huấn luyện MSE đạt giá trị trường hợp lý tưởng khó xảy ra, huấn luyện MSE đạt xấp xỉ 0.01 trình huấn luyện dừng lại Khi ta coi mô hình mạng đạt hội tụ 4.2 Kết thực nghiệm 4.2.1 Kết đánh giá hiệu thuật toán Apriori Để đánh giá hiệu thuật toán Apriori khai phá luật kết hợp cho bệnh nhân tim mạch dựa vào thông tin lâm sàng, thực số đánh giá kiểm tra 4.2.1.1 Đánh giá thay đổi số lượng tập mục phổ biến theo thay đổi độ hỗ trợ minsup Trong thực nghiệm đánh giá thay đổi số lượng tập mục phổ biến sinh theo thay đổi độ hỗ trợ minsup, độ tin tưởng minconf = 0.9 Bảng 4.4 mô tả biến thiên số lượng tập mục phổ biến quan sát theo thay đổi độ hỗ trợ Từ kết quan sát bảng trên, thấy số lượng tập mục phổ biến giảm xuống mà độ hỗ trợ tăng lên Điều giúp giảm bớt tập mục 49 Độ hỗ trợ minsup 10 15 20 30 40 Số lượng tập mục phổ biến 1367 570 273 75 12 Bảng 4.4: Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ phổ biến không cần thiết tạo độ hỗ trợ cố định Khi số lượng tập mục phổ biến không nhiều giúp tiết kiệm thời gian chạy nhớ thuật toán Hình 4.2: Sự thay đổi itemset theo minsup 4.2.1.2 Đánh giá số lượng luật sinh theo thay đổi độ hỗ trợ minsup Trong thực nghiệm này, tiến hành đánh giá số lượng luật tạo theo thay đổi độ hỗ trợ minsup với giá trị độ tin cậy cố định minconf = 0.9 Bảng liệu 4.5 thu sau lần chạy thuật toán Apriori Weka cố định giá trị độ tin cậy cực tiểu thay đổi độ hỗ trợ cực tiểu Hình 4.3 mô tả thay đổi số lượng luật sinh Ta thấy số lượng luật sinh giảm dần độ hỗ trợ tăng Điều hiển nhiên độ hỗ trợ tăng số lượng tập mục phổ biến giảm, dẫn đến số lượng luật sinh giảm Với cách tính toán này, luật coi phổ biến tin cậy giữ lại, điều giúp tiết kiệm thời gian chạy nhớ lưu trữ luật tạo 50 Độ hỗ trợ minsup 10 15 20 25 30 35 Số lượng luật 318 114 35 21 Bảng 4.5: Sự thay đổi số lượng luật sinh theo độ hỗ trợ Hình 4.3: Số lượng luật theo minsup 4.2.1.3 Đánh giá số lượng luật tạo độ tin cậy minconf thay đổi Trong thực nghiệm này, lại đánh giá số lượng luật tạo theo thay đổi độ tin cậy Trong khi, độ hỗ trợ cố định minsup = 0.1 Từ kết quan sát được, ta có Bảng 4.6 mô tả thay đổi số lượng luật sinh Độ tin cậy 100 95 90 85 80 75 Số lượng luật 32 159 318 493 733 912 Bảng 4.6: Sự thay đổi số lượng luật sinh theo độ tin Hình 4.4, quan sát biến thiên số lượng luật theo độ tin cậy Số lượng luật tỉ lệ nghịch với giá trị độ tin cậy Khi độ tin cậy cao số 51 Hình 4.4: Số lượng luật theo minconf lượng luật giảm Thực nghiệm cho ta thấy luật tạo với độ tin cậy cao mức độ chẩn đoán bệnh xác Qua số thực nghiệm, thấy độ hỗ trợ cực tiểu minsup độ tin cậy cực tiểu minconf ảnh hưởng nhiều đến hiệu thuật toán Sự thay đổi hai giá trị dẫn đến thay đổi số lượng tập mục phổ biến, số lượng luật sinh độ xác thuật toán Theo kết thực nghiệm đánh giá trên, thấy giá trị độ hỗ trợ minsup = 0.2 độ tin cậy minconf = 0.95 hợp lý khai phá luật kết hợp dựa thuật toán Apriori với liệu thu Với giá trị độ hỗ trợ độ tin cậy trên, thu số luật Hình 4.5 Hình 4.5: Tập luật sinh với minsup=0.1 minconf=0.97 Từ tập luật kết hợp thu được, thấy trường hợp bệnh nhân có tuổi 52 từ 46 đến 55, bị đau ngực mức độ (cp=C2), tập thể dục không gây đau thắt ngực (exang=0) hay kết điện tâm đồ bình thường (restecg=R0) nguy mắc bệnh tim Những luật có độ tin cậy Các trường hợp luật số 10, bệnh nhân nam (sex=S1), có đau mức độ (cp =C4), điện tâm đồ bình thương (restecg = R0), tập thể dục gây đau thắt ngực (exang = E1) độ dốc đoạn sóng ST tập thể dục phẳn (slope = S2) bệnh nhân có nguy mắc bệnh tim mạch đến 97% Dựa tập luật kết hợp sinh ra, hệ thống cung cấp thông tin hữu ích cho bệnh nhân hỗ trợ bác sĩ việc định chẩn đoán Tuy nhiên, thấy kết chẩn đoán thấp trường hợp Điều việc thu thập liệu chưa đầy đủ Việc đánh giá xác khách quan với liệu lớn 4.2.2 Kết đánh giá hiệu thuật toán GNG 4.2.2.1 Đánh giá lỗi phân lớp tập liệu D(O) Trong thực nghiệm đầu tiên, xem xét giá trị lỗi phân lớp tập liệu D(O) mô tả Hình 4.6: Giá trị lỗi phân lớp GNG tập liệu D(O) Hình 4.6 mô tả giá trị lỗi thu từ mô hình mạng huấn luyện tập liệu D(O)với O = 0%, 1%, 2% Qua quan sát, thấy giá trị lỗi trường hợp giống bước (tại bước 4500) sau đó, giá trị lỗi giảm nhanh chóng tiến trình huấn luyện cho tất trường hợp Chất lượng 53 mô hình mạng trở nên tốt sau kết thúc huấn luyện môi trường thứ (bước 18000) Đặc biệt, trường hợp mức độ giao vùng định O = 0% mạng ổn định có mẫu lớp giao xuất Do đó, việc đưa thêm mẫu vào không ảnh hưởng đến độ xác ổn định mạng Trong trường hợp ta xem việc phân lớp hoàn hảo Chúng ta quan sát thấy rằng, có chung thay đổi giá trị lỗi chất lượng mô hình mạng tăng mức độ giao vùng định Trường hợp O = 1%, mạng trở nên ổn định kết thúc huấn luyện môi trường thứ (bước 27000) Trường hợp O = 2% trường hợp xấu số ba trường hợp kiểm tra Tuy nhiên, thấy chênh lệch hệ số lỗi ba trường hợp không đáng kể mức độ giao vùng định thấp 4.2.2.2 Đánh giá số lượng nút cạnh thuật toán GNG tập liệu D(O) Trong thực nghiệm thứ hai, đánh giá số lượng nút cạnh thuật toán GNG huấn luyện tập liệu với mức độ giao vùng định khác Hình 4.7: Số nút cạnh GNG tập liệu với O=0% Hình 4.7, 4.8, 4.9 biểu diễn số nút cạnh GNG, bước huấn luyện Ta thấy số lượng nút cạnh trường hợp tăng số bước huấn luyện tăng Trong môi trường, sau số bước huấn luyện số lượng nút hội tụ đến số Điều xảy việc chèn thêm nút không làm giảm giá trị lỗi thêm Ngoài ra, trình huấn luyện, thuật toán thực xóa nút hay cạnh Nên, thấy có dao động nhỏ số lượng nút, đặc biệt Hình 4.8 Ngoài ra, chúng 54 Hình 4.8: Số nút cạnh GNG tập liệu với O=1% Hình 4.9: Số nút cạnh GNG tập liệu với O=2% ta thấy số lượng nút cạnh thu mô hình mạng huấn luyện trường hợp giao vùng định có giao vùng định gần Tuy nhiên, trường hợp có giao vùng định có số lượng nút nhiều trường hợp lại theo chế thuật toán GNG nút chèn vào vị trí có giá trị lỗi cao Trong trường hợp có giao vùng định dẫn đến giá trị lỗi cao Việc chèn thực mãi vùng giao vùng định 4.2.2.3 Đánh giá lỗi bình phương trung bình MSE D(O) Thực nghiệm tiếp theo, xem xét giá trị lỗi bình phương trung bình M SE tập liệu D(O), với O có giá trị 0%, 2% Hình 4.10 mô tả giá trị lỗi bình phương trung bình thực tập liệu D(O), O = 0%, 2% với tốc độ huấn luyện nút khớp 0.1 Thực nghiệm giúp thấy lớp tách biệt sau huấn luyện Chúng ta thấy MSE giảm xuống hai tập huấn luyện từ bước đến bước 21000 Đặc biệt giá trị lỗi MSE xuống thấp thay đổi thừ bước 18000 đến 21000 Nếu giá trị MSE bước xấp xỉ 0.01 trình huấn luyện dừng lại Khi ta có 55 Hình 4.10: MSE Mức độ giao lớp thể coi mô hình mạng đạt hội tụ Tuy nhiên, bước 24000, mẫu đầu vào chứa lớp đưa vào mô hình huấn luyện dẫn đến việc chèn thêm nút làm tăng giá trị MSE 4.2.2.4 So sánh GNG với SOM Thực nghiệm cuối thực tập liệu D(O) với mức độ giao vùng định thay đổi từ 0% tới 2% để so sánh hiệu hai thuật toán GNG với SOM Hình 4.11: GNG SOM tập liệu D(0%) Hình 4.11, 4.12, 4.13 mô tả khác giá trị lỗi hai thuật toán GNG SOM thực hiên tập liệu có mức độ giao vùng định khác Giá trị lỗi hiển thị hình 4.11 thu từ việc thực tập liệu huấn luyện D(0%)Ta thấy GNG cho kết tốt Giá trị lỗi thuật toán GNG bước 18000 0%, giá trị lỗi SOM bước 18000 27% Hình 4.12 56 Hình 4.12: GNG SOM tập liệu D(1%) Hình 4.13: GNG SOM tập liệu D(2%) 4.13 cho thấy kết thực nghiệm thực tập D(1%) D(2%) Giá trị lỗi hai trường hợp có độ chênh lệch không nhiều Từ kết trên, thấy rõ ràng giao vùng định có ảnh hưởng không tốt tới hai thuật toán Tuy nhiên giá trị lỗi phân lớp SOM cao GNG cấu trúc liệu Điều xảy mô hình mạng SOM quên mẫu huấn luyện từ trước, dự đoán liệu cũ thay đổi tới môt trường 57 Chương Kết luận Bệnh tim mạch nguyên nhân tử vong hàng đầu người giới chiếm nhiều nước phát triển Mỗi năm, người chết bệnh tim đột quỵ nhiều ung thư, lao, sốt rét HIV cộng lại Với phát triển Công nghệ, người ta sử dụng thiết bị không dây, thiết bị cảm ứng tích hợp người để thu thập liên tục liệu tình trạng sức khỏe bệnh nhân nội trú ngoại trú nhằm cung cấp thông tin hữu ích giúp họ bảo vệ sức khỏe tốt Tuy nhiên, hầu hết nghiên cứu hệ thống áp dụng kỹ thuật khai phá liệu truyền thống xây dựng dựa tập liệu có sẵn bệnh nhân, không thực thời gian thực Trong luận văn nghiên cứu cách tiếp cận khai phá liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú Phương pháp chẩn đoán thực qua hai bước Trong bước đầu tiên, liệu lâm sàng bệnh nhân tuổi, giới tính, huyết áp, có bị tiểu đường hay không, lượng cholesterol máu, có hút thuốc hay không thu thập Trong bước chẩn đoán này, thuật toán Apriori áp dụng để khai phá luật kết hợp cho bệnh tim mạch Dựa tập luật kết hợp mà khai phá trình đầu tiên, bác sĩ định bệnh nhân có nguy mắc bệnh cao Những bệnh nhân chuyển qua bước chẩn đoán Ở bước thứ hai bệnh nhân chẩn đoán dựa tín hiệu điện tâm đồ mà biểu diễn thay đổi nhịp tim bệnh nhân họ thực hoạt động hàng ngày cách sử dụng mô hình mạng nơ-ron nhân tạo Đầu tiên, tín hiệu điện tâm đồ biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré Thuật toán GNG áp dụng để nhận biết mẫu thay đổi nhịp tim Đây thuật toán khai phá liệu liên tục học thêm tri thức trì tri thức cũ học Chúng cài đặt thực nghiệm để đánh giá hai bước trình chẩn đoán 58 nguy mắc bệnh tim mạch cho bệnh nhân ngoại trú Trong bước thứ trình chẩn đoán, thực số thực nghiệm đánh giá số lượng tập mục phổ biến sinh theo thay đổi độ hỗ trợ minsup, số lượng luật sinh theo thay đổi độ hỗ trợ độ tin cậy Từ đó, tìm giá trị minsup minconf tốt liệu thực nghiệm Để đánh giá độ xác hiệu bước thứ hai trình chẩn đoán, thực hiên thực nghiệm so sánh giá trị lỗi phân lớp mô hình mạng huấn luyện tập liệu có mức độ giao vùng định khác Chúng đánh giá số nút cạnh tạo trình huấn luyện Cuối cùng, thực thực nghiệm để phân tích giá trị lỗi bình phương trung bình MSE so sánh hai thuật toán GNG, SOM Hướng nghiên cứu luận văn: • Thực thêm thực nghiệm để đánh giá ảnh hưởng tham số độ xác thuật toán Đồng thời, cải thiện thuật toán để giải tình trạng nơ-ron chèn nhiều vào vùng giao lớp • Thực mô hình hóa liệu để hỗ trợ cho hệ thống chăm sóc sức khỏe triển khai hệ thống thiết bị di động thực 59 Tài liệu tham khảo [1] Anderson KM, Wilson PWF, Odell PM, Kannel WB An updated coronary risk profile A statement for health professionals Journal of the American Heart Association, Circulation 1991 , 356-361 24 [2] Azuaje F, W Dubitzky, X Wu, P Lopes, N.D Black, K Adamson, and J.A White A Neural Network Approach to Coronary Heart Disease Risk Assessment based on Short-Term Measurement of RR Intervals In:Processing of Computers in Cardiology, (1997) 33 [3] Chan HL, Fang SC, Ko YL, Lin MA, Huang HH, and Lin CH Heart rate variability characterization in daily physical activities using wavelet analysis and multilayer Fuzzy Activity Clustering IEEE Transactions on Biomedical Engineering (2006) [4] E.AbuKhousa and P.Campbell, Predictive data mining to support clinical decisions: An overview of heart disease prediction systems, presented at the International Conference on Innovations in Information Technology, 2012 [5] Fritzke B A growing neural gas network learns topologies.Advances in Neural Information Processing Systems 7, Cambridge, MA: MIT Press (1995) 36 [6] J Han and M Kamber (2001), Data Mining - Concepts and Techniques, Chapter 8: Cluster Analysis Morgan Kaufmann 19, 30 [7] J.A Hartigan, Sons Clustering algorithms(1975) 10 [8] Hiroyuki F, Takashi U, Koichi O Estimation of Breathing Frequency by R Wave Fluctuation of ECG Japanese Journal of Medical Electronics and Biological Engineering (1998) 45 [9] Ingo A, Jorg B, Gerald S On-line learning with dynamic cell structures Int Conf on Artificial Neural Networks, V ol.2, (1995) [10] Ishtake S.H, Prof Sanap S.A Intelligent Heart Disease Prediction System Using Data Mining Techniques, International J of Healthcare & Biomedical Research (2013) [11] Kamen PW, Krum H, Tonkin AM, Poincare plot of heart rate variability allows quantitative display of parasympathetic nervous activity in humans Clinical Science (1996) 60 [12] Karayiannis NB, Mi GW Growing radial basis neural networks: merging supervised and unsupervised learning with network growth techniques IEEE Transactions on Neural Networks (1997) [13] Kohonen T Self-Organizing Maps, 3rd ed Berlin: SpringerVerlag (2001) [14] Laerhoven KV, Lowette S Real-time analysis of data from many sensors with neural networks In Proceedings of the fourth International Symposium on Wearable Computers (2001) [15] Lee HG, Noh KY, Park HK, Ryu KH Predicting coronary artery disease from heart rate variability using classification and statistical analysis 7th IEEE International Conference on Computer and Information Technology, (2007) [16] Chin-Teng Lin, C.S.George Lee, Neural fuzzy systems: a neurofuzzy synergism to intelligent systems, Prentice-Hall Inc (1996) 14 [17] M.Ambarasi etc al.:, Enhanced Prediction of Heart Disease with Feature subset selection using Genetic Algorithm, IJESI, Vol 2(10) (2010) [18] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: Knowledge Discovery using Associative Classification for Heart Disease Prediction In: International symposium on Intelligent Informatics (ISI 2012) [19] MA.Jabbar, Priti Chandra, B.L.Deekshatulu :Cluster based association rule mining for heart attack prediction,JATIT,vol 32,no 2(Oct 2011) [20] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: An evolutionary algorithm for heart disease prediction, ICIP, CCIS 292 PP 378-389, Springer-Verlag (2012) [21] Martinetz TM Competitive hebbian learning rule forms perfectly topology preserving maps Int Conference on Artificial Neural Networks, Springer, (1993) 35 [22] Mayrhofer R, Radi H Extending the Growing Neural Gas Classifier for Context Recognition EUROCAST, (2007) [23] Mirkin B Clustering for data mining: A data recovery approach, Chapman & Hall/CRC,UK (2005) [24] Mozaffarian D, Stein PK, Prineas RJ, Siscovick DS Dietary fish and w − fatty acid consumption and heart rate variability in US adults Circulation, American heart association, 2008 [25] Nakagawa M, Iwao T, Ishida S, Yonemochi H, Fujino T, Saikawa T, Ito M Circadian rhythm of the signal averaged electrocardiogram and its relation to heart rate variability in healthy subjects 45 61 [26] P Raphiphan, A Zaslavsky, P Prathombutr, and P Meesad.Context aware traffic congestion estimation to compensate intermittently available mobile sensors In Mobile Data Management: Systems, Services and Middleware,2009 MDM ’09 Tenth International Conference on (2009) [27] D.E Rumelhart; G.E Hinton and R.J Williams Learning internal representations by error propagation Parallel distributed processing: Explorations in the microstructure of cognition, (Cambridge MA MIT Press), 318-362 (1986) 17 [28] S.Oyyathevan and A.Askarunisa, An expert system for heart disease prediction using data mining technique: Neural network, International Journal of Engineering Research and Sports Science, vol 1, pp 1-6, (2014) [29] Sellappan Palaniappan, Rafiah Awang Intelligent Heart Disease Prediction System Using Data Mining Techniques(2008) 10 [30] S.Ranganatha, H R P Raj, C Anusha, and S K Vinay, Medical data mining and analysis for heart disease dataset using classification techniques, presented at the National Conference on Challenges in Research & Technology in the Coming Decades, 2013 [31] S.P Syed Ibrahim et al.: An Evolutionary approach for rule set selection in a class based associative classifier Europian journal of scientific research (2011) [32] Juha Vesanto (2000),Using SOM in Data Mining, Licentiate’s thesis, Helsinki University of Technology 19 [33] www.cs.waikato.ac.nz/ml/weka/ 44 [34] www.archive.ics.uci.edu 44 [35] www.physionet.org/physiobank/ecgsyn/ 45 [36] www.vnha.org.vn/ 1, [37] www.wpro.who.int/vietnam/vi/ 62 [...]... cần một thuật toán khai phá dữ liệu liên tục mà có thể tích hợp liên tục các thông tin, dữ liệu mới vào bộ nhớ trong khi vẫn duy trì những dữ liệu đã được học từ trước Một số thuật toán khai phá dữ liệu liên tục được nghiên cứu nhiều như: SOM, GNG, 1.2 Đóng góp của luận văn Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim. .. khác, trong bước chẩn đoán này, thuật toán Apriori được áp dụng để khai phá luật kết hợp cho bệnh tim mạch Thuật toán Apriori được đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục, dạng số Vì vậy, tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ sở dữ liệu Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dữ liệu dạng số sang dữ liệu. .. cứu và hệ thống hỗ trợ chẩn đoán sớm nguy cơ mắc bệnh tim mạch đã được thực hiện Những hệ thống đó áp dụng nhiều kỹ thuật khai phá dữ liệu khác nhau và thu được các kết quả khác nhau Dưới đây là một số hệ thống và nghiên cứu trong khai phá dữ liệu để chẩn đoán bệnh tim mạch • Hệ thống dự đoán bệnh tim thông minh (IHDPS) được phát triển dựa trên các kỹ thuật khai phá dữ liệu như cây quyết định, mạng... chẩn đoán bệnh tim ở bước thứ nhất Đầu tiên, dữ liệu lâm sàng của bệnh nhân được thu thập Sau đó, dữ liệu được tiền xử lý cho phù hợp với định dạng đầu vào của thuật toán Apriori Ở bước này, thuật toán Apriori được áp 25 Hình 3.2: Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân dụng để khai phá luật kết hợp cho tập dữ liệu đã qua tiền xử lý Kết quả cuối cùng, ta có một tập luật kết hợp để. .. thay đổi nhịp tim của bệnh nhân trong các hoạt động hàng ngày và có tính thời gian thực Những dữ liệu này sẽ được tiền xử lý và khai phá để trích rút ra những thông tin hữu ích về tình trạng sức khỏe của bệnh nhân, cũng như hỗ trợ việc ra quyết định chẩn đoán cho bác sĩ Tuy nhiên, hầu hết các kỹ thuật khai phá dữ liệu truyền thống chủ yếu áp dụng cho các tập dữ liệu cố định, có sẵn và trong một môi trường... liệu Ngày nay, các bệnh viện đều lưu trữ và quản lý thông tin về tình hình sức khỏe của bệnh nhân trên các hệ thống thông tin Những hệ thống này chứa một lượng lớn dữ liệu, trong đó có rất nhiều thông tin hữu ích chưa được khai phá để hỗ trợ cho bác sĩ trong việc chuẩn đoán, cũng như dự đoán tình trạng của bệnh nhân Với sự phát triển của khoa học máy tính và các kỹ thuật khai phá dữ liệu, có nhiều nghiên... Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ sở dữ liệu Thuật toán Apriori được đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục dạng số Mỗi giá trị dữ liệu rời rạc được gọi là một item Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dữ liệu dạng số sang dữ liệu rời rạc biểu diễn bởi các items Bảng... thể sử dụng cấu trúc ma trận một cách thích hợp hoặc ngay cả cấu trúc đang phát triển Mục đích của các biến đổi này là thiết lập SOM theo hình trạng tốt hơn trong khuôn khổ của tập dữ liệu hoặc thực hiện kết quả lượng tử hóa tốt hơn 23 Chương 3 Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu 3.1 Tổng quan quá trình chẩn đoán Làm thế nào để chẩn đoán bệnh Tim? Thực tế cho thấy, khó có... được áp dụng để chẩn đoán dựa trên sự thay đổi nhịp tim khi bệnh nhân thực hiện các hoạt động hàng ngày 3.2 Chẩn đoán bệnh Tim mạch dựa trên các thông tin lâm sàng Trong phần này, chúng tôi sẽ trình bày chi tiết bước đầu tiên của quá trình chẩn đoán bệnh tim Bước chẩn đoán này dựa trên các thông tin lâm sàng của bệnh nhân và sử dụng thuật toán Apriori để khai phá luật kết hợp cho bệnh tim Hình 3.2... nhịp tim từ tín hiệu điện tâm đồ, tiền xử lý dữ liệu và các dữ liệu về bệnh tim năm 2006 2.3 Một số thuật toán khai phá dữ liệu 2.3.1 K-means Thuật toán phân cụm k-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967, mục đích của thuật toán k-means là sinh ra k cụm dữ liệu C1 , C2 , , Ck từ một tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi = (xi1 , xi2 , , xid )(i = 1 n) sao cho ... này, nghiên cứu cách tiếp cận khai phá liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú Quá trình chẩn đoán thực qua hai bước Trong bước thứ nhất, bệnh nhân chẩn đoán nguy mắc bệnh dựa vào luật... nghiên cứu phân tích cách tiếp cận khai phá liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú Phương pháp chẩn đoán thực qua hai bước Trong bước đầu tiên, liệu lâm sàng bệnh nhân tuổi, giới... QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI XUÂN TRỌNG MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống

Ngày đăng: 25/11/2015, 10:22

Từ khóa liên quan

Mục lục

  • Muc luc

  • Danh sách hình ve

  • Danh sách bang

  • 1 Gii thiu

    • 1.1 Ðng c nghiên cu

    • 1.2 Ðóng góp cua lun van

  • 2 C s lý thuyt

    • 2.1 Gii thiu v bnh tim mach

    • 2.2 Các h thng chun oán bnh Tim

      • 2.2.1 Các H thng chn oán da vào chi s nguy c mc bnh tim

      • 2.2.2 H thng h tr chun oán bnh Tim mach s dung ky thut khai phá d liu

    • 2.3 Mt s thut toán khai phá d liu

      • 2.3.1 K-means

      • 2.3.2 Cây quyt inh

      • 2.3.3 Thut toán Mang Perceptron nhiu lp

        • 2.3.3.1 Mang Perceptron mt lp

        • 2.3.3.2 Mang Perceptron lan truyn thng nhiu lp

      • 2.3.4 SOM

  • 3 Quá trình chn oán bnh tim da trên ky thut khai phá d liu

    • 3.1 Tng quan quá trình chn oán

    • 3.2 Chn oán bnh Tim mach da trên các thông tin lâm sàng

      • 3.2.1 Tin x lý D liu

      • 3.2.2 Các khái nim và inh nghıa

      • 3.2.3 Thut toán Apriori

    • 3.3 Chn oán bnh tim da vào s thay i nhip tim

      • 3.3.1 Tin x lý d liu

      • 3.3.2 Thut toán GNG

        • 3.3.2.1 Nguyên lý c ban và mô hình mang

        • 3.3.2.2 Thut toán GNG

  • 4 Thc nghim và Ðánh giá

    • 4.1 Môi trng thc nghim và d liu

      • 4.1.1 Môi trng thc nghim cho bc chn oán da vào các thông tin lâm sàng

      • 4.1.2 Môi trng thc nghim cho bc chn oán da vào s thay i nhip tim

    • 4.2 Kt qua thc nghim

      • 4.2.1 Kt qua và ánh giá hiu qua cua thut toán Apriori

        • 4.2.1.1 Ðánh giá s thay i s lng các tp muc ph bin theo s thay i cua h tr minsup

        • 4.2.1.2 Ðánh giá s lng các lut sinh ra theo s thay i cua h tr minsup

        • 4.2.1.3 Ðánh giá s lng các lut tao ra khi tin cy minconf thay i

      • 4.2.2 Kt qua và ánh giá hiu qua cua thut toán GNG

        • 4.2.2.1 Ðánh giá li phân lp trên tp d liu D(O)

        • 4.2.2.2 Ðánh giá s lng nút và canh cua thut toán GNG trên tp d liu D(O)

        • 4.2.2.3 Ðánh giá li bình phng trung bình MSE trên D(O)

        • 4.2.2.4 So sánh GNG vi SOM

  • 5 Kt lun

  • Tài liu tham khao

Tài liệu cùng người dùng

Tài liệu liên quan