Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

81 324 0
Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn chân thành tới Ban Giám hiệu nhà trường, Phòng sau đại học, thầy cô giáo khoa Công nghệ thông tin, trường đại học Lạc Hồng tạo điều kiện môi trường học tốt Các Giáo sư – Tiến sĩ tâm không ngại đường xá xa, đến để truyền đạt cho nguồn kiến thức vô quý báu, cách học tập nghiên cứu khoa học Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng – Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc bệnh viện Nhi Đồng – Đồng Nai tư vấn giúp đỡ cách chân thành trình thực nghiên cứu khoa học Đặc biệt, xin gửi lời cảm ơn chân thành tới Thầy giáo PGS TS Đặng Trần Khánh Thầy hướng dẫn định hướng, giúp hoàn thành tốt đề tài nghiên cứu khoa học Trong trình thực luận văn, nhận giúp đỡ chuyên gia bác sĩ bệnh viện Nhi Đồng – Đồng Nai, bạn bè ngành Công nghệ thông tin, đặc biệt nghiêm khắc giáo huấn thầy Đặng Trần Khánh Mặc dù cố gắng tránh khỏi thiếu sót lúc thực hiện, mong đón nhận đóng góp ý kiến từ bạn bè, thầy cô chuyên gia Một lần chân thành cảm ơn tất người giúp hoàn thành nghiên cứu khoa học Tác giả Trương Minh Văn LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân, xuất phát từ yêu cầu thực tế bệnh viện Số liệu nghiên cứu có nguồn gốc rõ ràng, trung thực, thu thập từ hồ sơ bệnh án, lưu trữ kho lưu trữ hồ sơ bệnh án bệnh viện Nhi Đồng – Đồng Nai Trong trình nghiên cứu, hỗ trợ cấp lãnh đạo liệu thu thập trình nghiên cứu thực theo quy chế bệnh viện Tác giả Trương Minh Văn MỤC LỤC TRANG PHỤ BÌA LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH SÁCH BẢNG DANH SÁCH HÌNH VẼ LỜI MỞ ĐẦU CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? - 1.1.1 Khái niệm khám phá tri thức khai phá liệu 1.1.2 Một số định nghĩa khai phá liệu 1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? - 1.2.1 Tại phải khai phá liệu? - 1.2.2 Khai phá liệu áp dụng loại liệu nào? 10 1.2.3 Ứng dụng khai phá liệu 10 1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 11 1.3.1 Khai phá liệu bước thiết yếu quy trình khám phá tri thức - 11 1.3.2 Một số phương pháp khai phá liệu 13 1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU 14 1.4.1 Mô tả (Descriptive) 14 1.4.2 Dự đoán (Predictive) 14 1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG - 15 1.5.1 Phân lớp liệu 15 1.5.2 Phân cụm liệu 15 1.5.3 Khai phá luật kết hợp 15 1.5.4 Hồi quy 15 1.5.5 Giải thuật di truyền 16 1.5.6 Mạng nơ-ron (neural network) - 16 1.5.7 Cây định - 16 1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC 17 1.7 KẾT CHƯƠNG - 17 CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA 19 2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU 19 2.1.1 Khái niệm - 19 2.1.2 Mục đích phương pháp luận canh tác liệu - 20 2.1.3 Vai trò canh tác liệu khám phá tri thức khai phá liệu 21 2.1.4 So sánh khai phá liệu thông thường canh tác liệu 25 2.1.5 Khả ứng dụng canh tác liệu khai phá liệu - 27 2.1.6 Quy trình canh tác liệu 28 2.1.7 Phương pháp canh tác liệu đánh giá đặc tính 30 2.1.7.1 Đặc tính chung liệu 30 2.1.7.2 Chọn lựa đặc tính đánh giá đặc tính cho khai phá liệu 30 2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA - 31 2.2.1 Vai trò diều dưỡng, bác sĩ canh tác liệu y khoa - 31 2.2.2 Tập liệu y khoa - 32 2.2.3 Phương pháp giải - 32 2.2.3.1 Phương pháp giải công việc 32 2.2.3.2 Phương pháp giải công việc 33 2.2.3.3 Phương pháp giải công việc 33 2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU BỆNH SỐT XUẤT HUYẾT 33 2.3 Tập thuộc tính ban đầu - 33 2.3 1.1 Thông tin hành 33 2.3.1.2 Triệu chứng lâm sàng 34 2.3 1.3 Cận lâm sàng 34 2.3 1.4 Tình trạng đến khám nhập viện 34 2.3.2 Phương pháp giải - 34 2.3.2.1 Phương pháp giải công việc 34 2.3.2.2 Phương pháp giải công việc 35 2.3.2.3 Phương pháp giải công việc 35 2.3.3 Tập thuộc tính sau canh tác liệu - 35 2.4 KẾT CHƯƠNG - 36 CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37 3.1 CÂY QUYẾT ĐỊNH - 37 3.1.1 Khái niệm - 37 3.1.2 Biểu diễn định - 38 3.1.3 Các bước xây dựng định 39 3.1.4 Cây định so với kỹ thuật khai phá khác - 40 3.1.4.1 Một số ưu điểm định 40 3.1.4.2 Một số điểm yếu định 42 3.2 MỘT SỐ THUẬT TOÁN KPDL BẰNG CÂY QUYẾT ĐỊNH 43 3.2.1 Thuật toán ID3 - 43 3.2.1.1 Lịch sử phát triển 43 3.2.1.2 Mã giã giải thuật ID3 44 3.2.1.4 Lựa chọn thuộc tính kiểm tra 44 3.2.1.5 Một vài ưu khuyết điểm thuật toán ID3 49 3.2.2 Thuật toán C4.5 49 3.2.2.1 Lịch sử phát triển 49 3.2.2.2 Mã giã thuật toán C4.5 50 3.2.2.3 Một số cải tiến thuật toán C4.5 52 3.2.3 Thuật toán SPRINT - 54 3.2.3.1 Lịch sử phát triển 54 3.2.3.2 Mã giã thuật toán SPRINT 55 3.2.3.3 SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập liệu “tốt nhất” 56 3.3 KẾT CHƯƠNG - 57 CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 60 4.1 MỤC TIÊU 60 4.2 ĐỐI TƯỢNG VÀ PHẠM VI - 60 4.3 PHƯƠNG PHÁP GIẢI QUYẾT - 60 4.4 QUY TRÌNH XÂY DỰNG HỆ THỐNG - 60 4.4.1 Tìm hiểu nghiệp vụ toán - 60 4.4.2 Thu thập liệu 61 4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá 61 4.4.2.2 Tiến hành thu thập liệu 61 4.4.2.3 Xử lý liệu-chuyển đổi liệu 62 4.4.3 Chọn lựa kỹ thuật khai phá - 63 4.4.4 Xây dựng chương trình - 63 4.4.4.1 Dữ liệu đầu vào 63 4.4.4.2 Mô tả liệu đầu vào 63 4.4.4.3 Dữ liệu đầu 64 4.4.4.4 Sử dụng thuật toán cho toán 64 4.4.4.5 Ngôn ngữ phát triển sở liệu sử dụng 64 4.5 THỰC NGHIỆM - 64 4.5.1 Dữ liệu chương trình thực nghiệm - 64 4.5.1.1 Dữ liệu thực nghiệm 64 4.5.1.2 Hướng dẫn sử dụng hệ thống 65 4.6 KẾT QUẢ THỰC NGHIỆM - 67 4.7 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM - 67 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 5.1 KẾT LUẬN 69 5.1.1 Kết đạt - 69 5.1.1.1 Lý thuyết 69 5.1.1.2 Thực nghiệm 70 5.1.2 Kết chưa đạt 70 5.2 HƯỚNG PHÁT TRIỂN - 71 5.2.1 Lý thuyết 71 5.2.2 Thực hành - 71 TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC CÁC CHỮ VIẾT TẮT CLS Cận lâm sàng CSDL Cơ sở liệu CTDL Canh tác liệu DL Dữ liệu DM Data Mining HSBA Hồ sơ bệnh án ICD10 Danh mục bệnh quốc tế KDD Knowledge Discovery in Databaes KHTH Kế Hoạch Tổng Hợp KPDL Khai phá liệu LS Lâm sàng NSV Nhiễm siêu vi NTV Nhà tư vấn SXH Sốt xuất huyết SXHD Sốt xuất huyết Dengue SXHD-CB Sốt xuất huyết Dengue cảnh báo SXHD-VS Sốt xuất huyết Dengue vào sốc WHO Tổ chức Y tế giới DANH SÁCH BẢNG Bảng 2.1 So sánh qui trình canh tác nông nghiệp canh tác liệu 19 Bảng 3.1 Tập liệu huấn luyện cho khái niệm mục tiêu Play tennis 45 Bảng 4.1 Bảng kết thực nghiệm hệ thống 71 DANH SÁCH HÌNH VẼ Hình 1.1 Minh họa cho hình ảnh khai phá liệu tập liệu Hình 1.2 Quy trình khám phá tri thức từ sở liệu Hình 1.3 Chúng ta giàu liệu nghèo tri thức Hình 1.4 Biễu diễn chức khai phá liệu 14 Hình 2.1 Quá trình khám phá tri thức khai phá liệu 23 Hình 2.2 Canh tác liệu tác động quy trình khám phá tri thức 24 Hình 2.3 So sánh khai phá liệu có canh tác liệu 26 Hình 3.1 Biễu diễn định 37 Hình 3.2 Cây định cho việc chơi Tennis 38 Hình 3.3 Tạo Node gốc Outlook 48 Hình 3.4 Thuộc tính kiểm tra cho kế node gốc 48 Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học 62 Hình 4.2 Giao diện hệ thống chương trình 65 Hình 4.3 Màn hình hiển thị liệu tập huấn 65 Hình 4.4 Hiển thị định dạng treeview 66 Hình 4.5 Màn hành giao diện chẩn đoán 66 57 Với thuộc tính liên tục Với thuộc tính liên tục, giá trị kiểm tra giá trị nằm cặp giá trị liền kề thuộc tính Để tìm điểm phân chia cho thuộc tính node định, biểu đồ khởi tạo với Cbelow Cabove phân phối lớp tất ghi node Hai biểu đồ cập nhật ghi đọc Mỗi trỏ chạy gini-index tính điểm phân chia nằm giá trị vừa đọc giá trị đọc Khi đọc hết danh sách thuộc tính (Cabove tất cột) lúc tính toàn gini-index điểm phân chia cần xem xét Căn vào kết chọn gini-index thấp tương ứng điểm phân chia thuộc tính liên tục xem xét node Việc tính gini-index hoàn toàn dựa vào biểu đồ Nếu tìm điểm phân chia tốt kết lưu lại biểu đồ vừa gắn danh sách thuộc tính khởi tạo lại trước xử lý với thuộc tính Với thuộc tính rời rạc Với thuộc tính rời rạc, trình tìm điểm phân chia tốt tính toán dựa biểu đồ danh sách thuộc tính Trước tiên cần quét toàn danh sách thuộc tính để thu số lượng phân lớp ứng với giá trị thuộc tính rời rạc, kết lưu biểu đồ count matrix Sau đó, cần tìm tất tập có từ giá trị thuộc tính xét, coi điểm phân chia tính gini-index tương ứng Các thông tin cần cho việc tính toán số gini-index tập có count matrix Bộ nhớ cung cấp cho count matrix thu hồi sau tìm điểm phân chia tốt thuộc tính 3.3 KẾT CHƯƠNG Những điểm chương bao gồm: Giới thiệu định 58 - Các khái niệm định, biễu diễn định, phương pháp tạo định - Cây định cung cấp phương pháp thiết thực cho khái niệm học tập cho việc học chức khác có giá trị rời rạc Giới thiệu thuật toán thông dụng KPDL định Các thuật toán sử dụng số Gian - Họ thuật toán sử dụng số Gain độ đo tỷ lệ Gain để tính toán tìm điểm chia thích hợp, nhiên theo kết nghiên cứu đánh giá thuật toán có độ xác không cao thuật toán sử dụng số Gini, đồng thời yếu tố tốc độ với tính khả thi liệu lớn yếu - Một số thuật toán tiêu biểu đại diện cho lớp thuật toán sử dụng số Gain để tìm điểm chia như: ID3, C4.5 … Hai thuật toán ID3 C4.5 trình bày chương III Các thuật toán sử dụng số Gini - Các thuật toán phân lớp sử dụng số Gian (ID3, C4.5 ) không tận dụng ưu nút phải xếp lại giá trị thuộc tính số có tính chất liên tục Để giải vấn đề này, thuật toán sử dụng số Gini đưa cấu trúc liệu với lần xếp để xếp cho tất thuộc tính liên tục Các thuật toán tính toán tìm điểm phân chia, phần lớn thuật toán dạng tạo theo hình thức nhị phân, thuật toán SLIQ, SPRINT, Rain Forest… dựa tiêu chí Tuy nhiên, thuật toán SLIQ [10] có cấu trúc liệu hiệu thuật toán SPRINT [11] Cũng SLIQ, thuật toán SPRINT phân chia thuộc tính làm hai loại: có giá trị liên tục (continuous) kiểu phân loại (categorical attributes) Kiểu liệu liên tục kiểu liệu thuộc miền số thực tuổi, lương, điểm trung bình ; kiểu liệu rời rạc kiểu liệu dạng phân loại loại khách hàng, cấp bậc, Kiểu rời rạc thường biểu diễn thành miền giá trị số nguyên byte, integer 59 Tương ứng với giá trị Các kiểu liệu lại thường biến đổi (transform) kiểu rời rạc pha khởi tạo kiểu liệt kê, kiểu string - Trong thuật toán SPRINT, việc xử lý tính toán thuộc tính có kiểu liên tục(kiểu số) khác với kiểu liệu phân loại Để tính toán số Gini nhằm tìm điểm chia tốt nhất, thuật toán SPRINT dựa khái niệm gọi ma trận đếm (counter matrix [8]), thuật toán xây dựng ma trận đếm cho toàn liệu tính số Gini Chương trình bày chi tiết quy trình xây dựng hệ thống để hỗ trợ dự đoán bệnh SXH, thực nghiệm đánh giá thực nghiệm Đây chương xem quan trọng chương kết hợp toàn ba chương trình bày 60 Chương IV XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 4.1 MỤC TIÊU Xây dựng hệ thống chương trình có khả tiên lượng vào sốc hay có dấu hiệu cảnh báo bệnh nhân mắc bệnh SXH-D Dữ liệu nhập vào hệ thống dấu hiệu lâm sàng, cận lâm sàng thông tin bệnh nhân nhập viện 4.2 ĐỐI TƯỢNG VÀ PHẠM VI HSBA bệnh nhân trẻ em

Ngày đăng: 05/11/2016, 14:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan