Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

81 1K 5
Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trước tiên tôi xin được gửi lời cảm ơn chân thành tới Ban Giám hiệu nhà trường, Phòng sau đại học, các thầy cô giáo trong khoa Công nghệ thông tin, trường đại học Lạc Hồng đã tạo điều kiện và môi trường học tốt nhất. Các Giáo sư – Tiến sĩ đã tâm quyết không ngại đường xá xa, đến để truyền đạt cho chúng tôi nguồn kiến thức vô cùng quý báu, cũng như cách học tập và nghiên cứu khoa học. Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng – Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc bệnh viện Nhi Đồng – Đồng Nai đã tư vấn và giúp đỡ tôi một cách chân thành trong quá trình thực hiện nghiên cứu khoa học. Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS. TS Đặng Trần Khánh. Thầy đã hướng dẫn và định hướng, giúp tôi hoàn thành tốt đề tài nghiên cứu khoa học này. Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của các chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai, của các bạn bè trong ngành Công nghệ thông tin, đặc biệt là sự nghiêm khắc giáo huấn của thầy Đặng Trần Khánh. Mặc dù rất cố gắng nhưng không thể tránh khỏi những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý kiến từ bạn bè, thầy cô và các chuyên gia. Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tôi hoàn thành nghiên cứu khoa học này. Tác gi ả Trương Minh Văn LỜI CẢM ƠN LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu thực tế tại bệnh viện. Số liệu nghiên cứu có nguồn gốc rõ ràng, trung thực, được thu thập từ những hồ sơ bệnh án, đang lưu trữ tại kho lưu trữ hồ sơ bệnh án tại bệnh viện Nhi Đồng – Đồng Nai. Trong quá trình nghiên cứu, tôi được sự hỗ trợ của cấp lãnh đạo và dữ liệu thu thập trong quá trình nghiên cứu được thực hiện đúng theo quy chế của bệnh viện. Tác giả Trương Minh Văn MỤC LỤC TRANG PHỤ BÌA LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH SÁCH BẢNG DANH SÁCH HÌNH VẼ LỜI MỞ ĐẦU 1 CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 5 1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? 5 1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu 5 1.1.2 Một số định nghĩa về khai phá dữ liệu 6 1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? 8 1.2.1 Tại sao phải khai phá dữ liệu? 8 1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? 10 1.2.3 Ứng dụng của khai phá dữ liệu 10 1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 11 1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri thức 11 1.3.2 Một số phương pháp khai phá dữ liệu 13 1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU 14 1.4.1 Mô tả (Descriptive) 14 1.4.2 Dự đoán (Predictive) 14 1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG 15 1.5.1 Phân lớp dữ liệu 15 1.5.2 Phân cụm dữ liệu 15 1.5.3 Khai phá luật kết hợp 15 1.5.4 Hồi quy 15 1.5.5 Giải thuật di truyền 16 1.5.6 Mạng nơ-ron (neural network) 16 1.5.7 Cây quyết định 16 1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC 17 1.7 KẾT CHƯƠNG 17 CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA 19 2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU 19 2.1.1 Khái niệm 19 2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu 20 2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu 21 2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu 25 2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu. 27 2.1.6 Quy trình canh tác dữ liệu 28 2.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính 30 2.1.7.1 Đặc tính chung của dữ liệu 30 2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu 30 2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA 31 2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa 31 2.2.2 Tập dữ liệu y khoa 32 2.2.3 Phương pháp giải quyết 32 2.2.3.1 Phương pháp giải quyết công việc 1 32 2.2.3.2 Phương pháp giải quyết công việc 2 33 2.2.3.3 Phương pháp giải quyết công việc 3 33 2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU BỆNH SỐT XUẤT HUYẾT 33 2.3 .1 Tập thuộc tính ban đầu 33 2.3 .1.1 Thông tin hành chính 33 2.3.1.2 Triệu chứng lâm sàng 34 2.3 .1.3 Cận lâm sàng 34 2.3 .1.4 Tình trạng đến khám và nhập viện 34 2.3.2 Phương pháp giải quyết 34 2.3.2.1 Phương pháp giải quyết công việc 1 34 2.3.2.2 Phương pháp giải quyết công việc 2 35 2.3.2.3 Phương pháp giải quyết công việc 3 35 2.3.3 Tập thuộc tính sau khi canh tác dữ liệu 35 2.4 KẾT CHƯƠNG 36 CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37 3.1 CÂY QUYẾT ĐỊNH 37 3.1.1 Khái niệm 37 3.1.2 Biểu diễn cây quyết định 38 3.1.3 Các bước chính xây dựng cây quyết định 39 3.1.4 Cây quyết định so với kỹ thuật khai phá khác 40 3.1.4.1 Một số ưu điểm của cây quyết định 40 3.1.4.2 Một số điểm yếu của cây quyết định 42 3.2 MỘT SỐ THUẬT TOÁN KPDL BẰNG CÂY QUYẾT ĐỊNH 43 3.2.1 Thuật toán ID3 43 3.2.1.1 Lịch sử phát triển 43 3.2.1.2 Mã giã giải thuật ID3 44 3.2.1.4 Lựa chọn thuộc tính kiểm tra 44 3.2.1.5 Một vài ưu khuyết điểm của thuật toán ID3 49 3.2.2 Thuật toán C4.5 49 3.2.2.1 Lịch sử phát triển 49 3.2.2.2 Mã giã của thuật toán C4.5 50 3.2.2.3 Một số cải tiến của thuật toán C4.5 52 3.2.3. Thuật toán SPRINT 54 3.2.3.1 Lịch sử phát triển 54 3.2.3.2 Mã giã của thuật toán SPRINT 55 3.2.3.3. SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập dữ liệu “tốt nhất” 56 3.3 KẾT CHƯƠNG 57 CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 60 4.1 MỤC TIÊU 60 4.2 ĐỐI TƯỢNG VÀ PHẠM VI 60 4.3 PHƯƠNG PHÁP GIẢI QUYẾT 60 4.4 QUY TRÌNH XÂY DỰNG HỆ THỐNG 60 4.4.1 Tìm hiểu nghiệp vụ của bài toán 60 4.4.2 Thu thập dữ liệu 61 4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá 61 4.4.2.2 Tiến hành thu thập dữ liệu 61 4.4.2.3 Xử lý dữ liệu-chuyển đổi dữ liệu 62 4.4.3 Chọn lựa kỹ thuật khai phá 63 4.4.4 Xây dựng chương trình 63 4.4.4.1 Dữ liệu đầu vào 63 4.4.4.2 Mô tả dữ liệu đầu vào 63 4.4.4.3 Dữ liệu đầu ra 64 4.4.4.4 Sử dụng thuật toán cho bài toán 64 4.4.4.5 Ngôn ngữ phát triển và cơ sở dữ liệu sử dụng 64 4.5 THỰC NGHIỆM 64 4.5.1 Dữ liệu và chương trình thực nghiệm 64 4.5.1.1 Dữ liệu thực nghiệm 64 4.5.1.2 Hướng dẫn sử dụng hệ thống 65 4.6 KẾT QUẢ THỰC NGHIỆM 67 4.7 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM 67 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 5.1 KẾT LUẬN 69 5.1.1 Kết quả đạt được 69 5.1.1.1 Lý thuyết 69 5.1.1.2 Thực nghiệm 70 5.1.2 Kết quả chưa đạt được 70 5.2 HƯỚNG PHÁT TRIỂN 71 5.2.1 Lý thuyết 71 5.2.2 Thực hành 71 TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC CÁC CHỮ VIẾT TẮT CLS Cận lâm sàng. CSDL Cơ sở dữ liệu. CTDL Canh tác dữ liệu. DL Dữ liệu. DM Data Mining. HSBA Hồ sơ bệnh án. ICD10 Danh mục bệnh quốc tế KDD Knowledge Discovery in Databaes. KHTH Kế Hoạch Tổng Hợp. KPDL Khai phá dữ liệu. LS Lâm sàng. NSV Nhiễm siêu vi. NTV Nhà tư vấn. SXH Sốt xuất huyết . SXHD Sốt xuất huyết Dengue. SXHD-CB Sốt xuất huyết Dengue cảnh báo. SXHD-VS Sốt xuất huyết Dengue vào sốc. WHO Tổ chức Y tế thế giới. DANH SÁCH BẢNG Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu 19 Bảng 3.1 Tập dữ liệu huấn luyện cho khái niệm mục tiêu Play tennis 45 Bảng 4.1 Bảng kết quả thực nghiệm của hệ thống 71 DANH SÁCH HÌNH VẼ Hình 1.1 Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu 5 Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu 7 Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức 9 Hình 1.4 Biễu diễn chức năng chính của khai phá dữ liệu 14 Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu 23 Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức 24 Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu 26 Hình 3.1 Biễu diễn cây quyết định cơ bản 37 Hình 3.2 Cây quyết định cho việc chơi Tennis 38 Hình 3.3 Tạo Node gốc Outlook 48 Hình 3.4 Thuộc tính kiểm tra cho con kế node gốc 48 Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học 62 Hình 4.2 Giao diện chính hệ thống chương trình 65 Hình 4.3 Màn hình hiển thị dữ liệu tập huấn 65 Hình 4.4 Hiển thị cây quyết định dạng treeview 66 Hình 4.5 Màn hành giao diện chẩn đoán 66 [...]... thành công Chương kế tiếp sẽ trình b y khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa Đ y là phương pháp khai phá dữ liệu có sử dụng các tri thức chuyên gia trong quá trình chọn lựa thuộc tính khai phá và đánh giá mô hình Sự kết hợp n y sẽ làm giảm chi phí thu thập DL cũng như mô hình dự đoán có mức độ thường chính xác cao 19 Chương II KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU... liệu - Chương II : Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa - Chương III: Kỹ thuật khai phá dữ liệu bằng c y quyết định - Chương IV: X y dựng hệ thống chương trình hỗ trợ chẩn đoán bệnh SXH và thực nghiệm - Chương V: Kết luận và hướng phát triển 5 Chương I CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? 1.1.1 Khái niệm về khám phá tri thức và khai. .. và tính trong suốt của tri thức được rút trích, tới người sử dụng 2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu H y quan sát lưu đồ sau: Lưu đồ A Feature Selection and Data farming Data Mining Data farming 26 Lưu đồ B Data Mining Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu Lưu đồ A khai phá dữ liệu có canh tác dữ liệu Lưu đồ B khai phá dữ liệu không có cánh tác. .. chi phí điều trị, đ y là một nhu cầu thiết thực trong các bệnh viện Xuất phát từ những thực tế trên, tác giả đã chọn đề tài Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa để nghiên cứu cho luận văn thạc sĩ của mình 3/Mục đích và ý nghĩa nghiên cứu - Giới thiệu về phương pháp khai phá dữ liệu có sử dụng tri thức chuyên gia (lĩnh vực có liên quan) trong quá trình chọn... tác dữ liệu trong khám phá tri thức và khai phá dữ liệu Canh tác dữ liệu tác động trên 3 giai đoạn của quy trình khám phá tri thức và khai phá dữ liệu [4][9] (xem hình 2.2): Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức 25 - Tiền xử lý - Khai phá dữ liệu - Hậu xử lý (1) Trong giai đoạn tiền xử lý, các hoạt động bao gồm chọn lựa đặc tính (Feature Selection) và sử dụng các phương pháp,... 5/Phương pháp nghiên cứu - Phương pháp nghiên cứu hồi cứu [5] - Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa - Sử dụng kỹ thuật khai phá dữ liệu bằng c y quyết định với thuật toán C4.5 6/Kết cấu luận văn Luận văn gồm 5 chương: Ngoài phần mở đầu, tham khảo, phụ lục - Chương I: Cơ sở lý thuyết về khai phá dữ. .. từ cơ sở dữ liệu 8 1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? 1.2.1 Tại sao phải khai phá dữ liệu? Trong thời đại ng y nay, việc nắm bắt được thông tin được coi là chìa khóa của thành công Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những thông tin đó là kẻ thắng cuộc Chính vì v y, việc tạo ra thông tin và mức tiêu thụ thông tin ng y nay ng y càng gia tăng Cùng với sự phát triển... không có cánh tác dữ liệu So sánh hai quá trình khai phá như sau: (1)Thời gian Thời gian khai phá ở lưu đồ A: - Chọn lựa đặc tính và canh tác dữ liệu: thực hiện công việc nghiên cứu, tìm hiểu nghiệp vụ dữ liệu, tham vấn nhiều chuyên gia có thời gian là: ta1 - Khai phá dữ liệu có thời gian: ta2 - Canh tác dữ liệu có thời gian là:ta3 Thời gian khai phá ở lưu đồ B - Khai phá dữ liệu có thời gian là: tb... thừa trong khai phá dữ liệu - Giảm bớt thời gian và chi phí khai phá dữ liệu, giúp các thuật toán khai phá dữ liệu ch y nhanh và chính xác hơn, từ đó các luật sinh ra trong quá trình khai phá cũng tốt hơn Giá trị chẩn đoán từ các luật cũng có độ tin c y cao hơn - Sử dụng kỹ thuật khai phá dữ liệu bằng c y quyết định với thuật toán C4.5, tạo ra các luật, thông qua kiểm nghiệm thực tiễn, hỗ trợ bác sĩ. .. trình canh tác nông nghiệp và canh tác dữ liệu Qui trình canh tác nông nghiệp Qui trình canh tác dữ liệu (1) Xác định loại nông sản cần sản (1) Xác định mục đích khai phá dữ xuất liệu (2) Chọn loại giống tốt, chuẩn bị đất (2) Chọn lựa thuộc tính có đặc tính canh tác và ươm mầm (Trong tốt, sử dụng các công cụ, các phương pháp n y người nông có thể phương pháp hoặc sử dụng kiến dựa vào kinh nghiệm, hay sử . thức và khai phá dữ liệu 21 2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu 25 2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu. 27 2.1.6 Quy trình canh tác. THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC 17 1.7 KẾT CHƯƠNG 17 CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA 19 . viện. Xuất phát từ những thực tế trên, tác giả đã chọn đề tài Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa để nghiên cứu cho luận văn thạc sĩ của mình.

Ngày đăng: 06/10/2014, 13:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan