Đồ án tốt nghiệp nguyễn duy thông 27 12 2016

38 307 0
Đồ án tốt nghiệp nguyễn duy thông 27 12 2016

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến thầy cô khoa công nghệ thông tin Đại học Thủy Lợi tận tâm giảng dạy, bảo giúp đỡ em từ em bắt đầu học tập đến Em xin gửi lời cảm ơn sâu sắc tới TS Đặng Thị Thu Hiền kiên nhẫn tận tình hướng dẫn khoa học, giúp đỡ em hoàn thành tốt đồ án tốt nghiệp Em xin gửi lời cảm ơn tới thầy, cô giáo dạy dỗ, truyền đạt kiến thức cho em suốt trình học tập nghiên cứu Em xin cảm ơn tới thầy Nguyễn Thanh Tùng tư vấn giúp đỡ chân thành để em có đồ án hồn thành ngày hơm Mặc dù cố gắng đồ án em khơng khỏi thiếu sót, em mong cảm thơng ý kiến đống góp q báu thầy để em hồn thiện đồ án tốt Em xin chân thành cảm ơn SINH VIÊN NGUYỄN DUY THÔNG Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông LỜI MỞ ĐẦU Hiện nay, với chủ trương xây dựng Bệnh án điện tử thúc đẩy số hóa liệu bệnh nhân Việt Nam, việc khám bệnh chuyển dần từ sổ khám bệnh sang bệnh án điện tử Các bệnh viện đẩy mạnh phát triển hệ thống phần mềm để liệu biện nhân truy cập tất tuyến xã đến cấp Bộ y tế Tuy nhiên, việc xây dựng bệnh án điện tử chưa kèm với việc khai phá liệu hỗ trợ lãnh đạo phản ứng nhanh trước dịch bệnh, thiên tai, hỗ trợ bác sĩ việc chẩn đoán bệnh, xây dựng pháp đồ điều trị Xuất phát từ nhu cầu thực tế đó, đồ án giới thiệu số phương pháp phân cụm liệu khai phá sở liệu Bệnh nhân Trên sở cài đặt thử nghiệm chương trình ứng dụng sử dụng kỹ thuật phân cụm liệu, qua hỗ trợ bác sĩ y tế dự phòng, bác sĩ khám bệnh tiết kiệm thời gian hiệu việc thăm khám bệnh Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp Unsupervised Learning Machine Learning Mục đích phân cụm tìm chất bên nhóm liệu nhằm đưa kết luận có giá trị tốt tiết kiệm thời gian Nội dung đề tài kiến thức khai phá liệu sử dụng phân cụm, thuật tốn kinh điển q trình sử dụng phân cụm, cách áp dụng phân cụm vào tốn thực tế Đồ án trình bày chương phần phụ lục : Chương : Trình bày tổng khai phá liệu phân cụm Chương : Giới thiệu, phân tích, đánh giá họ thuật toán dùng để phân cụm liệu Chương : Xây dựng ứng dụng sử dụng thuật tốn phân cụm để phân tích liệu bệnh nhân Kết luận : Tóm tắt vấn đề tìm hiểu đồ án vấn đề liên quan đồ án, đưa phương hướng nghiên cứu Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM 1.1 Tại phải khai phá liệu? Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) khơng ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đốn lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không ? “Necessity is the mother of invention” - Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt [] Khá nhiều định nghĩa Data Mining đề cập phần sau, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thông tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức [1] 1.2 Khai phá liệu gì? Nói chung, khai phá liệu (đơi gọi khám phá tri thức) trình phân tích liệu từ trường khác tổng kết thành thơng tin hữu ích thơng tin sử dụng để tăng doanh thu, cắt giảm chi phí, hai phần mềm khai thác liệu số cơng cụ phân tích để phân tích liệu Nó cho phép người sử dụng để phân tích liệu từ nhiều khía cạnh góc độ khác nhau, phân loại, tổng kết mối quan hệ xác định Về mặt kỹ thuật, khai thác liệu trình tìm kiếm mối tương quan mơ hình số hàng chục trường sở liệu quan hệ lớn 1.3 Các thành phần khai phá liệu Giải thuật khai phá liệu bao gồm thành phần sau: biểu diễn mơ hình, đánh giá mơ hình, tìm kiếm mơ hình • Biểu diễn mơ hình: Mơ hình biểu diễn ngơn ngữ L để mơ tả mẫu khai thác Nếu mơ tả q bị hạn chế khơng thể học khơng thể có mẫu tạo mơ hình xác cho liệu Ví dụ mơ tả định sử dụng phân chia nút theo trường đơn, chia không gian đầu vào thành mặt siêu phẳng song song với trục thuộc Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông tính Phương pháp định khơng thể khai thác từ liệu dạng công thức x=y tập học có to đến đâu Vì vậy, việc quan trọng người phân tích liệu cần phải hiểu đầy đủ giả thiết mô tả Một điều quan trọng người thiết kế giải thuật cần phải diễn tả giả thiết mô tả tạo giải thuật Khả mơ tả mơ hình lớn làm tăng mức độ nguy hiểm bị học làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trở nên phức tạp việc giải thích mơ hình khó khăn Mơ hình ban đầu xác định cách kết hợp biến đầu ra(phụ thuộc) với biến độc lập mà biến đầu phụ thuộc vào Sau phải tìm tham số mà tốn cần tập trung giải Việc tìm kiếm mơ hình đưa mơ hình phù hợp với tham số xác định dựa liệu(trong số trường hợp, mơ hình xây dựng độc lập với liệu số trường hợp khác mơ hình tham số lại thay đổi để phù hợp với liệu) Trong số trường hợp, tập liệu chia thành tập liệu học tập liệu thử Tập liệu học sử dụng để làm cho tham số mơ hình phù hợp với liệu Mơ hình sau đánh giá cách đưa liệu thử vào mơ hình thay đổi lại tham số cho phù hợp cần Mơ hình lựa chọn phương pháp thống kê SASS, v v…, số giải thuật học máy(ví dụ suy diễn định kỹ thuật học có thầy khác) , mạng neuron, suy diễn hướng tình huống(case-based reasoning) , kỹ thuật phân lớp • Đánh giá mơ hình: Đánh giá x mẫu có đáp ứng tiêu chuẩn trình phát tri thức hay khơng Việc đánh giá độ xac dự đốn dựa đánh giá chéo(cross validation) Đánh giá chất lượng mơ tả liên quan đến độ xác dự đốn, độ mới, khả sử dụng, khả hiểu mơ hình Cả hai chuẩn thống kê chuẩn logic sử dụng để đánh giá mơ hình Ví dụ luật xác suất lớn dùng để lựa chọn tham số cho mơ hình cho xử lý phù hợp với tập liệu học Việc đánh giá mơ hình thực qua kiểm tra liệu(trong số trường hợp kiểm tra với tất liệu, số trường hợp khác kiểm tra với liệu thử) Ví dụ mạng neuron, việc đánh giá mơ hình thực dựa việc kiểm tra Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông liệu(bao gồm liệu học liệu thử) , nhiệm vụ dự đốn việc đánh giá mơ hình ngồi kiểm tra liệu dựa độ xác dự đốn • Phương pháp tìm kiếm: phương pháp tìm kiếm bao gồm hai thành phần: tìm kiếm tham số tìm kiếm mơ hình Trong tìm kiếm tham số, giải thuật cần tìm kiếm tham số để tối ưu hóa tiêu chuẩn đánh giá mơ hình với liệu quan sát với mơ tả mơ hình định Việc tìm kiếm khơng cần thiết số tốn đơn giản: đánh giá tham số tối ưu đạt cách đơn giản Đối với mơ hình chung khơng có cách này, giải thuật “tham lam” thường sử dụng lặp lặp lại Ví dụ phương pháp giảm gradient giải thuật lan truyền ngược(backpropagation) cho mạng neuron Tìm kiếm mơ hình xảy giống vòng lặp qua phương pháp tìm kiếm tham số: mơ tả mơ hình bị thay đổi tạo nên họ mơ hình Với mơ tả mơ hình, phương pháp tìm kiếm tham số áp dụng để đánh giá chất lượng mơ hình Các phương pháp tìm kiếm mơ hình thường sử dụng kỹ thuật tìm kiếm heuristic kích thước khơng gian mơ hình thường ngăn cản tìm kiếm tổng thể, giải pháp đơn giản(closed form) khơng dễ đạt 1.4 Các bước khai phá liệu Khám phá tri thức CSDL, KDD lĩnh vực liên quan đến ngành thông kê,học máy, CSDL, thuật tốn… Q trình KDD phân thành giai đoạn sau: • Trích chọn liệu: bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định • Tiền xử lý liệu: Là bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán…) rút gọn liệu, rời rạc hóa liệu Sau bước liệu quán, đầy đủ rút gọn rời rạc hóa • Biến đổi liệu: Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau • Datamining: Đây bước áp dụng kỹ thuật phân tích (phần lớn kỹ thuật học máy) nhằm để khai thác liệu, trích chọn thông tin, Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốnnhiều thời gian trình KDD • Đánh giá biểu diễn tri thức: Những mẫu thông tin quan trọng mối liên hệ liệu khám phá bước chuyển dạng biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu…Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định: Hình 1.1: Quy trình khám phá tri thức 1.5 Phân loại khai phá liệu Data Mining chia nhỏ thành số hướng sau: • Mơ tả khái niệm (concept description): thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn • Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “70% bệnh nhân mắc bệnh tiểu đường 30% số họ bị bệnh gut” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v • Phân lớp dự đoán (classification & prediction): xếp đối tượng vào lớp biết trước Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta gọi phân lớp học có giám sát (học có thầy) • Phân cụm (clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học không giám sát (học không thầy) Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thơng • Khai phá chuỗi (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao 1.6 Phạm vi ứng dụng khai phá liệu Data Mining hướng tiếp cận thu hút nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng thực tiễn Chúng ta liệt kê số ứng dụng điển hình: • Phân tích liệu hỗ trợ định (data analysis & decision support) • Điều trị y học (medical treatment) • Text mining & Web mining • Tin-sinh (bio-informatics) • Tài thị trường chứng khốn (finance & stock market) • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) • v.v 1.7 Những thách thức - khó khăn khai phá liệu Ở đây, ta đưa số khó khăn việc nghiên cứu ứng dụng kỹ thuật khai phá liệu Tuy nhiên, khơng có nghĩa việc giải hoàn toàn bế tắc mà muốn nêu lên để khai phá liệu đơn giản, mà phải xem xét tìm cách giải vấn đề Ta liệt kê số khó khăn sau: 1.7.1 Các vấn đề sở liệu Đầu vào chủ yếu hệ thống khai thác tri thức liệu thô sở liệu Những vấn đề khó khăn phát sinh khai phá liệu từ Do liệu thực tế thường động, không đầy đủ, lớn bị nhiễu Trong trường hợp khác, người ta sở liệu có chứa thơng tin cần thiết cho việc khai thác hay không làm để giải với dư thừa thông tin khơng thích hợp • Dữ liệu lớn: Cho đến nay, sở liệu với hàng trăm trường bảng, hàng triệu ghi với kích thước đến gigabytes chuyện bình thường Hiện bắt đầu xuất sở liệu có kích thước tới terabytes Các phương pháp giải đưa ngưỡng cho sở Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông liệu, lấu mẫu, phương pháp xấp xỉ, xử lý song song(Agrawal et al, Holsheimer et al) • Kích thước lớn: khơng có số lượng ghi lớn mà số trường sở liệu nhiều Vì mà kích thước toán trở nên lớn Một tập liệu có kích thước lớn sinh vấn đề làm tăng khơng gian tìm kiếm mơ hình suy diễn Hơn nữa, làm tăng khả giải thuật khai phá liệu tìm thấy mẫu giả Biện pháp khắc phục làm giảm kích thước tác động toán sử dụng tri thức biết trước để xác định biến không phù hợp • Dữ liệu động: Đặc điểm hầu hết sở liệu nội dung chúng thay đổi liên tục Dữ liệu thay đổi theo thời gian việc khai phá liệu bị ảnh hưởng thời điểm quan sát liệu Ví dụ sở liệu tình trạng bệnh nhân, số giá trị liệu số, số khác lại thay đổi liên tục theo thời gian(ví dụ cân nặng chiều cao) , số khác lại thay đổi tùy thuộc vào tình có giá trị quan sát đủ(ví dụ nhịp đập mạch) Vậy thay đổi liệu nhanh chóng làm cho mẫu khai thác trước giá trị Hơn nữa, biến sở liệu ứng dụng cho bị thay đổi, bị xóa tăng lên theo thời gian Vấn đề giải giải pháp tăng trưởng để nâng cấp mẫu coi thay đổi hội để khai thác cách sử dụng để tìm kiếm mẫu bị thay đổi • Các trường khơng phù hợp: Một đặc điểm quan trọng khác tính khơng thích hợp liệu, nghĩa mục liệu trở thành không thích hợp với trọng tâm việc khai thác Một khía cạnh khác đơi liên quan đến độ phù hợp tính ứng dụng thuộc tính tập sở liệu Ví dụ trường số tài khoản Nostro khơng áp dụng cho các nhân • Các giá trị bị thiếu: Sự có mặt hay vắng mặt giá trị thuộc tính liệu phù hợp ảnh hưởng đến việc khai phá liệu Trong hệ thống tương tác, thiếu vắng liệu quan trọng dẫn đến việc yêu cầu cho giá trị kiểm tra để xác định giá trị Hoặc vắng Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 10 mặt liệu coi điều kiện, thuộc tính bị coi giá trị trung gian giá trị khơng biết • Các trường bị thiếu: Một quan sát khơng đầy đủ sở liệu làm cho liệu có giá trị bị x có lỗi Việc quan sát sở liệu phải phát tồn thuộc tính dùng để giải thuật khai phá liệu áp dụng nhằm giải toán Giả sử ta có thuộc tính để phân biệt tình đáng quan tâm Nếu chúng khơng làm điều có nghĩa có lỗi liệu Đối với hệ thống học để chuẩn đoán bệnh sốt rét từ sở liệu bệnh nhân trường hợp ghi bệnh nhân có triệu chứng giống lại có chuẩn đốn khác liệu bị lỗi Đây vấn đề thường xảy sở liệu kinh doanh Các thuộc tính quan trọng bị thiếu liệu khơng chuẩn bị cho việc khai phá liệu • Độ nhiễu khơng chắn: Đối với thuộc tính thích hợp, độ nghiêm trọng lỗi phụ thuộc vào kiểu liệu giá trị cho phép Các giá trị thuộc tính khác số thực, số nguyên, chuỗi thuộc vào tập giá trị định danh Các giá trị định danh xếp theo thứ tự phần đầy đủ, chí có cấu trúc ngữ nghĩa Một yếu tố khác độ khơng chắn tính kế thừa độ xác mà liệu cần có, nói cách khác độ nhiễu liệu Dựa việc tính tốn phép đo phân tích có ưu tiên, mơ hình thống kê mơ tả tính ngẫu nhiên tạo sử dụng để định nghĩa độ mong muốn độ dung sai liệu Thường mơ hình thống kê áp dụng theo cách đặc biệt để xác định cách chủ quan thuộc tính để đạt thống kê đánh giá khả chấp nhận các(hay tổ hợp các) giá trị thuộc tính Đặc biệt với liệu kiểu số, đắn liệu yếu tố việc khai phá Ví dụ việc đo nhiệt độ thể, ta thường cho phép chênh lệch độ Nhưng việc phân tích theo xu hướng nhạy cảm nhiệt độ thể lại yêu cầu độ xác cao Để hệ thống khai thác liên hệ đến xu hướng để chuẩn đoán lại cần có độ nhiễu liệu đầu vào Mối quan hệ phức tạp trường: thuộc tính giá trị có cấu Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thơng 24 Nhược điểm chất lượng cụm khám phá không tốt Nếu BIRCH sử dụng khoảng cách Euclide, thực tốt với liệu số Mặt khác, tham số vào T có ảnh hưởng lớn đến kích thước tính tự nhiên cụm Việc ép đối tượng liệu làm cho đối tượng cụm đối tượng kết thúc cụm khác, đối tượng gần bị hút cụm khác chúng biểu diễn cho thuật toán theo thứ tự khác BIRCH khơng thích hợp với liệu đa chiều 2.2.2 Thuật toán CURE Việc chọn cách biểu diễn cho cụm nâng cao chất lượng phân cụm Thuật toán CURE (Clustering Using RExpresentatives) thuật toán sử dụng chiến lược lên (Bottom up) kỹ thuật phân cụm phân cấp Thay sử dụng trọng tâm đối tượng tâm để biểu diễn cụm, CURE sử dụng nhiều đối tượng để diễn tả cho cụm liệu Các đối tượng đại diện cho cụm ban đầu lựa chọn rải rác vị trí khác nhau, sau chúng di chuyển cách co lại theo tỉ lệ định Tại bước thuật tốn, hai cụm có cặp đối tượng đại diện gần ( đối tượng thuộc cụm) trộn lại thành cụm Với cách thức sử dụng nhiều phần tử đại diện cho cụm, CURE khám phá cụm có hình thù kích thước khác sở liệu lớn Việc co đối tượng đại diện lại có tác dụng làm giảm tác động phần tử ngoại lại, vậy, CURE có khả xử lý phần tử ngoại lai 2.3 Họ thuật toán dựa mật độ 2.3.1 Thuật toán DBSCAN Thuật toán DBSCAN ((Density Based Spatial Clustering of Applications with Noise) Martin Ester tác giả khác đề xuất thuật toán gom tụm dựa mật độ, hiệu với sở liệu lớn, có khả xử lý nhiễu.Ý tưởng thuật tốn vùng lân cận đối tượng cụm có số đối tượng lớn ngưỡng tối thiểu Hình dạng vùng lân cận phụ thuộc vào hàm khoảng cách đối tượng (nếu sử dụng khoảng cách Manhattan không gian chiều vùng lân cận có hình chữ nhật, sử dụng khoảng cách Eucler không gian chiều vùng lân cận có hình tròn).Các đối tượng cụm phân làm loại: đối tượng bên Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 25 cụm (core point: đối tượng lõi) đối tượng nằm đường biên cụm (border point: đối tượng biên) Định nghĩa 1: Lân cận với ngưỡng Eps điểm ( Eps – Neighborhood of a point) Một điểm p muốn nằm cụm C lân cận với ngưỡng Eps phải có tối thiểu Minpts điểm Số điểm tối thiểu chọn tốn khó Nếu số điểm tối thiểu lớn điểm nằm thực cụm C đạt đủ tiêu chuẩn, điểm nàm ngồi biên cụm khơng thể đạt điều Ngược lại số điểm tối thiểu lf nhỏ điểm rơi vào cụm Định nghĩa 2: Đến trực mật độ ( Directly Density-reachable) Một điểm p gọi đến trực tiếp từ điểm q với ngưỡng Eps Điểm q gọi điểm nhân (Core Point) Có thể thấy đến trực tiếp hàm phản xạ đối xứng hai điểm nhân bất đối xứng điểm đố điểm nhân Định nghĩa 3: Đến mật độ ( Density- Reachalbe) Một điểm p gọi đến tù điểm q theo hai tham số Eps Minpts nesu tồn dãy p = p 1, p2, p3… Pn =q thỏa mãn pi+1 đến trực tiếp từ pi Định nghĩa 4: Liên thông mật độ (Density – Connectivity) Một điểm p gọi điểm liên thông với điểm q theo hai tham số Eps với Mints tồn điểm o mà hai điểm p,q đến theo tham số Eps Minpts Liên thơng mật độ có tính chất đối xứng phản xạ 2.3.2 Thuật toán OPTICS Đây thuật toán mở rộng thuật toán DBSCAN, cách giảm bớt tham số đầu vào OPTICS (Ordering Points To Identify the Clustering Structure) xếp cụm theo thứ tự tăng dần nhằm tự động phân cụm liệu Thứ tự diễn tả cấu trúc liệu phân cụm dựa mật độ chứa thông tin tương đương với phân cụm dựa mật độ với dãy tham số đầu vào OPTICS xem xét bán kính tối thiểu nhằm xác định láng giềng phù hợp với thuật toán DBSCAN OPTICS tương tự với cấu trúc có độ phức tạp: O (nLogn) (N kích thước tập liệu Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 26 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 3.1 Phát biểu toán Ngày nay, phát triển xã hội người trọng đến sức khỏe Tỷ lệ khám chữa bệnh bệnh viện Đại học y Hà Nội nói riêng bệnh viện khác nói chung gia tăng đáng kể Để phục vụ tốt cho bệnh nhân bệnh viện Đại học Y Hà Nội áp dụng công nghệ tiên tiến để điều trị bệnh nhân Sau chẩn đoán bệnh, số bệnh nhân khơng có kết rõ ràng thí dụ họ có triệu chứng bệnh tim mạch bệnh lao phổi đưa bệnh nhân đến khoa để điều trị cần phải có phân tích dựa sở khoa học Phân cụm bệnh nhân giúp chuyên gia việc xác định phân loại bệnh nhân thí dụ vừa nêu Phân cụm liệu đưa cho chuyên gia kết từ đưa khuyến cáo cho người bệnh Ví dụ phân cụm bệnh nhân cho biết bệnh Lao phổi, bệnh Tim mạch….thường độ tuổi hay mắc phổ biến khu vực Từ cho người khuyến cáo bệnh độ tuổi địa phương 3.2 Xác định mục tiêu cần khai phá Yêu cầu: - Từ tập sở liệu lớn bệnh nhân Bệnh viện Đại học Y Hà Nội, phân cụm bệnh nhân cụm - Phân cụm rõ ràng, chất lượng - Từ kết phân cụm giúp cho bệnh viện, bệnh nhân, xã hội Mục đích: - Tư vấn cho bệnh nhân bệnh mà họ mắc phải - Đánh giá nhận xét: Ở độ tuổi kết điều trị có tỉ lệ khả quan cao thấp - Đánh giá ảnh hưởng mức độ nghề nghiệp họ làm tới sức khỏe bệnh họ mắc phải - Đánh giá kết điều trị: khỏi bệnh, thuyên giảm, không thay đổi, nặng hơn, tử vong bệnh mức độ nghề nghiệp bệnh nhân liên quan đến kết điều trị họ Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 27 - Khuyến cáo vùng miền hay mắc bệnh từ mở thêm chi nhánh trọng khoa bệnh vùng miền 3.3 Lựa chọn thuật tốn Như em trình bày chương II, có nhiều thuật tốn để phân loại liệu bệnh nhân, em xin trình bày thuật toán Kmeans để phân cụm liệu bệnh nhân Mục đích đề tìm mối tương quan đặc điểm bệnh nhân giống tuổi, mức độ nghề nghiệp kết điều trị… để giảm bớt thời gian khám bệnh cho bác sĩ xác định vùng bệnh cho nhân viên Y tế cộng đồng Kmeans thuật toán phù hợp với mức độ u cầu tốn triển khai với liệu lớn 3.4 Xây dựng chương trình 3.4.1 Tiền xử lý liệu Ngày nay, sở liệu dùng hệ thống lớn thường bị ảnh hưởng liệu nhiễu, thiếu, khơng qn Bởi dung lượng kích cỡ sở liệu lớn tích hợp từ nhiều nguồn liệu khác Mặt khác liệu mà chưa qua bước tiền xử lý liệu thường có chất lượng thấp làm cho kết sau khai phá liệu khơng có kết chất lượng cao Một câu hỏi đặt với người phát triển để có chất lượng liệu tốt đưa vào thuật toán khai phá liệu Nó tiền đề để đem lại kết thuận lợi xác cho thuật tốn khai phá liệu Do liệu tiến hành tiền xử lý trước đưa vào cài đặt thuật tốn khai phá Có số kỹ thuật tiền xử lý liệu đời : - Làm liệu (Data cleaning): Là bước xử lý với liệu nhiễu, không đầy đủ khơng qn Q trình thực làm liệu cách điền giá trị thuộc tính thiếu cho ghi mà thuộc tính chưa có giá trị, nhận dạng xóa bỏ liệu ngoại lai giải - không quán cách đặt tên sở liệu Tích hợp liệu (Data integration): Là bước tích hợp liệu từ nhiều nguồn liệu khác thành kho liệu có tính logic chặt chẽ Data Warehouse Thông thường nguồn liệu thường sở liệu, khối liệu, tệp Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 28 - Biến đổi liệu (Data transformations): Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai - phá bước sau Rút gọn liệu (Data reduction): Là bước làm giảm kích cỡ liệu hay số lượng thuộc tính ghi, trì tồn vẹn liệu Phương pháp thường sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histogram, lấy mẫu… Để cài đặt thuật toán Kmeans em sử dụng liệu Bệnh án từ bệnh viện Đại học Y Hà Nội Do bệnh án gồm nhiều trường nên em lấy số thơng tin đại diện để đưa vào thuật tốn phân cụm Hồ sơ bệnh án gồm thông tin sau: Hành chính: - Họ tên -Ngày sinh - Giới tính - Nghề Nghiệp - Địa - Quốc tịch - Nơi làm việc - Dân tộc - Đối tượng - Giá trị BHYT Quản lý người bệnh - Ngày vào viện - Nơi giới thiệu - Chuyển trực tiếp - Vào khoa -Chuyển khoa - Chuyển viện -Ra viện Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 29 - Tổng số ngày điều trị Chẩn đoán - Nơi chuyển đến - KKB, cấp cứu -Khi vào khoa điều trị - Ra viện Tình trạng viện -Kết điều trị - Giải phẫu -Tình hình tử vong -Nguyên nhân tử vong -Khám nghiệm tử thi -Chuẩn đốn giải phẫu tử thi Từ thông tin bệnh án em lọc trường đại diện để đưa vào thuật tốn nhằm mục đích thấy rõ phân cụm sau: giới tính, tuổi, mức độ nghề nghiệp , kết điều trị, khoa, địa Hình 3.1 Dữ liệu đầu vào bệnh nhân Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thơng 30 3.4.2 Xây dựng chương trình Chương trình gồm module: a Module liệu đầu vào Hiển thị liệu bảng Benhnhan cho người dùng xem Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 31 - Dữ liệu đầu vào: b Module Chuẩn hóa : Chuẩn hóa liệu Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 32 Do thuật toán K-mean áp dụng cho liệu kiểu int, em xin trình bày • • • • c liệu chuẩn hóa em sau: Tuổi bệnh nhân em giữ nguyên kiểu int Giới tính chuyển sang kiểu int: Nam Nữ Mức độ nghề nghiệp phân theo cấp: o An tồn: o Trung bình: o Nguy hiểm: Kết điều trị: o Khỏi bệnh: o Thuyên giảm: o Không thay đổi: o Nặng hơn: o Tử vong: Module Phân cụm liệu Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 33 Bước 1: Chọn số cụm để tiến hành phân tích: Ở em giới hạn 10 cụm cho phù hợp với chương trình Bước 2: Tiến hành phân cụm Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 34 Sau ta kích hoạt nút Phân cụm, chương trình tiến hành phân cụm bệnh nhân dựa yếu tố Tuổi bệnh nhân Kết điều trị Với lựa chọn số cụm 5, ta có danh sách bệnh nhân chia vào nhóm tương ứng với cột Số nhóm cuối bảng hiển thị nhanh d Module Kết phân cụm gồm chức năng: o Chi tiết phân cụm: Hiện thị liệu tiến hành phân cụm trước Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 35 o Thống kê phân cụm: Thống kê lại trình phân cụm bệnh nhân theo số: số lượng bệnh nhân, tuổi nhỏ tuổi lớn o Hình ảnh theo kết điều trị độ tuổi: Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 36 Ở em hiển thị hình ảnh liệu theo tiêu chí: tuổi bệnh nhân kết điều trị Em chia liệu thành cụm hiển thị theo màu xanh, đỏ, vàng tương ứng với cụm bệnh nhân có độ tuổi từ 49-89, 21-37, 5-21 3.5 Nhận xét đánh giá Dựa vào bảng Kết phân cụm liệu hình ảnh ta thấy mốt số kết sau: - Đối tượng bệnh nhân có độ tuổi từ 49 đến 81 có kết điều trị khỏi bệnh - thấp, tỉ lệ thuyên giảm trung bình, tỉ lệ tử vong mức trung bình Đối tượng bệnh nhân có độ tuổi từ 21-37 có kết điều trị khỏi bệnh mức vừa, tỉ lệ thuyên giảm nặng cao Điều bất thường tỉ lệ tử vong lại lớn hẳn nhóm tuổi lại Từ rút kinh nghiệm nên ưu tiên xử trí - khám bệnh với nhóm tuổi để giảm tỉ lệ tử vong So với nhóm tuổi từ 5-21 có kết điều trị dự đoán, khỏi bệnh thuyên giảm cao sức khỏe, sức đề kháng tốt Dựa vào kết chương trình phân cụm ta đặt mức độ ưu tiên với nhóm bệnh nhân độ tuổi có khả bệnh tiến triển nặng trình khám chữa bệnh Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 37 KẾT LUẬN Trong thời gian thực đồ án, em tìm hiều thêm thuật tốn K-Means cách thức áp dụng thuật toán vào chương trình thử nghiệm với liệu bệnh nhân trường Đại học Y Hà Nội Qua em khái qt quy trình trọng vẹn thuật tốn khai thác thông tin từ liệu Với báo cáo em nêu lên hướng nghiên cứu lĩnh vực Data Mining Trong phân cụm liệu phương pháp tiêu biểu có nhiều ý nghĩa khoa học thực tiễn Báo cáo sâu vào lĩnh vực phân cụm liệu, nêu lên họ thuật toán phân cụm nghiên cứu sử dụng Đặc biệt thuật toán phân cụm liệu tập hỗn hợp K – Means, dựa đọc hiểu tài liệu tham khảo em cài đặt thuật toán thành ứng dụng minh họa tập liệu bệnh nhân Bệnh viện Đại học Y Hà Nội Ứng dụng “ Phân cụm bệnh nhân Bệnh viện Đại học Y Hà Nội ” phát triển thành chương trình phân cụm cho bệnh viện để Bệnh viện dùng phương pháp thống kê phân loại bệnh nhân để đánh giá nhận xét loại bệnh, khoa bệnh, địa khác từ đưa hướng tư vấn hướng dẫn cho bệnh nhân Ứng dụng giúp bệnh viện nắm bắt tình hình bệnh bệnh nhân để từ đề xuất giải pháp tư vấn điều trị hợp lý Tóm lại phân cụm liệu nói chung phân cụm liệu tập liệu hỗn hợp nói riêng ngày quan tâm nước ta giới Phân cụm liệu bước chứng minh tầm quan trọng vai trò lĩnh vực khoa học máy tính lĩnh vực kinh tế - xã hội Trong trình làm báo cáo cố gắng tìm hiểu sâu lĩnh vực phân cụm liệu, nhiên không tránh khỏi thiếu sót Em mong bảo góp ý thầy bạn bè Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông 38 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] I Tổng quan Data mining Bài giảng Datamining – Tiến sĩ Đặng Thị Thu Hiền (Đại học giao thông vận tải) [2] Chương II Một sốt thuật toán -– Tiến sĩ Đặng Thị Thu Hiền (Đại học giao thông vận tải) [4] Hồng Xn Huấn- Giáo trình học máy 2015 (50-70) [5] Nguyễn Nhật Quang “Bài giảng khai phá liệu” Đại học Bách Khoa Hà Nội [6] http://vi.wikipedia.org/wiki/Khai_phá_dữ_liệu Tiếng Anh: [3] Kardi Teknomo(July 2007) – K Mean Clustering Tutorial (1-11) [7] http://en.wikipedia.org/wiki/K-means Giáo viên hướng dẫn: Đặng Thị Thu Hiền Sinh viên: Nguyễn Duy Thông ... đồ án hồn thành ngày hơm Mặc dù cố gắng đồ án em khơng khỏi thiếu sót, em mong cảm thơng ý kiến đống góp quý báu thầy để em hồn thiện đồ án tốt Em xin chân thành cảm ơn SINH VIÊN NGUYỄN DUY THÔNG... đánh giá họ thuật toán dùng để phân cụm liệu Chương : Xây dựng ứng dụng sử dụng thuật toán phân cụm để phân tích liệu bệnh nhân Kết luận : Tóm tắt vấn đề tìm hiểu đồ án vấn đề liên quan đồ án, ... tất láng giềng duy t mà có Maxneighbor số láng giềng duy t 2.2 Họ Thuật toán phân cấp 2.2.1 Thuật toán BIRCH BIRCH (Balanced Iterative Reducing an Clustering Using Hierarchies) thuật toán phân

Ngày đăng: 05/11/2017, 16:12

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM

    • 1.1 Tại sao phải khai phá dữ liệu?

    • 1.2 Khai phá dữ liệu là gì?

    • 1.3 Các thành phần cơ bản của khai phá dữ liệu

    • 1.4 Các bước chính trong khai phá dữ liệu

    • 1.5 Phân loại khai phá dữ liệu

    • 1.6 Phạm vi ứng dụng của khai phá dữ liệu

    • 1.7 Những thách thức - khó khăn trong khai phá dữ liệu

      • 1.7.1 Các vấn đề về cơ sở dữ liệu

      • 1.7.2 Một số vấn đề khác

    • 1.8 Phân cụm dữ liệu

      • 1.8.1 Khái niệm phân cụm

      • 1.8.2 Ứng dụng của phân cụm

    • 1.9 Kết luận

    • 2.1 Họ thuật toán phân hoạch

      • 2.1.1 Thuật toán K-means

      • 2.1.2 Thuật toán PAM

      • 2.1.4 Thuật toán CLARANS

    • 2.2 Họ Thuật toán phân cấp

      • 2.2.1 Thuật toán BIRCH

      • 2.2.2 Thuật toán CURE

    • 2.3 Họ thuật toán dựa trên mật độ

      • 2.3.1 Thuật toán DBSCAN

      • 2.3.2 Thuật toán OPTICS

  • CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG

    • 3.1 Phát biểu bài toán

    • 3.2 Xác định mục tiêu cần khai phá

    • 3.3 Lựa chọn thuật toán

    • 3.4 Xây dựng chương trình

      • 3.4.1 Tiền xử lý dữ liệu

      • 3.4.2 Xây dựng chương trình

    • 3.5 Nhận xét đánh giá

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan