Nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện

55 579 1
Nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN HIỆP NGHIÊN CỨU PHƯƠNG PHÁP XẾP HẠNG KẾT QUẢ TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu phương pháp xếp hạng kết tìm kiếm sở liệu bệnh viện” công trình nghiên cứu Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn, có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Hà Nội, ngày tháng năm 2015 Học viên Trần Văn Hiệp LỜI CẢM ƠN Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Trí Thành - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội trực tiếp hướng dẫn tận tình giúp đỡ em suốt thời gian thực luận văn Em xin gửi lời cảm ơn chân thành tới toàn thể thầy cô giáo Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội dạy dỗ, giúp đỡ bảo cho em suốt trình học tập Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, đồng nghiệp, người bên cạnh em để động viên, giúp đỡ tạo điều kiện tốt để em hoàn thành luận văn Hà Nội, ngày tháng năm 2015 Học viên Trần Văn Hiệp MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIẾU MỞ ĐẦU CHƯƠNG 1:TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN 1.1 Tổng quan 1.1.1 Giới thiệu 1.1.2 Ý nghĩa khoa học thực tiễn 10 1.1.3 Tầm quan trọng 10 1.1.4 Mục đích 10 1.2 Truy tìm thông tin 11 1.2.1 Hệ thống tìm kiếm thông tin 11 1.2.2 Các hệ thống thông tin khác 12 1.2.3 Các mô hình tìm kiếm thông tin 13 1.2.4 Xếp hạng tài liệu 14 1.3 Kết luận 14 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP XẾP HẠNG 15 2.1 Một số phương pháp tìm kiếm 15 2.1.1 Mô hình tìm kiếm Boolean 15 2.1.2 Tìm kiếm tương tự 17 2.1.3 Độ đo tương tự Cosine 18 2.2 Một số phương pháp xếp hạng 19 2.2.1 Phương pháp xếp hạng dựa cấu trúc 19 2.2.2 Phương pháp dựa nội dung 20 2.2.2.1 Phương pháp xếp hạng Cosine 22 2.2.2.2 Phương pháp xếp hạng Cosine Short Segments 27 2.2.2.3 Phương pháp xếp hạng Dice 27 2.2.2.4 Phương pháp xếp hạng Jaccard 27 2.2.2.5 Phương pháp xếp hạng Matching 28 2.2.2.6 Phương pháp Overlap 28 2.3 Kết luận 28 CHƯƠNG 3: ĐỀ XUẤT CẢI TIẾN PHƯƠNG PHÁP XẾP HẠNG 29 3.1 Bài toán ứng dụng 29 3.1.1 Giới thiệu toán 29 3.1.2 Mô tả chi tiết 31 3.1.3 Chức tìm kiếm chẩn đoán 35 3.1.4 Mô hình hệ thống tìm kiếm 37 3.2 Phương pháp đề xuất 38 3.3 N-gram áp dụng 38 3.4 Kết luận 41 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 42 4.1 Dữ liệu thực nghiệm phương pháp đánh giá 42 4.1.1 Chuẩn bị liệu thực nghiệm 42 4.1.2 Phương pháp đánh giá kết tìm kiếm 42 4.2 Một số kết chạy chương trình 44 4.2.1 Kết chạy phương pháp xếp hạng khác cho truy vấn tập liệu loại bệnh 44 4.2.1.1 Kết tìm kiếm 44 4.2.1.2 Kết phương pháp xếp hạng 45 4.2.2 4.3 Kết đánh giá phương pháp với truy vấn khác 51 Kết luận 52 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT STT Từ viết tắt/thuật ngữ Từ tiếng Anh Ý nghĩa CSDL Database Cơ sở liệu IDF Inverse Document Frequency Nghịch đảo tần số văn TF Term Frequency Tần số thuật ngữ IR Information Retrieval Truy tìm thông tin DANH MỤC CÁC HÌNH VẼ Hình 2.1 Mô hình mục ngược 17 Hình 2.2 Minh họa tương tự cosine 25 Hình 3.1 Biểu đồ hoạt động chức tìm kiếm chẩn đoán bệnh 36 Hình 3.2 Mô hình hệ thống tìm kiếm 37 DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Giá trị TF-Document 23 Bảng 2.2 Giá trị TF-Document 23 Bảng 2.3 Giá trị TF-Document 23 Bảng 2.4 Giá trị Normalized TF- Document 23 Bảng 2.5 Giá trị Normalized TF- Document 23 Bảng 2.6 Giá trị Normalized TF- Document 23 Bảng 2.7 Giá trị IDF Document 24 Bảng 2.8 Giá trị TF  IDF Query 26 Bảng 2.9 Giá trị TF  IDF Document 26 Bảng 2.10 Cosine Similarity 27 Bảng 3.1 Danh sách n-gram 39 Bảng 3.2 Kết tìm kiếm truy vấn “bệnh lậu” 39 Bảng 3.3 Kết xếp hạng Jaccard truy vấn “bệnh lậu” 40 Bảng 3.4 Kết xếp hạng Jaccard n-gram truy vấn “bệnh lậu” 41 Bảng 4.1 Thiết kế bảng danh mục ICD 42 Bảng 4.2 Dữ liệu danh mục ICD 42 Bảng 4.3 Kết tìm kiếm truy vấn “viêm họng” 45 Bảng 4.4 Kết xếp hạng Cosine truy vấn “viêm họng” 46 Bảng 4.5 Kết xếp hạng Cosine Short Segments truy vấn “viêm họng” 47 Bảng 4.6 Kết xếp hạng Dice truy vấn “viêm họng” 47 Bảng 4.7 Kết xếp hạng Jaccard truy vấn “viêm họng” 48 Bảng 4.8 Kết xếp hạng Matching truy vấn “viêm họng” 49 Bảng 4.9 Kết xếp hạng Overlap truy vấn “viêm họng” 50 Bảng 4.10 Kết đánh giá xếp hạng MAP 51 Bảng 4.11 Kết so sánh phương pháp xếp hạng 52 Bảng 4.12 Kết đánh giá xếp hạng áp dụng n-gram MAP 52 MỞ ĐẦU Tin học ngày phát triển, thay việc hàng ngày phải viết thông tin hồ sơ lên giấy, thông tin số hóa lưu trữ máy tính dạng sở liệu thông qua ứng dụng tin học Lợi ích việc số hóa liệu lưu trữ quản lý tốt hơn, tra cứu, trích xuất thông tin dễ dàng Thông tin hồ sơ số hóa ngày nhiều vấn đề đặt để tìm kiếm thông tin tập hồ sơ hàng nghìn trí đến hàng triệu triệu cách nhanh nhất, hiệu đòi hỏi ứng dụng tin học cần phải xây dựng giải thuật tìm kiếm tối ưu đảm bảo tốc độ tìm kiếm giá trị người dùng cần Đối với lĩnh vực tìm kiếm thông tin, người dùng tìm kiếm thu kết phù hợp kết quả, kết trả lượng lớn giá trị phù hợp, người dùng khó dò tìm kết để tìm nhanh kết muốn tìm Theo tâm lý thông thường người dùng xem qua vài chục ghi không đủ thời gian để xem tất kết trả Do xếp hạng kỹ thuật đánh giá giá trị kết tập liệu trả về, xếp hạng độ quan trọng để người dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn Có nhiều hệ thống tìm kiếm cần đến kỹ thuật xếp hạng để cung cấp cho người dùng tìm thấy tài liệu nhanh xếp nhu cầu hệ thống tìm kiếm sở liệu bệnh viện cần tới Đề tài nghiên cứu hướng tới phương pháp xếp hạng Trên sở tìm hiểu nắm vững phương pháp xếp hạng vận dụng vào việc tìm kiếm xếp hạng sở liệu bệnh viện Bố cục luận văn gồm chương: Chương Tổng quan toán tìm kiếm sở liệu bệnh viện trình bày tổng quan toán tìm kiếm sở liệu bệnh viện Chương Một số phương pháp xếp hạng trình bày phương pháp xếp hạng, áp dụng công thức ví dụ minh họa thực nghiệm cho phương pháp Chương Đề xuất cải tiến phương pháp xếp hạng trình bày toán ứng dụng áp dụng phương pháp xếp hạng, cách thức cải tiến phương pháp xếp hạng để đạt kết xếp hạng tốt Chương Thực nghiệm đánh giá thực thi chương trình tìm kiếm áp dụng phương pháp xếp hạng với số liệu thu thập được, so sánh kết phương pháp Đánh giá kết phương pháp để chọn phương pháp xếp hạng tốt CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN 1.1 Tổng quan 1.1.1 Giới thiệu Hiện nay, việc tạo sản phẩm Tin Học mang tính đặc thù Việt Nam điều cần phải quan tâm, đặc biệt phần mềm mang lại hiệu làm việc hoạt động mang tính hành Việc quản lý số lượng lớn bệnh nhân thông qua hồ sơ bệnh án, theo dõi tiến trình luân chuyển hồ sơ, việc thống kê y tế công việc hành vụ Một số bệnh viện có khối lượng bệnh nhân lớn nơi cần công cụ hỗ trợ Tin học phần công cụ ứng dụng tìm kiếm liệu Mỗi người dùng tìm kiếm thu kết phù hợp kết quả, kết trả lượng lớn giá trị phù hợp, người dùng khó dò tìm kết để tìm nhanh kết muốn tìm Theo tâm lý thông thường người dùng xem qua vài chục ghi không đủ thời gian để xem tất kết trả Do xếp hạng kỹ thuật đánh giá giá trị kết tập liệu trả về, xếp hạng độ quan trọng để người dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn Vì đề tài nghiên cứu hướng tới phương pháp xếp hạng, đánh giá chọn phương pháp thực tốt Trên sở tìm hiểu nắm vững phương pháp xếp hạng vận dụng vào việc tìm kiếm sở liệu bệnh viện, điển hình toán xếp hạng chẩn đoán theo danh mục bệnh tật quốc tế Thông thường việc ghi chẩn đoán có tầm quan trọng sau:  Quan trọng cho thầy thuốc Giúp thầy thuốc phát triển tư duy, tích cực suy nghĩ lựa chọn chẩn đoán theo logic (Ví dụ: chẩn đoán tử vong cách lười biếng “Sốc không hồi phục” Phải suy nghĩ tìm nguyên nhân) Tăng trình độ biện luận lâm sàng trình độ chuyên môn  Trong tương quan thầy thuốc người bệnh Giúp thầy thuốc lưu tâm tìm hiểu người bệnh nhiều có thêm hội suy nghĩ đến người bệnh, người bệnh tử vong tay Thể y đức người bệnh bệnh  Trong tương quan thầy thuốc khoa học Thầy thuốc ghi chẩn đoán - thống theo danh mục mã số bệnh tật quốc tế đóng góp lớn cho khoa học, vì: ghi chẩn đoán liệu có giá trị nghiên cứu khoa học Rất quan trọng thời đại Công Nghệ Thông Tin 40 Kết chưa sử dụng n-gram Độ đo Truy vấn: bệnh lậu 0.222 A54.41 Bệnh lý thoái hóa khớp lậu 0.2 O98.21 Bệnh lậu gây biến chứng cho thai nghén 0.166 A54.39 Nhiễm trùng mắt khác lậu cầu, Bệnh nội nhãn lậu cầu 0.153 A54.24 Bệnh viêm vùng chậu nữ nhiễm lậu cầu, Viêm chậu phúc mạc lậu cầu 0.142 O98.2 Bệnh lậu gây biến chứng cho thai nghén, đẻ sau đẻ 0.142 O98.219 Thai với biến chứng bệnh lậu, không xác định giai đoạn thai kỳ 0.125 O98.211 Bệnh lậu gây biến chứng cho thai nghén, tháng đầu thai kỳ 0.125 O98.213 Bệnh lậu gây biến chứng cho thai nghén, tháng thứ thai kỳ 0.117 O98.212 Bệnh lậu gây biến chứng cho thai nghén, tháng thứ thai kỳ Bảng 3.3 Kết xếp hạng Jaccard truy vấn “bệnh lậu” 41 Kết sử dụng n-gram Độ đo Truy vấn: bệnh lậu 0.142 O98.21 Bệnh lậu gây biến chứng cho thai nghén 0.083 O98.2 Bệnh lậu gây biến chứng cho thai nghén, đẻ sau đẻ 0.083 O98.219 Thai với biến chứng bệnh lậu, không xác định giai đoạn thai kỳ 0.071 O98.211 Bệnh lậu gây biến chứng cho thai nghén, tháng đầu thai kỳ 0.066 O98.212 Bệnh lậu gây biến chứng cho thai nghén, tháng thứ thai kỳ 0.066 O98.213 Bệnh lậu gây biến chứng cho thai nghén, tháng thứ thai kỳ A54.24 Bệnh viêm vùng chậu nữ nhiễm lậu cầu, Viêm chậu phúc mạc lậu cầu A54.39 Nhiễm trùng mắt khác lậu cầu, Bệnh nội nhãn lậu cầu A54.41 Bệnh lý thoái hóa khớp lậu Bảng 3.4 Kết xếp hạng Jaccard n-gram truy vấn “bệnh lậu” 3.4 Kết luận Chương trình bày toán ứng dụng cụ thể quản lý bệnh viện áp dụng đề tài vào chức nhỏ tìm kiếm chẩn đoán ứng dụng Đề xuất cải tiến phương pháp xếp hạng áp dụng mô hình n-gram 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương này, tác giả trình bày kết thực nghiệm cài đặt phương pháp xếp hạng trình bày với số liệu thực tế liệu danh mục bệnh tật quốc tế Phần đầu chương, tác giả đưa số liệu cụ thể phương pháp đánh giá kết tìm kiếm Phần thứ hai, tác giả đưa kết thực phương pháp kết đánh giá phương pháp 4.1 Dữ liệu thực nghiệm phương pháp đánh giá 4.1.1 Chuẩn bị liệu thực nghiệm Dữ liệu cần chuẩn bị liệu danh mục bệnh tật quốc tế với số lượng 34111 ghi liệu Sau có liệu chẩn đoán, liệu lưu bảng danh mục ICD bao gồm dòng ghi tương ứng với mã chẩn đoán tên chẩn đoán Bảng danh mục ICD thiết kế sau: STT Tên trường Kiểu liệu Diễn giải ICDCode nvarchar(50) Mã chẩn đoán ICDName nvarchar(250) Tên chẩn đoán Bảng 4.1 Thiết kế bảng danh mục ICD Ta có bảng liệu sau: ICDCode Z96.693 Z96.698 Z96.7 Z96.8 Z96.81 Z96.89 Z96.9 Z97 Z97.0 Z97.1 … A38 ICDName Thay khớp ngón tay hai bàn tay hai bên Tồn dụng cụ cấy khớp chỉnh hình khác Tồn dụng cụ cấy xương gân Tồn dụng cụ cấy chức đặc hiệu khác Tồn da nhân tạo Tồn dụng cụ cấy ghép chức chuyên biệt khác Tồn dụng cụ cấy, không xác định Tồn dụng cụ cấy khác Tồn mắt nhân tạo Tồn chi nhân tạo (toàn bộ) (một phần) … Sốt phát ban (tinh hồng nhiệt) Bảng 4.2 Dữ liệu danh mục ICD 4.1.2 Phương pháp đánh giá kết tìm kiếm Mục tiêu việc đánh giá phương pháp để khẳng định phương pháp thực tốt phương pháp việc đạt kết mong muốn 43 (chứ tốt ngẫu nhiên) Để đánh giá hệ thống truy tìm thông tin, hai tiêu trí sử dụng mức độ xác kết thời gian trả kết hệ thống Trong phần lớn nghiên cứu, việc đánh giá so sánh thực nghiệm hệ thống chủ yếu tập trung vào tiêu chí độ xác kết Để đánh giá chất lượng xếp hạng sử dụng độ đo đánh giá để định lượng độ xác tìm kiếm Độ xác độ đầy đủ [3] Độ xác tỉ lệ văn liên quan số văn trả Precision = # (văn liên quan trả về)/# (văn trả về) Độ đầy đủ tỉ lệ văn liên quan trả tổng số văn liên quan Recall = # (văn liên quan trả về)/# (văn liên quan) Liên quan Không liên quan Trả A (TP) B (FP) Không trả C (FN) D (TN) Ký hiệu P: độ xác, R: độ đầy đủ ta có công thức sau: A P A B  TP TP  FP R A AC  TP TP  FN Ví dụ: Với truy vấn “Bệnh tả” phương pháp đo Cosine cho văn ngắn Ký hiệu * văn liên quan đến truy vấn Ký hiệu - văn không liên quan đến truy vấn Bệnh tả - * * - * Độ 0/(0+1)=0 1/(1+1)=0.50 2/(2+1)=0.67 2/(2+2)=0.50 3/(3+2)=0.60 xác Độ đầy 0/3=0 đủ 1/3=0.33 2/3=0.67 2/3=0.67 3/3=1 Độ xác trung bình (average precision - AP) Ký hiệu vị trí văn liên quan danh sách kết quả: K1 , K ,…, K R Độ xác trung bình: AP   P @ Ki R 44 11 3 2 2 5 Ví dụ: Với truy vấn “Bệnh tả” ta có AP       0.59 Bình quân độ xác trung bình (Mean Average Precision - MAP) Bình quân độ xác trung bình: MAP  Q  R  P@ K i i Trong Ri số văn liệu liên quan với truy vấn qi Ví dụ: Với truy vấn “Bệnh dại” phương pháp đo Cosine cho văn ngắn ta tính AP = Vậy MAP = (AP (“Bệnh tả”) + AP (“Bệnh dại”)) / = (0.59 + 1) / = 0.80 Một hệ thống tìm kiếm thường chạy thử nghiệm nhiều truy vấn Do độ đo đề cập thường tính trung bình tất truy vấn sử dụng cho việc đánh giá phương pháp 4.2 Một số kết chạy chương trình 4.2.1 Kết chạy phương pháp xếp hạng khác cho truy vấn tập liệu loại bệnh Người dùng tìm kiếm ví dụ với truy vấn “viêm họng” Hệ thống tìm kiếm liệu bảng liệu danh mục ICD ghi có chứa từ “viêm” từ “họng” với câu lệnh truy vấn “SELECT * FROM ICD WHERE ICDName LIKE N'%viêm%' AND ICDName LIKE N'%họng%'”, sau thực tính độ đo theo phương pháp xếp hạng, xếp kết trả Dưới kết tìm kiếm kết phương pháp xếp hạng với truy vấn “viêm họng” 4.2.1.1 Kết tìm kiếm Truy vấn: viêm họng A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm A54.5 Viêm họng lậu cầu J02 Viêm họng cấp J02.0 Viêm họng liên cầu 45 J02.0.-1 Viêm Tấy Lan Toả Vùng Họng J02.8 Viêm họng cấp vi sinh vật xác định khác J02.9 Viêm họng cấp, không xác định J06.0 Viêm họng - quản cấp J31 Viêm mũi, viêm mũi họng viêm họng mãn J31.1 Viêm mũi họng mãn J31.2 Viêm họng mãn Bảng 4.3 Kết tìm kiếm truy vấn “viêm họng” 4.2.1.2 Kết phương pháp xếp hạng  Phương pháp xếp hạng Cosine Độ đo Truy vấn: viêm họng A54.5 Viêm họng lậu cầu J02.0 Viêm họng liên cầu J02.0.-1 Viêm Tấy Lan Toả Vùng Họng J06.0 Viêm họng - quản cấp J02.8 Viêm họng cấp vi sinh vật xác định khác 46 J31.1 Viêm mũi họng mãn J31.2 Viêm họng mãn J02 Viêm họng cấp J02.9 Viêm họng cấp, không xác định 0.980 J31 Viêm mũi, viêm mũi họng viêm họng mãn 0.948 A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm Bảng 4.4 Kết xếp hạng Cosine truy vấn “viêm họng”  Phương pháp xếp hạng Cosine Short Segments Độ đo Truy vấn: viêm họng 0.707 J02 Viêm họng cấp 0.632 J31.2 Viêm họng mãn 0.577 J31 Viêm mũi, viêm mũi họng viêm họng mãn 0.577 J31.1 Viêm mũi họng mãn 0.534 A54.5 Viêm họng lậu cầu 0.534 J02.0 Viêm họng liên cầu 47 0.534 J06.0 Viêm họng - quản cấp 0.5 J02.9 Viêm họng cấp, không xác định 0.471 J02.0.-1 Viêm Tấy Lan Toả Vùng Họng 0.408 A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm 0.408 J02.8 Viêm họng cấp vi sinh vật xác định khác Bảng 4.5 Kết xếp hạng Cosine Short Segments truy vấn “viêm họng”  Phương pháp xếp hạng Dice Độ đo Truy vấn: viêm họng 0.666 J02 Viêm họng cấp 0.571 J31.2 Viêm họng mãn 0.5 J31 Viêm mũi, viêm mũi họng viêm họng mãn 0.5 J31.1 Viêm mũi họng mãn 0.444 A54.5 Viêm họng lậu cầu 0.444 J02.0 Viêm họng liên cầu 0.444 J06.0 Viêm họng - quản cấp 0.4 J02.9 Viêm họng cấp, không xác định 0.363 J02.0.-1 Viêm Tấy Lan Toả Vùng Họng 0.285 A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm 0.285 J02.8 Viêm họng cấp vi sinh vật xác định khác Bảng 4.6 Kết xếp hạng Dice truy vấn “viêm họng” 48  Phương pháp xếp hạng Jaccard Độ đo Truy vấn: viêm họng 0.5 J02 Viêm họng cấp 0.4 J31.2 Viêm họng mãn 0.333 J31 Viêm mũi, viêm mũi họng viêm họng mãn 0.333 J31.1 Viêm mũi họng mãn 0.285 A54.5 Viêm họng lậu cầu 0.285 J02.0 Viêm họng liên cầu 0.285 J06.0 Viêm họng - quản cấp 0.25 J02.9 Viêm họng cấp, không xác định 0.222 J02.0.-1 Viêm Tấy Lan Toả Vùng Họng 0.166 A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm 0.166 J02.8 Viêm họng cấp vi sinh vật xác định khác Bảng 4.7 Kết xếp hạng Jaccard truy vấn “viêm họng” 49  Phương pháp xếp hạng Matching Độ đo Truy vấn: viêm họng A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm A54.5 Viêm họng lậu cầu J02 Viêm họng cấp J02.0 Viêm họng liên cầu J02.0.-1 Viêm Tấy Lan Toả Vùng Họng J02.8 Viêm họng cấp vi sinh vật xác định khác J02.9 Viêm họng cấp, không xác định J06.0 Viêm họng - quản cấp J31 Viêm mũi, viêm mũi họng viêm họng mãn J31.1 Viêm mũi họng mãn J31.2 Viêm họng mãn Bảng 4.8 Kết xếp hạng Matching truy vấn “viêm họng” 50  Phương pháp xếp hạng Overlap Độ đo Truy vấn: viêm họng A50.03 Viêm họng giang mai bẩm sinh sớm, Viêm quản giang mai bẩm sinh sớm A54.5 Viêm họng lậu cầu J02 Viêm họng cấp J02.0 Viêm họng liên cầu J02.0.-1 Viêm Tấy Lan Toả Vùng Họng J02.8 Viêm họng cấp vi sinh vật xác định khác J02.9 Viêm họng cấp, không xác định J06.0 Viêm họng - quản cấp J31 Viêm mũi, viêm mũi họng viêm họng mãn J31.1 Viêm mũi họng mãn J31.2 Viêm họng mãn Bảng 4.9 Kết xếp hạng Overlap truy vấn “viêm họng” 51 4.2.2 Kết đánh giá phương pháp với truy vấn khác Kết tính độ xác trung bình truy vấn sau tính bình quân độ xác trung bình ta có bảng kết sau: Độ xác trung bình/Truy Cosine vấn Cosine Short Dice Jaccard Matching Overlap Segments Bệnh tả 0.589 1.000 1.000 1.000 1.000 1.000 Bệnh dại 1.000 1.000 1.000 1.000 1.000 1.000 Bệnh gan 0.362 0.532 0.347 0.532 0.395 0.395 Bệnh mắt 0.443 0.324 0.324 0.324 0.415 0.415 Tiểu đường 0.116 0.428 0.428 0.428 0.639 0.639 Suy thận 0.722 0.813 0.845 0.845 0.793 0.793 Vàng da 1.000 1.000 1.000 1.000 1.000 1.000 Béo phì 1.000 1.000 1.000 1.000 1.000 1.000 Bệnh lậu 0.915 0.544 0.544 0.544 0.502 0.502 Bệnh da 0.261 0.274 0.274 0.274 0.244 0.244 Cận thị 1.000 1.000 1.000 1.000 1.000 1.000 Loạn thị 0.796 0.933 0.933 0.933 0.809 0.809 Viêm họng 0.823 0.887 0.887 0.887 0.919 0.919 Viêm xoang 0.962 0.935 0.935 0.935 0.936 0.936 Bình quân độ 0.714 0.762 0.751 0.764 0.761 0.761 xác trung bình/Truy vấn Bảng 4.10 Kết đánh giá xếp hạng MAP 52 Bảng kết so sánh phương pháp xếp hạng sau đánh giá truy vấn sau: STT Phương pháp Jaccard Cosine Short Segments Matching Overlap Dice Cosine Đánh giá 76,4 % 76,2 % 76,1 % 76,1 % 75,1 % 71,4 % Bảng 4.11 Kết so sánh phương pháp xếp hạng Kết tính độ xác trung bình phương pháp xếp hạng áp dụng ngram truy vấn sau tính bình quân độ xác trung bình ta có bảng kết sau: Độ xác trung Cosine Dice Jaccard Matching Overlap bình/Truy vấn Short N-gram N-gram N-gram N-gram Segments N-gram Bệnh tả 1.00 1.00 1.00 1.00 1.00 Bệnh dại 1.00 1.00 1.00 1.00 1.00 Bệnh gan 1.00 1.00 1.00 1.00 1.00 Bệnh mắt 1.00 1.00 1.00 1.00 1.00 Tiểu đường 1.00 1.00 1.00 1.00 1.00 Suy thận 1.00 1.00 1.00 1.00 1.00 Vàng da 1.00 1.00 1.00 1.00 1.00 Béo phì 1.00 1.00 1.00 1.00 1.00 Bệnh lậu 1.00 1.00 1.00 1.00 1.00 Bệnh da 1.00 1.00 1.00 1.00 1.00 Cận thị 1.00 1.00 1.00 1.00 1.00 Loạn thị 1.00 1.00 1.00 1.00 1.00 Viêm họng 1.00 1.00 1.00 1.00 1.00 Viêm xoang 1.00 1.00 1.00 1.00 1.00 Bình quân độ xác 1.00 1.00 1.00 1.00 1.00 trung bình/Truy vấn Bảng 4.12 Kết đánh giá xếp hạng áp dụng n-gram MAP 4.3 Kết luận Chương trình bày kết cài đặt đánh giá thử nghiệm với tập liệu cụ thể cho phương pháp: Cosine, Cosine Short Segments, Dice, Jaccard, Matching, Overlap Kết xếp hạng trả thể trực quan qua ứng dụng tìm kiếm Kết thực nghiệm cho thấy phương pháp xếp hạng áp dụng n-gram có kết mong muốn trả tốt 53 KẾT LUẬN Nội dung luận văn trình bày số kết nghiên cứu đạt sau đây:  Nghiên cứu cách thức hoạt động hệ thống truy tìm thông tin nói chung nghiên cứu phương pháp xếp hạng: Cosine, Cosine Short Segments, Dice, Jaccard, Matching, Overlap áp dụng lĩnh vực thống kê y tế  Cài đặt thử nghiệm phương pháp liệu thực tế danh mục chẩn đoán bệnh tật quốc tế, đánh giá, so sánh phương pháp để chọn phương pháp thực tốt Kết sử dụng n-gram kết hợp phương pháp xếp hạng, n-gram cho kết xác Ứng dụng luận văn hoàn toàn sử dụng với liệu khác liệu danh mục chẩn đoán bệnh tật quốc tế mà luận văn sử dụng phần thực nghiệm 54 TÀI LIỆU THAM KHẢO Tiếng Việt PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh Zdravko Markov, Daniel T Laroso, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage Teufel (2006, To Appear): Chapter An Overview of evaluation methods n TREC Ad-hoc Information Retrieval and TREC Question Answering In: L Dybkjaer, H Hemsen, W Minker (Eds.) Evaluation of Text and Speech Systems Springer, Dordrecht, The Netherlands Sahami, M., and Heilman, T 2006 A web-base kernel function for measuring the similarity of Short text snippets In Proc of WWW '06 Metzler, D.; Dumais, S.; and Meek, C 2007 Similarity measures for short segments of text In Proc of ECIR-07 Metzler, D., Bernstein , Y., Croft, W.B., Moffat, A., and Zobel, J Similarity measures for tracking information flow In Proceedings of CIKM '05 Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze Introduction to Information Retrieval Cambridge University Press, 2008 Internet https://janav.wordpress.com/2013/10/27/tf-idf-and-cosine-similarity/ [...]... số phương pháp xếp hạng Ngày nay có rất nhiều phương pháp xếp hạng được nghiên cứu và đưa ra dựa trên nội dung và cấu trúc của dữ liệu Đề tài nghiên cứu và lựa chọn phương pháp xếp hạng dựa trên nội dung áp dụng vào bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện Dưới đây đề tài trình bày phương pháp xếp hạng PageRank điển hình dựa trên cấu trúc và các phương pháp xếp hạng dựa trên nội dung 2.2.1 Phương. .. toán tìm kiếm trên cơ sở dữ liệu bệnh viện Để đạt được mục đích đề ra đề tài cần nghiên cứu: 11 Về mặt lý thuyết: Tìm hiểu kiến thức về tìm kiếm thông tin, xếp hạng trong hệ thống tìm kiếm thông tin, các phương pháp xếp hạng tài liệu, tiêu chí đánh giá kết quả xếp hạng Về mặt thực nghiệm: Cài đặt, đánh giá các phương pháp xếp hạng và chọn lựa thực nghiệm được phương pháp xếp hạng tốt nhất 1.2 Truy tìm. .. dụng quản lý bệnh viện nói riêng Đề tài đã tìm hiểu nghiên cứu các phương pháp xếp hạng áp dụng cài đặt nâng cao hiệu quả kết quả tìm kiếm trả về để người dùng dễ dàng nhìn thấy kết quả mong muốn Dưới đây đề tài trình bày đặc tả chức năng tìm kiếm chẩn đoán trong ứng dụng quản lý bệnh viện, áp dụng phương pháp xếp hạng Tên Tìm kiếm chẩn đoán Tác nhân Nhân viên Điều kiện trước Chọn chức năng tìm kiếm. .. phải xây dựng chức năng tìm kiếm Khi tìm kiếm một chẩn đoán nếu kết quả trả về nhiều giá trị phù hợp bác sĩ phải lựa chọn trong danh sách đó để tìm kết quả mình mong muốn Nhận thấy vấn đề này cần được cải tiến, đề tài nghiên cứu các phương pháp xếp hạng, đánh giá giá trị từng kết quả trong tập dữ liệu trả về xếp hạng độ quan trọng để giúp bác sĩ dễ dàng nhìn thấy kết quả tìm kiếm phù hợp mong muốn Xây... 1.1.2 Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Đề tài nghiên cứu các phương pháp xếp hạng, đánh giá kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện Ý nghĩa thực tiễn: Ứng dụng nhằm trợ giúp đáp ứng được nhu cầu tìm kiếm cho người sử dụng tìm kiếm thông tin dễ dàng nhìn thấy giá trị phù hợp mong muốn 1.1.3 Tầm quan trọng Kết quả xếp hạng giảm dần thứ tự độ quan trọng của chẩn đoán để người dùng... sách chẩn đoán phù hợp sắp xếp theo thứ tự giảm dần Dòng sự kiện chính 1 Nhập chuẩn đoán bệnh muốn tìm kiếm 2 Chọn nút tìm kiếm 3 Kiểm tra dữ liệu có không 4 Nếu dữ liệu cần tìm không có [E1] 5 Nếu có thực hiện tính hạng 6 Nếu tính hạng lỗi [E1] 7 Nếu tính hạng thành công trả về danh sách kết quả tính hạng 8 Sắp xếp kết quả tính hạng 9 Hiển thị thông tin chẩn đoán đã sắp xếp 10 Kết thúc Dòng sự kiện phụ... hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù hợp Yêu cầu đó không có thuật toán cụ thể, nhưng được đảm bảo chiến lược xếp hạng luôn ưu tiên cho những tài liệu hữu ích, tài liệu được coi là “gần” với truy vấn hơn sẽ được xếp lên trên tài liệu khác trong danh sách kết quả trả về 1.3 Kết luận Chương này đã trình bày giới thiệu về bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện, mục tiêu... trị cơ sở dữ liệu (DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi (QAS) và hệ tìm kiếm thông tin (IR) Việc hiểu biết sự khác nhau giữa hệ thống tìm kiếm thông tin và các hệ thống thông tin khác giúp ta hiểu rõ các kỹ thuật tìm kiếm văn bản  Hệ quản trị cơ sở dữ liệu (DBMS) DBMS đơn giản là một hệ thống được thiết kế nhằm thao tác và duy trì điều khiển cơ sở dữ liệu. .. khái quát về truy tìm thông tin, xếp hạng tài liệu 15 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP XẾP HẠNG 2.1 Một số phương pháp tìm kiếm 2.1.1 Mô hình tìm kiếm Boolean Ý nghĩa của việc truy tìm thông tin có thể rất lớn [7] Bạn chỉ cần nhận được một thẻ tín dụng từ ví của bạn để bạn có thể gõ vào số thẻ như một hình thức của truy tìm thông tin Tuy nhiên, như một nghiên cứu của một trường đại học, tìm kiếm thông tin... chất lượng khám chữa bệnh, có thể kết luận được ngay từ thời kì đầu của quá trình bệnh rất có lợi cho điều trị và phòng bệnh Đưa ra những hướng điều trị, đặt ra những giai đoạn điều trị và có thể đưa ra thêm những thông tin về bệnh 1.1.4 Mục đích Mục đích của đề tài là tìm hiểu các phương pháp xếp hạng, cài đặt, đánh giá, thực nghiệm các phương pháp xếp hạng lựa chọn phương pháp xếp hạng phù hợp vận dụng ... thống tìm kiếm sở liệu bệnh viện cần tới Đề tài nghiên cứu hướng tới phương pháp xếp hạng Trên sở tìm hiểu nắm vững phương pháp xếp hạng vận dụng vào việc tìm kiếm xếp hạng sở liệu bệnh viện Bố... số phương pháp xếp hạng Ngày có nhiều phương pháp xếp hạng nghiên cứu đưa dựa nội dung cấu trúc liệu Đề tài nghiên cứu lựa chọn phương pháp xếp hạng dựa nội dung áp dụng vào toán tìm kiếm sở liệu. .. pháp xếp hạng, đánh giá chọn phương pháp thực tốt Trên sở tìm hiểu nắm vững phương pháp xếp hạng vận dụng vào việc tìm kiếm sở liệu bệnh viện, điển hình toán xếp hạng chẩn đoán theo danh mục bệnh

Ngày đăng: 25/11/2015, 17:16

Tài liệu cùng người dùng

Tài liệu liên quan