Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động

Khai phá dữ liệu và kho dữ liệu 2012 MỤC LỤC LỜI CÁM ƠN 1 LỜI MỞ ĐẦU 2 PHẦN 1: CƠ SỞ LÝ THUYẾT 4 1.4 Bài toán thu thập thông tin (Information retrieval - IR) 18 1.4.1 Khái niệm thu thập thông n: 18 1.4.2 Các phương pháp thu thập thông n: 19 1.4.2.1 Các phương pháp chuẩn: 20 1.4.2.1.1 Mô hình Boolean: 20 1.4.2.1.1.1 Các hàm so sánh: 20 1.4.2.1.1.2 Tìm kiếm tuần tự: 21 1.4.2.1.1.3 Thực hiện: 21 1.4.2.1.2 Mô hình không gian vec-tơ (Vector space model - VSM) 22 1.4.2.1.2.1 Tiếp cận phương thức TF * IDF: 23 1.4.2.1.2.2 Độ tương đồng (similarity) 24 1.4.2.1.2.3 Thực hiện: 25 1.4.2.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method): 26 1.4.2.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 26 1.4.2.2.2 Tổng quan về mạng nơ-ron 27 1.4.2.2.3 Mô hình truyền ngược ba lớp 28 1.4.2.2.4 Chức năng của mạng: 30 PHẦN 2: MỘT SỐ ỨNG DỤNG KHAI PHÁ DỮ LIỆU VĂN BẢN 33 2.1 Ứng dụng phương pháp NAIVE BAYES trong bộ lọc thư rác tự động: 33 2.1.1 Các công nghệ lọc thư rác hiện nay 33 2.1.2 Quá trình hoạt động của bộ lọc thư rác Bayes 34 2.1.3 Sự hoạt động của các bộ lọc thư rác thực tế 35 2.1.4 Các ưu điểm của bộ lọc thư rác Bayes 35 2.2 Cài đặt và thử nghiệm ứng dụng khai phá dữ liệu văn bản trong một bệnh viện: 35 37 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO 39 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 LỜI CÁM ƠN  Trong thời gian thực hiện đề tài, em đã nhận được rất nhiều sự động viên, khích lệ và hỗ trợ từ phía thầy cô, cha mẹ và bạn bè. Con xin gửi tất cả lòng biết ơn và sự kính trọng của con đến cha mẹ cùng toàn thể gia đình, những người đã sinh thành, dưỡng dục và luôn ở bên con, ủng hộ và giúp đỡ con trong quá trình học tập. Em cảm ơn khoa Công nghệ Thông tin, trường Đại học Công nghệ Thông tin đã tạo điều kiện cho em thực hiện đề tài. Em xin gửi lời cảm ơn tới các thầy cô trong khoa công nghệ thông tin nói chung, bộ môn khoa học máy tính nói riêng đã tạo điều kiện giúp đỡ, truyền đạt những kiến thức và kỹ năng cần thiết để em hoàn thành nhiệm vụ học tập của mình. Xin chân thành cảm ơn thầy PGS.TS. Đỗ Phúc đã tận tình giảng dạy và hướng dẫn để em hoàn thành đề tài này. Em cũng xin chân thành cảm ơn các bạn trong lớp đã động viên và chia sẻ kinh nghiệm trong học tập nghiên cứu và giúp đỡ trong quá trình làm đề tài. Tuy nhiên vì thời gian cũng như tri thức còn hạn chế, nên đề tài không tránh khỏi những thiếu sót nhất định. Rất mong nhận được mọi sự đóng góp ý kiến từ quý thầy cô và bạn bè. 1 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 LỜI MỞ ĐẦU Bước sang thế kỷ 21, nhân loại đã chuyển từ xã hội công nghiệp sang xã hội thông tin. Với mạng Internet tốc độ cao ngày càng được mở rộng trên toàn thế giới, với việc ứng dụng công nghệ thông tin ngày càng sâu hơn trong nhiều lĩnh vực, nhu cầu và khả năng kết nối, chia sẻ thông tin của con người đang trở nên lớn hơn bao giờ hết. Để không bị tụt hậu lại phía sau, mọi quốc gia, mọi tổ chức kinh tế xã hội đều nhận thức được vai trò quan trọng không thể thiếu của công nghệ thông tin trong việc nâng cao hiệu quả hoạt động, thúc đẩy sự phát triển của quốc gia, tổ chức mình. Tuy nhiên, trong thời đại của công nghệ thông tin nơi mà dữ liệu đa dạng và phong phú. Người dùng thường bị choáng ngợp bởi lượng thông tin vô cùng to lớn và do đó không thể tiếp nhận tất cả những lợi ích mà thông tin mang tới. Khoa học máy tính đã bị thách thức để khám phá ra những cách tiếp cận mà có thể sắp xếp được lượng dữ liệu vô tận hiện có và tìm ra những đặc trưng thiết yếu cần có để phục vụ cho lợi ích của người dùng. Những cách tiếp cận này phải có thể xử lí những lượng lớn dữ liệu trong thời gian nhanh và loại bỏ những dữ liệu không liên quan hay không chính xác để trích xuất ra những thông tin, tri thức quý báu cho chúng ta. Trong bối cảnh thông tin đang bùng nổ như hiện nay. Khai thác dữ liệu và phát hiện tri thức sao cho có hiệu quả là điều cần thiết. Kỹ thuật khai phá dữ liệu và phát triển tri thức đã và đang được các nhà khoa học nghiên cứu, ứng dụng trong nhiều lĩnh vực. Kỹ thuật này có nhiều mô hình, giải thuật cũng như các phần mềm đã được nghiên cứu và phát triển để khai phá dữ liệu và phát hiện tri thức tìm ẩn. Ở Việt Nam, việc ứng dụng công nghệ thông tin nói chung và khai phá dữ liệu nói riêng vẫn còn hạn chế, lý do chủ yếu có thể là do hạ tầng mạng, công nghệ của Việt Nam còn chưa thực sự phát triển. Tuy nhiên trong những năm trở lại đây tình hình đã được cải thiện rất tích cực. 2 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 Qua một thời gian tìm hiểu, em chọn đề tài cho bài thu hoạch của mình là: “Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động”. Đồ án tập trung tìm hiểu về lý thuyết, một số kĩ thuật liên quan đến khai phá dữ liệu văn bản và ví dụ về ứng dụng khai phá dữ liệu văn bản bằng phương pháp Naive Bayes 3 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 PHẦN 1: CƠ SỞ LÝ THUYẾT Trong thời đại công nghệ thông tin ngày nay, các công nghệ lưu trữ dữ liệu ngày càng phát triển tạo điều kiện cho các công ty lưu trữ dữ liệu tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinh doanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình. Chính vì lý do đó mà các kho dữ liệu của các công ty ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Kỹ thuật khai phá dữ liệu (Data mining) ra đời như một kết quả thiết yếu nhằm đáp ứng các nhu cầu biến thông tin thành tri thức có ích. Ngoài ra, khai phá dữ liệu trong đó có lĩnh vực khai phá dữ liệu văn bản (Text mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Nhiều kỹ thuật khai phá dữ liệu văn bản đã được nghiên cứu và phát triển như Naïve Bayes, cây quyết định, phương pháp Support vector machine,… 1.1 Quá trình khám phá tri thức: Hình 1: Quá trình khám phá tri thức 4 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 Khám phá tri thức trong cơ sở dữ liệu là quy trình trọng yếu của nhận dạng hợp lệ, tiểu thuyết, tiềm ẩn hữu ích, và mẫu hình dễ hiểu cuối cùng trong dữ liệu.( Frawley, W. J et al. (1991)). Khám phá tri thức từ cơ sở dữ liệu là quy trình sử dụng cơ sở dữ liệu cùng với bất kỳ lựa chọn yêu cầu, tiền xử lý, nhóm - lấy mẫu, và biến đổi nó ; để áp dụng phương pháp khai phá dữ liệu (thuật toán) để liệt kê mẫu hình từ nó; và để đánh giá sản phẩm của khai phá dữ liệu để nhận dạng tập hợp con của mẫu hình liệt kê cho là kiến thức.( Fayyad, U.M et al. (1996). Advances in Knowledge Discovery and Data Mining. MIT Press). Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: • Data cleaning (làm sạch dữ liệu) • Data integration (tích hợp dữ liệu) • Data selection (chọn lựa dữ liệu) • Data transformation (biến đổi dữ liệu) • Data mining (khai phá dữ liệu) • Pattern evaluation (đánh giá mẫu) • Knowledge presentation (biểu diễn tri thức) Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với: • Data sources (các nguồn dữ liệu) • Data warehouse (kho dữ liệu) • Task-relevant data (dữ liệu cụ thể sẽ được khai phá) • Patterns (mẫu kết quả từ khai phá dữ liệu) • Knowledge (tri thức đạt được) 5 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 Hình 2: Quá trình khám phá tri thức được thực thi 1.2 Khái niệm Text Mining: 1.2.1 Khai phá dữ liệu (Data Mining): Khai phá dữ liệu là phân tích các dữ liệu và sử dụng các kỹ thuật để trích xuất tri thức từ lượng dữ liệu rất lớn. Tri thức đạt được từ quá trình khai phá: • Tri thức đạt được có thể có tính mô tả hay dự đoán tùy thuộc vào quá trình khai phá cụ thể. o Mô tả (Descriptive): có khả năng đặc trưng hóa các thuộc tính chung của dữ liệu được khai phá (Tình huống 1) o Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán (Tình huống 2, 3, và 4) • Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc. • Tri thức đạt được có thể được | không được người dùng quan tâm -> các độ đo đánh giá tri thức đạt được. 6 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 • Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quy trình, quản lý thông tin, xử lý truy vấn … Hình 3: tri thức đạt được từ quá trình khai phá dữ liệu Hình 4: Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ. 7 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 1.2.2 Kiến trúc của một hệ thống khai phá dữ liệu: Hình 5: Kiến trúc của một hệ thống khai phá dữ liệu 1. Database, data warehouse, World Wide Web, và information repositories: • Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá. • Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu. 2. Database hay data warehouse server: • Thành phần chịu trách nhiệm chuẩn bị dữ liệu thích hợp cho các yêu cầu khai phá dữ liệu. 3. Knowledge base: • Thành phần chứa tri thức miền, được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả được tìm thấy. • Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, … 4. Data mining engine: 8 GVHD: PGS.TS. Đỗ Phúc Học viên: Võ Hồng Phương [...]... biệt trong lĩnh vực thu thập thông tin 32 GVHD: PGS.TS Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 PHẦN 2: MỘT SỐ ỨNG DỤNG KHAI PHÁ DỮ LIỆU VĂN BẢN 2.1 Ứng dụng phương pháp NAIVE BAYES trong bộ lọc thư rác tự động: 2.1.1 Các công nghệ lọc thư rác hiện nay Hiện nay thư rác là một nỗi phiền toái của người dùng Vì vậy một số công nghệ lọc thư rác phổ biến ra đời để đáp ứng nhu... pháp phân loại văn bản K-NN (K – Nearest Neighbor) Tư tưởng chính của giải thuật này là tính toán độ phù hợp của văn bản đang xét với từng nhóm chủ đề dựa trên K văn bản mẫu có độ tương tự gần nhất Giải thuật này còn được sử dụng trong bài toán tìm kiếm văn bản và bài toán tóm tắt văn bản 1.3.2.5 Phương pháp Support Vector Machine: 15 GVHD: PGS.TS Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và. .. toán khai phá dữ liệu văn bản Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó Các điều kiện này có thể là một truy vấn hay là một văn bản Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu. .. tác giữa người sử dụng và hệ thống khai phá dữ liệu • Người sử dụng có thể chỉ định câu truy vấn hay tác vụ khai phá dữ liệu • Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện khai phá dữ liệu sâu hơn thông qua các kết quả khai phá trung gian • Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/ kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu khai phá được; trực quan... từng từ xuất hiện trong văn bản đó - Các thuật ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ, chuỗi từ đó thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá văn bản được thực hiện trên các khái niệm được gán nhãn cho mỗi văn bản Ưu điểm của phương pháp này là các thuật ngữ được tách ra ít và có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn hai phương pháp trước đây • Các loại... trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và các kỹ thuật khai phá dữ liệu cơ sở 10 GVHD: PGS.TS Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh hai bài toán cụ thể, đó là bài toán phân loại dữ liệu văn bản (Text categorization) và bài toán thu thập thông tin (information retrieval)... dạng văn bản Đó là các công văn giấy tờ, các biểu mẫu hồ sơ bệnh án, các phiếu đặt hàng, các thư tín điện tử (email), các thông tin điện tử trên các website thư ng mại Sau gần 50 năm phát triển cơ sở dữ liệu, người dùng vẫn dùng các hệ thống lưu trữ ở dạng văn bản và có xu hướng dùng thư ng xuyên hơn Tuy nhiên các kỹ thuật khai phá dữ liệu văn bản phức tạp hơn nhiều so với các kỹ thuật khai phá dữ liệu. .. GVHD: PGS.TS Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 pháp này thư ng dựa theo các phương pháp toán học cổ điển Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo 1.4.2.1 Các phương pháp chuẩn: 1.4.2.1.1 Mô hình Boolean: Boolean là mô hình nghiên cứu chiến lược, đơn giản nhất , và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lược xa hơn Các... toán phân loại thư điện tử, là vectơ đặc trưng biểu diễn cho nội dung thư như trong phần phân loại Bayes và y i là nhãn phân loại đối với dữ liệu huấn luyện Thư mới được phân loại theo công thức: giá trị âm là thư bình thư ng, trong khi giá trị dương tương ứng với thư rác 16 GVHD: PGS.TS Đỗ Phúc Học viên: Võ Hồng Phương Khai phá dữ liệu và kho dữ liệu 2012 1.3.2.6 Sử dụng từ điển phân cấp chủ đề: Một. .. tạo bởi hai vector (một vector biểu diễn văn bản cần phân loại D, một vector biểu diễn lớp văn bản c i) làm độ đo sự phù hợp giữa văn bản D với loại văn bản ci D sẽ được xác định thuộc vào loại văn bản ci nào mà cosin( , ) là lớn nhất 1.3.2.2 Mô hình xác suất Naive Bayes: Cơ sở của phương pháp phân loại văn bản Naive Bayes là chủ yếu dựa trên các giả định của Bayes Với mỗi văn bản D (document), người . kho dữ liệu 2012 Qua một thời gian tìm hiểu, em chọn đề tài cho bài thu hoạch của mình là: Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes. Bayes trong bộ lọc thư rác tự động . Đồ án tập trung tìm hiểu về lý thuyết, một số kĩ thuật liên quan đến khai phá dữ liệu văn bản và ví dụ về ứng dụng khai phá dữ liệu văn bản bằng phương pháp. hoạt động của bộ lọc thư rác Bayes 34 2.1.3 Sự hoạt động của các bộ lọc thư rác thực tế 35 2.1.4 Các ưu điểm của bộ lọc thư rác Bayes 35 2.2 Cài đặt và thử nghiệm ứng dụng khai phá dữ liệu văn

Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CÁM ƠN

LỜI MỞ ĐẦU

PHẦN 1: CƠ SỞ LÝ THUYẾT

1.4 Bài toán thu thập thông tin (Information retrieval - IR)

1.4.1 Khái niệm thu thập thông tin:

1.4.2 Các phương pháp thu thập thông tin:

1.4.2.1 Các phương pháp chuẩn:

1.4.2.1.1 Mô hình Boolean:

1.4.2.1.1.1 Các hàm so sánh:

1.4.2.1.1.2 Tìm kiếm tuần tự:

1.4.2.1.1.3 Thực hiện:

1.4.2.1.2 Mô hình không gian vec-tơ (Vector space model - VSM)

1.4.2.1.2.1 Tiếp cận phương thức TF * IDF:

1.4.2.1.2.2 Độ tương đồng (similarity)

1.4.2.1.2.3 Thực hiện:

1.4.2.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method):

1.4.2.2.1 Kỹ thuật mạng Nơ-ron (Neural network)

1.4.2.2.2 Tổng quan về mạng nơ-ron

1.4.2.2.3 Mô hình truyền ngược ba lớp

1.4.2.2.4 Chức năng của mạng:

PHẦN 2: MỘT SỐ ỨNG DỤNG KHAI PHÁ DỮ LIỆU VĂN BẢN

2.1 Ứng dụng phương pháp NAIVE BAYES trong bộ lọc thư rác tự động:

2.1.1 Các công nghệ lọc thư rác hiện nay

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan