Xử lý thông tin lâm sàng

Thông tin tài liệu

Phương pháp xử lý thông tin và phát triển chuẩn đoán bệnh

1. Xử lý thông tin lâm sàng 1.1.Phân tích sơ bộ: Trong quá trình tư vấn, bệnh nhân được phép nhập vào nội dung tùy ý, hệ thống có chức năng hiểu và đưa ra câu trả lời tương ứng hợp lý và chính xác. Nội dung bệnh nhân nhập vào là một xâu ký tự tiếng Việt, có hoặc không có cấu trúc. Với phiên bản thử nghiệm hệ thống chỉ chấp nhận các nội dung là ngôn ngữ chính thống của Việt Nam (không tính đến các tiếng dân tộc, tiếng địa phương, ). Đơn vị cấu thành từ tiếng việt là các âm tiết. Các âm tiết được phân tách nhau bởi một khoảng trắng. Một hoặc nhiều âm tiết đứng cạnh nhau (khoảng trắng coi như bỏ qua) kết hợp thành một từ. Do đó việc tách từ từ một xâu bất kỳ do bệnh nhân nhập vào chính xác là việc tìm ra các bộ âm tiết đứng cạnh nhau có nghĩa. Tuy nhiên do tính kết hợp và đa nghĩa của tiếng việt dẫn đến sự nhập nhằng, ví dụ xâu là âm tiết1-âm tiết2-âm tiết3 trong đó âm tiết1-âm tiết2 và âm tiết2-âm tiết3 đều có nghĩa. Do đó yêu cầu của hệ thống là tách từ phải đúng nghĩa và loại bỏ hết nhập nhằng. 1.2.Hướng tiếp cận: Hệ thống sử dụng phương pháp Automat hữu hạn để tách từ. Automat hữu hạn được hiểu là một phương pháp nhằm xác định một phần tử s có thuộc một tập W hay không. Trong bài toán tách từ tiếng việt thì Automat hữu hạn là xác định một xâu s có là một từ hay không (tập W là tập từ tiếng việt). - Các bước thực hiện: o Tách câu: Do đoạn hội thoại của bệnh nhân có thể là một câu, một xâu bất kỳ hoặc các xâu phân tách nhau bởi dấu nhắc xuống dòng. Nếu xâu ký tự không có dấu phân tách câu thì tiến hành xử lý như với một câu, nếu xâu chứa nhiều câu thì tiến hành tách câu dựa vào các dấu hiệu kết thúc câu (thông thường câu kết thúc bởi dấu chấm(.), dấu chấm cảm (!) hoặc dấu chấm hỏi (?). Tuy nhiên có một số trường hợp đặc biệt mà dấu chấm lại không phải để kết thúc câu ví dụ như : 10.000, hoặc TP.Hà Nội,…, với các trường hợp đặc biệt này thì hệ thống dựa vào các đặc trưng để đưa ra kết luận đó có phải là dấu kết thúc câu hay không. Tách câu trong bước này nhằm tạo dữ liệu đầu vào cho việc đưa ra các câu trả lời tương ứng từng câu. Đồng thời tùy từng câu hệ thống mà hệ thống dễ dàng hơn trong việc lựa chọn từ khóa (các triệu chứng bệnh). o Tách từ: Sử dụng đặc trưng n-gram âm tiết trong quá trình duyệt. N-gram âm tiết: Tiến hành xét n vị trí xung quanh từ đang xét. Như đã phân tích và những thống kê tương đối chính xác thì tiếng việt có khoảng > 40.000 từ, trong đó có 81,55% âm tiết là từ đơn, 15,69% các từ trong từ điển là từ đơ, 70.72% từ ghép có 2 âm tiết, 13,59% từ ghép >= 3 âm tiết và 1,04% là từ ghép >= 4 âm tiết. Do đó hệ thống lựa chọn n = 1 và 2. Xây dựng tập dữ liệu mẫu: Tập huấn luyện cần được xây dựng đầy đủ và chính xác nhất có thể nên hệ thống sử dụng khoảng 4000 tài liệu và bài báo. Do hệ thống hướng tới các bệnh ung thư nên tập huấn luyện được lựa chọn là các tài liệu và bài báo viết về bệnh ung thư, cách điều trị, các chú thích chuyên ngành, … Từ tập dữ liệu mẫu là các văn bản hệ thống tiến hành xử lý thông tin thô: Các từ xuất hiện trong tập dữ liệu mẫu được lưu lại dưới dạng bảng sau: Từ Số lần xuất hiện S1 N1 S2 N2 …. …. Sn Nn Các âm tiết trong tập dữ liệu cũng được lưu trữ dạng bảng: Âm tiết Số lần xuất hiện TK1 N1’ TK2 N2’ … … TKn Nn’ o Ý tưởng thuật toán: phương pháp sử dụng từ điển Giả sử một chuỗi được ký hiệu là s 1 s 2 s 3 …s n với s i là các âm tiết. Mô hình câu với các từ và vị trí tương ứng. Biểu diễn một xâu bằng một đồ thị có hướng tuyến tính G = (V,E), V={v 0 ,v 1 ,v 2 ,…,v n-1 ,v n }. Nếu các âm tiết s i+1 ,s i+2 ,…s j tạo thành một từ thì trong G có cạnh (v i ,v j ). Có nhiều cách tách từ tương ứng với một xâu, mỗi một đường đi từ v 0 đến v n là một cách. Thuật toán xây dựng đồ thị cho chuỗi s 0 ,s 1 ,s 2 , …, s n : Trong đó accept(A W , s i ,…,s j ) là automat A nhận xâu vào s. Hay nói cách khác, accept(A W , s i ,…,s j ) là kiểm tra xâu s i ,…,s j có thuộc tập A W (từ điển) hay không. Sau khi tạo được đồ thị G, sẽ có nhiều cách tách từ, mỗi cách tương ứng một đường đi từ điểm đầu tới điểm cuối của xâu. Tiến hành đánh trọng số cho các cạnh của đồ thị bằng cách tính xác suất xuất hiện cạnh đó – tức xác suất xuất hiện từ s i khi có từ s i-1 đứng trước. Cách tách từ được hệ thống lựa chọn là đường đi ngắn nhất từ đỉnh đầu tới đỉnh cuối của đồ thị. Cách tính xác suất: Khi n = 2, tính giá trị P(w i |w i-1 ) lớn nhất maximum likelihood (ML) P(w i |w i-1 ) = == Trong đó c(s) là số lần xâu s xuất hiện; N là tổng số từ trong tập luyện. Tuy nhiên khi dữ liệu tập huấn luyện nhỏ hơn kích cỡ toàn bộ tập dữ liệu thì P~0. Áp dụng kỹ thuật làm trơn cho xác suất trên để phân giải nhập nhằng: Với tập thử nghiệm T={s 1 ,s 2 ,…,s n }, xác suất P(T) của tập thử: P(T) = ∏ i=1 n P(si) Entropy của văn bản: Với N T là số từ trong T. Entropy tỉ lệ nghịch với xác suất trung bình của một cách tách từ cho xâu thử nghiệm. Cách xác định λ: Từ tập dữ liệu mẫu, định nghĩa C(w i-1 ,w i ) là số lần (w i-1 ,w i ) xuất hiện trong tập mẫu. Cần chọn λ 1 , λ 2 để làm cực đại giá trị: Với λ 1 +λ 2 = 1 và λ 1 , λ 2 >=0. Thuật toán tìm λ 1 , λ 2 : 1.3. Xử lý tìm keyword Trong cuộc hội thoại của người bệnh với hệ thống, người bệnh có thể nhập vào một xâu mà trong đó có các từ liên quan tới các triệu chứng bệnh, các thông tin về bệnh,… và các từ cấu thành câu bình thường khác. Để hiểu được nội dung đó, hệ thống cần phân biệt được các từ quan trọng (keyword) và các từ thông thường. Từ tập từ tách được từ bước tách từ trên hệ thống tiến hành lọc keyword bằng phương pháp lọc ngược, tức là lọc riêng các từ thông thường, có quy tắc trong cấu kết của câu, còn lại là các từ keyword nghi vấn. Quy luật của câu tiếng việt là chia thành các loại câu riêng biệt như câu tường thuật, câu nghi vấn, câu cảm thán,…dựa vào những từ đặc trưng như tại sao, thế nào, có không, ,và các dấu !, ?, các từ thông thường như và, hoặc, bạn, tôi, … hệ thống sẽ đưa ra kết luận về kiểu câu và tách được các từ nghi là keyword. Sau khi tách được các từ nghi ngờ, hệ thống so khớp chúng với tập những từ đặc trưng mẫu (gồm các triệu chứng, các thông tin liên quan tới bệnh,…). Nếu thỏa mãn thì đưa vào xử lý suy diễn ở phần sau, nếu không thỏa mãn thì hệ thống tiến hành tìm kiếm từ tương tự bằng cách xét các âm tiết riêng biệt, đưa ra các gợi ý cho người dùng lựa chọn nếu từ đó có nghĩa tương đương, ví dụ người dùng nhập buốt đầu, hệ thống sẽ gợi ý nhức đầu ?, đau đầu ?, .để người dùng sử dụng từ mà hệ thống đã có. Hệ thống sẽ thêm các triệu chứng mới đó vào dữ liệu luyện. . 1. Xử lý thông tin lâm sàng 1.1.Phân tích sơ bộ: Trong quá trình tư vấn, bệnh nhân được phép. chuyên ngành, … Từ tập dữ liệu mẫu là các văn bản hệ thống tiến hành xử lý thông tin thô: Các từ xuất hiện trong tập dữ liệu mẫu được lưu lại dưới dạng

Ngày đăng: 05/09/2013, 20:18

Xem thêm: Xử lý thông tin lâm sàng, Xử lý thông tin lâm sàng

Xử lý thông tin lâm sàng

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan