phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số

65 866 1
phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRƯƠNG THỊ PHƯƠNG THẢO PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành Hà Nội - 2011 2 Lời cam đoan Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng được trích dẫn hợp pháp. Tôi xin hoàn chịu trách nhiệm chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Học viên Trương Thị Phương Thảo 3 Mục lục Lời cam đoan 2 Mục lục 3 Danh mục các ký hiệu, các chữ viết tắt 4 Danh mục các bảng 5 Danh mục các hình vẽ, đồ thị 6 Mở đầu 7 CHƯƠNG 1. GIỚI THIỆU 8 CHƯƠNG 2. HỆ THỐNG TRÍCH CHỌN THÔNG TIN 14 2.1. Xây dựng hệ thống trích chọn thông tin 14 2.1.1. Công nghệ tri thức 14 2.1.2. Huấn luyện tự động 14 2.2. Các phương pháp trích chọn 15 2.2.1. Họcgiám sát trích chọn quan hệ 16 2.2.2. Học không giám sát trích chọn quan hệ 18 2.2.3. Học bán giám sát trích chọn quan hệ 21 2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction 22 2.2.3.2. Hệ thống SNOWBALL 26 2.3. Nhận xét 32 CHƯƠNG 3. MÔ HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂỨNG DỤNG 33 3.1. Mô tả bài toán 33 3.2. Mô hình giải quyết bài toán 33 3.3. Mô hình hệ thống 35 3.3.1. Pha tiền xử lí 36 3.3.2. Pha sinh các mẫu 43 3.3.3. Pha sinh các bộ quan hệ mới 48 CHƯƠNG 4. THỰC NGHIỆM 50 4.1. Môi trường thực nghiệm 50 4.2. Dữ liệu thực nghiệm 50 4.3. Đánh giá hệ thống 51 4.4. Thực nghiệm 51 Kết luận hướng phát triển tương lai 61 Tài liệu tham khảo 62 Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet 64 4 Danh mục các ký hiệu, các chữ viết tắt IE Information Extraction NE Named Entity MUC Message Understanding Conferences NER Named Entity Recognition IR Information Retrieval DIPRE Dual Iterative Pattern Relation Extraction 5 Danh mục các bảng Bảng 1: Các luật của AutoSlog 18 Bảng 2: Năm bộ quan hệ hạt giống của hệ thống DIPRE 24 Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 24 Bảng 4: Ví dụ về việc sinh các mẫu DIPRE 26 Bảng 5: Năm bộ quan hệ hạt giống của hệ thống Snowball 27 Bảng 6: Một số lớp thường dùng trong WordNet 45 Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm 50 Bảng 8: Các công cụ sử dụng trong thực nghiệm 50 Bảng 9: Các thư viện sử dụng trong thực nghiệm 50 Bảng 10: Dữ liệu kiểm thử dữ liệu huấn luyện 51 Bảng 11: Tập các quan hệ hạt giống ban đầu 51 Bảng 12: Một số cặp <camera, producer> ở lần lặp đầu tiên 52 Bảng 13: Giá trị Precision, Recall F1 sau các vòng lặp 52 Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup 54 Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 55 Bảng 16: Kết quả so sánh giữa thực nghiệm 1 2 55 Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 1200 56 Bảng 18: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 5000 56 Bảng 19: Bảng thống kê kết quả trích chọn khi áp dụng giải thuật DIPRE cho bài toán trích chọn tên máy ảnh số 56 Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được 58 Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao xuất hiện nhiều 58 Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máy ảnh phổ biến nhất 59 Bảng 23: Kết quả thực nghiệm 5 - Thốngsố lượng máy ảnh theo hãng sản xuất 60 Bảng 24: Các quan hệ ngữ nghĩa trong WordNet 64 6 Danh mục các hình vẽ, đồ thị Hình 1: Minh họa về một hệ thống trích chọn thông tin 8 Hình 2: Ví dụ về khai phá quan điểm 10 Hình 3: đồ hoạt động của hệ thống AutoSlog 17 Hình 4: đồ hoạt động của hệ thống AutoSlog – TS 19 Hình 5: Ví dụ về AutoSlog - TS 21 Hình 6: Mô hình hoạt động của hệ thống DIPRE 22 Hình 7: Mô hình hoạt động của hệ thống Snowball 27 Hình 8: Các sự kiện tìm được dựa vào bộ quan hệ hạt giống 28 Hình 9: Mô hình hệ thống trích chọn tên máy ảnh số 35 Hình 10: Mô hình của pha tiền xử lí 36 Hình 11: Mô hình thuật toán sinh mẫu từ một bộ quan hệ 43 Hình 12: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 1200 53 Hình 13: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup 54 Hình 14: Kết quả thực nghiệm 3 (a) thực nghiệm 4 (b) đối với giá trị F1 57 7 Mở đầu Trích chọn thực thểbài toánbản nhất trong các bài toán trích chọn thông tin nhưng lại đóng vai trò khá quan trọng. Thực thể tên ngày càng được ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn tập trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên ứng dụng vào trích chọn thực thể tên máy ảnh trên web. Cấu trúc luận văn gồm 4 chương: Chương 1: Giới thiệu một cách khái quát nhất bài toán trích chọn thông tin, tính ứng dụng thực tiễn của bài toán. Chương 2: Trình bày một số các khái niệm liên quan đến bài toán trích chọn thông tin, các phương pháp trích chọn thông tin. Với mỗi phương pháp trình bày một mô hình minh họa. Đây là cơ sở luận quan trọng để luận văn đề xuất một mô hình áp dụng với bài toán trích chọn thực thể. Cụ thể luận văn lựa chọn hướng tiếp cận học bán giám sát. Chương 3: Ứng dụng phương pháp học bán giám sát vào hệ thống trích chọn tên máy ảnh kĩ thuật số. Chương 4: Kết quả thực nghiệm của luận văn, đánh giá phương pháp kết quả đạt được. Phần kết luận: Tóm lược những nội dung chính đạt được của luận văn đồng thời cũng chỉ ra những điểm cần khắc phục đưa ra những định hướng nghiên cứu trong tương lai. 8 CHƯƠNG 1. GIỚI THIỆU Với sự bùng nổ của Internet các phương tiện lưu trữ đã tạo ra một lượng thông tin khổng lồ. Bên cạnh đó nhu cầu về tốc độ xử lý thông tin cũng như tính chính xác ngày càng tăng. Hiện nay, các máy tìm kiếm (search engine) thực hiện việc tìm những trang web phù hợp với yêu cầu câu hỏi người dùng. Mặc dù chất lượng của các máy tìm kiếm đã được cải thiện nhưng kết quả trả về chỉ là những tài liệu có liên quan, chúng không dễ dàng gì rút ra được các mối quan hệ tiềm ẩn tạo được các câu trả lời cho các truy vấn phức tạp, chẳng hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhà lãnh đạo quốc tế trên toàn thế giới”. Người ta phân loại câu trả lời các truy vấn ở dạng: có phân tích các tài liệu liên quan để tập hợp những thông tin cần thiết. Nếu nhiều mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài liệu thì nó tự động tổng hợp cấu trúc hóa, điều này rất tốt không chỉ cho các hệ thống truy vấn thông tin mà còn cho các hệ thống hỏi đáp tự động tóm tắt văn bản. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thông tin bổ ích. Đó là lĩnh vực mà “trích chọn thông tin” nghiên cứu. Trích chọn thông tin (Information Extraction - IE) là công việc trích ra các thông tin có cấu trúc từ các văn bản không có cấu trúc. Nói cách khác, một hệ thống trích chọn thông tin rút ra những thông tin đã được định nghĩa trước về các thực thể mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó. Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số thông tin đáng quan tâm ở một lĩnh vực nào đó. Ví dụ hệ thống trích chọn các bộ quan hệ <tên máy ảnh, hãng sản xuất> từ các tài liệu web, bổ sung chúng vào cơ sở dữ liệu. Canon has posted a firmware update for its EOS 7D digital SLR. Pentax has announced the Optio RS1500 compact camera with interchangeable, user designable covers. Casio and Ricoh have released firmware updates for the Exilim EX-H20G and G700SE digital cameras respectively Hình 1: Minh họa về một hệ thống trích chọn thông tin Producer Cam era Canon EOS 7D Pentax Optio RS1500 Casio Exilim EX-H20G Ricoh G700SE 9 Có rất nhiều mức độ cũng như nội dung công việc trích chọn thông tin khác nhau. Một số bài toán trích chọnthể liệt kê như sau:  Trích chọnthực thể tên (Named Entity –NE). Một thực thể tên là một thực thể được đặt một tên riêng, ví dụ như “Barack Obama” là một thực thể tên người, “Microsoft Corporation” là thực thể tên công ty/ tổ chức [7, 17].  Trích chọn thông tin là đi tìm những quan hệ giữa các đối tượng có tên được chỉ định trước. Ví dụ: từ một câu “Bill Gates là chủ tịch của Microsoft”, chúng ta muốn hệ thốngthể đưa ra được kết quả: Bill Gates là một tên người, Microsoft là tên một tổ chức Bill Gates ông chủ của Microsoft. Một số quan hệ khác có thể là: quan hệ sát nhập (affiliation); quan hệ vai trò (role); quan hệ về vị trí, địa điểm (location); quan hệ toàn thể-bộ phận (part-whole); quan hệ nhân quả (cause-effect); các mối quan hệ xã hội … giữa các cặp thực thể. Ví dụ, câu “George Bush được bầu làm tổng thống của Mỹ.” Thì quan hệ, “George Bush” (Person) là “tổng thống” của “Mỹ”, có thể được rút ra. [5]  Trích chọn sự kiện cho miền dữ liệu tin tức dưới dạng khung mẫu (template). Mỗi khung mẫu bao gồm tập hợp các slot cần được lấp đầy bởi một hoặc nhiều giá trị. Những giá trị này có thể bao gồm văn bản thuần túy, các con trỏ trỏ tới các đối tượng khung mẫu khác [4, 9]. Ví dụ: “4 Apr. Dallas - Early last evening, a tornado swept through northwest Dallas. The twister occurred without warning at about 7:15 pm and destroyed two mobile homes. The Texaco station at 102 Main St. was also severely damaged, but no injuries were reported.” Đoạn văn bản tóm tắt câu chuyện về thảm họa tự nhiên lốc xoáy, trích chọn các thông tin về ngày thời gian xảy ra, thiệt hại tài sản hay thương tích về con người do sự kiện gây ra. Hệ thốngthể trích chọn ra khung mẫu sau: Event: tornado Date: 4/3/97 Time: 19:15 Location: “northwest Dallas”: Texas: USA Damage: “mobile homes” (đối tượng bị thiệt hại – Damaged Object) “Texaco station” (đối tượng bị thiệt hại)  Khai phá quan điểm (opinion mining): trong lĩnh vực này ta cần trích chọn ra các nhận định của người dùng về một đối tượng nào đó [14]. Hình 2 chỉ ra một trong các quan điểm mà ta có thể trích ra là thông tin 10 người dùng nhận thấy “the colors of pictures” được chụp bởi sản phẩm Powershot là “great”. Hình 2: Ví dụ về khai phá quan điểm  Ngoài ra tùy vào từng ứng dụng cụ thể mà ta có thể cần trích chọn các đối tượng khác trong văn bản, chẳng hạn trích chọn các nguyên nhân dẫn đến một loại bệnh nào đó [10], … Con người, thời gian, địa điểm, các con số, là những đối tượng cơ bản trong một văn bản dù ở bất kì ngôn ngữ nào. Do đó thực thể tên là một đối tượng được quan tâm rất nhiều ngày càng trở nên quan trọng, nó đang được khai thác ứng dụng trong nhiều bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) cũng như khai phá văn bản khai phá web (Web Mining). Mục đích chính của bài toán nhận biết các loại thực thể là xác định những đối tượng này từ đó phần nào giúp cho chúng ta trong việc hiểu văn bản. Rõ ràng trước khi có thể xác định được các mối quan hệ giữa các thực thể ta phải xác định được đâu là các thực thể tham gia vào mối quan hệ đó. Ví dụ về một số ứng dụng của thực thể tên trong lĩnh vực xử lý ngôn ngữ tự nhiên khai phá dữ liệu văn bản, web là:  Dịch máy (Machine Translation): khi chúng ta phát hiện ra được một thực thể tên trong một văn bản thì khi dịch sang ngôn ngữ mới ta thường để nguyên thực thể tên đó chứ không dịch [12]. I just bought a Powershot a few days ago. I took some pictures using the camera. Here are my feelings: (1) colors are so great even when flash is used (2) easy to grip since the body has a grip handle Opinion holder (writer) Suject <Powershot> Part <picture> Attribute <colors> Evaluation <great> Condition <flash is used> Opinion unit 1 Opinion holder (writer) Suject <Powershot> Part < > Attribute < > Evaluation <easy to grip> Condition <body has a grip handle> Opinion unit 2 [...]... hình học lại phức tạp hơn họcgiám sát Trong khi đó, học bán giám sát được xem như là một phương pháp tối ưu để giảm thiểu chi phí cũng như tài nguyên xây dựng Phương pháp này kết hợp được ưu điểm, giảm bớt những nhược điểm của phương pháp họcgiám sát học không giám sát 33 CHƯƠNG 3 MÔ HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂ ỨNG DỤNG Trên cơ sở phân tích ưu nhược điểm của các phương pháp. .. các phương pháp trích chọn quan hệ, luận văn đã lựa chọn phương pháp học bán giám sát trích chọn thực thể tên Trong chương này luận văn đề xuất một mô hình trích chọn thực thể mới sau đó áp vào trích chọn tên máy ảnh kĩ thuật số Cụ thể luận văn sẽ đề xuất một mô hình mới dựa trên thuật toán trích chọn quan hệ DIPRE 3.1 Mô tả bài toán Cho một tập tài liệu là các văn bản dạng thô, trích chọn ra các cặp... vấn thông tin, hệ thống hỏi đáp, phân loại văn bản…  … Muốn khai thác được thực thể tên vào các bài toán cụ thể thì công việc đầu tiên là phải nhận dạng ra được các thực thể tên có trong văn bản Do đó bài toán nhận dạng thực thể tên (Named Entity Recognition – NER) ngày càng trở nên bài toán mang tính chất rất quan trọng rất cần làm tăng chất lượng của nó Luận văn tập trung vào bài toán trích chọn. .. dạng không có sự phân loại, người dùng dễ bị ngột thở bởi rất nhiều các luồng thông tin các dạng thông tin, việc lấy ra các thông tin cần thiết cho nhu cầu sử dụng của mình là rất khó khăn Một nhu cầu đơn giản của người dùng là xác định tên máy ảnh này do hãng nào sản xuất từ hàng nghìn các thông tin trên mạng Internet Một ứng dụng khác của việc trích chọn tên các máy ảnh số là tìm thêm các thông. .. Các phương pháp trích chọn Vì các giải thuật dựa trên luật đòi hỏi tri thức của các chuyên gia khả năng thích ứng với các miền dữ liệu mới là hạn chế, nên luận văn sẽ tập trung 16 vào các giải thuật học máy Phần này sẽ giới thiệu một số giải thuật học máy trong trích chọn thông tin 2.2.1 Họcgiám sát trích chọn quan hệ a Giới thiệu: Một hướng tiếp cận thường sử dụng trong nhiều hệ thống trích chọn. .. sát, có giám sát bán giám sát đều thể hiện được những ưu nhược điểm riêng của mình Đối với họcgiám sát, chất lượng trích chọn của hệ thống trên những miền dữ liệu cụ thể là rất tốt, tuy nhiên chi phí đối với việc xây dựng tập dữ liệu là rất tốn kém, do đó khả năng mở rộng miền ứng dụng là khó khăn Đối với phương pháp học không giám sát cho khả năng học với lượng dữ liệu lớn hơn tốc độ nhanh... ẩn dưới các thực thể tên đó Ở đây luận văn tập trung vào việc trích chọn tên máy ảnh kĩ thuật số có sử dụng giải thuật học bán giám sát Thị trường máy ảnh kỹ thuật số hiện có không dưới 10 nhãn hiệu nổi tiếng trên thế giới như Sony, Canon, Fujifilm, Olympus đến Konica, Nikon, Samsung, Pentax Nhiều nhà sản xuất chuyên về công nghệ thông tin cũng tham gia vào thị trường này như Epson, HP cho thấy đây... loại máy ảnh thường ở dạng kí tự in hoa, có thể bao gồm cả chữ số; tập các hãng sản xuất máy ảnh là hữu hạn, ta có thể liệt kê một cách dễ dàng Trong bài toán trích chọn tên máy ảnh số:  Bộ quan hệ: cặp  Một mẫu là bộ - 4: (order, tag1, middle, tag2); trong đó tag1 tag2 là thực thể Order là thứ tự xuất hiện của tag 1và tag2 trong câu Middle là ngữ cảnh... các thực thể tên được mở rộng hơn như tên các loại bệnh, tên các loại protin, tiêu đề bài báo, tên các cuộc hành trình… WWW chứa đựng một nguồn thông tin khổng lồ, cực kỳ phân tán, từ cơ sở dữ liệu DNA đến danh sách các nhà hàng ưu thích Tuy nhiên dữ liệu rải rác trong hàng ngàn nguồn thông tin với nhiều định dạng khác nhau Nếu các mẩu thông tin này có thể được trích chọn từ WWW tích hợp vào... việc tạo ra một số các mẫu không mong muốn Do đó con người phải xem xét lại các mẫu được sinh ra, quyết định xem mẫu nào sẽ được giữ lại để phục vụ cho quá trình trích chọn sau này 2.2.2 Học không giám sát trích chọn quan hệ a Giới thiệu: Với số lượng gần như vô hạn của văn bản không có nhãn có thể truy cập vào các trang web các nguồn khác, các phương pháp học không giám sátthể khai thác văn . áp dụng với bài toán trích chọn thực thể. Cụ thể luận văn lựa chọn hướng tiếp cận học bán giám sát. Chương 3: Ứng dụng phương pháp học bán giám sát vào. pháp trích chọn 15 2.2.1. Học có giám sát trích chọn quan hệ 16 2.2.2. Học không giám sát trích chọn quan hệ 18 2.2.3. Học bán giám sát trích chọn quan

Ngày đăng: 17/02/2014, 20:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan