giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa

43 480 0
giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC (Giải pháp tổ chức lưu trữ xử tài liệ u văn bản tiếng việt ngữ nghĩa) Giảng viên phụ trách : GS. TSKH. Hoàng Kiếm Học viên thực hiện : Châu Kim Hùng – CH1101013 Lớp : CH.CNTT.K6 Khóa : 06 Tp HCM, Tháng 04 năm 2012 Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Hoàng Văn Kiếm, người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt chuyên đề này. Thầy đã định hướng cho chúng em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học cho đến những công việc cụ thể nhất. Em xin chân thành cảm ơn các thầy phòng đào tạo sau đại học, những người đã giúp đỡ, tạo điều kiện tốt cho em trong quá trình học tập thực hiện chuyên đề. Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị, bạn bè, những người luôn sát cánh, động viên chúng em trên bước đường học tập cũng như trong cuộc sống. Xin chân thành biết ơn sự tận tình dạy dỗ sự giúp đỡ của tất cả quý thầy tại trường Đại học Công Nghệ Thông Tin. Tất cả các kiến thức mà nhà trường quý thầy đã truyền đạt là hành trang to lớn để chúng em mang theo trên con đường học tập, làm việc nghiên cứu cũng như trong quá trình hoàn thiện nhân cách của mình. TP HCM, ngày 14 tháng 04 năm 2012 Học viên Châu Kim Hùng Lời nói đầu Để được định hướng, mục tiêu mong muốn trên con đường nghiên cứu khoa học, việc tìm hiểu nắm rõ “Phương pháp luận nghiên cứu Khoa học” là một điều cần thiết cho những người nghiên cứu để thể nắm rõ những nguyên tắc, phương pháp làm khoa học. Phương pháp luận nghiên cứu Khoa học là thuyết về phương pháp nghiên cứu khoa học, thuyết về con đường nhận thức, khám phá cải tạo hiện thực. Phương pháp luận nghiên cứu khoa học là kết quả của quá trình khái quát thuyết và thực tiễn nghiên cứu khoa học trở thành công cụ sắc bén để chỉ dẫn các nhà khoa học, các nhà quản trong công tác tổ chức, quản thực hành nghiên cứu khoa học một cách sang tạo. Nghiên cứu khoa học là một quá trình nhận thức chân khoa học, một quá trình lao động trí tuệ phức tạp, gian khổ nhưng đầy hào hứng, đầy hứa hẹn những triển vọng lớn lao trong việc nghiên cứu “những điểm trắng” của khoa học. Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững thuyết về con đường sáng tạo, giúp người nghiên cứu cách tiếp cận đúng trong việc thiết kế thi công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp để thực hiện nhiệm vụ nghiên cứu đạt được mục đích nghiên cứu. Qua những kiến thức định hướng khoa học, để làm rõ tính chất quan trọng cũng như ứng dụng của phương pháp luận sáng nghiên cứu khoa học trong việc giải quyết vấn đề trong tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” sẽ vận dụng kiến thức về phương pháp luận, phương pháp sáng tạo để giải quyết một vấn đề cụ thể trong tin học, vấn đề tổ chức lưu trữxử tài liệu văn bản tiếng việt. MỤC LỤC Phần 1 SỞ THUYẾT PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 6 1.1. Khoa học 6 1.2. Nghiên cứu khoa học 6 1.3. Đề tài nghiên cứu khoa học 7 1.3.1. Khái niệm đề tài 7 1.3.2. Đối tượng nghiên cứu phạm vi nghiên cứu 7 1.3.3. Mục đích mục tiêu nghiên cứu 8 1.4. Các nguyên tắc sáng tạo bản 8 1.4.1. Tổng quan 8 1.4.2. Ứng dụng thực tiển 10 Phần 2 PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 13 2.1. Phương pháp trực tiếp 14 2.2. Phương pháp gián tiếp 15 2.2.1. Phương pháp thử sai 15 2.2.2. Phương pháp Heuristic 16 2.2.3. Phương pháp trí tuệ nhân tạo 16 Phần 3 GIẢI PHÁP TỔ CHỨC XỬ TÀI LIỆU VĂN BẢN TIẾNG VIỆT NGỮ NGHĨA 18 3.1. Giới thiệu 18 3.2. Đồ thị khái niệm (conceptual graph) 19 3.3. Ontology 22 3.3.1. Xây dựng ontology 22 3.3.2. Các tiêu chuẩn thiết kế một ontology 22 3.4. Mô hình Named-Entity (thực thể tên) 24 3.4.1. Định nghĩa Named-Entity 24 3.4.2. Kết cấu của Named-Entity 24 3.4.3. Sự thay đổi mô hình không gian vector truyền thống 25 3.5. Đề xuất các giải pháp kĩ thuật 27 3.5.1. Ontology sở tri thức 27 3.5.2. Xây dựng chức năng rút trích thông tin chú giải ngữ nghĩa 29 3.5.3. Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm 29 3.5.4. Xây dựng chức năng truy hồi thông tin theo thực thể tên 30 3.5.5. Xây dựng chức năng nhận diện thực thể tên quan hệ 32 3.5.6. Đồ thị khái niệm 34 3.5.7. Chức năng xây dựng phát triển tri thức 38 3.5.8. Phương pháp ghom cụm tài liệu theo thực thể tên 38 Phần 4 TỔNG KẾT 40 TÀI LIỆU THAM KHẢO 42 Phần 1 CƠ SỞ THUYẾT PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 1.1. Khoa học Khoa học là quá trình nghiên cứu nhằm khám phá ra những kiến thức mới, học thuyết mới,…về tự nhiên xã hội. Những kiến thức hay học thuyết mới này, tốt hơn, thể thay thế dần những cái cũ, không còn phù hợp. Thí dụ: Quan niệm thực vật là vật thể không cảm giác được thay thế bằng quan niệm thực vật cảm nhận. Như vậy, khoa học bao gồm một hệ thống tri thức về qui luật của vật chất sự vận động của vật chất, những qui luật của tự nhiên, xã hội, tư duy. Hệ thống tri thức này hình thành trong lịch sử không ngừng phát triển trên sở thực tiễn xã hội. Phân biệt ra 2 hệ thống tri thức: tri thức kinh nghiệm tri thức khoa học. 1.2. Nghiên cứu khoa học Nghiên cứu khoa học là một họat động tìm kiếm, xem xét, điều tra, hoặc thử nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm NCKH để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên xã hội, để sáng tạo phương pháp phương tiện kỹ thuật mới cao hơn, giá trị hơn. Con người muốn làm NCKH phải kiến thức nhất định về lĩnh vực nghiên cứu cái chính là phải rèn luyện cách làm việc tự lực, phương pháp từ lúc ngồi trên ghế nhà trường. 1.3. Đề tài nghiên cứu khoa học 1.3.1. Khái niệm đề tài Đề tài là một hình thức tổ chức NCKH do một người hoặc một nhóm người thực hiện. Một số hình thức tổ chức nghiên cứu khác không hoàn toàn mang tính chất nghiên cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án. Sự khác biệt giữa các hình thức NCKH nầy như sau: * Đề tài: được thực hiện để trả lời những câu hỏi mang tính học thuật, thể chưa để ý đến việc ứng dụng trong hoạt động thực tế. * Dự án: được thực hiện nhằm vào mục đích ứng dụng, xác định cụ thể hiệu quả về kinh tế xã hội. Dự án tính ứng dụng cao, ràng buộc thời gian nguồn lực. * Đề án: là loại văn kiện, được xây dựng để trình cấp quản cao hơn, hoặc gởi cho một quan tài trợ để xin thực hiện một công việc nào đó như: thành lập một tổ chức; tài trợ cho một hoạt động xã hội, Sau khi đề án được phê chuẩn, sẽ thành những dự án, chương trình, đề tài theo yêu cầu của đề án. * Chương trình: là một nhóm đề tài hoặc dự án được tập hợp theo một mục đích xác định. Giữa chúng tính độc lập tương đối cao. Tiến độ thực hiện đề tài, dự án trong chương trình không nhất thiết phải giống nhau, nhưng nội dung của chương trình thì phải đồng bộ. 1.3.2. Đối tượng nghiên cứu phạm vi nghiên cứu Đối tượng nghiên cứu: là bản chất của sự vật hay hiện tượng cần xem xét làm rõ trong nhiệm vụ nghiên cứu. Phạm vi nghiên cứu: đối tượng nghiên cứu được khảo sát trong trong phạm vi nhất định về mặt thời gian, không gian lĩnh vực nghiên cứu. 1.3.3. Mục đích mục tiêu nghiên cứu Khi viết đề cương nghiên cứu, một điều rất quan trọng là làm sao thể hiện được mục tiêu mục đích nghiên cứu mà không sự trùng lấp lẫn nhau. Vì vậy, cần thiết để phân biệt sự khác nhau giữa mục đích mục tiêu. * Mục đích: là hướng đến một điều gì hay một công việc nào đó trong nghiên cứu mà người nghiên cứu mong muốn để hoàn thành, nhưng thường thì mục đích khó thể đo lường hay định lượng. Nói cách khác, mục đích là sự sắp đặt công việc hay điều gì đó được đưa ra trong nghiên cứu. Mục đích trả lời câu hỏi “nhằm vào việc gì?”, hoặc “để phục vụ cho điều gì?” mang ý nghĩa thực tiển của nghiên cứu, nhắm đến đối tượng phục vụ sản xuất, nghiên cứu. * Mục tiêu: là thực hiện điều gì hoặc hoạt động nào đó cụ thể, rõ ràng mà người nghiên cứu sẽ hoàn thành theo kế hoạch đã đặt ra trong nghiên cứu. Mục tiêu thể đo lường hay định lượng được. Nói cách khác, mục tiêu là nền tảng hoạt động của đề tài làm sở cho việc đánh giá kế hoạch nghiên cứu đã đưa ra, là điều mà kết quả phải đạt được. Mục tiêu trả lời câu hỏi “làm cái gì?”. 1.4. Các nguyên tắc sáng tạo bản 1.4.1. Tổng quan Cải tiến công nghệ phục vụ cho cuộc sống là phương châm, động lực phát triển cho xã hội loài người trong thời gian qua.Từ khi con người ý thức thì sự tìm tòi học hỏi khả năng tư duy chính là đặc điểm đưa loài người ra khỏi lớp động vật. Đặc điểm nổi bật nhất của sự tìm tòi học hỏi hay khả năng tư duy là sự sáng tạo, tiềm lới giả cho những vần đề được đặt ra. Hơn 2000 năm qua hàng triệu phát minh cải tiến ra đời thay đổi gần như toàn bộ cuộc sống của con người. Qua từng thới kỳ các phát minh, sáng kiến có thể khác nhau tùy thuộc vào từng bối cảnh xã hội nhưng thể nói đều dựa trên 40 nguyên tắc sáng tạo bản được Alshuller G.S tổng hợp tác giả Phan Dũng đề cập đến trong sách Các Thủ Thuật (Nguyên Tắc) Sáng Tạo Bản được xuất bản 2007. Đây thể nói là sự tổng hợp kiến thức của nhân loại trong thời gian qua, vì dựa vào 40 phương pháp này cộng với khả năng tư duy thì mọi vấn đề rồi sẽ tiềm được lới giải. Công nghệ thông tin cũng không nằm ngoài quy luật đó, tuy công nghệ thông tin ra đời sau so với các công nghệ khác nhưng cũng cùng chung quy luật của sự sáng tạo Có 40 thủ thuật (nguyên tắc) sáng tạo bản: 1. Nguyên tắc phân nhỏ 2. Nguyên tắc “tách khỏi” 3. Nguyên tắc phẩm chất cục bộ 4. Nguyên tắc phản (bất) đối xứng 5. Nguyên tắc kết hợp 6. Nguyên tắc vạn năng 7. Nguyên tắc “chứa trong” 8. Nguyên tắc phản trọng lượng 9. Nguyên tắc gây ứng suất (phản tác động) sơ bộ 10. Nguyên tắc thực hiện sơ bộ 11. Nguyên tắc dự phòng 12. Nguyên tắc đẳng thế 13. Nguyên tắc đảo ngược 14. Nguyên tắc cầu (tròn) hóa 15. Nguyên tắc năng động 16. Nguyên tắc tác động bộ phận dư thừa 17. Nguyên tắc bộ xung chiều khác 18. Sự dao động học 19. Nguyên tắc tác đông theo chu kỳ 20. Nguyên tắc tác đông liên tục hữu hiệu 21. Nguyên tắc vượt nhanh 22. Nguyên tắc chuyển hại thành thắng 23. Nguyên tắc quan hệ phản hồi 24. Nguyên tắc sử dụng trung gian 25. Nguyên tắc tự phục vụ 26. Nguyên tắc sao chép (copy) 27. Nguyên tắc rẻ thay cho đắt 28. Nguyên tắc thay thế sơ đồ học 29. Nguyên tắc sử dụng các kết cấu thủy khí 30. Sử dụng bao mềm dẻo mềm mỏng 31. Sử dụng vật liệu nhiều lỗ 32. Nguyên tắc đổi màu 33. Nguyên tắc đồng nhất 34. Nguyên tắc loại bỏ tái sinh từng phần 35. Đổi các thông số hóa của đối tượng 36. Sử dụng chuyển pha 37. Sử dụng nở nhiệt 38. Sử dụng các chất oxy hóa 39. Sử dụng môi trường trơ 40. Sử dụng vật liệu tổng hợp (composit) 1.4.2. Ứng dụng thực tiển 1.4.2.1. Ứng dụng nguyên tắc kết hợp – Bài học từ chiếc Cassette Sony Walkman Năm 1979, công ty Sony sáng chế ra một sản phẩm mới: máy cassette âm thanh nổi siêu nhỏ (bỏ túi) với tên ọi là Sony Walkman. Từ lúc ra đời vào năm 1979, đến năm 1981, công ty đã bán được 1,5 triệu chếc. Đến nửa đầu của năm 1982, số lượng đã bán là 4 triệu chiếc. Mức tiêu thụ sản phẩm này tăng vọt gần như theo chiều thẳng đứng. Vậy nguyên nhân nào làm cho sản phẩm được tiêu thụ nhanh như vậy? Câu trả lời là công ty Sony đã biết áp dụng một cách linh hoạt nguyên tắc Kết hợp. Vào thời điểm đó, trong xã hội đang thịnh hành các hoạt động rèn luyện sức khỏe ngoài trời. Công ty Sony đã tung ra loại máy cassette rất phù hợp với nhu cầu này, tức giúp cho mọi người thể vừa tập thể dục, chạy nhảy ngoài trời, vừa thưởng thức âm nhạc. Ở đây, 2 nhu cầu khác nhau của người tiêu dùng đã được kết hợp một cách khá hoàn hảo. [...]... Phần 3 GIẢI PHÁP TỔ CHỨC XỬ TÀI LIỆU VĂN BẢN TIẾNG VIỆT NGỮ NGHĨA 3.1 Giới thiệu Như chúng ta đã thấy, đối với người thường xuyên sử dụng máy tính nói chung với các nhà nghiên cứu khoa học nói riêng thì việc lưu trữ các tài liệu văn bản dùng cho mục đích riêng của từng người là rất quan trọng Sự tăng nhanh về số lượng tài liệu trong kho lưu trữ đã đặt ra một vấn đề lớn: làm sao quản hiệu... năng rút trích thông tin chú giải ngữ nghĩa Đây là tập hợp các module chức năng cập nhập một tài liệu mới, phân tích tìa liệu để rút trích ra các khối văn bản mang tin tức chính Từ những khối văn bản đó, module này sẽ tiến hành nhận dạng các thực thể tên chú thích ngữ nghĩa cho các thực thể đó Kết quả là từ một tài liệu mà chỉ người mới hiểu được, ta được một tài liệu giống hoàn toàn về... được thông tin trên các tài liệu văn bản, trong khi các tài liệu của chúng ta là các văn bản thô mà chỉ con người mới đọc hiểu được Bài tiểu luận này trình bày ý tưởng về việc nghiên cứu kĩ thuật tổ chức và tìm kiếm thông tin văn bản ngữ nghĩa với hi vọng thể xây dựng một chương trình máy tính hỗ trợ tốt cho người dùng trong việc quản tìm kiếm thông tin văn bản Mục 2, 3, 4 trình bày các... những tài liệu chứa những thực thể tên là “China” nhưng không ý nghĩa là People’s Republic of China mà ý nghĩa khác như China town thì không phải là tài liệu đích Trường hợp 3, những tài liệu keyword là Shenyang nhưng không phải là tài liệu đích mà nó ý nghĩa khác như Shenyang city hoặc Shenyang hotel Trong khi đó, trường hợp 4 tài liệu đích là một định danh chính xác của thực thể tên,... “thủ đô của Việt Nam”, thực thể Việt Nam không ngữ liệu, hơn nữa vì đây là một thực thể tồn tại trong sở tri thức, ta cần nhận diện được cả định danh của nó Trong trường hợp này, giải pháp tốt là phải xây dựng một chức năng trong ứng dụng rút trích thông tin chú giải ngữ nghĩa để nó thể nhận diện chính xác các thực thể tên trong một đoạn văn bản tiếng Việt Tuy nhiên, ta thể sử dụng... phần class, name, id của thực thể tên tổ hợp nó một cách tốt nhất… 3.5.4 Xây dựng chức năng truy hồi thông tin theo thực thể tên Từ khái tưởng quản tài liệu ngữ nghĩa ta xây dựng chức năng thực hiện truy vấn trên sở tri thức trong kho các tài liệu chú thích ngữ nghĩa của chương trình Đây là một số đề xuất về các cách thức truy vấn: + Dùng ngôn ngữ truy vấn của Sesame là SeRQL [Error!... thích ngữ nghĩa giúp chương trình thể xử được 3.5.3 Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm Bài toán tìm kiếm là một bài toán quen thuộc ta thể sử dụng bộ thư viện Lucene để hổ trợ trong chức năng này Tuy nhiên, Lucene chỉ hỗ trợ việc đánh chỉ mục tìm kiếm theo khóa chứ không theo thực thể tên Việc xử lý, tìm kiếm đánh giá trong truy hồi thông tin theo thực thể tên có. .. bộ tài liệu ngữ nghĩa phục vụ cho quá trình đánh chỉ mục truy vấn thì trước hết, tài liệu cần được chú thích ngữ nghĩa Để biểu diễn một chú thích ngữ nghĩa cho thực thể trong tài liệu, chúng ta cần phải : - Một Ontology định nghĩa các lớp thực thể - sở tri thức chứa các thông tin chi tiết về thực thể 3.5.1.1 Ontology Ontology là một tập các khái niệm quan hệ giữa các khái niệm được định nghĩa. .. thống không thỏa trong tài liệu ngữ nghĩa dùng thực thể tên Ví dụ: (1) tài liệu bàn về cities; (2) tài liệu bàn về People’s Republic of China; (3) tài liệu bàn về Shenyang University, (4) tài liệu bàn về Shenyang Red River Trường hợp 1, tài liệu đích không cần thiết chứa keyword “city” mà chỉ cần một số thực thể tên loại là City Trường hợp 2, tài liệu đích lẽ đề cập về People’s Republic of... này được tổ chức thành nhiều nhóm, mỗi nhóm một kiểu chính (majorType) kiểu phụ (minorType) Khi Gazetteer xử một đoạn văn bản, những từ nằm trong danh sách sẽ được chú thích kèm theo kiểu của nhóm Dựa vào điều này, ta sẽ xây dựng tập ngữ liệu như sau: trong ontology hiện tại khoảng trên 300 lớp, ứng với mỗi lớp sẽ một tập các ngữ liệu dùng để nhận diện lớp đó Như vậy ta sẽ khoảng . TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC (Giải pháp tổ chức lưu trữ và xử lý tài liệ u văn bản tiếng việt có ngữ nghĩa) Giảng viên. 2.2.2. Phương pháp Heuristic 16 2.2.3. Phương pháp trí tuệ nhân tạo 16 Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA 18 3.1.

Ngày đăng: 09/03/2014, 01:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan