ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học

26 505 0
ứng dụng web ngữ nghĩa và khai phá dữ liệu xây dựng hệ thống tra cứu, thống kê các công trình nghiên cứu khoa học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NGỌC PHÚ ỨNG DỤNG WEB NGỮ NGHĨA VÀ KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG TRA CỨU, THỐNG KÊ CÁC CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC Chun ngành : Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS HUỲNH CÔNG PHÁP Phản biện 1: TS HUỲNH HỮU HƢNG Phản biện 2: GS.TS NGUYỄN THANH THỦY Luận văn bảo vệ Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 16 tháng 11 năm 2013 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày công nghệ thông tin phát triển mạnh mẽ tồn giới Cơng nghệ thơng tin mang lại cho giới mặt mới, đồng thời cơng nghệ thơng tin đóng góp lớn lĩnh vực kinh tế, xã hội giới Trong dịch vụ web mang lại cho người nhiều tiện ích Các dịch vụ giúp liên lạc với nhanh chóng,và đỡ tốn nhiều Hiện dịch vụ web phát triển mạnh mẽ, nhiều cá nhân tổ chức tham gia vào trình Điều làm cho số lượng người dùng lượng thông tin web tăng lên vượt bậc theo ngày Tuy nhiên với lượng thông tin khổng lồ web việc tìm kiếm tri thức cơng trình nghiên cứu khoa học khó khăn Chúng ta thường xuyên gặp phải vấn đề việc nhiều thông tin trả từ việc tìm kiếm từ khố Và việc muốn có thơng tin cần tìm, phải lướt qua nhiều trang web, tài liệu khơng liên qua đến vấn đề ta cần tìm kiếm Do tốn thời gian nhiều thời gian công sức việc suy luận, rút trích, tổng hợp thơng tin để có tri thức cần Hoặc phải tốn thời gian để lướt qua nhiều liên kết không liên quan ta tìm kiếm cơng trình nghiên cứu khoa học theo cách tìm thơng thường Vì việc làm để máy tính thực công việc suy luận, rút trích thơng tin từ nguồn thơng tin khổng lồ đưa cho tri thức cần thiết nhằm khai thác thông tin web hiệu Hiện nay, Việt Nam, cơng trình nghiên cứu khoa học nhiều quan tâm Việc tìm kiếm cơng trình nghiên cứu khoa học tăng lên nhiều Tuy nhiên ngồi trang tìm kiếm theo từ khố thơng dụng Google, hay yahoo, trang web tìm kiếm thơng tin cơng trình nghiên cứu khoa học nói chưa có Khi dùng trang web tìm kiếm google ta nhập từ khố "Cơng trình nghiên cứu khoa học" ta nhận kết nhiều liên kết có chứa cụm từ "Cơng trình nghiên cứu khoa học" Với nhiều liên kết việc tìm cơng trình nghiên cứu khoa học hay tìm theo tuỳ biến khó khăn để có thơng tin cơng trình nghiên cứu khoa học cần tìm Nếu có trang tin khác có thơng tin cơng trình nghiên cứu khoa học chủ yếu thông tin lưu trữ dạng text, thơng tin khơng tổ chức thơng minh để tìm kiếm cách dễ dàng Web ngữ nghĩa đời nhằm giải vấn đề Theo đó, Web ngữ nghĩa hệ thống thông tin định nghĩa cách rõ ràng nhằm mục đích giúp máy tính hiểu ngữ nghĩa, từ đưa thông tin sát với nhu cầu người dùng Ví dụ tìm kiếm "Tên cơng trình nghiên cứu khoa học năm 2010 ĐHĐN" thay kết nhiều liên kết chứa từ khố ta có tên cơng trình nghiên cứu khoa học đại học Đà nẵng năm 2011 Nhận thấy web ngữ nghĩa khai phá liệu web giải vấn đề chưa làm nên định chọn đề tài "Nghiên cứu Web ngữ nghĩa khai phá liệu web xây dựng hệ thống tra cứu, thống kê cơng trình nghiên cứu khoa học" làm luận văn tốt nghiệp Mục tiêu nhiệm vụ Tìm hiểu web ngữ nghĩa khai phá liệu, tìm hiểu hệ thống h trợ tìm kiếm tra cứu cơng trình nghiên cứu khoa học Từ đề xuất hệ thống đáp ứng nhu cầu tìm kiếm, tra cứu, thống kê CTNCKH Hướng đến xây dựng ontology đầy đủ CTNCKH, từ xây dựng hồn ch nh hệ thống ưu việt hệ thống Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các vấn đề liên quan đến web ngữ nghĩa khai thác liệu - Xử lí ngơn ngữ tự nhiên - Thơng tin cơng trình nghiên cứu khoa học trang web báo khoa học Phạm vi nghiên cứu sau: - Các cơng trình nghiên cứu khoa học nước - Chương trình dạng trang web sử dụng sở liệu Phƣơng pháp nghiên cứu Phương pháp lí thuyết: - Tìm hiểu web ngữ nghĩa khai thác liệu - Tìm hiểu xử lí ngơn ngữ tự nhiên - Tìm hiểu q trình xây dựng cơng cụ Search Engine - Ứng dụng Web ngữu nghĩa để xây dựng website - Phương pháp xây dựng website tìm kiếm hồn ch nh - Phương pháp quy trình xây dựng cơng cụ tìm kiếm - Khai thác liệu cơng trình nghiên cứu khoa học tạo sở Phương pháp thực nghiệm - Xây dựng ontology - Xây dựng sở liệu - Xây dựng kho liệu huấn luyện - Triển khai thực tế Internet Ý nghĩa khoa học thực tiễn đề tài - Đóng góp cơng cụ Search Engine theo công nghệ web ngữ nghĩa cơng trình nghiên cứu khoa học - Một sở liệu cơng trình nghiên cứu khoa học - Phương pháp xây dựng ontology cơng trình nghiên cứu khoa học Bố cục luận văn Ngoài phần mở đầu, kết luận, tài liệu tham khảo nội dung luận văn chia thành ba chương sau: Chƣơng Tổng quan đề tài Chƣơng Đề xuất hệ thống tra cứu thống kê cơng trình nghiên cứu khoa học Chƣơng Xây dựng hệ thống CHƢƠNG TỔNG QUAN ĐỀ TÀI 1.1 WEB NGỮ NGHĨA 1.1.1 Web ngữ nghĩa gì? Theo định nghĩa Tim Berners-Lee web ngữ nghĩa mở rộng web tại, thơng tin định nghĩa cách rõ ràng cho người máy hiểu làm việc với Theo định nghĩa tổ chức W3C: “Web ngữ nghĩa cách nhìn cách tổ chức liệu: ý tưởng việc liệu Web định nghĩa liên kết theo cách mà sử dụng máy tính với mục đích khơng ch cho việc hiển thị mà cịn tự động hố, tích hợp sử dụng lại liệu qua ứng dụng khác nhau”.[1] Web ngữ nghĩa khác với Trí tuệ nhân tạo đâu: trí tuệ nhân tạo làm cho máy tính thơng minh hơn, cịn web ngữ nghĩa làm cho ứng dụng thông minh Vấn đề web thiếu ngữ nghĩa, trang web liên kết với siêu liên kết, thông tin rời rạc, ứng dụng khả hiểu nội dung trang web Nên từ việc tìm kiếm thơng tin web chủ yếu dựa vào từ khóa Từ thơng tin tìm kiếm có độ xác thấp, kết trả khơng xác, nhiều kết mang tính phổ biến, người dùng phải tốn nhiều thời gian công sức để xử lý kết tìm kiếm Vậy mong muốn thể hệ web mới, theo mong muốn việc tìm kiếm tương lai khơng phụ thuộc vào từ khóa mà ứng dụng tìm kiếm phải hiểu ngữ nghĩa liệu trả về, có phù hợ với u cầu tìm kiếm hay khơng, đưa cho kết tốt nhất, phù hợp Và Web ngữ nghĩa mang lại điều nào? 1.1.2 Kiến trúc web ngữ nghĩa Năm 2001, Tim Berners-Lee nhóm tác giả cơng bố cơng trình web ngữ nghĩa Dưới mơ hình kiến trúc web ngữ nghĩa cơng bố năm 2001 Hình 1.1: Mơ hình kiến trúc web ngữ nghĩa hồn thiện năm 2006[17] Sau mơ hình kiến trúc web ngữ nghĩa có thay đổi qua năm 2005, 2006 Tuy có thay đổi, khơng nhiều chủ yếu kiến trúc web ngữ nghĩa có bảy tầng, tầng bên làm sở cho tầng bên Hiện web tầng thứ hai hai mơ hình kiến trúc trênRDF Khung mô tả tài nguyên (RDF) ngôn ngữ siêu liệu để biểu diễn liệu Web cung cấp mơ hình để mô tả tạo mối quan hệ tài nguyên RDF định nghĩa nguồn tài nguyên (resource) đối tượng có khả xác định URI Các nguồn tài nguyên có thuộc tính kèm Các thuộc tính (predicate/property) xác định kiểu thuộc tính kiểu thuộc tính có giá trị tương ứng Kiểu thuộc tính biểu diễn mối quan hệ giá trị kết hợp với tài nguyên 1.1.3 Ontology Một định nghĩa chung cho ontology là: Ontology đặc tả hình thức khái niệm hóa lĩnh vực ứng dụng cụ thể Định nghĩa nhấn mạnh hai điểm chính: khái niệm hóa (conceptualisation) hình thức cho phép suy diễn máy tính; ontology thực tế thiết kế cho miền ứng dụng cụ thể Các ontology bao gồm khái niệm (các lớp classes), quan hệ (các thuộc tính - properties), thể (instances) tiên đề (axioms) 1.1.4 Các cơng trình nghiên cứu web ngữ nghĩa Ở Việt Nam, cơng trình nghiên cứu web ngữ nghĩa cơng trình nghiên cứu xây dựng khai thác thơng tin web có ngữ nghĩa (VN-KIM) khoa công nghệ thông tin trường ĐH Bách khoa TPHCM Chức VN-KIM rút trích thích tự động lớp danh hiệu thực thể có tên xuất trang báo điện tử tiếng Việt VN-KIM bao gồm khối sau: Cơ sở tri thức nhân vật, tổ chức, núi non, sơng ngịi, địa điểm phổ biến Việt Nam Khối rút trích thơng tin tự động từ trang báo điện tử tiếng Việt Khối truy hồi thông tin trang Web thực thể có tên Việt Nam Trên giới, cơng trình nghiên cứu web ngữ nghĩa như: Chuẩn hóa ngơn ngữ liệu, siêu liệu web Chuẩn hóa ngơn ngữ ontology ngơn ngữ truy vấn luật cho web ngữ nghĩa tổ chức W3C thực Xây dựng ontology mở nhằm phục vụ cộng đồng Hiện có nhiều ontology chia sẻ: UNSPSC (www.unspsc.org) chương trình phát triển liên hợp quốc phối hợp với tổ chức Dun&Bradstreet phát triển nhằm cung cấp thuật ngữ sản phẩm dịch vụ thương mại Hay dự án KIM Bugaria xây dựng ontology lĩnh vực xã hội lấy thông tin từ báo Còn nhiều dự án khác xây dựng ontology lĩnh vực 1.1.5 Hƣớng nghiên cứu tƣơng lai Nghiên cứu xây dựng, hoàn thiện ontology lĩnh vực: ontology thành phần để xây dựng ứng dụng Nên việc xây dựng hồn thiện ontology góp phần quan trọng việc hoàn thiện ứng dụng web ngữ nghĩa Một số hướng nghiên cứu liên quan việc xây dựng hồn thiện ontology tích hợp ontology, ánh xạ ontology, tái sử dụng ontology, phát triển ontology hạt nhân chuẩn, Tích hợp thêm ý niệm thời gian vào ontology Nghiên cứu vấn đề đa ngôn ngữ web ngữ nghĩa: thách thức lớn giới có nhiều ngơn ngữ, theo văn hóa quốc gia khác Nên việc xây dựng ontology đồng khó vấn đề đặt phát triển cơng cụ cho phép người dùng tạo ontoly riêng họ Đưa ánh xạ có tính liên thơng ngơn ngữ khác Phát triển ứng dụng web ngữ nghĩa 1.2 KHAI PHÁ DỮ LIỆU Khai phá liệu định nghĩa trình chắt lọc hay khám phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám ch việc tìm tập nhỏ có giá trị từ lượng lớn liệu thơ Có phân biệt khái niệm "Khai phá liệu" với khái niệm 10 theo nhà xuất bản… Khi sử dụng hệ thống, người dùng phải đăng kí với cục KH&CN để tạo tài khoản đăng nhập Có tài khoản người dùng tiếp cận tài liệu Như ta thấy hệ thống có khả bảo mật tốt, ch người dùng qua kiểm duyệt trục tiếp tiếp cận tài liệu Hệ thống không cho phép ta đăng ký trực tuyến, điều thực rườm rà phức tạp muốn dùng hệ thống cách nhanh chóng Ngồi kết trả hệ thống chưa xác với yêu cầu, nhiều kết không liên quan đến lĩnh vực thực muốn tìm kiếm (do hạn chế việc tìm kiếm theo từ khóa) Ví dụ tơi tìm kiếm cụm từ: “Khoa học máy tính”, hệ thống trả tài liệu có từ khóa “khoa”, “học”, “máy”, “tính” Ở tơi muốn tìm cơng trình, báo khoa học có liên quan đến nghành “Khoa học máy tính”; cịn hệ thống lại trả báo không liên quan, liên quan báo, tài liệu phải có cụm từ “Khoa học máy tính” từ tài liệu Ta thấy nhược điểm lớn hệ thống, vấn đề ngữ nghĩa hệ thống hồn tồn chưa có Ngồi muốn thống kê theo lĩnh vực mà khơng gõ từ khóa khơng thể thống kê báo khoa học, cơng trình NCKH theo lĩnh vực hay theo tác giả b) Website tài liệu số Đại học Đà Nẵng: Website tài liệu số Đại học Đà nẵng nơi đăng tải báo khoa học, cơng trình nghiên cứu khoa học, luận văn thạc sĩ, tiến sĩ Đại học Đà Nẵng Cung cấp trang tài liệu cho sinh viên, nghiên cứu sinh, giảng viên Đại học Đà Nẵng Website có khả tìm kiếm theo từ khóa, liệt kê tài liệu theo chủ để, tác giả, năm xuất danh sách chủ đề tác giả, năm 11 xuất Website thống kê theo chủ đề, tác giả, theo lĩnh vực nghiên cứu Tuy nhiên webitse có hạn chế tài liệu website gồm cơng trình, báo, luận văn nội Đại học Đà Nẵng Kết trả sử dụng việc tìm kiếm từ khóa nên kết chưa xác 2.1.2 Các hệ thống giới a) Google Scholar: Google Scholar gì? Google Scholar cung cấp phương pháp đơn giản để tìm kiếm tài liệu mang tính học thuật quy mô rộng Từ địa điểm, bạn tìm kiếm khắp nhiều ngành học nguồn: viết đánh giá độc lập, luận án, sách, tóm tắt viết từ nhà xuất học thuật, giới chuyên môn, kho lưu trữ thảo, trường đại học tổ chức học thuật khác Google Scholar giúp bạn xác định nghiên cứu thích hợp giới nghiên cứu học thuật Các tính Google Scholar Tìm kiếm nguồn đa dạng từ vị trí thuận tiện Tìm viết, tóm tắt trích dẫn Định vị toàn viết qua thư viện bạn trang web Tìm hiểu viết quan trọng lĩnh vực nghiên cứu Các viết xếp hạng nào? Google Scholar có mục đích nhằm phân loại viết theo cách mà nhà nghiên cứu thực hiện, xem xét toàn văn viết, tác giả, ấn phẩm mà viết xuất hiện, mức độ thường xuyên mà viết trích dẫn tài liệu mang tính học thuật khác Những kết có liên quan nhiều ln xuất trang 12 Ưu điểm: sử dụng mạnh Internet để tập hợp nhiều nguồn tài liệu khắp nơi giới thông qua việc sử dụng học giả Xếp hạng viết thông qua việc trích dẫn vào viết khác Cho phép tìm viết trích dẫn theo từ khóa Hệ thống phân loại tài liệu theo ngơn ngữ khác Cho phép sử dụng, tìm kiếm ngôn ngữ khác Nhược điểm: Sử dụng tìm kiếm theo từ khóa, máy tìm kiếm chưa hiểu nội dung tìm kiếm b) Mạng xã hội nghiên cứu khoa học(SSRN - Social Science Research Network): Đây website cho phép đăng tải báo khoa học, cơng trình nghiên cứu khoa học 300.000 nhà nghiên cứu khoa học toàn giới Website cho phép tác giả đăng tải cơng trình nghiên cứu khoa học, báo khoa học cách miễn phí Những người dùng khác tiếp cận tồn văn cơng trình cách miễn phí( tác giả cho phép) trả tiền phí để tải Đây trang cung cấp tài liều cơng trình nghiên cứu khoa học thuộc nhiều lĩnh vực Website cho phép tác giả lĩnh vực có liên hệ với có cơng trình nghiên cứu khoa học Website cung cấp 20 lĩnh vực, chun ngành cung cấp tài liệu cơng trình nghiên cứu khoa học M i lĩnh vực đến giáo sư đại học đứng chủ trì Như tài liệu đăng website kiểm duyệt kỹ lưỡng Trang web cho phép tìm kiếm tài liệu theo ngơn ngữ tài liệu (tìm kiếm theo từ khóa) Khi tìm kiếm từ khóa đó, trang web tìm tiêu đề, tóm tắt tài liệu, tài liệu có từ khóa tài liệu trả kết 13 tìm kiếm Ngồi phương pháp tìm theo từ khóa, hệ thống cịn cho phép liệt kê theo lĩnh vực, chuyên đề 2.2 Ý TƢỞNG VỀ HỆ THỐNG MỚI Qua phân tích hệ thống nhận thấy hệ thống thống kê, tra cứu công trình nghiên cứu khoa học nước giới nay, chưa đáp ứng nhu cầu tra cứu, thống kê, h trợ cách tốt đến giới nghiên cứu khoa học Nếu hệ thống h trợ tốt tra cứu việc thống kê chưa tốt h trợ người nghiên cứu thơng báo cơng trình theo lĩnh vực chưa có Hoặc ngược lại, hệ thống h trợ tốt người sử dụng việc đăng ký sử dụng hệ thống phức tạp, tốn để sử dụng hệ thống Bên cạnh hệ thống chưa thể tìm kiếm theo ngữ nghĩa cơng trình nghiên cứu khoa học Từ thực trạng vậy, hệ thống tra cứu, thống kê cơng trình nghiên cứu khoa học mà đề xuất luận văn mục đích tra cứu, thống kê cơng trình nghiên cứu khoa học nghiên cứu ngồi nước Thêm vào hệ thống cho phép nhà khoa học quản lý cơng trình nghiên cứu Ngồi hệ thống cho phép nhà khoa học chia sẻ kiến thức với đồng nghiệp, nhận xét cơng trình nghiên cứu đồng nghiệp, đồng thời thông báo đến nhà nghiên cứu khoa học cơng trình cơng bố theo lĩnh vực mà họ quan tâm.Hệ thống hoạt động sở liệu thơng tin cơng trình nghiên cứu khoa học Hệ thống tự động tìm kiếm thơng tin liên quan đến CTNCKH để cập nhật Hệ thống cịn h trợ tìm kiếm cơng trình theo ngơn ngữ, ví dụ người cần tìm kiếm tài liệu semantic web 14 kết liên quan đến semantic hệ thống trả kết quả, tài liệu web ngữ nghĩa, lĩnh vực liên quan đến web ngữ nghĩa thứ tiếng như: tiếng Pháp, tiếng Đức, tiếng Trung Quốc… Người sử dụng hệ thống tiếp cận tồn văn tài liệu với cam kết khơng chép toàn văn người khác Hệ thống chúng tơi cịn cho phép phát việc đạo văn cảnh báo việc đạo văn cho tác giả… 2.3 MỤC TIÊU HỆ THỐNG Hệ thống có khả thu thập liệu CTNCKH Xây dựng tầng ngữ nghĩa cho liệu CTNCKH Xây dựng tầng đa ngôn ngữ cho hệ thống Xây dựng công cụ kiểm tra việc đạo văn Xây dựng cơng cụ tìm kiếm, thống kê CTNCKH theo ngữ nghĩa Xây dựng công cụ quản lý người dùng thông minh ĐỀ XUẤT HỆ THỐNG Mơ hình tổng quan hệ thống: Từ mô tả tổng quan hệ thống vậy, chúng tơi xây dựng mơ hình hệ thống Từ chúng tơi tiếp tục đề xuất hệ thống, đặc tả cụ thể chức hệ thống tiếp tục thiết kế hệ thống Dưới mơ hình tổng quan hệ thống chúng tơi 2.4 15 Hình 2.1: Mơ hình tổng quan hệ thống 2.5 TỔNG KẾT CHƢƠNG Đặc tả chức năng: Chức thu thập liệu: ban đầu chức cho phép hệ thống thu thập thông tin CTNCKH từ hệ thống, trang web khác, với nhiều ngôn ngữ khác Từ xây dựng sở liệu ban đầu CTNCKH nước Hệ thống tiếp tục cập nhật định kỳ CTNCKH để bổ sung thêm thông tin Chức quản lý ngƣời dùng: với chức hệ thống cho phép người đăng ký tài khoản, người dùng quản trị tài khoản Người dùng đăng ký lĩnh vực chuyên ngành tham gia NCKH Khi hệ thống dựa vào lĩnh vực chuyên ngành mà thơng báo đến người dùng có tài liệu cơng 16 trình trùng với lĩnh vực người dùng quan tâm Hệ thống thơng báo thông qua email người dùng gửi thông báo đến hộp thông báo tài khoản người dùng Hệ thống chia người dùng thành nhiều nhóm người dùng khác như: - Nhóm quản trị: nhóm người dùng có phân quyền cao hệ thống, có quyền quản trị hệ thống - Nhóm tác giả: nhóm người dùng hệ thống Nhóm người dùng nhóm xác minh thơng tin kỹ lưỡng tạo tài khoản Quản trị hệ thống liên lạc trực tiếp với tác giả cơng trình nghiên cứu có đăng hệ thống xác nhận thông tin tác giả, thơng tin cơng trình nghiên cứu khoa học họ sau tạo tài khoản cấp cho tác giả Các tác giả chưa có hệ thống liên hệ trực tiếp với quản trị để đăng ký thơng tin tài khoản, sau đăng tải công trinh nghiên cứu khoa học Nhóm tác giả sử dụng tồn văn cơng trình hệ thống - Nhóm ngƣời dùng khai thác thơng tin: nhóm người dùng đơng đảo nhất, chủ yếu tham gia vào hệ thống để tìm kiếm, khai thác thơng tin Người dùng đăng ký form tự động để trở thành thành viên hệ thống Sau nhóm người dùng tìm kiếm, thống kê, sử dụng tóm tắt cơng trình nghiên cứu Tuy nhiên nhóm người dùng bị hạn chế truy cập đến tồn văn cơng trình Muốn truy cập đến tồn văn cơng trình, nhóm người dùng phải gửi yêu cầu đến tác giả Nếu tác giả đồng ý sử dụng tồn văn - Nhóm khách vãng lai: nhóm người dùng, không cần tài khoản sử dụng hệ thống để tìm kiếm thơng tin, nhiên quyền truy cập vào tài nguyên hệ thống bị hạn chế 17 Chức kiểm tra việc đạo văn: việc đạo văn cơng trình nghiên cứu khoa học vấn đề nhức nhối Làm để bài báo khoa học, cơng trình NCKH đăng tải hệ thống khơng phải tác phẩm trình chép Như chức cho phép hệ thống kiểm soát CTNCKH, phát đoạn văn giống cơng trình, từ đưa cảnh báo cho tác giả Chức tìm kiếm: Chức cho phép người dùng tìm kiếm thơng tin hệ thống cách nhập từ khóa thơng tin mốn tìm kiếm Hệ thống sử dụng truy vấn SPARQL để tìm kiếm ontology, tìm tất URI liên quan đến từ khóa trả kết tìm kiếm Chức thống kê: Chức cho phép người dùng lựa chọn loại thống kê như: lĩnh vực, tên tác giả, năm hoàn thành CTNCKH, đơn vị Khi người dùng lựa chọn thống kê theo lĩnh vực, hệ thống cho phép chọn loại lĩnh vực, sau hệ thống đưa CTNCKH thuộc lĩnh vực Tương tự người dùng lựa chọn loại thống kê khác hệ thống đưa tùy chọn tương ứng Chức thêm CTNCKH: Chức cho phép người dùng thêm cơng trình nghiên cứu khoa học lên hệ thống Khi thêm CTNCKH bao gồm thơng tin lĩnh vực, năm hồn thành, đơn vị, mơ tả CTNCKH, tồn văn CTNCKH Sau thêm CTNCKH đưa vào danh sách CTNCKH người dùng Chức xem thơng tin CTNCKH: Chức cho phép người dùng xem thông tin CTNCKH: tên tác giả, năm 18 hồn thành, đơn vị bảo trợ, mơ tả chi tiết, tồn văn cơng trình(nếu quyền) Chức mạng xã hội: chức nhằm giúp tăng cường khả kết nối nhóm người dùng Ngoài chức quản lý người dùng đơn trên, hệ thống cho phép người dùng tổ chức cho trang cá nhân, trang cá nhân người dùng chia sẻ thơng tin cá nhân, chia sẻ cơng trình nghiên cứu Cũng với người dùng xếp, tổ chức lại viết, cơng trình theo thời gian Với chức này, chúng tơi cho phép người dùng kết bạn để mở rộng khả chia sẻ Người dùng đăng tải thơng tin, cơng trình nghiên cứu khoa học thiết lập chế độ chia sẻ Ví dụ người dùng đăng tải cơng trình để chế độ cơng khai tất người dùng (có tài khoản hệ thống) xem, bình luận, đánh giá cơng trình nghiên cứu người Ngồi việc cơng khai cơng trình nghiên cứu khoa học yêu cầu trình nghiên cứu khoa học Nên tác giả đăng cơng trình nghiên cứu khoa học lê trang cá nhân họ để chế độ công khai hệ thống tự động đưa viết báo trang chủ hệ thống CHƢƠNG XÂY DỰNG HỆ THỐNG 3.1 MÔI TRƢỜNG, CÔNG CỤ VÀ NGƠN NGỮ 3.1.1 Mơi trƣờng Ứng dụng triển khai môi trường Internet theo dạng Website, sử dụng ngôn ngữ JSP thư viện Jena nhằm mục đích cung cấp thêm phần ngữ nghĩa cho Website 3.1.2 Công cụ 19 a) Protége – Công cụ xây dựng Ontology : Protégé phần mềm để xây dựng sở tri thức nhiều nơi biết đến Protégé ontology editor công cụ thu thập tri thức chủ yếu phát triển nhóm Khoa học thông tin Y học trường đại học Stanford (Medical Informatics group of Stanford University) Trong lúc đó, Protégé công việc cộng đồng (community work) số nhóm nghiên cứu điển hình giới có đóng góp 70 plug-ins, kể nhóm Khoa học thông tin Y học trường đại học Manchester Protégé cho phép người sử dụng tạo ontology soạn thảo dạng liệu đầu vào cho liệu nhập vào Giao diện người dùng đồ họa (GUI : Graphical User Interface) Protégé thiết kế tốt cải tiến với việc đưa phiên cập nhật Nó tảng (platform) mà dễ dàng mở rộng bao gồm thành phần độ họa chẳng hạn đồ thị bảng biểu, phương tiện truyền thông âm thanh, hành ảnh video, dạng lưu trữ khác OWL, RDF, XML, HTML b) JSP: JavaServer Pages (JSP) biết đến với tên khác Java Scripting Preprocessor - công nghệ Java cho phép tạo nội dung HTML, XML hay số định dạng khác trang web cách động Công nghệ cho phép nhúng mã Java số hành động xử lý định trước vào nội dung tĩnh trang c) OWL: OWL ngơn ngữ ontology mạnh, đời sau RDFS nên biết kế thừa lợi ngôn ngữ đồng thời bổ sung thêm nhiều yếu tố giúp khắc phục hạn chế RDFS OWL giúp tăng thêm yếu tố logic cho thông tin khả phân loại, ràng buộc kiểu lượng số tương đối mạnh Chúng ta tìm hiểu 20 sơ qua lớp thuộc tính OWL để thấy ưu điểm OWL so với RDFS 3.2 CÔNG CỤ THU THẬP DỮ LIỆU Sử dụng phương pháp trích rút ontology từ WWW nhóm tác giả Du C.Timon, Li Feng King Irwin Phương pháp nhóm tác giả đề nghị gồm bước chính: Chuẩn bị, Biến đổi, Gom cụm, Nhận diện, Liên kết Tinh ch nh[5] Hình 3.5: Mơ hình tổng quan phương pháp trích rút tự động [5] 3.3 ONTOLOGY ĐÃ XÂY DỰNG Dựa thiết kế Ontology chương 2, xây dựng ontology ScienResearch sau: 21 Hình 3.7: Demo Ontology 3.4 DEMO VÀ ĐÁNH GIÁ 3.4.1 Màn hình kết Giao diện tìm kiếm: Hình 3.1: Giao diện tìm kiếm 22 Giao diện trang chủ: Hình 3.2: Giao diện trang chủ hệ thống 3.4.2.Đánh giá Hệ thống xây dựng ontology ScienReseach nhằm phục vụ việc thu thập liệu, bên cạnh thời gian hạn chế nên chúng tơi hồn thành thiết kế cơng cụ tìm kiếm CTNCKH ontology câu lện truy vấn SPAQL 3.5 TỔNG KẾT CHƢƠNG Dựa vào cơng cụ ngơn ngữ lập trình như: JSP; Protégé… xây dựng ontology nghiên cứu khoa học xây dựng công cụ tìm kiếm CTNCKH ontology vừa thiết kế 23 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Việc nghiên cứu, ứng dụng web ngữ nghĩa khai phá liệu để xây dựng hệ thống tra cứu, thống kê cơng trình nghiên cứu khoa học bước đầu có kết Về mặt lý thuyết, nghiên cứu nêu nét đặc trưng, ưu web ngữ nghĩa Bên cạnh đó, dựa việc tìm hiểu ngơn ngữ, cơng cụ h trợ lập trình web như: JSP, Jena, Protégé luận văn đưa Ontology cơng trình nghiên cứu khoa học, xây dựng Website tìm kiếm cơng trình NCKH theo Semantic Đối với kết thực nghiệm với hệ thống tra cứu, thống kê công trình nghiên cứu khoa học, ứng dụng cho phép người dùng tìm kiếm theo tên cơng trình mức tìm kiếm nâng cao Với việc sử dụng ngôn ngữ SPARQL truy vấn, truy vấn khơng tìm theo liệu túy, mà dựa liệu có nghĩa, theo element định nghĩa RDF trước Bên cạnh thành cơng đạt nghiên cứu cịn hạn chế, Ontology ch mức độ nhỏ, chưa thật lớn phong phú Ta cần phải có liệu Ontology đầy đủ để đánh giá mức độ xử lý tìm kiếm xác mức độ đáp ứng người dùng truy cập ứng dụng lúc Ngồi ra, cịn chưa có kết nối liệu trích rút từ WWW liệu Ontology Chức trích rút thuộc tính tự động cịn nghiên cứu có nhiều điểm chưa thống nghiên cứu khác giới Chức quản lý người dùng thơng minh chưa thể hồn thành thời gian bị hạn chế Việc cài đặt hệ thống tìm kiếm bị l i chưa hoạt động hiệu thiết 24 kế Bên cạnh đó, việc cài đặt máy local, chưa triển khai lên server Internet Trong tương lai luận văn tiếp tục phát triển để ứng dụng vào thực tiễn Để đạt mục đích cần phải xây dựng hệ thống bóc tách thơng tin tự động, chương trình tự động dị tìm trang web mạng tiến hành bóc tách theo thuật tốn rẽ nhánh thơng minh Mở rộng phạm vi Ontology cơng trình nghiên cứu khoa học giới để xây dựng Website CT NCKH nói chung Triển khai ứng dụng server thực tế, môi trường Internet, phát triển website trở thành diễn đàn, mạng xã cho phép người sử dụng thêm sửa đổi thơng tin CT NCKH ... tài "Nghiên cứu Web ngữ nghĩa khai phá liệu web xây dựng hệ thống tra cứu, thống kê cơng trình nghiên cứu khoa học" làm luận văn tốt nghiệp Mục tiêu nhiệm vụ Tìm hiểu web ngữ nghĩa khai phá liệu, ... liệu web ngữ nghĩa dùng để xây dựng hệ thống tra cứu – thống kê cơng trình nghiên cứu khoa học Chương tiếp tục nghiên cứu hệ thống nghiên cứu khoa học tại, từ đề xuất xây dựng hệ thống có khả khai. .. tin cơng trình nghiên cứu khoa học trang web báo khoa học Phạm vi nghiên cứu sau: - Các cơng trình nghiên cứu khoa học nước - Chương trình dạng trang web sử dụng sở liệu Phƣơng pháp nghiên cứu Phương

Ngày đăng: 08/05/2014, 00:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan