Nghiên cứu về web thế hệ mới, tìm hiểu các vấn đề liên quan web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web

66 543 0
Nghiên cứu về web thế hệ mới, tìm hiểu các vấn đề liên quan web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LƯƠNG XUÂN DIỆU NGHIÊN CỨU VỀ WEB THẾ HỆ MỚI, TÌM HIỂU CÁC VẤN ĐỀ LIÊN QUAN WEB THẾ HỆ MỚI VÀ THỬ NGHIỆM MỘT SỐ ỨNG DỤNG TỰ ĐỘNG THU THẬP THÔNG TIN TRÊN WEB CHUYÊN NGÀNH: KĨ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM HUY HOÀNG HÀ NỘI – NĂM 2014 Lương Xuân Diệu Semantic Web Lời cảm ơn Em xin gởi lời cảm ơn chân thành tri ân sâu sắc thầy cô trường Đại học Đại học Bách khoa Hà nội, đặc biệt thầy cô Viện Công nghệ thông tin Truyền thông trường tạo điều kiện cho em thực tập viện để có nhiều thời gian cho luận văn tốt nghiệp Và em xin chân thành cám ơn thầy giáo, Tiến sĩ Phạm Huy Hoàng tận tình hướng dẫn hướng dẫn em suốt trình hoàn thành tốt luận văn Trong trình thực tập, trình làm báo cáo, khó tránh khỏi sai sót, mong Thầy, Cô bỏ qua Đồng thời trình độ lý luận kinh nghiệm thực tiễn hạn chế nên luận văn tránh khỏi thiếu sót, em mong nhận ý kiến đóng góp Thầy, Cô để em học thêm nhiều kinh nghiệm hoàn thiện luận văn tốt Em xin chân thành cảm ơn! Học viên Lương Xuân Diệu Lương Xuân Diệu Semantic Web Lời cam đoan Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tác giả Lương Xuân Diệu Lương Xuân Diệu Semantic Web Mục lục Lý chọn đề tài Lịch sử nghiên cứu Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu Tóm tắt luận điểm Phương pháp nghiên cứu Chương I: Tổng quan Web ngữ nghĩa (Senmantic Web) Các hệ web đời web ngữ nghĩa 1.1 Lịch sử phát triển website 1.2 Web liệu (Web of Data) 10 1.3 Những giới hạn web 2.0, đời web 3.0 10 1.4 Lịch sử phát triển web ngữ nghĩa 12 Định nghĩa web ngữ nghĩa 13 2.1 Định nghĩa 13 2.2 Các thành phần web ngữ nghĩa 14 2.3 Các phiên web ngữ nghĩa 16 2.4 Các ứng dụng bật tảng web ngữ nghĩa 17 2.5 Adaptive web Semantic web 20 Chương II: Các thành phần web ngữ nghĩa (Các tầng Semantic Web) 22 URI 22 1.1 Định nghĩa 22 1.2 Ứng dụng URI Web ngữ nghĩa 23 Lương Xuân Diệu Semantic Web RDF RDFS 23 2.1 RDF 23 2.1.1 Định nghĩa 23 2.1.3 Các thuộc tính RDF (property) 28 2.2 RDFS 29 2.2.1 Định nghĩa 29 2.2.2 RDF vs RDFS 32 2.3 RDF Tripple Stores 32 2.4 Ngôn ngữ truy vấn RDF: SPARQL 35 Web Ontology Language (OWL) 39 3.1 Định nghĩa 39 3.2 Các thành phần, nội dung OWL 43 3.2.1 Các phiên OWL 43 3.2.3 Syntax 44 3.2.3 Terminology .Error! Bookmark not defined 3.3 RDFS vs OWL 46 Một số phương pháp lưu RDF Database 47 4.1 Giant triple storage: 47 4.2 ID base triple store: 49 4.3 Quad store: 49 4.4 Property table: 50 4.5 Vectically Partioned Table (Binary Tables): 50 Lương Xuân Diệu Semantic Web Chương III: Ứng dụng tìm kiếm liệu mô hình web ngữ nghĩa 51 Mô hình website (2.0) 52 Các nội dung để chuyển từ web 2.0 thành web ngữ nghĩa 53 2.1 Thiết kế sở liệu 53 2.2 Truy vấn liệu 58 2.3 Xuất truy vấn liệu website 60 Ứng dụng tìm kiếm web ngữ nghĩa 60 Những kết luận 63 Kiến nghị việc sử dụng kết nghiên cứu 64 Lương Xuân Diệu Semantic Web MỞ ĐẦU Lý chọn đề tài Với phát triển mạnh mẽ số lượng chất lượng Internet dẫn tới việc gia tăng không ngừng nội dung, thông tin Internet Internet trở thành kho từ điển khổng lồ chứa đựng tri thức sâu rộng vấn đề Tuy nhiên với công nghệ xây dựng Website nay, việc tìm kiếm xác nội dung, thông tin Internet ngày trở nên khó khăn, tỉ lệ nghịch với phát triển mạnh mẽ hệ thống Web giới Sự phát triển hệ thống web mà nội dung xây dựng với mô tả ngữ nghĩa, liên kết liệu với trở thành tảng cho công nghệ, ứng dụng khác phát triển mạnh mẽ, đáp ứng nhu cầu ngày cao người sử dụng Đã có nhiều nghiên cứu nước việc xây dựng hệ thống website mới, cho hệ thống máy tính hiểu nội dung liệu lưu trữ Xuất phát từ nhu cầu cần có nghiên cứu chi tiết, cụ thể lý luận web ngữ nghĩa, cách thức xây dựng máy tìm kiếm liệu tảng web ngữ nghĩa, tiến hành thực đề tài: “Nghiên cứu Web hệ mới, tìm hiểu vấn đề liên quan Web hệ thử nghiệm số ứng dụng tự động thu thập thông tin web” Lịch sử nghiên cứu Với ra đời web ngữ nghĩa từ đầu năm 60, máy tìm kiếm với mô hình web ngữ nghĩa ưu tiên nghiên cứu phát triển Lương Xuân Diệu Semantic Web Hiện có nhiều dự án nghiên cứu ứng dụng hệ thống tìm kiếm semantic khác xây dựng Tuy nhiên việc ứng dụng web semantic tìm kiếm web semantic chưa thực mạnh mẽ giới Cần có chuẩn bị thời gian để chuyển dần việc sử dụng công nghệ web 2.0 sang việc sử dụng công nghê để xây dựng web Một số search engine nay: Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu Mục đích đề tài: nghiên cứu sở lý luận thực tiễn web semantic, thành phần, công nghệ sử dụng web semantic Đưa ưu điểm, khác biệt việc sử dụng công nghệ khác việc xây dựng web semantic Lương Xuân Diệu Semantic Web Xây dựng môt hình tìm kiếm semantic đơn giản mô kết nghiên cứu tính khả thi mô hình web ngữ nghĩa Đối tượng nghiên cứu đề tài: Web ngữ nghĩa, công nghệ tảng xây dựng web ngữ nghĩa, hệ thống tìm kiếm tảng web ngữ nghĩa Tóm tắt luận điểm World Wide Web thay đổi cách thức giao tiếp người nhiều lĩnh vực Web ngữ nghĩa đời xu phát triển việc biểu diễn liệu để khắc phục hạn chế Web hướng tới hệ Web mới, đáp ứng tốt nhu cầu người ứng dung Các ứng dụng thiết kế dựa khái niệm sử dụng thông tin xử lý máy tính để tạo động lức lớn cho việc phát triển hệ công cụ ứng dụng RDF/RDFS OWL ngôn ngữ xây dựng sử dụng việc định nghĩa mô tả liệu tảng web ngữ nghĩa Cùng với việc sử dụng SPARQL ngôn ngữ truy vấn liệu cho web ngữ nghĩa Từ xây dựng nên thành phần web ngữ nghĩa, ứng dụng vào thực tế Hiện việc ứng dụng web ngữ nghĩa để xây dựng ứng dụng ngày nhiều như: thư viện số, hệ thống quản lý thông tin, hệ thống tra cứu, tư vấn hỗ trợ… Phương pháp nghiên cứu Nghiên cứu lý thuyết: Nghiên cứu công trình khoa học công bố web ngữ nghĩa, báo, giảng Tham khảo công cụ, ngôn ngữ World Wide Web Consortium (W3C) Nghiên cứu thực nghiệm: Thực nghiệm mố số công cụ hỗ trợ xây dựng web ngữ nghĩa hệ thống tìm kiếm web ngữ nghĩa Lương Xuân Diệu Semantic Web Nội dung Chương I: Tổng quan Web ngữ nghĩa (Senmantic Web) Các hệ web đời web ngữ nghĩa 1.1 Lịch sử phát triển website Web site một tập hợp trang web site đơn giản, đặt nhiều web server Được truy cập thông qua mạng Internet mạng LAN địa website gọi URL (Uniform resource location) Thế hệ Website (web tĩnh – Static web) trang text đơn giản, kết hợp với ngôn ngữ đánh dấu (HTML) CSS Loại web đơn giản thể thông tin xây dựng sẵn, tương tác với người dùng Nó chứa hình ảnh, âm thanh, video, tất xác định sẵn, thay đổi theo yêu cầu người dùng Thế hệ Website thứ (web động – dynamic web) phát triển từ tảng static web (HTML, CSS) với việc sử dụng công nghệ theo mô hình Client Server CGI, Java Servlet, JSP, ASP…đã tạo nên hệ thống web động Có khả tương tác, thay đổi nội dung, liệu theo yêu cầu người sử dụng Với đời ngày nhiều số lượng ngày tăng chất lượng, nội dung, khiến cho hệ thống web toàn giới trở thành kho thông tin khổng lồ, chứa đựng thông tin mặt sống Tuy nhiên từ nảy sinh yêu cầu tất yếu, việc tìm kiếm thông tin kho tri thức khổng lồ Với chất web tập hợp nội dung với ngôn ngữ đánh dấu (HTML) ngôn ngữ định dạng (CSS) việc tìm kiếm thông tin đơn giản tìm kiếm theo từ vựng Vì yêu cầu tất yếu cần phải có hệ Lương Xuân Diệu Semantic Web Phương pháp hỗ trợ việc lưu trữ tài nguyên có nhiều thuộc tính (multivalue) Không có giá trị Null database, không bị phân mảnh, hiệu cực tốt, áp dụng tốt cho database đọc Tuy nhiên insert thêm liệu tốn nhiều hiệu Khi số lượng thuộc tính lớn, truy vấn với số lượng thuộc tính không giới hạn: hiệu hệ thống rơi xuống mức cực thấp 51 Lương Xuân Diệu Semantic Web Chương III: Ứng dụng tìm kiếm liệu mô hình web ngữ nghĩa Mô hình website (2.0) Các web (dynamic web) xây dựng dựa mô hình lớp chuẩn Khi xây dựng website tảng web ngữ nghĩa, thay đổi chủ yếu nằm Data Layer Với mô hình web truyền thống, sở liệu chủ yếu RDBMS, sử dụng SQL để truy vấn liệu Đối với website mà liệu lưu trữ hệ thống file, việc đọc ghi liệu thực thông qua source code Khi file liệu thường sử dụng file XML txt Dữ liệu lưu trữ Database hay file liệu liệu quan hệ (Relational data) Đối với web ngữ nghĩa, thay sử dụng hệ thống RDBMS truyền thống, ta sử dụng hệ thống file RDF Tương tự với SQL, ta sử dụng SPARQL để truy vấn liệu hệ thống file RDF Dữ liệu trả từ SPARQL tập liệu DataSet, logic xử lý liệu thay đổi so với hệ thống website cũ Đặc điểm cho phép nâng cấp website lên web ngữ nghĩa trở nên đơn giản khả thi Ta cần tổ chức lại hệ thống mô tả liệu, thay lưu liệu vào RBDMS, ta lưu file RDF, thiết kế quan hệ, ngữ nghĩa cho liệu sẵn có 52 Lương Xuân Diệu Semantic Web Các nội dung để chuyển từ web 2.0 thành web ngữ nghĩa 2.1 Thiết kế sở liệu Với mục đích xây dựng web site đơn giản cung cấp chức tìm kiếm thông tin máy tính bán thị trường từ nhà cung cấp Cơ sở liệu web site thiết kế sau: Một hệ thống máy tính nói chung bao gồm thông tin về: Tên máy, mã, hãng sản xuất, Ram, Màn hình (monitor), ổ cứng (HDD), Bus, tốc độ chip 53 Lương Xuân Diệu Semantic Web Cơ sở liệu xây dựng hệ thống liệu liên kết sử dụng bảng sau: Name Code Brand Ram Monitor HDD Img Speed Text Text Text Text Text Text Text Text Việc chuyển từ sở liệu liên kết (relation data) sang data web ngữ nghĩa thực sau: Sử dụng OWL để định nghĩa liệu: Personal Computer 54 Lương Xuân Diệu Semantic Web Computer Việc định nghĩa lớp Computer tiến hành thông qua việc sử dụng OWL Việc định nghĩa thuộc tính lớp Computer định nghĩa thông qua OWL sau: Với thuộc tính ta sử dụng đoạn khai báo OWL:DataTypeProperty: Name Name Việc sử dụng owl:domain: để khai báo thuộc tính phận class Computer Khi việc khai bảo đầy đủ thuộc tính Computer bao gồm code block tương ứng: Brand Brand 55 Lương Xuân Diệu Semantic Web Bus Bus Code Code HDD Hard Disk Image Image 56 Lương Xuân Diệu Semantic Web Monitor Monitor Name Name Ram Ram Speed Speed 57 Lương Xuân Diệu Semantic Web Việc khai báo liệu cho Computer thực block pc: sau: 256 Sony Vaio F SVF15322SGW 15.5 SVF15322SGW 4 http://www.hanoicomputer.vn/media/product/16270_0_svf15 322sgw.jpg 1.70 2.2 Truy vấn liệu Việc truy xuất liệu web ngữ nghĩa thực thông qua ngôn ngữ truy vấn SPARQL Trong phạm vi đề tài, để mô SPARQL, sử dụng thư viện dotnetRDF (http://dotnetrdf.org/ ) ngôn ngữ C# để thực mô trình tìm kiếm SPARQL RDF Các truy vấn SPARQL sử dụng hệ thống 58 Lương Xuân Diệu Semantic Web Trong trường hợp người dùng sử dụng truy vấn tất đầu vào (tất thông tin đầu vào có giá trị) PREFIX pc: PREFIX dc: SELECT * WHERE { dc:subject pc:ram "1024"; pc:hdd “500”; pc:speed "1.7"; pc:monitor "15.5"; pc:name "Sony Vaio F" pc:code "SVF15322SGW" } Với trường hợp sử dụng biến đầu vào ram PREFIX pc: PREFIX dc: SELECT * WHERE { dc:subject pc:ram "1024" 59 Lương Xuân Diệu Semantic Web } Tương tự với việc truyền vào biết đầu vào giá trị khác (monitor, speed…) 2.3 Xuất truy vấn liệu website Mô hình tìm kiếm hệ thống có khả tìm kiếm nhiều nguồn liệu khác nhau, thông qua RDF Endpoint Các website bán máy tính xuất liệu máy tính thông qua file RDF Hệ thống markup địa chứa file liệu Mỗi hệ thống khởi động, load toàn liệu từ file RDF từ nguồn liệu khác nhau, tạo thành triple graph Các triple store lưu nhớ tạm thời, việc truy vấn SPARQL thực thực liệu nhớ tạm thời Tập hợp RDF endpoint sử dụng lưu file XML file config hệ thống, file cần cập nhật thường xuyên để thu thập liệu từ nhiều nguồn khác Ứng dụng tìm kiếm web ngữ nghĩa Hệ thống xây dựng nhằm mục đích tìm các máy tính theo liệu đầu vào: gồm có thuộc tính: Ram, tốc độ, hình, tên, mã, ổ cứng Người sử dụng nhập thông tin muốn tìm kiếm vào ô text box Hệ thống tự động lọc thông tin truyền vào, đẩy vào câu SPARQL tương ứng, sau thư viện dotnetRDF xử lý câu SPARQL truy vấn liệu Dữ liệu trả dạng Data set Hệ thống xử lý data set tương tự với việc xử lý hệ thống website 2.0 Dữ liệu hiển thị bao gồm thông tin chính: ảnh sản phẩm, tên sản phẩm với đường dẫn URI tới địa WWW sản phẩm tìm kiếm Thiết kế giao diện hệ thống: 60 Lương Xuân Diệu Semantic Web Chức tìm kiếm: Các ô text tương ứng với biến cần truyền vào Nếu tất ô để để trống, hệ thống trả tất liệu có Ví dụ tìm kiếm: 61 Lương Xuân Diệu Semantic Web 62 Lương Xuân Diệu Semantic Web KẾT LUẬN Những kết luận Luận văn nêu lên, phân tích vai trò, phân tích ưu nhược điểm thành phần cấu thành nên web ngữ nghĩa Việc ứng dụng RDFS/OWL xây dựng hệ thống web ngữ nghĩa, ứng dụng tìm kiếm tảng web ngữ nghĩa hoàn toàn khả thi Đối với việc chuyển đổi từ web dynamic thông thường thành web ngữ nghĩa đưa phương pháp chuyển đổi tầng liệu từ mô hình liệu liên kết truyền thống thành liệu semantic sử dụng RDF OWL Web semantic triển khai nên tảng RDBMS (vẫn sử dụng hệ quản trị sở liệu quan hệ) để xây dựng phát triển web ngữ nghĩa Khi liệu triple store lưu trữ vào database theo nhiều phương pháp khác Mỗi phương pháp có ưu nhược điểm rõ ràng, phù hợp với ứng dụng, mục đích sử dụng hệ thống khác Tuy nhiên việc phát triển dựa RDBMS trở nên phức tạp nhiều công sức nhiều, cần phải chuyển đổi từ SPARQL sang SQL, chuyển đổi liệu truy vấn từ SQL sang liệu trả SPARQL tương ứng Có thể sử dụng RDF endpoint để truy cập liệu từ xa thông qua http Việc sử dụng in-memory database (lưu trữ tất triple store có vào nhớ tạm thời) dẫn tới việc hiệu hệ thống tìm kiếm bị giảm số lượng data tăng lên Đòi hỏi cần phải có phương pháp index hợp lý cho liệu 63 Lương Xuân Diệu Semantic Web Kiến nghị việc sử dụng kết nghiên cứu Kết nghiên cứu luận văn sử dụng tài liệu giảng dạy, tham khảo web ngữ nghĩa Nội dung luận văn thao khảo từ nhiều nguôn thông tin thống không thống khác nhau, từ giảng web ngữ nghĩa Có thể phát triển mở rộng hệ thống tìm kiếm máy tính trở thành cổng thông tin tìm kiếm liệu cho nhiều loại hàng hóa, thiết bị, thông tin khác Bằng cách thêm vào OWL mô tả file RDF chứa liệu Khi với loại hàng hóa, tài nguyên khác nhau, ta cần xây dựng form input liệu đầu vào, tất thao tác tìm kiếm, biểu diễn liệu kế thừa phát triển từ hệ thống sẵn có 64 Lương Xuân Diệu Semantic Web Tài liệu tham khảo https://www.cambridgesemantics.com http://www.codeproject.com/Articles/348918/Fuzzy-Ontology-Framework Dr Harald Sack (2013) Semantic Web Technologies (2013) http://protege.stanford.edu/ http://webaim.org/techniques/semanticstructure/ http://www.w3.org/ 65 ... máy tìm kiếm liệu tảng web ngữ nghĩa, tiến hành thực đề tài: Nghiên cứu Web hệ mới, tìm hiểu vấn đề liên quan Web hệ thử nghiệm số ứng dụng tự động thu thập thông tin web Lịch sử nghiên cứu. .. việc ứng dụng web ngữ nghĩa để xây dựng ứng dụng ngày nhiều như: thư viện số, hệ thống quản lý thông tin, hệ thống tra cứu, tư vấn hỗ trợ… Phương pháp nghiên cứu Nghiên cứu lý thuyết: Nghiên cứu. .. chế Web hướng tới hệ Web mới, đáp ứng tốt nhu cầu người ứng dung Các ứng dụng thiết kế dựa khái niệm sử dụng thông tin xử lý máy tính để tạo động lức lớn cho việc phát triển hệ công cụ ứng dụng

Ngày đăng: 25/07/2017, 21:49

Từ khóa liên quan

Mục lục

  • Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web)

  • 1. Các thế hệ web và sự ra đời của web ngữ nghĩa

    • 1.1. Lịch sử phát triển của website

    • 1.2. Web dữ liệu (Web of Data)

    • 1.3. Những giới hạn của web 2.0, sự ra đời của web 3.0

    • 1.4. Lịch sử phát triển của web ngữ nghĩa

    • 2. Định nghĩa về web ngữ nghĩa

      • 2.1. Định nghĩa

      • 2.2. Các thành phần cơ bản của web ngữ nghĩa

      • 2.3. Các phiên bản của web ngữ nghĩa

      • 2.4. Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa

      • 2.5. Adaptive web và Semantic web

      • Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic Web)

        • 1. URI

          • 1.1. Định nghĩa

          • 1.2. Ứng dụng của URI trong Web ngữ nghĩa

          • 2. RDF và RDFS

            • 2.1. RDF

            • 2.1.1. Định nghĩa

            • 2.1.3. Các thuộc tính của RDF (property)

            • 2.2. RDFS

            • 2.2.1. Định nghĩa

            • 2.2.2. RDF vs RDFS

            • 2.3. RDF Tripple Stores

            • 2.4. Ngôn ngữ truy vấn trên RDF: SPARQL

Tài liệu cùng người dùng

Tài liệu liên quan