Vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào SQL server nhằm hỗ trợ cho hệ thống trả lời truy vấn luận văn thạc sĩ

84 493 0
Vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào SQL server nhằm hỗ trợ cho hệ thống trả lời truy vấn luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trước tiên, tôi thể hiện sự biết ơn sâu sắc đến cha mẹ tôi, những người đã nuôi nấng tôi nên người, là chỗ dựa tinh thần vững chắc để tôi tự tin bước vào đời. Kế tiếp, tôi xin gửi lời cảm ơn tới PGS.TS Đặng Trần Khánh, người đã cho tôi những ý tưởng quý báu, mới lạ, hướng dẫn tận tình và đầy lòng nhiệt huyết. Bên cạnh đó, tôi cũng chân thành cảm ơn chồng tôi, người luôn ủng hộ và tạo mọi điều kiện để tôi có thể hoàn thành chương trình học cũng như quá trình thực hiện luận văn. Cuối cùng là lời cảm ơn tới những người đồng nghiệp đã đóng góp cho tôi những ý kiến bổ ích để tôi hòan thiện luận văn này. MỤC LỤC LỜI CẢM ƠN 1 DANH MỤC CÁC HÌNH VẼ 6 CHƯƠNG 1: GIỚI THIỆU . 7 1. Lý do chọn đề tài: 1 2. Mục đích nghiên cứu: 3 3. Đối tượng và phạm vi nghiên cứu: 5 4. Phương pháp nghiên cứu: 5 CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ THỐNG TRẢ LỜI TRUY VẤN LINH HOẠT 6 1. Một số nghiên cứu liên quan 6 1.1.Phân loại các hình truy vấn mờ . 6 1.2.Các giải pháp dựa trên nền tảng mờ (Fuzzy Based Solutions) . 8 1.3.Phương pháp lân cận gần nhất (Nearest Neighbors) . 8 2. Một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt 11 2.1.ARES . 11 2.2.VAGUE . 13 2.3.VQS (Vague Query System) . 15 2.4.QBIC (Query By Image Content) . 15 3. Kết luận chương: 18 CHƯƠNG 3: HỆ THỐNG TRUY VẤN MỜ VQS (Vague Query System) 20 1. Giới thiệu: 20 2. Tìm kiếm tương tự dựa vào ngữ nghĩa: . 21 3. Các khái niệm cơ bản và kiến trúc tổng quan của hệ thống VQS: 25 3.1.Các khái niệm cơ bản . 25 3.2.Ngôn ngữ truy vấn mờ VQL (Vague Query Language) . 30 3.3.Kiến trúc tổng quan của hệ thống VQS 33 4.Hệ thống thông tin bất động sản (Property Information System) 35 4.1. Truy vấn mờ và các chức năng cơ bản: 35 4.2. Truy vấn mờ trong hệ thống thông tin bất động sản: 37 4.3. Định nghĩa siêu thông tin ngữ nghĩa 41 4.4. Thực thi các truy vấn mờ 44 4.5. Các điều kiện thêm vào . 49 4.6. Việc thực hiện hệ thống VQS: 50 4.7.Nhúng VQS vào hệ thống thông tin bất động sản 51 5. Xử lý kết nối mờ trong VQS: . 52 6. Tích hợp thêm các điều kiện sắp xếp mờ: . 57 7. Kết luận . 62 CHƯƠNG 4: XÂY DỰNG HỆ THỐNG HỖ TRỢ TRẢ LỜI TRUY VẤN LINH HOẠT VÀO SQL SERVER . 63 1. Giới thiệu . 63 2. Một số tập lệnh SQL cơ bản dùng để xây dựng VQS 63 2.1. Dạng chuẩn của truy vấn SQL trong SQL Server: 63 2.2. Một số phép toán và hàm có sẵn để xây dựng ngôn ngữ VQS . 64 2.3. Hàm do người dùng định nghĩa 64 2.4. Chuẩn bị dữ liệu hỗ trợ cho việc tìm kiếm gần đúng 67 2.4.1.Các quan hệ và siêu dữ liệu 67 2.4.2.Khung nhìn . 68 2.5. Xây dựng ngôn ngữ truy vấn mờ mở rộng 69 3. Thử nghiệm và đánh giá . 71 3.1. Các giao diện modun quản lý . 72 Hình 4.3 Giao diện quản lý siêu dữ liệu dành cho người quản trị . 73 3.2. Các giao diện thực thi ngôn ngữ VQS gốc 73 4. Kết luận chương 75 CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 76 1. Tổng kết . 76 2. Hướng nghiên cứu trong tương lai . 76 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CBIR DBMS ICA ISA FQAS MAM NCR SQL PIS VQL VQS RDBMSs IR FD Content-Based Image Retrieval DataBase Management System Incremental hyper-Cube Approach Incremental hyper-Sphere Approach Flexible Query Answering System Multidimensional Access Method Numeric Coordinate Representation Structured Query Language Property Information Systems Vague Query Language Vague Query System Relation Database Management Syterms Information Retrival Fuzzy Database Truy tìm hình ảnh dựa vào nội dung Hệ quản trị cơ sở dữ liệu Phương pháp mở rộng siêu khối Phương pháp mở rộng siêu cầu Hệ thống trả lời truy vấn linh hoạt Phướng pháp truy xuất đa chiều Biểu diễn tọa độ số Ngôn ngữ truy vấn cấu trúc Hệ thống thông tin bất động sản Ngôn ngữ truy vấn mờ Hệ thống truy vấn mờ Cơ sở dữ liệu quan hệ Truy vấn thông tin Cơ sở dữ liệu mờ DANH MỤC CÁC HÌNH VẼ Hình 2.1 Các kiểu truy vấn Nearest neighbor 10 Hình 2.2 Quan hệ không tương tự được định nghĩa trên thuộc tính Huong 11 Hình 2.3 Kiến trúc tổng quan của QBIC 17 Hình 3.1 Ví dụ bảng NCR về các tên màu . 27 Hình 3.2 Việc bình thường hóa sử dụng đường kính có ảnh hưởng . 29 Hình 3.3 tả chính thức của ngôn ngữ VQL 31 Hình 3.4 Một ví dụ về sử dụng các bảng NCR . 32 Hình 3.5 Sơ đồ kiến trúc tổng quát của hệ thống [4] 34 Hình 3.6 Mẫu dữ liệu bất động sản . 39 Hình 3.7 Khung nhìn được chuẩn bị cho ứng dụng VQS . 40 Hình 3.8 Các bảng NCR trong dữ liệu mẫu về hệ thống thông tin bất động sản 43 Hình 3.9 Minh họa về việc ánh xạ các bảng NCR đến các trường mờ . 44 Hình 3.10 Tập kết quả đã được sắp xếp của truy vấn mẫu . 47 Hình 3.11 Tập kết quả đã được sắp xếp với độ ưu tiên về vị trí địa lý . 48 Hình 3.12 Tập kết quả được sắp xếp của một truy vấn với các điều kiện cố định. 50 Hình 3.13 PIS-VQL Adapter với các khả năng truy vấn mờ 52 Hình 3.14 tả chính thức của ngôn ngữ VQL mở rộng 55 Hình 3.15: Cú pháp mở rộng ngôn ngữ truy vấn mờ. . 58 Hình 3.16 : Bảng 1 - thông tin KHACH_SAN . 60 Hình 3.17 Bảng 2 - Tập kết quả . 61 Hình 4.1 Các quan hệ và các bảng miêu tả tọa độ số . 68 Hình 4.2 Khung nhìn làm nguồn dữ liệu chính 69 Hình 4.4 Giao diện thực thi ngôn ngữ VQL . 73 Hình 4.5 Kết quả của truy vấn mờ . 74 CHƯƠNG 1: GIỚI THIỆU 1. Lý do chọn đề tài: Trong suốt nhiều thập kỉ qua, hình cơ sở dữ liệu quan hệ đã chiếm lĩnh thị trường và rất thành công trong việc thỏa mãn phần lớn các yêu cầu của các ứng dụng. Thành công này có thể là do sự tinh tế, đơn giản của hình quan hệ và những ý tưởng phát triển như: các giao dịch, kiểm soát và khôi phục sự đồng bộ, cơ sở dữ liệu phân tán, đặc biệt là ngôn ngữ truy vấn cấu trúc SQL. Mặc dù thành công, nhưng các cơ sở dữ liệu ngày nay đang đối mặt với những thách thức mới trong giai đọan mà khoa học máy tính phát triển một cách nhanh chóng. Một trong những thách thức đang nổi lên trong thế giới thương mại là làm thế nào để việc xử lý những truy vấn của người dùng không chỉ hiệu quả mà còn phải linh hoạt. Vì thực tế thì trong hình xử lý truy vấn của các hệ quản trị cơ sở dữ liệu truyền thống (Relational Database Management Systems - RDBMSs) thường trả về một kết quả trùng khớp với truy vấn của người dùng một cách tuyệt đối, điều này không đủ đáp ứng nhu cầu của người dùng và đặc biệt không có tính linh hoạt. Rõ nghĩa hơn là, khi dữ liệu có sẵn trong một cơ sở dữ liệu quan hệ mà không trùng khớp với những truy vấn của người dùng một cách tuyệt đối thì hệ thống quản trị cơ sở dữ liệu quan hệ sẽ trả về cho người dùng tập kết quả rỗng và do đó điều này làm hạn chế khả năng ứng dụng của các hệ quản trị cơ sở dữ liệu truyền thống. Trong nhiều lĩnh vực ứng dụng, người dùng không chỉ mong muốn những kết quả chính xác một cách tuyệt đối theo truy vấnhọ cũng muốn có những kết quả khác có liên quan hoặc gần đúng với yêu cầu của họ trong một ý nghĩa nhất định[1] . Những ứng dụng này thường xuất hiện thực tế trên thế giới như xử lý hình ảnh, hệ thống CAD/CAM, hệ thống thông tin địa lý, hệ thống thông tin du lịch, hệ thống thông tin thời gian, thư viện số, truy vấn thông tin hiện đại IR (modern Information Retrieval), thương mại điện tử và các ứng dụng khác. Lĩnh vực thương mại bất động sản là một trong những lĩnh vực kinh doanh “nóng bỏng nhất hiện nay ở Việt Nam” với nhu cầu mua, bán, cho thuê bất động sản thu hút sự quan tâm của nhiều người. Mặc dù có nhiều trang web đã cung cấp nhiều thông tin với công cụ hỗ trợ tìm kiếm, nhưng đến nay vẫn chưa có một hệ thống hỗ trợ tìm kiếm nào đáp ứng tốt được nhu cầu thông tin cho người dùng. Điều đó cho thấy cần phải có một sự đầu tư đúng mức trong việc xây dựng dịch vụ hỗ trợ tìm kiếm thực sự hiệu quả, đồng thời thực tế cho nhu cầu hiện tại và tương lai. Bài tóan đặt ra: khi một khách hàng tìm kiếm thông tin của một sản phẩm: ví dụ tìm kiếm thông tin về bất động sản để mua một căn nhà diện tích 100m 2 , kích thước mặt tiền 5m hướng đông với giá 1.000đ thuộc khu vực Quận 2, người khách hàng này sẽ không tìm thấy trong hệ thống quản lý cơ sở dữ liệu truyền thống nếu như không có căn nhà nào như vậy. Và khi đó, hệ thống sẽ trả về một kết quả rỗng và dĩ nhiên người khách hàng cảm thấy hơi thất vọng. Trên thực tế thì người khách hàng này có lẽ chấp nhận một thông tin rằng có ít nhất một căn nhà có diện tích lớn hơn hoặc nhỏ hơn 100m 2 , hoặc giá bán lớn hơn hoặc nhỏ hơn 1.000đ, thậm chí cũng chấp nhận thông tin rằng căn nhà đó có địa chỉ không thuộc quận 2 mà thuộc quận khác. Để giải quyết bài tóan này, giải pháp là: biểu diễn lại các giá trị không phải là số trong cơ sở dữ liệu bằng các tọa độ số trong không gian đặc trưng và thông tin này được lưu trữ trong các bảng biểu diễn tọa độ số. Từ đó việc xác định độ tương tự về ngữ nghĩa được tính toán trên các bảng biểu diễn tọa độ số được dễ dàng và có độ chính xác cao, nhất là trong không gian dữ liệu nhiều đặc trưng, nhiều chiều. Đồng thời sử dụng hệ thống hỗ trợ trực tiếp khả năng truy vấn mờ VRC (Vague Retrieval Capabilities) để xây dựng một hệ thống hỗ trợ tìm kiếm một cách linh hoạt. Khi đó, một cơ sở dữ liệu hay hệ thống thông tin mà hỗ trợ cho giải pháp này được gọi là hệ thống trả lời truy vấn linh họạt FQAS (Flexible Query Answering System). Từ thực tế, cụ thể là bài tóan đã nêu trên, chúng tôi thấy rằng trong hệ thống thương mại điện tử ngày nay, hệ thống FQAS trở nên ngày càng quan trọng. Bởi vì, những khách hàng chưa cần tiếp cận thực tế các mặt hàng (chẳng hạn xe hơi, quần áo, bất động sản, điện thoại .) , nhưng họ cần thấy thông tin của những hàng hóa bằng việc sử dụng máy tính trước khi quyết định mua/thuê chúng hay không. Nếu hệ thống không hỗ trợ trực tiếp khả năng truy vấn mờ VRC thì người dùng hệ thống buộc phải thử đi thử lại nhiều lần câu truy vấn cụ thể khác (với sự thay đổi nhỏ) cho đến khi họ có được dữ liệu thỏa đáng và nếu người dùng không có bất kỳ sự điều chỉnh nào về những câu truy vấn của họ thì giải pháp này trở nên không khả thi [2]. Như vậy, kết quả là việc phát triển các hệ thống FQASs sẽ mang đến những giải pháp đối với những vấn đề cần thiết và không thể thiếu được cho sự phát triển của khoa học máy tính. 2. Mục đích nghiên cứu: Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu khá đa dạng, với dữ liệu đa chiều, nhiều đặc trưng. Việc xử lý thông tin từ nguồn dữ liệu này để đưa ra các kết quả đáp ứng nhu cầu tìm kiếm nhiều chiều của người sử dụng một cách linh hoạt là mục đích cần đặt ra.

Ngày đăng: 18/12/2013, 14:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan