Hệ cơ sở dữ liệu quan hệ và ngôn ngữ hỏi có cấu trúc SQL

7 1.1K 3
Hệ cơ sở dữ liệu quan hệ và ngôn ngữ hỏi có cấu trúc SQL

Đang tải... (xem toàn văn)

Thông tin tài liệu

Chơng I Hệ sở dữ liệu quan hệngôn ngữ hỏi cấu trúc sql A - Hệ sở dữ liệu quan hệ 1. Quan hệ các phép toán đại số quan hệ 1.1. Quan hệ Quan hệ là một tập con của tích Đề-các của một hoặc nhiều miền. Nh vậy một quan hệ thể là vô hạn. ở đây luôn luôn giả thiết rằng quan hệ là một tập hữu hạn. Mỗi hàng của một quan hệ gọi là một bộ, khi đó quan hệ là tập con của tích Đề-các D1ìD2ìD3ì .ìDn là quan hệ n ngôi. Mỗi bộ của quan hệ n thành phần (thờng hiểu là n cột). Các cột của quan hệ gọi là các thuộc tính. thể định nghĩa quan hệ theo cách hình thức nh sau: Gọi R={A1, A2, ., An} là tập hữu hạn các thuộc tính, mỗi thuộc tính Ai với i=1, 2, ., n miền giá trị tơng ứng là dom(Ai). Quan hệ trên tập thuộc tính R={ A1, A2, ., An} là tập con của tích Đề-các, r dom(A1) ì dom(A2) ì .ì dom(An). Khi đó kí hiệu r(R) hoặc r(A1, A2, ., An) là quan hệ. 1.2. Khoá của lợc đồ quan hệ Khoá (Key) của quan hệ r trên tập thuộc tính R={A1, .An} là tập con KR sao cho bất kì hai bộ khác nhau t1, t2 r luôn thoả t1(K)t2(K). Điều này nghĩa là lợc đồ quan hệ không hai bộ giống nhau trên mọi thuộc tính của R. 1.3. Các phép toán đại số quan hệ Gọi r s là quan hệ trên tập thuộc tính R={A1, A2, .,An} R1={B1,B2, .,Bn}. Giả thiết rằng quan hệ r, s là tập hữu hạn các bộ. Đối với các phép hợp, giao trừ, hai quan hệ tham gia phải là khả hợp. 1* Hợp của hai quan hệ Kí hiệu hợp của hai quan hệ r s là r s. Biểu diễn hình thức dạng: r s ={t/ts hoặc tr hoặc tr s} 2* Phép giao Kí hiệu giao của hai quan hệ r s là r s. Biểu diễn hình thức dạng: r s ={t/tr s} 3* Phép trừ Kí hiệu r-s là tập các bộ thuộc r nhng không thuộc s. Biểu diễn hình thức dạng: r-s={t/t r t s}. 1* Tích Đề-các trên các quan hệ Tích Đề-các của r s là tập (n*m) bộ với n thành phần đầu dạng một bộ thuộc r m thành phần sau dạng của một bộ thuộc s. Biểu diễn hình thức dạng: r ì s={t/t dạng (a1,a2, .,an,b1,b2, .,bn) trong đó (a1,a2, .,an r ) (b1,b2, .,bn s)} 4* Phép chiếu Gọi t là một bộ thuộc r, A R, t[A] là giá trị của bộ tại thuộc tính A, X R. Với X={B1,B2, .,Bn} thì t[X]=(t[B1],t[B2], .,t[Bn]). Phép chiếu trên tập X của quan hệ r kí hiệu là r[X] đợc định nghĩa nh sau: r[X]={t[X]/t r}. Thực chất của phép chiếu là loại bỏ đi một số thuộc tính giữ lại những thuộc tính còn lại của quan hệ đó 5* Phép chọn Giả sử F đợc diễn tả bằng một tổ hợp Boolean của các toán hạng, mỗi toán hạng là một phép so sánh đơn giản giữa hai biến là hai thuộc tính, hoặc một bên là thuộc tính một bên là hằng, cho giá trị "đúng" hoặc "sai" đối với mỗi bộ đã cho khi kiểm tra riêng trên bộ đấy. Trong F các phép toán so sánh là {<, =, >, >=, <=, }, các phép logic là {, , ơ}. Biểu diễn hình thức dạng: ơF(r)={t r | F(t)=đúng} 6* Phép kết nối Gọi là một trong các phép so sánh {=, >=, >, <, <=, <>}, phép kết nối đợc định nghĩa nh sau: Phép kết nối của quan hệ r đối với thuộc tính A với quan hệ s đối với thuộc tính B là: r s = {(tu)tr, us t[A] u[B]} với giả thiết mỗi giá trị của thuộc tính t[A] đều thể so sánh đợc với giá trị của thuộc tính u[B] (qua phép so sánh ). Trờng hợp là dấu "=" gọi là kết nối bằng hay còn gọi là kết nối tự nhiên. Khi đó kết nối tại thuộc tính cùng tên của hai quan hệ một trong hai thuộc tính đó sẽ đợc loại bỏ qua phép chiếu. 7* Phép chia Gọi r là quan hệ n-ngôi s là quan hệ m-ngôi (n>m, s ). Khi đó phép chia đợc định nghĩa nh sau: Phép chia r ữ s là tập tất cả (n-m) bộ t sao cho với mọi bộ u s thì t u r. 2. Cơ sở dữ liệu sở dữ liệu (CSDL) là mô hình thực thể phản ánh thế giới thực đ ợc đề cập đến, do đó nó là sự trừu tợng hoá của thế giới thực. CSDL là nguồn dữ liệu cho mọi hệ thống thông tin dựa trên máy tính, những dữ liệu này đ ợc lu giữ trong máy tính đợc tổ chức dựa trên một qui định nào đó nhằm giảm thiểu đợc sự d thừa đảm bảo sự thống nhất với nhau (toàn vẹn dữ liệu). Trong lịch sử phát triển của CSDL 3 mô hình CSDL chính đợc sử dụng là: 8* Mô hình phân cấp: Mô hình dữ liệu là một cây trong đó các nút biểu diễn các tập thực thể, giữa các nút con các nút cha đợc liên hệ theo một mối liên hệ xác định. 9* Mô hình mạng: Mô hình đợc biểu diễn là một đồ thị hớng. 10* Mô hình quan hệ: Mô hình này dựa trên sở khái niệm lý thuyết tập hợp của các quan hệ, tức là tập các k- bộ. 3. Mô hình cơ sở dữ liệu quan hệ Khái niệm toán học của mô hình CSDL quan hệ (hiểu theo nghĩa lí thuyết tập hợp) thì quan hệ là tập con của tích Đề-các (đợc gọi là miền). Gọi D1, D2, D3 . Dn là n miền. Tích Đề-các n miền là D1ìD2ìD3ì .ìDn là tập tất cả n bộ (v1,v2,v3, .,vn) sao cho viDi, với i=1, 2, ., n. 4. Hệ quản trị cơ sở dữ liệu Hệ chơng trình để thể quản lý, tổ chức lu trữ, cho phép tìm kiếm, thay đổi, thêm bớt dữ liệu trong CSDL đợc gọi là Hệ quản trị CSDL. Hệ quản trị CSDL nhiệm vụ rất quan trọng là giúp ngời dùng thể sử dụng đợc hệ thống mà ít nhiều không cần quan tâm tới thuật toán chi tiết hoặc biểu diễn dữ liệu trong máy tính . 5. Hệ tiên đề phụ thuộc hàm Khái niệm phụ thuộc hàm trong một quan hệ là một khái niệm rất quan trọng đối với việc xây dựng mô hình dữ liệu. Trong các hệ thống thông tin quản lý khi cần thiết kế CSDL quan hệ thờng đòi hỏi phải chọn lợc đồ các quan hệ. Việc chọn các lợc đồ này tốt hơn hay xấu hơn lợc đồ khác đợc dựa trên một số các tiêu chuẩn cụ thể nào đó. Do đó cần phải nghiên cứu tính chất bản cũng nh các thuật toán để thể nhận đợc những tập lợc đồ phù hợp. Trọng tâm của công việc này là xét đến các phụ thuộc dữ liệu, nghĩa là các mối ràng buộc thể hiện hữu của l ợc đồ. Chẳng hạn nh thuộc tính này xác định duy nhất thuộc tính kia. Ví dụ trong công việc quản lý tập hoá đơn thì mã hoá đơn xác định duy nhất một khách hàng thanh toán hoá đơn đó. Cho R(U) là một lợc đồ quan hệ với U = {A1, A2, .An} là tập hợp các thuộc tính. Giả sử X Y là tập con của U. Nói rằng X Y (X xác định hàm Y hay Y phụ thuộc vào hàm X) nếu bất kì r là một quan hệ xác định trên R(U) sao cho bất kì hai bộ t1, t2 r mà t1[X] = t2[X] thì t1[Y] = t2[Y] Phụ thuộc hàm kí hiệu là FD. Cần lu ý rằng ở đây chỉ xét các phụ thuộc hàm thoả mãn cho mọi quan hệ trên lợc đồ tơng ứng của nó. Không thể xem xét một phụ thuộc hàm thoả mãn quan hệ r đặc biệt (ví dụ quan hệ rỗng) của một lợc đồ R rồi sau đó qui nạp rằng phụ thuộc đó là thoả mãn trên R. Ví dụ: Mỗi khách hàng tồn tại vừa đúng với một giá trị tơng ứng với từng thuộc tính nh: Tên khách hàng, địa chỉ .v.v thể viết nh sau: khách hàng Tên khách hàng, khách hàng Địa chỉ, Gọi F là tập hợp các phụ thuộc hàm đối với lợc đồ quan hệ R(U) X Y là một phụ thuộc hàm, X, YU. Nói rằng X Y đợc suy diễn logic từ F nếu mối quan hệ r trên R(U) đều thoả mãn các phụ thuộc hàm của F thì cũng thoả X Y. Chẳng hạn tập phụ thuộc hàm F = {A B, B C} thì A C suy ra từ F. Gọi F + là bao đóng (Closure) của F, tức là tập tất cả các phụ thuộc hàm đợc suy diễn logic từ F. Nếu F = F + thì F là họ đầy đủ (Full Family) của phụ thuộc hàm. Để xác định khoá của lợc đồ quan hệ các suy diễn logic giữa các phụ thuộc hàm cần thiết phải tính đợc F + từ F. Do đó đòi hỏi phải các hệ tiên đề. Tập các qui tắc đợc Armstrong đa ra năm 1974 thờng đợc gọi là hệ tiên đề Armstrong. Gọi R(U) là lợc đồ quan hệ với U = {A1, A2, . An} là tập các thuộc tính X, Y, Z U. Hệ tiên đề Armstrong bao gồm: 11* A1 (Phản xạ): Nếu YX thì X Y 12* A2 (Tăng trởng): Nếu ZU X Y thì XZ YZ, trong đó kí hiệu XZ là hợp của hai tập hợp X, Z thay cho kí hiệu XZ 13* A3 (Bắc cầu): Nếu X Y Y Z thì X Z Với những lập luận trên thể rút ra những nhận xét: Giả sử F là tập các phụ thuộc hàm đúng trên quan hệ r. Nếu X Y là một phụ thuộc hàm đợc suy dẫn từ F nhờ hệ tiên đề Armstrong thì X Y là đúng trên quan hệ r. Những kết luận suy ra từ hệ tiên đề Armstrong: a. Luật hợp: Nếu X Y X Z thì X YZ b. Luật tựa bắc cầu: Nếu X Y WY Z thì WX Z c. Luật tách: Nếu X Y ZY thì X Z 6. Các dạng chuẩn trong CSDL quan hệ Do việc cập nhật dữ liệu (các phép tính nh thêm, loại bỏ, thay đổi) gây nên những dị thờng dữ liệu cho nên các quan hệ cần thiết phải đợc biến đổi thành các dạng phù hợp. Quá trình đó đợc xem là quá trình chuẩn hoá. Quan hệ đợc chuẩn hoá là quan hệ mà trong đó mỗi miền của một thuộc tính chỉ chứa những giá trị nguyên tố (Atomic) nghĩa là không phân nhỏ đợc nữa do đó mỗi giá trị trong quan hệ cũng là nguyên tố. Quan hệ chứa các miền giá trị không nguyên tố gọi là quan hệ không chuẩn hoá. Một quan hệ đ ợc chuẩn hoá thể thành một hoặc nhiều quan hệ chuẩn hoá khác không làm mất mát thông tin. Ba dạng chuẩn hoá thờng đợc sử dụng trong thiết kế CSDL quan hệ Dạng chuẩn thứ nhất (First Normal Form - 1NF) Dạng không chuẩn hoá Dạng chuẩn thứ hai (Second Normal Form - 2NF) Dạng chuẩn thứ ba (Third Normal Form - 3NF) đồ quan hệ giữa các dạng chuẩn dữ liệu 1NF Một lợc đồ quan hệ R đợc gọi là ở dạng chuẩn một (1NF) nếu chỉ nếu toàn bộ các miền mặt trong R đều chỉ chứa một giá trị nguyên tố hay nói một cách khác lợc đồ quan hệ phải tồn tại khoá. Định nghĩa này cho thấy bất kì quan hệ chuẩn nào cũng ở dạng 1NF. 2NF Lợc đồ quan hệ R ở dạng chuẩn thứ hai nếu nó đã ở dạng chuẩn thứ nhất nếu mỗi thuộc tính không khoá của R là phụ thuộc hàm đầy đủ vào khoá chính. 3NF Trớc khi đa ra định nghĩa của dạng chuẩn 3NF, cần đa thêm khái niệm phụ thuộc bắc cầu: Cho một lợc đồ quan hệ R(U), X là tập con của các thuộc tính U A là một thuộc tính thuộc U. Thuộc tính A đợc gọi là phụ thuộc bắc cầu vào X trên R nếu tồn tại một tập con Y của sao cho X Y thì Y A nhng Y / X (và không xác định hàm) với A XY. Tính bắc cầu thể đợc biểu diễn theo đồ sau: X A Y đồ thuộc tính quan hệ phụ thuộc bắc cầu Qua đồ thể thấy rằng A thể xác định hàm Y. Trong trờng hợp A / Y thì đợc gọi là tính bắc cầu chặt. Tính bắc cầu sẽ đợc sử dụng trong 3NF. Điều kiện A XY là cần thiết vì nếu A Y X thì theo luật phản xạ luôn X Y A. Điều kiện Y / X để loại bỏ nhiều khoá khỏi dạng chuẩn 3NF. Cũng nh ở 2NF việc loại bỏ phụ thuộc bắc cầu đi đến 3NF cũng nhằm loại bỏ những dị thờng gây ra do quá trình cập nhật dữ liệu vào quan hệ. Từ đó thể định nghĩa dạng chuẩn 3NF nh sau: Lợc đồ quan hệ R ở dạng chuẩn thứ ba (3NF) nếu nó là 2NF mỗi thuộc tính không khoá của R là không phụ thuộc hàm bắc cầu vào khoá chính. B. Giới thiệu về Ngôn ngữ hỏi cấu trúc SQL 1. Khái niệm về ngôn ngữ SQL Ngôn ngữ xử lý dữ liệu quan hệngôn ngữ bao gồm tập các chỉ thị cho phép hỏi, thay đổi, thêm bớt sửa thông tin của một CSDL. Trong các ngôn ngữ thao tác dữ liệu SQL, SEQUEL, QUEL, QBE .v.v thì ngôn ngữ SQL (Structure Query Language) là ngôn ngữ hỏi đáp dữ liệu cấu trúc, phi thủ tục, chuẩn mực điển hình đợc xác nhận là mạnh, phổ dụng lại dễ sử dụng. Ngôn ngữ này đợc phát triển từ ngôn ngữ SEQUEL-2, thử nghiệm cài đặt tại trung tâm nghiên cứu của hãng IBM (tại SALJOISE, CALIFONIA) cho hệ thống quản trị sở dữ liệu lớn điển hình là SYSTEM-R. Trong SYSTEM-R, SQL vừa đóng vai trò là một ngôn ngữ thể thao tác độc lập của ngời dùng đầu cuối, đồng thời lại khả năng là một ngôn ngữ con đợc nhúng trong ngôn ngữ chủ PL/1. Hiện nay ngôn ngữ SQL đã đợc chuyển thành chuẩn chính thức của ANSI (Viện tiêu chuẩn Mĩ) ISO (Cơ quan tiêu chuẩn quốc tế) đợc rất nhiều các phần mềm Quản trị hệ CSDL hỗ trợ cho ngôn ngữ này nh Oracle, NGRESS, DB2, SYBASE, INFOMIC .v.v. 2. Các đặc điểm của ngôn ngữ SQL Đây là một ngôn ngữ rất phù hợp cho CSDL phân tán theo mô hình Client-Server, nó cho phép nhiều ng ời dùng cùng truy nhập đến một sở dữ liệu với độ an toàn ổn định tính bảo mật cao. Ngôn ngữ SQL đảm bảo lu lợng truyền thông tin trên mạng tối thiểu vì Client chỉ gửi câu hỏi nhận về kết quả từ Server chứ không phải gửi cả CSDL đi để xử lý. Đặc biệt là do đợc các hệ quản trị CSDL hỗ trợ nên phơng thức chung để giao tiếp giữa các phần mềm quản trị CSDL (nh dùng ODBC) điều này làm cho hệ thống tính mở. Thật vậy, thể sử dụng một hệ quản trị CSDL tốt (đòi hỏi cấu phần cứng mạnh) nhng thể vẫn dùng phần mềm yêu cầu phần cứng thấp trên các Client hoặc thể dùng các máy NC (Net Computer). Mặt khác cũng thể dùng nhiều hệ quản trị CSDL trong cùng một hệ thống để khai thác các thế mạnh của chúng, ví dụ thể dùng Lotus Notes trên các Client (giao diện ng ời dùng thân thiện, u việt về truyền thông, xử lý tốt văn bản) kết nối vào CSDL Oracle trên Server (tính bảo mật cao, đa ng- ời dùng, quản lý tốt các giao tác-Transaction). Ngôn ngữ SQL còn khả năng thực hiện đợc những câu hỏi phức tạp mà các dạng ngôn ngữ khác không đáp ứng đợc một câu lệnh SQL thể thay thế cho một tập hợp các câu lệnh lập trình CSDL thông thờng. Ngoài cấu xử lý dữ liệu SQL còn các công cụ để xây dựng các ứng dụng WEB, khả năng xử lý dữ liệu, tạo báo cáo, thiết kế mô hình dữ liệu quản trị hệ thống. 3. Các loại câu lệnh SQL thao tác với dữ liệu cần quan tâm khi tối u Trong ngôn ngữ SQL hai loại lệnh thao tác với dữ liệu, đó là: 14* Các lệnh định nghĩa dữ liệu DDL (Data Defined Language): là các lệnh tạo bảng, tạo Index .v.v 15* Các lệnh cập nhật dữ liệu DML (Data Manipulation Language) nh SELECT, UPDATE, INSERT, DROP. Các lệnh cập nhật dữ liệu đợc sử dụng thờng xuyên cho nên cần thiết phải tìm ra phơng án chọn cách viết câu lệnh, cách thực hiện câu lệnh sao cho hiệu quả nhất về mặt thời gian cũng nh là về không gian lu trữ. Oracle thể tối u các loại câu lệnh sau: 1. Câu lệnh đơn: Một câu lệnh đơn là một câu lệnh INSERT, UPDATE, DELETE hoặc SELECT thao tác duy nhất trên một bảng. 2. Query đơn: thực chất là một câu lệnh SELECT (có thể với nhiều bảng). 3. Kết nối: Một kết nối là một truy vấn dữ liệu nhiều hơn một bảng từ kết nối giữa các bảng nằm trong mệnh đề FROM. Phép kết nối kéo dữ liệu từ các bảng khác nhau so sánh chúng từng đôi tại dòng chung ở tất cả các bảng các kiểu kết nối sau: 1* Liên kết ngang bằng (Equijoins) liên kết này dựa vào sự cân bằng của điều kiện tìm kiếm mà chỉ ra mối quan hệ giữa 2 bảng. 2* Liên kết không ngang bằng (Non-Equijoins) là liên kết 1 bảng này với một bảng khác dựa trên sự so sánh không bằng nh toán tử <=, >=, BETWEEN .v.v. 3* Liên kết ngoài (Outer joins): Giả sử 2 bảng KháchHàng HoáĐơncùng 2 cột là MãKháchHàng. Khi liên kết 2 bảng cho hiện lên tên của những khách hàng số thứ tự trùng nhau. Nếu muốn hiện lên cả những khách hàng không thoả mãn trong bảng KháchHàng cũng đợc hiện lên thì cần dùng liên kết ngoài . 4* Liên kết với chính nó (Self joins): Đây là kiểu liên đặc biệt giữa một bảng với chính nó nh 2 bảng riêng biệt . Để làm đợc việc này thì bảng đó phải một tên quan hệ. 4. Tích Đề-các: là kết quả của việc nhân hai tập hợp. 5. Câu lệnh phức: Một câu lệnh phức nh là một câu lệnh SELECT, INSER, UPDATE, hoặc DELETE chứa một câu lệnh SELECT khác (đợc gọi là subquery). 6. Các query kết hợp: Một query kết hợp là một query sử dụng các toán tử tập hợp nh UNION, UNION ALL, INTERSECT hoặc MINUS. 7. câu lệnh sử dụng View: View là một bảng logic mà thực chất là một câu lệnh SELECT mà thể thao tác giống nh đối với bảng. 8. Câu lệnh phân tán: nghĩa là câu lệnh truy nhập dữ liệu từ xa. . I Hệ cơ sở dữ liệu quan hệ và ngôn ngữ hỏi có cấu trúc sql A - Hệ cơ sở dữ liệu quan hệ 1. Quan hệ và các phép toán đại số quan hệ 1.1. Quan hệ Quan hệ. hàm bắc cầu vào khoá chính. B. Giới thiệu về Ngôn ngữ hỏi có cấu trúc SQL 1. Khái niệm về ngôn ngữ SQL Ngôn ngữ xử lý dữ liệu quan hệ là ngôn ngữ bao gồm

Ngày đăng: 06/10/2013, 08:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan