Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

22 898 0
Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 B Ộ GIÁO DỤC V À ĐÀO T ẠO T ẬP ĐO ÀN BƯU CHÍNH VI ỄN THÔNG VIỆT NAM HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG VIỆT NAM LÊ THỊ THANH SƠN PHÉP PHÂN TRONGSỞ DỮ LIỆU PHÂN TÁNỨNG DỤNG CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT HÀ NỘI – 2010 2 Luận văn được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông Tập đoàn Bưu chính Viễn thông Việt Nam Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG Phản biện 1: …………………………………………………… …………………………………………………… Phản biện 2: …………………………………………………… …………………………………………………… Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm 2010 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu chính Viễn thông 3 CHƯƠNG 1 TỔNG QUAN VỀ SỞ DỮ LIỆU PHÂN TÁN 1.1. THIẾT KẾ PHÂN TÁN LÀ GÌ Thiết kế phân tán bao gồm: - Thiết kế hệ thống mạng máy tính - Thiết kế các CSDL phân tán cho mạng máy tính đó Khi thiết kế hệ thống mạng máy tính tức là chúng ta đi xác định vị trí đặt các máy tính trong mạng như thế nào. Từ đó xác định vị trí đặt dữ liệu trong mạng máy tính đó. Tiếp theo là xác định các phần mềm ứng dụng cài đặt trên mạng. Cuối cùng là cách khai thác dữ liệu trên mạng đó như thế nào. Thiết kế CSDL phân tán là nghiên cứu cách tổ chức dữ liệu trên mạng máy tính. Sắp xếp, phân nhóm, chia nhỏ dữ liệu thành những mảnh đặt chúng trên mạng máy tính như thế nào. 1.2. CSDL PHÂN TÁN LÀ GÌ CSDL phân tán là CSDL được phân thành nhiều mảnh và cấp phát đến các nút trên hệ thống mạng máy tính. Trong đó: CSDL là tập dữ liệu liên quan với nhau trong cùng một bài toán quản lý. 4 Phân tán, phân hay phân mảnh CSDL là chia nhỏ CSDL thành các phần mỗi phần mỗi phần gọi là một mảnh con hay một CSDL con. 1.3. YÊU CẦU DẪN ĐẾN PHÂN TÁN CSDL Trong thực tế chúng ta luôn cần phải phân tán CSDL bởi vì khi phân tán CSDL thì đảm bảo: Tiết kiệm không gian bộ nhớ lưu trữ do hạn chế được sự trùng lặp thừa thông tin. Đảm bảo tính nhất quán, tính ổn đinh, tính toàn vẹn dữ liệu Cho phép nhiều người cùng chia sẻ CSDL do nó làm tăng khả năng xử lý đồng thời. Chia CSDL thành các CSDL con thì tăng hiệu quả quản trị Giải quyết vấn đề về phạm vi địa lý rộng tầm hoạt động lớn Giải quyết vấn đề bảo mật dữ liệu nên phải phân tán thành nhiều CSDL con để dễ bảo vệ dữ liệu. 1.4. BẢN CHẤT CỦA PHÂN TÁN CSDL Phân tán được chia làm 2 loại: Phân tán dọc đồ quan hệ Phân tán dọc đồ quan hệ W =<A, F> là phân chia W thành các đồ con W1 = < U1, F1>, W2 = < U2, F2>, , Wk = < Uk, Fk>. Ký hiệu: W | > {W1, W2, , Wk} 5 Trong đó: A = U1  U2   Uk =  k i 1 Ui; Fi  πUi(F+)i = 1, 2, , k. Vậy phân W = < A, F > là quá trình phân đồng thời tập thuộc tính A tập phụ thuộc hàm F thành các Fi. Phân ngang R Phân ngang R là chia ngang quan hệ R thành R1, R2, …, Rk với Ri là những quan hệ trên A. Ri  Rj =  nếu i  j; R =  k i Ri 1 Phân ngang R bắt buộc các Ri phải rời nhau Ri  Rj =  nếu i  j. Tuy nhiên các Ri chung tập thuộc tính. 1.5. PHÂN TÁN CSDL PHẢI ĐẢM BẢO YÊU CẦU GÌ Khi phân tán CSDL thì phải đảm bảo những yêu cầu sau: Không tổn thất thông tin, phép phân tán không đem đến hậu quả thừa, thiếu, mất thông tin. Đảm bảo truy xuất đúng đắn, tránh xẩy ra các hiện tượng dị thường, mâu thuẫn, không mong muốn khi truy xuất dữ liệu. Từ các mảnh phải tổng hợp được CSDL ban đầu: trong phép phân tán ngang R thành R 1 , R 2 , , R k thì khôi phục R bằng 6 phép hợp của các quan hệ con R =  k i Ri 1 ; trong phân tán dọc R thành R 1 , R 2 , , R k thì khôi phục R bằng phép nối R 1 |><| R 2 |><| …|><| R k . Trong phép phân tán dọc thì đối với những phép phân tán tốt mới đảm bảo dấu bằng trong biểu thức: R = R 1 |><| R 2 |><| …|><| R k (1) 1.6. KẾT LUẬN CHƯƠNG Như vậy khi xây dựng CSDL phân tán thì cần xây dựng dựa trên sự kết hợp thống nhất giữa hai hướng trong quá trình xử lý dữ liệu: lý thuyết các hệ CSDL công nghệ mạng máy tính. Xây dựng CSDL đảm bảo đầy đủ các yêu cầu, ràng buộc để thể phân tán CSDL đó một cách tốt nhất. Quá trình phân tán CSDL gồm phân mảnh CSDL cấp phát các mảnh đó như thế nào trong hệ thống mạng máy tính để đảm bảo tối ưu quá trình truy cập xử lý CSDL. Để giải quyết vấn đề này thì một số phương pháp phân mảnh CSDL được đề cập đến trong chương II. 7 CHƯƠNG 2 PHÉP PHÂN TRONG SỞ DỮ LIỆU PHÂN TÁN 2.1. CÁC PHƯƠNG PHÁP PHÂN TÁN DỌC 2.1.1. Phân tán dọc nối không tổn thất Cho W=<A, F> là đồ quan hệ với A= A = { A1, A2, , An} là tập thuộc tính, F là tập phụ thuộc hàm trên A. Phép phân tán W | > {W1, W2, , Wk}; với Wi = < Ui, Fi > ; Ri = R[Ui] được gọi là phép phân tán nối không tổn thất nếu mọi quan hệ R trên A đẳng thức: R = R1|><| R2 |><| …|><| Rk 2.1.2. sở dữ liệu thiết kế tốt Trong CSDL quan hệ một CSDL được gọi là thiết kế tốt nếu các bảng dữ liệu thường ở chuẩn 3NF, BCNF. Theo quan điểm phân thì một CSDL được gọi là thiết kế tốt nếu:  R trên A, với A =  k i 1 Ui thì R = R1|><| R2 |><| …|><| Rk Trong đó R1, R2, , Rk là các quan hệ trên R, Ui là tập thuộc tính con thứ i 2.1.3. Phân bảo toàn phụ thuộc Thuật toán kiểm tra một phân của W bảo toàn phụ thuộc hay không? Input W = < A, F > ; W | > {W1, W2, , Wk}; Wi = < Ui, Fi > ; Ri = R[Ui]. Fi  ðUi(F+) A =  k i 1 Ui là một phân của W Output: khẳng định (yes/no) phân bảo toàn phụ thuộc hay không? Algorithim 8  X  Y  F nếu XG+  Y ( bao đóng XG+ tính theo tập phụ thuộc hàm G) thì kết luận yes, phân bảo toàn phụ thuộc. Ngược lại nếu tồn tại chỉ một phụ thuộc hàm X  Y của F mà XG+ không chứa Y thì kết luận no, phân không bảo toàn phụ thuộc. 2.1.4. Phân thành các BCNF Thuật toán kiểm tra phép phân thành các BCNF hay không? Input: W = < A, F > = < A, {Xi Yi}>; i = k,1 Phép phân W | > {W1, W2, , Wk}; Wi = < Ui, Fi > ; Ri = R[Ui]. Fi  ðUi(F+) A =  k i 1 Ui Output: khẳng định (yes/no) phân thành các BCNF hay không? Algorithm Nếu i Wi là BCNF thì yes, phép phân thành các BCNF. Ngược lại nếu tồn tại Wi mà Wi không là BCNF thì no, phân không thành các BCNF. Thuật toán phân W thành các BCNF Input: W = < A, F > = < A, {Xi  Yi}> ; i = k,1 Output: phân W | >{W1, W2, , Wk}; với mọi i Wi = < Ui, Fi > là BCNF Algorithm Nếu A =  k i 1 Xi Yi =  k i 1 Ui thì phân W thành k đồ con như sau: 9 W1 = < X1Y1, X1  Y1> = < U1, F1 > W2 = < X2Y2, X2  Y2> = < U2, F2 > Wk = < XkYk, Xk  Yk > = <Uk, Fk > Nếu A   k i 1 Xi Yi đặt X = A -  k i 1 Xi Yi phân W thành k+ 1 đồ con như sau: W1 = < X1Y1, X1  Y1> = < U1, F1 > W2 = < X2Y2, X2  Y2> = < U2, F2 > Wk = < XkYk, Xk  Yk > = <Uk, Fk > Wk+1 = < X,  >. Ta dễ dàng thử lại rằng các đồ quan hệ con được phân trong thuật toán là những đồ quan hệ dạng BCNF. 2.1.5. Phân thành các BCNF, bảo toàn phụ thuộc, nối không tổn thất Thuật toán kiểm tra phép phân thành các BCNF, bảo toàn phụ thuộc, nối không tổn thất? Input: W = < A, F > = < A, {Xi Yi}>; i = k,1 Phép phân W | > {W1, W2, , Wk}; Wi = < Ui, Fi > ; Ri = R[Ui]. Fi  ðUi(F+) A =  k i 1 Ui Output: khẳng định (yes/no) phân thành các BCNF, bảo toàn phụ thuộc, nối tổn thất? Algorithm Nếu i Wi là BCNF, phân bảo toàn phụ thuộc phân có nối không tổn thất thì yes, phép phân thỏa mãn cả 3 điều kiện. 10 Ngược lại nếu tồn tại Wi mà Wi không là BCNF hay phân tã không bảo toàn phụ thuộc hay phân nối tổn thất thì no, phân không thỏa mãn cả 3 điều kiện. Thuật toán phân W thành các BCNF, bảo toàn phụ thuộc, nối không tổn thất Input: W = < A, F > = < A, {Xi  Yi}> i = k,1 Output: phân W | > {W1, W2, , Wk}; với mọi i Wi = < Ui, Fi > là BCNF, phép phân bảo toàn phụ thuộc, phép phân nối không tổn thất Algorithm Bước 1. Xác định một key của W. Bước 2. Phân W thành k+1 đồ con như sau: W1 = < X1Y1, X1  Y1> = < U1, F1 > W2 = < X2Y2, X2  Y2> = < U2, F2 > Wk = < XkYk, Xk  Yk > = <Uk, Fk > Wk+1 = < key,  >. Ta dễ dàng thử lại rằng các đồ quan hệ con được phân trong thuật toán là những đồ BCNF, phép phân bảo toàn phụ thuộc vì mỗi phụ thuộc hàm được cho vào một đồ con, phân nối không tổn thất vì một đồ con chứa key, ta đã chứng minh trong bổ đề 5.2 2.1.6. Phân dọc theo độ liên đới của các thuộc tính Trong hầu hết các bài toán quản lý đều được phân thành các bài toán con. Mỗi bài toán con chứa các thuộc tính liên đới (liên kết) với nhau. Độ liên đới của các thuộc tính phụ thuộc vào bản chất, độ ứng dụng độ truy xuất của các thuộc tính [...]... vấn đề vẹn toàn dữ liệu bảo mật thông tin, ngoài ra nó còn tránh được các thừa về dữ liệu cũng như tiết kiệm bộ nhớ Đối với phân ngang thì ứng dụng nhiều trong việc truy xuất dữ liệu, khai thác tìm kiếm dữ liệu khi các dữ liệu được phân phân tán trên mạng Các thuật toán phân được đưa ra để giúp cho việc thiết kế CSDL tốt hơn Khi thiết kế CSDL phân tán đã sử dụng một số thuật toán... Như vậy trong quá trình phân mảnh CSDL thì thể sử dụng phép phân mảnh dọc hoặc phép phân mảnh ngang Tùy theo từng bài toán mà sử dụng phương pháp nào cho thích hợp; đôi khi thể sử dụng kết hợp cả hai phương pháp này Thông thường khi thiết kế CSDL phân tán thì sử dụng phép phân tán dọc để thiết kế các quan hệ thành các chuẩn, sau đó sử dụng các phép phân ngang để phân mảnh dữ liệu trong quá... thiết kế tốt, thuật toán phân bảo toàn thông tin, thuật toán phân tán dọc, phân tán ngang Luận văn đã đưa ra được một số thuật toán phân tán ngang hệ tin ứng dụng của nó Cụ thể luận văn đã nêu ra được thuật toán K-Mean, thuật toán Quinlan một số ứng dụng của nó trong thực tế Bên cạnh đó luận văn đã đưa ra cài đặt chương trình ứng dụng thực tế cho thuật toán K- Mean trong phân loại sinh viên trường... đến SQL Server để lấy CSDL phân tán trên mạng cục bộ của Nhà trường Đây chính là việc truy xuất dữ liệu truyền trên mạng Sử dụng phân ngang để lấy một phần dữ liệu sinh viên Ứng dụng đã sử dụng thuật toán K-Mean về để gom cụm điểm của n sinh viên theo k nhóm Số nhóm ở đây thể thay đổi theo từng loại hình đào tạo: niên chế tín chỉ trong Nhà Trường Tuy nhiên ứng dụng chỉ dừng lại ở mức còn... trọng ảnh hưởng trực tiếp đến hiệu quả của hệ thống Thiết kế dữ liệu là vấn đề đầu tiên cần được quan tâm Mục đích của thiết kế CSDL quan hệ là sinh ra một tập các đồ quan hệ cho phép lưu trữ thông tin không bị thừa, đồng thời cho phép thực hiện các thao tác một cách dễ dàng Các thuật toán phân nhằm ứng dụng trong vấn đề loại trừ các dị thường về dữ liệu, giải quyết vấn đề vẹn toàn dữ liệu. .. để phân mảnh dữ liệu trong quá trình khai thác CSDL Sau khi phân mảnh thì việc cấp phát các mảnh trên các nút cũng là vấn đề cần phải giải quyết, nó trở thành bài toán cấp phát các mảnh trên mạng 15 CHƯƠNG 3 ỨNG DỤNG PHÉP PHÂN ĐỂ PHÂN TÍCH DỮ LIỆU SINH VIÊN TRONG TRƯỜNG CAO ĐẲNG KINH TẾ KỸ THUẬT THƯƠNG MẠI 3.1 GIỚI THIỆU BÀI TOÁN ỨNG DỤNG Trong tất cả các trường học hiện nay công việc quản lý sinh... SỐ GIAO DIỆN MINH HỌA Hình 3.1: Giao diện thiết kế phân nhóm sinh viên 19 Hình 3.2: Giao diện khi chạy chương trình phân nhóm sinh viên theo niên chế Hình 3.3: Giao diện khi chạy chương trình phân nhóm sinh viên theo tín chỉ 20 3.5 KẾT QUẢ ĐẠT ĐƯỢC HƯỚNG NGHIÊN CỨU TIẾP Sau khi thực hiện xong ứng dụng phép phân để phân tích dữ liệu sinh viên trong trường Cao đẳng Kinh tế - Kỹ thuật Thương Mại... LỰA CHỌN NGÔN NGỮ MÔI TRƯỜNG CÀI ĐẶT 3.3.1 Giới thiệu hệ quản trị CSDL SQL SERVER 2008 Microsoft SQL server là một hệ quản trị cơ sở dữ liệu quan hệ (Relational Database Management System – RDBMS) do Microsoft phát triển SQL Server là một hệ quản trị cơ sở dữ liệu quan hệ mạng máy tính hoạt động theo mô hình khách chủ cho phép đồng thời cùng lúc nhiều người dùng truy xuất đến dữ liệu, quản lý việc... TƯỞNG PHÂN LƯỢC ĐỒ QUAN HỆ THEO LỰC LIÊN ĐỚI 2.2.1 Phương pháp dùng luật kết hợp Cho A là tập thuộc tính, Q là tập truy vấn: A = {A1, A2, , An}; Q = {q1, q2, , qq} là tập truy vấn trên tập thuộc tính A Cho bảng giá trị giá trị sử dụng AQ = ( use(qi, AJ)) Bảng giá trị sử dụng AQ như một hệ khai thác dữ liệu Khi đó độ liên đới hay độ thuộc của thuộc tính b vào thuộc tính a ứng với bảng giá trị sử dụng. .. chóng, đơn giản, hiệu quả Việc phân loại sinh viên ngày nay cũng sử dụng hệ CSDL phân tán hệ thống mạng để phân loại Đối với mỗi cấp học, mỗi loại hình học khác nhau lại các tiêu chí phân loại khác nhau Trường Cao Đẳng Kinh tế - Kỹ thuật Thương mại phân loại sinh viên theo từng khóa học Từ năm học 2008 -2009 Nhà Trường đã chuyển loại hình đào tạo sang tín chỉ nên phân loại sinh viên theo 4 nhóm . NAM LÊ THỊ THANH SƠN PHÉP PHÂN RÃ TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ỨNG DỤNG CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15. QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1. THIẾT KẾ PHÂN TÁN LÀ GÌ Thiết kế phân tán bao gồm: - Thiết kế hệ thống mạng máy tính - Thiết kế các CSDL phân tán cho

Ngày đăng: 17/02/2014, 09:40

Hình ảnh liên quan

Giả sử ta có bảng giá trị sử dụng như trong Bảng 2.9 - Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

i.

ả sử ta có bảng giá trị sử dụng như trong Bảng 2.9 Xem tại trang 12 của tài liệu.
Hình 2.1. Sơ đồ thuật toán K-means clusteringBegin  - Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

Hình 2.1..

Sơ đồ thuật toán K-means clusteringBegin Xem tại trang 13 của tài liệu.
Hình 3.1: Giao diện thiết kế phân nhóm sinh viên - Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

Hình 3.1.

Giao diện thiết kế phân nhóm sinh viên Xem tại trang 18 của tài liệu.
Hình 3.2: Giao diện khi chạy chương trình phân nhóm sinh viên theo niên chế  - Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

Hình 3.2.

Giao diện khi chạy chương trình phân nhóm sinh viên theo niên chế Xem tại trang 19 của tài liệu.
Hình 3.3: Giao diện khi chạy chương trình phân nhóm sinh viên theo tín chỉ  - Phép phân rã trong cơ sở dữ liệu phân tán và ứng dụng

Hình 3.3.

Giao diện khi chạy chương trình phân nhóm sinh viên theo tín chỉ Xem tại trang 19 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan