TÌM HIỂU CÁC PHƯƠNG PHÁP PHÂN MẢNH TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN

32 1.3K 2
TÌM HIỂU CÁC PHƯƠNG PHÁP PHÂN MẢNH TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÁO CÁO CHUYÊN ĐỀ CƠ SỞ DỮ LIỆU NÂNG CAO ĐỀ TÀI: TÌM HIỂU CÁC PHƯƠNG PHÁP PHÂN MẢNH TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN HỌC VIÊN : ĐÀM THANH LONG MÃ SỐ : CH1101020 LỚP : CAO HỌC K6 GV HƯỚNG DẪN: PGS.TS ĐỖ PHÚC TP.HCM 2012 Báo cáo môn cơ sở dữ liệu nâng cao trang 1 MỤC LỤC PHẦN I. GIỚI THIỆU Các hệ thống cơ sở dữ liệu đã không ngừng cải tiến, phát triển và có những thành công lớn trong những thập kỷ qua, ngày càng có nhiều dữ liệu lớn được lưu trữ trên một hệ thống đồ sộ cùng lúc đó đã hình thành và phát triển các mô hình lý thuyết hệ cơ sở dữ liệu, mặt khác những nguồn phát triển hệ thống ứng dụng cũng ngày càng lớn mạnh. Hệ thống thông tin hình thành trên cơ sở kết nối các máy tính lại với nhau. Hệ cơ sở dữ liệu phân tán được phát triển mạnh dựa trên sự phát triển của mạng máy tính. Vì vậy sự phát triển đó đặt ra vấn đề làm sao nắm bắt thông tin nhanh nhất để tổ chức công việc hiệu quả nhất nhưng vấn đề là việc bố trí cơ sở dữ liệu ở những vị trí địa lý khác. Cơ sở dữ liệu phân tán ra đời dựa trên nền tảng chính của cơ sở dữ liệu tập trung nhưng với đặc điểm riêng nổi bật là thiết kế theo phương pháp phân mảnh dữ liệu và sử dụng các bản sao (replication), dữ liệu phân tán sẽ được cập nhật và lưu tại các nút (site), mỗi nút tương ứng với một cơ sở dữ liệu chính và chỉ thực hiện một số chức năng nhất định. Việc ứng dụng cơ sở dữ liệu phân tán có thể khắc phục được các nhược điểm vốn có của cơ sở dữ liệu tập trung. Ngoài ra, việc kết nối giữa các cơ sở dữ liệu từ xa được thực hiện qua kết nối liên kết sẽ đáp ứng được một số tiêu chuẩn cơ bản như cải thiện năng suất thực hiện công việc, đảm bảo an toàn dữ liệu, giảm giá thành truyền tin. Trong báo cáo này tác giả tìm hiểu về cách tổ chức và phân mảnh dữ liệu trong hệ cơ sở dữ liệu phân tán và cài đặt phương pháp phân mảnh. PHẦN II. TỔNG QUAN HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN II.1 Khái niệm cơ sở dữ liệu phân tán Báo cáo môn cơ sở dữ liệu nâng cao trang 2 Nói một cách đơn giản, cơ sở dữ liệu phân tán là tập hợp dữ liệu logic thuộc về cùng một hệ thống nhưng trải rộng ra nhiều điểm trên mạng máy tính. Như vậy có hai vấn đề của cơ sở dữ liệu phân tán với tầm quan trọng tương đương nhau. Việc phân tán: Trong thực tế dữ liệu không đặt trên cùng một vị trí vì vậy đây là đặc điểm để phân biệt cơ sở dữ liệu phân tán với cơ sở dữ liệu tập trung và cơ sở dữ liệu đơn lẻ. Liên quan logic: Trong cơ sở dữ liệu phân tán, dữ liệu có một số đặc tính liên kết chặt chẽ với nhau như tính kết nối, tính liên quan logíc… trong cơ sở dữ liệu tập trung, mỗi vị trí quản lý một cơ sở dữ liệu và người sử dụng phải truy cập đến cơ sở dữ liệu ở những vị trí khác nhau để lấy thông tin tổng hợp. Để tạo ra một hệ cơ sở dữ liệu phân tán, các tập tin không chỉ có liên đới logic nhưng chúng còn phải có cấu trúc và được truy xuất, qua giao diện chung. Với hiện thực đó thời gian gần đây đang có nhiều nổ lực cung cấp các đặc thù chức năng của (DBMS) trên các dữ liệu bán cấu trúc được lưu trong các tập tin trên Internet (chẳng hạn webiste), đòi hỏi ở trên dường như khắt khe một cách không cần thiết. II.2 Hệ quản trị cơ sở dữ liệu phân tán Hệ quản trị cơ sở dữ liệu phân tán cung cấp công cụ như tạo lập và quản lý cơ sở dữ liệu phân tán. Phân tích đặc điểm của hệ thống quản trị cơ sở dữ liệu phân tán như dưới đây để phân biệt hệ thống phát triển theo kiểu thương mại có sẵn và kiểu mẫu phân tán. Hệ thống phát triển theo kiểu thương mại có sẵn được phát triển bởi những người cung cấp hệ cơ sở dữ liệu tập trung. Hệ cơ sở dữ liệu tập trung mở rộng bằng cách thêm vào những phần bổ xung qua cách cung cấp thêm đường truyền và điều khiển giữa các hệ quản trị cơ sở dữ liệu tập trung cài đặt ở những điểm khác nhau trên mạng máy tính. Những phần mềm cần thiết cho việc xây dựng cơ sở dữ liệu phân tán là:  Phần quản lý cơ sở dữ liệu ( Database Management - DB ).  Phần truyền thông dữ liệu (Data Communication - DC ).  Từ điển dữ liệu được mở rộng để thể hiện thông tin về phân tán dữ liệu trong mạng máy tính (Data Dictionary - DD).  Phần cơ sở dữ liệu phân tán (Distributed Database DDB). Báo cáo môn cơ sở dữ liệu nâng cao trang 3 DB DC DDB DD DD DD DDB DB DC Cơ sở dữ liệu địa phương 1 Cơ sở dữ liệu địa phương 2 Phương thức truy cập dữ liệu Hệ cơ sở quản trị dữ liệu 1 Kết quả Cơ sở dữ liệu 2 Chương trình ứng dụng Hệ cơ sở quản trị dữ liệu 2 Mô hình các thành phần của hệ quản trị cơ sở dữ liệu phát triển theo kiểu thương mại (truy cập từ xa trực tiếp). Những dịch vụ hệ quản trị cơ sở dữ liệu cung cấp:  Cách thức truy cập dữ liệu từ xa: bằng chương trình ứng dụng.  Lựa chọn một cấp độ trong suốt phân tán thích hợp: cho phép mở rộng hệ thống theo nhiều cách khác nhau theo từng hoàn cảnh (phải cân nhắc giữa cấp độ trong suốt phân tán và phân chia công việc thực hiện để công việc quản trị hệ thống đơn giản hơn).  Quản trị và điều khiển cơ sở dữ liệu bao gồm công cụ quản lý cơ sở dữ liệu, tập hợp thông tin về các thao tác trên cơ sở dữ liệu và cung cấp thông tin tổng thể về file dữ liệu đặt ở các nơi trong hệ thống.  Điều khiển tương tranh và điều khiển hồi phục dữ liệu của giao tác phân tán. Cách thức truy cập cơ sở dữ liệu từ xa qua chương trình ứng dụng theo hai cách cơ bản: truy cập từ xa trực tiếp và gián tiếp. Báo cáo môn cơ sở dữ liệu nâng cao trang 4 Sơ đồ phân đoạn Sơ đồ cấp phát Sơ đồ ánh xạ địa phương 1Sơ đồ ánh xạ địa phương 2 DBMS vị trí 1 DBMS vị trí 2 CSDL 1 CSDL 2 Sơ đồ toàn thể Mô hình truy cập từ xa qua phương thức cơ sở của hệ quản trị cơ sở dữ liệu, theo mô hình trực tiếp trên, chương trình ứng dụng đưa ra yêu cầu truy cập đến cơ sở dữ liệu từ xa, yêu cầu này được hệ quản trị cơ sở dữ liệu tự động tìm nơi đặt dữ liệu và thực hiện yêu cầu tại điểm đó. Kết quả được trả lại cho chương trình ứng dụng. Đơn vị chuyển đổi giữa hai hệ quả trị cơ sở dữ liệu là phương thức truy cập cơ sở dữ liệu và kết quả nhận được (thông qua việc thực hiện phương thức truy cập này). Với cách thức truy cập từ xa như vậy cấp độ trong suốt phân tán được xây dựng bằng cách tạo ra tên file toàn bộ để đánh địa chỉ thích hợp cho những điểm lưu trữ dữ liệu ở xa. II.3 Các mức trong suốt của cơ sở dữ liệu phân tán Trong hệ cơ sở dữ liệu phân tán, những người thiết kế hệ thống đã xây dựng lên một hệ các phần mềm phục vụ yêu cầu người dùng trên cơ sở dữ liệu đã có sẵn. Hình dưới đây trình bày kiến trúc chung của cơ sở dữ liệu phân tán. Tất nhiên kiến trúc này không biểu diễn tường minh cho mọi hệ cơ sở dữ liệu phân tán. Các mức của cơ sở dữ liệu phân tán được trình bày mang tính khái niệm thích hợp để dễ hiểu về tổ chức của các cơ sở dữ liệu phân tán nói chung. Mức đỉnh của lược đồ là sơ đồ toàn thể: Mô tả mọi dữ liệu nằm trong cơ sở dữ liệu phân tán như không bị phân tán. Tuy nhiên mô hình dữ liệu sử dụng để xác định sơ đồ toàn thể để xác định cách thức ánh xạ đến những mức khác của cơ sở dữ liệu phân tán. Theo cách sử dụng mô hình sơ đồ toàn thể, sơ đồ toàn thể xác định một tập các quan hệ chung nhất của hệ thống. Báo cáo môn cơ sở dữ liệu nâng cao trang 5 Mỗi quan hệ có thể chia ra các phần không chồng lên nhau gọi là đoạn. Có nhiều cách chia: chia theo chiều ngang, chia theo chiều dọc và chia theo kiểu hỗn hợp theo chiều ngang và chiều dọc. Ánh xạ này giữa quan hệ và các đoạn được xác định trong sơ đồ phân đoạn. Ánh xạ theo kiểu 1:n (một quan hệ sang nhiều đoạn) là một đoạn tương ứng một quan hệ và một quan hệ tương đương với một số đoạn. Đoạn xác định bởi một quan hệ qua chỉ số (chỉ số đoạn dữ liệu). Đoạn là phần logic của quan hệ, được đặt vật lý tại một hay vài vị trí trên mạng máy tính. Sơ đồ cấp phát xác định những vị trí đặt đoạn. Kiểu ánh xạ xác định trong sơ đồ cấp phát cho phép nhận ra một cơ sở dữ liệu phân tán là dư thừa hay không dư thừa Về mặt hình thức ánh xạ thường từ một quan hệ sang nhiều đoạn, trong trường hợp ánh xạ 1:1 thì một đoạn được ánh xạ từ một quan hệ. Mọi đoạn dữ liệu tương ứng với cùng một quan hệ R và đặt ở cùng vị trí j tạo ra “ảnh vật lý” của quan hệ R ở vị trí j. Vì vậy có ánh xạ 1:1 giữa ảnh vật lý và một cặp (quan hệ, đoạn). Mỗi ảnh vật lý có thể được chỉ định bởi một tên quan hệ và một chỉ số vị trí. Để phân biệt ảnh vật lý, quan hệ với đoạn dữ liệu, ký hiệu R j chỉ ảnh vật lý của quan hệ R ở vị trí j. Thuật ngữ trong suốt mô tả bằng bản sao của đoạn tham chiếu đến vị trí lưu trữ và bản sao xác định qua tên quan hệ và hai chỉ số (chỉ số đoạn và chỉ số vị trí). Trong kiến trúc lược đồ trên có ba mức độ độc lập theo thứ tự giảm: mức tổng thể, mức cấp phát và mức ánh xạ. Vì vậy, ở mức thấp hơn cần thiết phải ánh xạ sang mức cao hơn, việc ánh xạ này gọi là sơ đồ ánh xạ và phụ thuộc vào kiểu của cơ sở dữ liệu địa phương trong hệ thống đồng nhất mức độ độc lập có một số kiểu khác nhau khi ánh xạ địa phương ở các vị trí khác nhau. Kiến trúc này cung cấp khái niệm cơ sở và dễ hiểu về cơ sở dữ liệu phân tán. Ba đối tượng quan trọng thúc đẩy phát triển cấu trúc này là tính riêng rẽ của việc phân đoạn dữ liệu, cấp phát đoạn, điều khiển dư thừa và độc lập dữ liệu đối với hệ quản trị cơ sở dữ liệu địa phương. II.3.1 Phân đoạn dữ liệu và cấp phát dữ liệu. Sự chia xẻ này cho phép phân biệt hai mức khác nhau của mức độ trong suốt phân tán, có tên là trong suốt phân đoạn và trong suốt định vị. Trong suốt phân đoạn: là cấp độ cao nhất của mức độ trong suốt, người sử dụng hoặc chương trình ứng dụng chỉ làm việc trên các quan hệ của cơ sở dữ liệu. Trong suốt định vị là cấp độ thấp hơn của độ trong suốt vì hệ thống yêu cầu người sử dụng hay chuơng trình ứng dụng Báo cáo môn cơ sở dữ liệu nâng cao trang 6 phải làm việc trên đoạn logíc thay vì làm việc trên các quan hệ của cơ sở dữ liệu. Tuy nhiên người đó không biết đoạn đó được đặt ở vị trí nào trong cơ sở dữ liệu. II.3.2 Điều khiển dư thừa. Kiến trúc tham chiếu cho phép điều khiển dư thừa dữ liệu ở mức đoạn. Các đoạn có thể có dữ liệu giống nhau dùng để kết nối dữ liệu đó là nguyên nhân dư thừa dữ liệu. Độc lập với hệ quản trị cở sở dữ liệu địa phương đặc điểm này gọi là ánh xạ trong suốt đối với cơ sở dữ liệu địa phương: quản trị cơ sở dữ liệu phân tán không cần quan tâm đến kiểu dữ liệu xác định của cơ sở dữ liệu địa phương. Mức trong suốt bản sao liên quan chặt chẽ tới mức trong suốt định vị. Mức trong suốt bản sao có nghĩa là người sử dụng không biết bản sao của đoạn đặt ở vị trí nào. Mức trong suốt bản sao tương đương mức trong suốt định vị. Tuy nhiên, trong những trường hợp thực tế người sử dụng không có mức trong suốt định vị nhưng lại có mức trong suốt bản sao. Phân rã quan hệ thành các đoạn thực hiện qua việc áp dụng hai phân đoạn: phân đoạn ngang và phân đoạn dọc [phần III]. Có một số luật để xác định các đoạn: Điều kiện hợp: mọi dữ liệu của quan hệ phải ánh xạ đến các đoạn. Không xảy ra trường hợp dữ liệu thuộc về quan hệ nhưng không thuộc về một đoạn nào. Điều kiện tái tạo lại quan hệ: luôn luôn có khả năng tạo lại quan hệ từ các đoạn của quan hệ. Điều kiện cần: mỗi đoạn được lưu trữ trong cơ sở dữ liệu phân tán và quan hệ phải xây dựng lại được khi cần thiết. Điều kiện không liên kết: thích hợp khi các đoạn không liên kết với nhau vì vậy các bản dữ liệu lặp lại có thể được điều khiển rõ ràng ở các mức cấp phát. Điều kiện này chủ yếu có ích với phân đoạn ngang. II.4 Các chiến lược thiết kế Hai chiến lược chính đã được xác định [Ceri et al., 1987] trong việc thiết kế cơ sở dữ liệu phân tán là tiếp cận từ trên xuống (top-down approach) và tiếp cận từ dưới lên (bottom-up approach). Nhưng trong thực tế rất hiếm các ứng dụng đơn giản để chỉ sử dụng một cách tiếp cận, vì vậy trong phần lớn thiết kế cả hai cách tiếp cần đều được áp dụng bổ sung nhau. II.4.1 Quá trình thiết kế từ trên xuống Báo cáo môn cơ sở dữ liệu nâng cao trang 7 Bộ khung cho quá trình này được trình bày trong hình [II.4.1]. Nó Việc phân tích yêu cầu nhằm định nghĩa môi trường hệ thống và thu nhập các nhu cầu xử lý của tất cả người dùng, đồng thời cũng xác định yêu cầu hệ thống. Hồ sơ ghi chép các yêu cầu là nguyên liệu cho hai hoạt động song song thiết kế khung nhìn (view design) và thiết kế khái niệm (conceptual design), thiết kế khung nhìn định nghĩa các giao diện cho người dùng đầu cuối (end-user), ngược lại thiết kế khái niệm là quá trình xem xét tổng thể đối tượng - xí nghiệp, nhằm xác định các loại thực thể và mối liên hệ giữa chúng với nhau [Davenport, 1981]. Ta có thể chia quá trình này thành hai nhóm bao gồm các hoạt động liên quan tới nhau: Phân tích thực thể (entity analysis) và Phân tích chức năng (functional analysis). Phân tích thực thể có liên quan đến việc xác định các thực thể, các thuộc tính và các mối liên hệ giữa chúng. Phân tích chức năng đề cập đến việc xác định các chức năng cơ bản có liên quan đến xí nghiệp cần được mô hình hoá. Kết quả của hai quá trình này cần được đối chiếu qua lại, giúp chúng ta biết được chức năng nào sẽ hoạt tác trên những thực thể nào. Có sự liên hệ giữa thiết kế khái niệm và thiết kế khung nhìn, theo nghĩa nào đó thiết kế khái niệm được coi như là sự tích hợp các khung nhìn. Tuy nhiên mô hình khái niệm cần phải hỗ trợ không chỉ những ứng dụng hiện có mà còn cả những ứng dụng trong tương lai, tích hợp Báo cáo môn cơ sở dữ liệu nâng cao trang 8 khung nhìn nhằm đảm bảo các yêu cầu về thực thể và các mối liên hệ giữa các khung nhìn đều phải được bao quát trong lược đồ khái niệm. Trong các hoạt động thiết kế khái niệm và thiết kế khung nhìn, người thiết kế cần phải đặc tả các thực thể dữ liệu và phải xác định các ứng dụng chạy trên cơ sở dữ liệu cũng như các thông tin thống kê về những ứng dụng này. Thông tin thống kê bao gồm đặc tả về tần số ứng dụng, khối lượng thông tin khác nhau. Lược đồ khái niệm toàn cục GCS và thông tin về kiểu mẫu truy xuất thu được trong thiết kế khung nhìn sẽ là nguyên liệu (input) cho bước thiết kế phân tán. Mục tiêu của giai đoạn này là thiết kế các lược đồ khái niệm cục bộ LCS bằng cách phân tán các thực thể cho các vị trí của hệ thống phân tán. Ta chia quan hệ thành nhiều quan hệ nhỏ hơn gọi là các mảnh (fragment) và phân tán các mảnh này. Hoạt động thiết kế phân tán gồm hai bước phân mảnh (fragmentation) và cấp phát (allocation) ta sẽ thảo luận về vấn đề này trong các phần sau. Thiết kế vật lý là ánh xạ lược đồ khái niệm cục bộ sang các thiết bị lưu trữ vật lý có sẵn tại các vị trí tương ứng. Nguyên liệu cho quá trình này là lược đồ khái niệm cục bộ và thông tin về kiểu mẫu truy xuất các mảnh.Hoạt động phát triển và thiết kế luôn là quá trình liên tục, đòi hỏi theo dõi hiệu chỉnh thường xuyên. Vì thế chúng ta đưa vấn đề quan sát và theo dõi như một hoạt động chính trong qua trình này. Cần chú ý rằng chúng ta không chỉ theo dõi vấn đề cài đặt CSDL, mà còn quan sát theo dõi tính thích hợp của các khung nhìn của người dùng. Kết quả này có tác dụng phản hồi, tạo cơ sở cho việc tái thiết kế về sau. II.4.2 Quá trình thiết kế từ dưới lên Thiết kế từ trên xuống thích hợp cho những cơ sở dữ liệu được thiết kế từ đầu. Tuy nhiên trong thực tế cũng có khi đã có sẵn một số cơ sở dữ liệu và chúng ta phải tích hợp chúng thành một cơ sở dữ liệu chung, tiếp cận từ dưới lên sẽ thích hợp cho tình huống này. Khởi điểm của thiết kế từ dưới lên là các lược đồ khái niệm cục bộ, sẽ phải được tích hợp thành lược đồ khái niệm toàn cục. Loại môi trường này tồn tại chủ yếu trong ngữ cảnh của các cơ sở dữ liệu đa chủng, nhiều nghiên cứu cũng đã được thực hiện trong trường hợp này Báo cáo môn cơ sở dữ liệu nâng cao trang 9 PHẦN III. CÁC PHƯƠNG PHÁP PHÂN MẢNH Từ quan điểm phân tán dữ liệu, thực sự không có lý do gì để phân mảnh các dữ liệu. Sau nữa là trong các hệ thống các tập tin phân tán, việc phân tán được thực hiện dựa trên cơ sở toàn bộ tập tin và trước kia việc này đã được giải quyết bằng việc cấp pháp các tập tin cho các nút trên một mạng máy tính. Đối với phân mảnh, điều quan trọng là có được một đơn vị phân tán thích hợp, trước tiên khung nhìn của các ứng dụng thường chỉ là một tập con của quan hệ vì thế đơn vị truy xuất không phải là toàn bộ quan hệ nhưng chỉ là các tập con của quan hệ kết quả là xem tập con của quan hệ là đơn vị phân tán sẽ là điều thích hợp duy nhất. Hai là nếu các ứng dụng có khung nhìn được định nghĩa trên một quan hệ cho trước lại nằm tại những vị trí khác thì có hai cách chọn lựa với đơn vị phân tán là toàn bộ quan hệ hoặc quan hệ không được nhân bản mà được lưu ở một vị trí hoặc quan hệ được nhân bản cho tất cả hoặc một số vị trí có chạy ứng dụng. Chọn lựa đầu gây ra một số lượng lớn các truy xuất không cần thiết đến dữ liệu ở xa còn ngược lại chọn lựa sau khi thực hiện nhân bản không cần thiết, gây ra nhiều vấn đề khi cập nhật và có thể làm lãng phí nhiều không gian lưu trữ. Việc phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như một đơn vị, sẽ cho phép thực hiện nhiều giao dịch đồng thời, ngoài ra việc phân mảnh các quan hệ sẽ cho phép thực hiện song song một câu vấn tin bằng cách chia nó thành một tập các câu vấn tin con hoạt tác trên các mảnh. Vì thế việc phân mảnh rẽ làm tăng mức độ hoạt động đồng thời (song hành) và như thế làm tăng lưu lượng hoạt động của hệ thống. Vấn đề liên quan đến việc kiểm soạt dữ liệu ngữ nghĩa (semantic data control) đặt biệt là vấn đề kiểm tra tính toàn vẹn do kết quả của phân mảnh các thuộc tính tham gia vào một phụ thuộc có thể bị phân rã vào các mảnh khác nhau và được cấp phát cho từng vị trí khác nhau trường hợp này nhiệm vụ đơn giản như kiểm tra các phụ thuộc cũng phải thực hiện truy tìm dữ liệu ở nhiều vị trí. Có hai chiến lược phân mảnh cơ bản: phân mảnh ngang (horizontal fragmentation) và phân mảnh dọc (veritcal fragmentation) ngoài ra còn có khả năng có các mảnh lồng theo kiểu hỗn hợp. III.1 Phân mảnh ngang Báo cáo môn cơ sở dữ liệu nâng cao trang 10 [...]... các ứng dụng ngày càng phức tạp, các mô hình cơ sở dữ liệu trước đó cũng như mô hình quan hệ đã bộc lộ nhiều nhược điểm trong việc mô hình hóa và xử lý dữ liệu Có nhiều mô hình cơ sở dữ liệu ra đời và được phát triển nhằm khắc phục những hạn chế đó Đề tài đã tìm hiểu được các khái niệm cơ bản về cơ sở dữ liệu phân tán, đồng thời tác giả cũng nêu lên khái quát các phương pháp phân mảnh trong cơ sở dữ. .. môn cơ sở dữ liệu nâng cao trang 30 PHẦN V KẾT LUẬN Phân mảnh dữ liệu là một trong những hướng nghiên cứu mới trong cơ sở dữ liệu là kỹ thuật thiết kế cơ sở dữ liệu ở mức logic nhằm giảm bớt những truy xuất không cần thiết đến dữ liệu cho phép thực hiện song song các câu truy vấn bằng cách chia nó ra thành một tập các câu truy vấn con tác động lên từng mảnh nhằm nâng cao việc thực hiên các ứng dụng Trong. .. tin về cơ sở dữ liệu Thông tin này bao gồm lược đồ khái niệm toàn cục, các liên kết giữa các quan hệ, đặc biệt là phép nối Trong mô hình quan hệ, các mối liên hệ được biểu thị bằng các quan hệ Tuy nhiên trong các mô hình khác, như mô hình thực thể-quan hệ, các mối liên hệ được biểu diễn tường minh Với mục đích thiết kế phân tán, các mối liên hệ cũng được mô hình hoá trong bộ khung quan hệ Theo cách này... trang 18 Một phân mảnh dọc của quan hệ R là tập các mảnh R 1, , Rk, trong đó mỗi mảnh chứa tập con thuộc tính của R và các khoá của R Mục đích của phân mảnh dọc là phân hoạch một quan hệ thành tập các quan hệ nhỏ hơn để nhiều ứng dụng chỉ cần chạy trên 1 mảnh Phân mảnh tối ưu cho phép giảm tối đa thời gian thực thi các ứng dụng chạy trên các mảnh đó Phân mảnh dọc phức tạp hơn so với phân mảnh ngang Điều... pháp phân mảnh ở [phần III] trong cơ sở dữ liệu phân tán và có thể nhìn nhận từ góc độ tổng thể hơn, rằng lý do cơ bản của việc xử lý phân tán là do nó có thể giải quyết tốt hơn các bài toán lớn và phức tạp mà chúng ta gặp phải hiện nay Từ yêu cầu đó, do thời gian có hạn nên phần cài đặt phân mảnh này chỉ mô phỏng trên phương pháp phân mảnh dọc IV.1 Một số đoạn chương trình Báo cáo môn cơ sở dữ liệu. .. := {R1, R2}; end III.3 Phân mảnh hổn hợp Trong đa số trường hợp, phân mảnh ngang hoặc phân mảnh dọc đơn giản cho một lược đố CSDL không đủ đáp ứng yêu cầu các ứng dụng Khi đó phân mảnh dọc có thể được thực hiện sau một phân mảnh ngang hoặc ngược lại Chiến lược này sinh ra một lối phân hoạch có cấu trúc cây và gọi là phân mảnh hỗn hợp (hybrid fragmentation) Báo cáo môn cơ sở dữ liệu nâng cao trang 28... sự cần thiết phải có phân mảnh hỗn hợp là quan hệ PROJ Trong một ví dụ trước ta đã phân hoạch nó thành sáu mảnh ngang dựa vào hai ứng dụng Trong một ví dụ sau đó, chúng ta lại phân mảnh dọc PROJ thành hai mảnh Như thế chúng ta có một tập các mảnh ngang, mỗi mảnh ngang lại được phân tiếp thành hai mảnh dọc Số mức lồng ghép có thể khá lớn, nhưng hữu hạn Trong thực tế, do các quan hệ toàn cục đã chuẩn.. .Phân mảnh ngang chia quan hệ theo các bộ Mỗi mảnh là một tập con của quan hệ Có hai loại phân mảnh ngang phân mảnh nguyên thuỷ (primary horizontal fragmentation), thực hiện dựa trên các vị từ định nghĩa trên chính quan hệ đó và phân mảnh dẫn xuất (derived horizontal fragmentation), dựa trên các vị từ định nghĩa trên quan hệ khác Trước khi thực hiện phân mảnh, chúng ta cần thu... xuất của các ứng dụng trên các thuộc tính Trong phần tiếp chúng ta chỉ thảo luận kỹ thuật tách mảnh, vì nó thích hợp phương pháp thiết kế từ trên xuống hơn và giải pháp tối ưu gần với quan hệ đầy đủ hơn là tập các mảnh chỉ có một thuộc tính Hơn nữa kỹ thuật tách mảnh sinh ra các mảnh với các thuộc tính không khoá không chồng nhau Việc nhân bản khoá chính cho các mảnh là đặc trưng của phân mảnh dọc,... tách rời: Trong phân mảnh ngang nguyên thuỷ tính tách rời được đảm bảo nếu các vị từ hội sơ cấp xác định phân mảnh có tính loại trừ tương hỗ Tuy nhiên phân mảnh dẫn xuất có hàm chứa các bán nối có phức tạp hơn Tính tách rời được đảm bảo nếu đồ thị nối thuộc loại đơn giản Nếu đồ thị nối không đơn giản thì phải xem xét các giá trị thực sự của phân mảnh III.2 Phân mảnh dọc Báo cáo môn cơ sở dữ liệu nâng . II.2 Hệ quản trị cơ sở dữ liệu phân tán Hệ quản trị cơ sở dữ liệu phân tán cung cấp công cụ như tạo lập và quản lý cơ sở dữ liệu phân tán. Phân tích đặc điểm của hệ thống quản trị cơ sở dữ liệu phân. DB DC Cơ sở dữ liệu địa phương 1 Cơ sở dữ liệu địa phương 2 Phương thức truy cập dữ liệu Hệ cơ sở quản trị dữ liệu 1 Kết quả Cơ sở dữ liệu 2 Chương trình ứng dụng Hệ cơ sở quản trị dữ liệu 2 Mô. sở dữ liệu phân tán và cài đặt phương pháp phân mảnh. PHẦN II. TỔNG QUAN HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN II.1 Khái niệm cơ sở dữ liệu phân tán Báo cáo môn cơ sở dữ liệu nâng cao trang 2 Nói một cách

Ngày đăng: 10/04/2015, 13:22

Từ khóa liên quan

Mục lục

  • II.1 Khái niệm cơ sở dữ liệu phân tán

  • II.2 Hệ quản trị cơ sở dữ liệu phân tán

  • II.3 Các mức trong suốt của cơ sở dữ liệu phân tán

    • II.3.1 Phân đoạn dữ liệu và cấp phát dữ liệu.

    • II.3.2 Điều khiển dư thừa.

    • II.4 Các chiến lược thiết kế

      • II.4.1 Quá trình thiết kế từ trên xuống

      • II.4.2 Quá trình thiết kế từ dưới lên

      • III.1 Phân mảnh ngang

        • III.1.1 Phân mảnh ngang nguyên thủy

        • III.1.2 Phân mảnh ngang dẫn xuất

        • III.1.3 Kiểm định tính đúng đắn

        • III.2 Phân mảnh dọc

          • III.2.1 Các yêu cầu thông tin của phân mảnh dọc

          • III.2.2 Thuật toán nhóm

          • III.2.3 Thuật toán phân hoạch

          • III.3 Phân mảnh hổn hợp

            • IV.1 Một số đoạn chương trình

            • IV.2.2 Demo chương trình

            • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan