Tìm hiểu về các phương pháp nén không mất thông tin

Thông tin tài liệu

Thông tin là những tính chẩt xác định của vật chất mà con người (hoặc hệ thống kĩ thuật ) nhận được từ thể giới vật chất bên ngoài hoặc từ những quá trình xảy ra trong bản thân nó.Về mặt thống kê người ta đưa ra một số khái niệm về thông tin như sau:• Ðiều gì đã xác định (khằng định được, đoán chắc được, không bấp bênh, . . .) thì không có thông tin và người ta nói rằng lượng thông tinchửa trong điều ấy bằng không• Ðiều gì không xác định (bất định) thì điều đó có thông tin và lượng thông tin chứa trong nó khác không. Nếu ta càng không thể ngờ tới điều ấy thì thông tin điều đó mang lại cho ta càng lớn.Tóm lại, ta nhận thẩy khái niệm thông tin gắn liền với sự bất định của đối mọng ta cần xét. Có sự bất định về một đối tượng nào đó thì những thông báo về đối tượngđó sẽ cho ta thông tin. Khi không có sự bất định thì sẽ không có thông tin về đối tượng đó. Như vậy, khái niệm thông tin chỉ là mộtcách diễn đạt khác đi của khái niệm sự bầt định

Tìm hiểu về các phương pháp nén không mất thông tin MỤC LỤC I. 1 NÉN KHÔNG MẤT THÔNG TIN LOSSLESS COMPRESSION I. Khái Niệm Thông Tin Thông tin là những tính chẩt xác định của vật chất mà con người (hoặc hệ thống kĩ thuật ) nhận được từ thể giới vật chất bên ngoài hoặc từ những quá trình xảy ra trong bản thân nó. Về mặt thống kê người ta đưa ra một số khái niệm về thông tin như sau: • Ðiều gì đã xác định (khằng định được, đoán chắc được, không bấp bênh, . . .) thì không có thông tin và người ta nói rằng lượng thông tin chửa trong điều ấy bằng không • Ðiều gì không xác định (bất định) thì điều đó có thông tin và lượng thông tin chứa trong nó khác không. Nếu ta càng không thể ngờ tới điều ấy thì thông tin điều đó mang lại cho ta càng lớn. Tóm lại, ta nhận thẩy khái niệm thông tin gắn liền với sự bất định của đối mọng ta cần xét. Có sự bất định về một đối tượng nào đó thì những thông báo về đối tượngđó sẽ cho ta thông tin. Khi không có sự bất định thì sẽ không có thông tin về đối tượng đó. Như vậy, khái niệm thông tin chỉ là một cách diễn đạt khác đi của khái niệm sự bầt định. Trước khi nhận tin (được thông báo) về một đối tượng nào đẩy thì vẫn còn sự bất định về đối tượng đó, tức là độ bất định về đối tượng đó khác không (có thể lớn hay nhỏ). Sau khi nhận tin (đã được hiếu rõ hoặc hiểu một phần) về đối tượng thì độ bầt định của nó giảm đến mức thấp nhất, hoặc hoàn toàn mất. Như vậy, “ thông tin là độ bầt định đã bị thủ tiêu” hay nói một cách khác “ làm giám độ bất định kết quả cho ta thông tin” II. Tổng Quan Về nén Dữ Liệu 1. Nén dữ liệu: Trong khoa học máy tính và lí thuyết thông tin, nén dữ liệu là quá trình mã hóa thông tin dùng ít bit hơn so với thông tin chưa được mà hóa bằng cách dùng một hoặc kết hợp của các phương pháp nào đó. Dựa theo nguyên 2 tắc này giúp tránh các hiện tượng kênh truyền bị quá tải và việc truyền tin trở nện kính tế hơn. Nén dữ liệu giúp tiết kiệm các tài nguyên như dung lượng bộ nhớ, hàng thông, thời gian. Ngược lại, dữ liệu đã được nén cần phải được giải nén để đọc (thực thì, nghe, xem v.v .), quá trình này cũng đòi hội các tài nguyên nhất định. Một ví dụ điển hình là việc nén video có thể đòi hỏi phần cũng đắt tiển để quá trình giải nén đủ nhanh để ta có thể xem được. Do đó việc thiết kế một chương trình nén dữ liệu phụ thuộc nhiều yếu tế như mức độ nén, độ méo (đối với nén có tồn hao), tài nguyên hệ thống dùng để thực hiện quá trình nén và giải nén dữ liệu. Mặc dù các chương trình nén dữ liệu thường sử dụng kết hợp nhiều thuật toán có độ phức tạp khác nhau tuy nhiên có thể mô tả bằng hình dưới đây. 2. Các chương trình nén hoạt động như thế nào Nguyên tắc của các chương trình nén nói chung giống nhau: Tận dụng sự lặp lại của dữ liệu, các chuỗi dữ liệu lặp lại được thay thể bởi con trỏ chung có độ dài bé hơn. Kỹ thuật này rất có hiệu quả đối với dữ liệu dạng hàng tính, hoặc ﬁle DBF (nén trên 70%), vì tính lặp lại của dữ liệu loại này cao: File chương trình (.EXE hoặc .COM) nén được ít hơn. 3. Tốc độ và tỷ lệ nén Ngay cả khi tất cả các chương trình nén file đều dùng chung một thuật toán thì hoạt động của chúng cũng khác nhau. Mỗi hãng triển khai thuật toán mỗi kiểu để dung hòa hai vấn đề: thời gian và tỷ lệ nén. Chương trình PKZIP thường trội hơn các chương trình nén khác về mặt tốc độ, về mặt tỷ lệ nén, nhiều khi nó cũng khác hơn. Tính ổn định của các chương trình nén cũng là điều cần quan tâm. Các file nén nói chung rất ít khi bị hỏng, cũng cần luu ý 3 là các loại file nén không tương thích với nhau, tức là nếu file nén cho người khác thì người đó cũng cần phải có chương trình thích hợp mới giải nén được. Tuy nhiên để giải quyết vấn đề này các chương trình nén đều cho phép tạo file nén tự tời, tức là file nén ở dạng chương trình cài đặt, khi chạy chúng sẽ tự tời ra. Tỷ lệ nén là một trong các đặc trưng quan trọng nhất của mọi phương pháp nén. Nhìn chung người ta định nghĩa tỷ lệ nén như sau: Tỷ lệ nén= kích thước dữ liệu thu được sau nén/ kích thước dữ liệu gốc x 100% 4. Các loại dư thừa dữ liệu Như trên ta đã nói, nén nhằm mục đích giảm kích thước dữ liệu các cách loại bỏ dư thừa dũ liệu. Việc xác định bản chất các kiểu dư thừa dũ liệu rất có ích cho việc xây dựng các phương pháp nén dữ liệu khác nhau. Nói một cachs khác các phương pháp nén dữ liệu khác nhau là do sử dụng các kiểu dư thùa dữ liệu khác nhau. Người ta coi có 4 kiểu dư thừa chính: • Sự phân bố kí tự Trong một dãy kí tự, có một số ký tự có tần suất xuất hiện nhiều hơn một số dãy khác. Do vậy, ta có thể mã hõa dữ liệu một cách cô đọng hơn. Các dãy ký tự có tấn xuất cao được thay thế bởi một từ mã nhị phân có số bít nhỏ hơn. Đấy chính là bản chất của mã hóa Huffman • Sự lặp lại của các kí tự Trong một số tình huống như trong ảnh, 1 ký hiệu ( bit”0” hay bít “1”) được lặp đi lặp lại môt số lần. Kỹ thuật nén dùng trong trường hợp này là thay dãy lặp đó bởi dãy mới gồm 2 thành phần: số lần lặp và ký hiệu dùng để mã. Phương pháp mã hóa kiểu này có tên là mã hóa loạt dài RLC (Run length Coding). • Những mẫu sử dụng tần suất Có thể có dãy ký hiệu nào đó xuất hiện với tần suất tương đối cao. Do vậy, có thể mã hóa bởi ít bít hơn. Đây là cơ sở của phương pháp mã hóa kiểu từ điền do Lempel-Ziv đưa ra và có cải tiến vào năm 1977, 1978 và do đó có tên gọi là phương pháp nến LZ77, LZ78. Năm 1984, Terry Welch đã cải tiến hiệu quả hơn và đặt tên là LZW (Lempel-liz- Welch) 4 • Do sự phụ thuộc lẫn nha của dữ liệu, đôi khi biết đc kỹ hiệu (giá trị) xuất hiện tại một vị trí, đồng thời có thể đoán trước sự xuất hiện của các giá trị ở các vị trí khác nhau một cách phù hợp. Chẳng hạn, ảnh biểu diễn trong một lưới 2 chiều, một số điểm ở hàng dọc trong một khối dữ liệu lại xuất hiện trong cùng vị trí ở các hàng khác nhau. Do vậy, thay vì lưu trữ dữ liệu, ta chỉ cần lưu trữ vị trí hàng và cột. Phương pháp nến dựa trên sự dư thừa này gọi là phương pháp mã hóa dự đoán. Các đánh giá độ dư thùa như trên hoàn toàn mang tính trực quan nhằm biểu thị 1 cái gì đó xuất hiện nhiều lần. đối với dữ liệu ảnh, ngoài đặc thù chung đó, nó còn có những đặc thù riêng. Thí dụ như có ứng dụng không cần toàn bộ dữ liệu thô của ảnh mà chỉ cần các thông tin đặt trưng biểu diễn ảnh như biên ảnh hay vùng đồng nhất. Do vậy, có phương pháp nén riêng cho ảnh dựa vào biến đổi ảnh hay dựa vào biểu diễn ảnh. 5. Các tiêu chuẩn lựa chọn các phương pháp nén dữ liệu: o Tỷ lệ nén: tỷ lệ giữa kích thước khối thông tin sau khi nén với kích thước trước khi nén. o Chất lượng nén: - Nén mất thông tin. - Nén không mất thông tin. - Chất lượng cảm nhận thông tin o Tốc độ của các thuật toán: - Tốc độ nén - Tốc độ giải nén III. Nén Không Mất Thông Tin :  Tổng quan: - Phương pháp nén không mất thông tin cho phép khôi phục lại hoàn toàn khối dữ liệu ban đầu qua các chu trình nén, giải nén. - Đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn phương pháp nén mất thông tin 5 - Các thuật toán của nén không mất dữ liệu dựa vào việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khác ngắn hơn không quan tâm tới ý nghĩa của dữ liệu.  Thuật toán nén không mất thông tin: Có 3 dạng: o Các thuật toán mã hoá thống kê: - Các thuật toán này hoạt động dựa trên tần suất xuất hiện của các ký tự mã trong khối thông tin. Giảm số lượng bit dùng để biểu diễn các ký tự mã xuất hiện thường xuyên. - Tăng số lượng bit dùng để biểu diễn những ký tự mã ít xuất hiện. o Các thuật toán dựa trên sự thay thế các chuỗi: các thuật toán này nén các chuỗi chứa các ký tự đồng nhất. o Các thuật toán dựa trên từ điển: - Giảm số lượng các bit dùng để chứa các từ xuất hiện thường xuyên. - Tăng số lượng các bit để chứa các từ xuất hiện thưa thớt IV. Các phương pháp nén không mất thông tin 1. Phương pháp nén Shannon-Fano:  Nguyên lý: - Các từ mã có độ dài biến thiên. - Độ dài mã tỷ lệ nghịch với xác suất xuất hiện của ký tự. - Từ mã được giải mã một cách duy nhất.  Thuật toán: - Xác định các xác suất xuất hiện của các ký tự trong bản tin. - Sắp xếp các ký tự theo trình tự xác suất xuất hiện giảm dần. - Phân chia các ký tự thành hai nhóm có tổng xác suất xấp xỉ(nếu dùng mã nhị phân thì phân chia làm hai nhóm, nếu mã cơ số m thì chia làm m nhóm). - Gán cho mỗi nhóm ký hiệu mã 0 hoặc 1. - Tiếp tục phân chia cho tới khi trong các nhóm chỉ chứa một ký hiệu. 6 - Từ mã cho ký hiệu là tổ hợp của các ký hiệu của các nhóm chứa ký hiệu tính theo thứ tự từ lần tạo nhóm đầu tiên  Ưu nhược điểm. o Nhược điểm: Thuật toán Shanon fano có hệ số nén khá thấp Ưu điểm: Thuật toán khá đơn giản.  Ví dụ mô tả thuật toán : Cho thông điệp : “BBCAACADBDCADAEEEAACDBACADCBAEABEABEA AA” Ta có : - Thống kê lượng tin : Kí hiệu A B C D E Số lần xuất hiện 15 7 6 5 6 - Mã Hóa : Kí hiệu A B C D E Mã Hóa 00 01 10 110 111 Tổng bits 30 14 12 15 18 Số lượng bit dùng để mã hóa chuỗi mã: 30 + 14 + 12 +18 + 15= 89 bit Số lượng bít nếu dùng ASCII : (15 + 7 + 6 +5 + 6) x 8 = 312 bit Tỷ lệ nén : 89/312 x100% = 28.5% 2. Phương pháp Huffman  Nguyên lý: - Các từ mã có độ dài biến thiên. - Độ dài mã tỷ lệ nghịch với xác suất xuất hiện của ký tự. - Từ mã được giải mã một cách duy nhất.  Thuật toán: -Xây dựng danh sách các ký tự với xác suất xuất hiện giảm dần. - Các ký tự sẽ là các nút của cây Huffman. 7 - Mã hoá bắt đầu với hai ký hiệu có xác suất nhỏ nhất. Hai ký hiệu được hợp lại, hai nhánh được gán ký hiệu 0 hoặc 1. - Nút của hai nhánh được coi là một ký hiệu mới có xác suất xuất hiện bằng tổng hai xác suất xuất hiện của hai ký hiệu tạo ra nút. - Tiếp tục quá trình trên với hai nút có xác suất xuất hiện nhỏ nhất. - Từ mã ứng với mỗi ký hiệu nguồn là tổ hợp của các ký hiệu mã ở các nhánh tính từ gốc.  Ưu nhược điểm: o Nhược điểm: - Mã Huffman chỉ thực hiện được khi biết được tần suất xuất hiện của các ký tư. - Mã Huffman chỉ giải quyết được độ dư thừa phân bố ký tư. - Huffman tĩnh đòi hỏi phải xây dụng cây nhị phân sẵn chứa các khả năng. Ðiều này đòi hỏi thời gian không ít do ta không biết trước kiếu dữ liệu sẽ được thực hiện nén. - Quá trình giải nén phức tạp do chiều dài mà không biết trước cho đến khi ký tự đầu tiên được tìm ra. o Ưu điểm: Thuật toán tương đối đơn giản, đòi hỏi ít bộ nhớ, có thể xây dựng dựa trên các mảng bé hơn 64KB.  Ví dụ mô tả thuật toán : Cho thông điệp: “BBCAACADBDCADAEEEAACDBACADCBAEABEABE AAA” Ta có : - Thống kê lượng tin : Kí hiệu A B C D E Số lần xuất hiện 15 7 6 5 6 - Mã Hóa : Kí hiệu A B C D E Mã Hóa 0 111 110 100 101 8 Tổng bits 15 21 18 15 18 Số lượng bit dùng để mã hóa chuỗi mã: 15 + 21 + 18 +15 + 18= 87 bit Số lượng bít nếu dùng ASCII : (15 + 7 + 6 +5 + 6) x 8 = 312 bit Tỷ lệ nén : 87/312 x100% = 27.88% 3. Phương pháp thay thế RLE( Run Length Encoding)  Nguyên lý: - Tối ưu hoá mã bằng cách thay thế các chuỗi ký tự giống nhau liên tiếp. - Ứng dụng trong các loại ảnh BMP, TIFF. Các điểm ảnh liên tiếp có giá trị như nhau sẽ được thay thế bằng một điểm ảnh và chỉ rõ số lượng điểm.  Các bước thuật toán: - Tìm trong thông điệp những ký tự liên tiếp lặp lại. - Thay thế chuỗi ký tự đó bằng: - Một ký tự đặc biệt chỉ việc nén. - Số lần lặp lại của ký tự. - Ký tự lặp lại được nén.  Ví dụ mô tả thuật toán: Cho thông điệp sau: “ABCCCCCCDDEEEE” - Ta thấy: Chuỗi này có thể được mà hoá một cách có đọng hơn bằng cách thay thể chuỗi kí tư lặp lại bằng một thể hiện duy nhất của kỉ tư lặp lại cũng với một biến đếm số lần kí n: đó được lặp lại. Ta muốn nói rằng chuỗi này gồm 6 chủ C rồi 4 chữ E . Việc nén một chuỗi theo phương pháp này được gọi là mà hoá độ dài loạt. Khi có những loạt dài, việc tiết kiệm có thể là đáng kế. có nhiều cách đề thực hiện ý tưởng này, tuỳ thuộc vào các đặc trưng của ứng dụng (các loạt chạy có khuynh hướng tương đổi dài hay không. Có bao nhiêu bit được dùng đề mà hoá các kí tư đang được mã ? ). 9 *Nếu ta biết rằng chuỗi của chúng ta chỉ chứa các chủ cái, thì ta có thể mã hoá biến đếm một cách đơn giản bằng cách xen kẻ các con số với các chữ cái. - Vì vậy chuỗi sau khi đc mã hóa có dạng: AB6CDD4E - Tỷ lệ nén: 8/14 x100% = 57% 4. Phương pháp LZW  Nguyên lý: Giải thuật nén LZW xây dụng một từ điển lưu các mẫu có tẩn suất xuất hiện cao trong dữ liệu. Từ điển là tập hợp những cặp từ vựng và nghĩa của nó. Trong đó, từ vựng sẽ là các từ mã được sắp xếp theo thử tự nhất định. Nghĩa là một chuỗi con trong dũ liệu , từ điển được xây dụng đồng thời với quá trình đọc dữ liệu. Sự có mặt của một chuỗi con trong từ điển khẳng định rằng chuỗi đó đã từng xuất hiện trong phần dữ liệu đã đọc. Thuật toán liên tục "tra cứu” và cặp nhặt từ điển sau mỗi lần đọc một ký tư dũ' liệu đầu vào. Do kích thước bộ nhớ không phải vô hạn và đề đảm bào tốc độ tìm kiểm, từ điền chỉ giới hạn 4096 ở phần từ dùng để lưu lớn nhất là 4096 giá trị của các từ mã. Như vậy độ dài lớn nhất của từ mã là 12 bits (4096 = 2^12 ). Cấu trúc từ điển diễn biến như sau 0 0 . . 255 255 256 256| Clear Code 257 257| End of Information . . 4095 Chuỗi mới 256: Mã xóa CC để khắc phục tình trạng mẫu lặp lớn hơn 4096, nếu mẫu lặp lớn hơn 4096 thì gọi CC để xây dựng từ điển cho phần tiếp theo. 10 . Tìm hiểu về các phương pháp nén không mất thông tin MỤC LỤC I. 1 NÉN KHÔNG MẤT THÔNG TIN LOSSLESS COMPRESSION I. Khái Niệm Thông Tin Thông tin là. nén: - Nén mất thông tin. - Nén không mất thông tin. - Chất lượng cảm nhận thông tin o Tốc độ của các thuật toán: - Tốc độ nén - Tốc độ giải nén III. Nén

Ngày đăng: 22/08/2013, 01:52

Xem thêm: Tìm hiểu về các phương pháp nén không mất thông tin, Tìm hiểu về các phương pháp nén không mất thông tin

Tìm hiểu về các phương pháp nén không mất thông tin

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan