Tin học cơ sở - Chương 6 pptx

11 398 0
Tin học cơ sở - Chương 6 pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh CHƯƠNG 6: BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH 6.1. CÁC DẠNG DỮ LIỆU Để xử lý, lưu trữ và truyền thông tin cần phải tìm cách tổ chức và biểu diễn (thể hiện) thông tin trong MTĐT một cách hợp lý. Như đã biết, dữ liệu là hình thức biểu diễn thông tin. Như vậy đối với máy tính, dữ liệu chính là các thông tin đã được mã hoá dưới dạng nhị phân. Dữ liệu - thông tin được máy tính xử lý có thể có các dạng khác nhau. Máy tính có thể tính toán trên các số, có thể xử lý thông tin chữ, có thể xử lý những thông tin đa phương tiện (multimedia) như âm thanh và hình ảnh. Máy tính còn có thể xử lý tri thức (knowledge). Thông tin về một đối tượng có thể rất phức tạp và có thể được thể hiện bằng nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin về một cán bộ có thể có tên, nơi sinh là văn bản; ngày sinh, lương là số, ảnh chân dung là ảnh, Hình 6.1. Phân loại các dạng dữ liệu Để lưu trữ trong MTĐT cả dữ liệu số, phi số và tri thức đều được mã hóa bằng các mã nhị phân. Theo nghĩa đó, mọi dữ liệu dù là bản chất có khác nhau nhưng đều được số hoá. Sự phân biệt theo sơ đồ ở Hình 6.1 nặng về ý nghĩa sử dụng hơn là cách biểu diễn. Dưới đây ta sẽ trình bày chi tiết hơn các lớp dữ liệu. Trong trường hợp biểu diễn thông tin không quá phức tạp ta sẽ giới thiệu về cách biểu diễn. 6.2. DỮ LIỆU KIỂU SỐ Người ta thường dùng hai cách biểu diễn số là số dấu phẩy tĩnh và số dấu phẩy động. 6.2.1. Biểu diễn số dấu phẩy tĩnh (fixed point number) Với kiểu biểu diễn số dấu phẩy tĩnh, người ta chọn một độ rộng n bit nào đó cho một số. Trong n bit này, bit đầu tiên dùng để mã dấu của số theo cách bit 0 dùng để mã dấu dương, bit 1 dùng để mã dấu âm. Trong n-1 bit còn lại, lấy một số bit cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 bit 42 Dữ liệu Dữ liệu Dữ liệu số Dữ liệu số Dữ liệu phi số Dữ liệu phi số Tri thức Tri thức Số dấu phẩy tĩnh Số dấu phẩy tĩnh Số dấu phẩy động Số dấu phẩy động Văn bản Văn bản Hình ảnh Hình ảnh Âm thanh Âm thanh Luật Luật Sự kiện Sự kiện Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh như trên Hình 6.2 sau nếu ta dùng 7 bit cho phần nguyên và 8 bit cho phần lẻ và một bit cho dấu thì biểu diễn sau thể hiện số 1100101,11011011 0 1 1 0 0 1 0 1 1 1 0 1 1 0 1 1 Hình 6.2. Biểu diễn dấu phẩy tĩnh Do với mỗi kiểu biểu diễn đã chọn, vị trí dấu phẩy mang tính quy ước nằm ở một vị trí cố định nên kiểu biểu diễn này gọi là kiểu dấu phẩy tĩnh. Trên thực tế đa số các môi trường xử lý quy ước dấu phẩy đứng sau ô cuối cùng có nghĩa là chỉ áp dụng chế độ dấu phẩy tĩnh cho số nguyên. Độ dài của biểu diễn tuỳ thuộc vào nhu cầu. Các số nguyên thường dùng chủ yếu có các loại độ dài 8 bit, 16 bit và 32 bit. Số nguyên không thể dùng trong tính toán gần đúng được. 6.2.2. Biểu diễn số dấu phẩy động (floating point number) Biểu diễn dấu phẩy tĩnh không đáp ứng được một số nhu cầu, đặc biệt trong tính toán gần đúng. Đối với các bài toán tính gần đúng người ta có thể chấp nhận những sai số là lớn về tuyệt đối nhưng tỷ số của sai số trên giá trị thực của số là nhỏ (sai số tương đối). Mặt khác cách biểu diễn số trong dấu phẩy tĩnh không đủ mềm dẻo để thể hiện các số quá lớn hoặc quá bé. Đã từ lâu, khi có nhu cầu tính toán gần đúng trên máy tính người ta thường dùng một loại biểu diễn số khác là biểu dấu phẩy động. Trong dạng này, số phải được phân tích trong dạng mũ hay còn là dạng nửa logarit như sau: x = ± m x 10 ± Px trong đó m x gọi là phần định trị, còn ±P x gọi là phần bậc. Ví dụ: 3,14 = 0,314 x 10 1 , - 0.0012 = - 0.12 x 10 -2 Phân tích của một số ra dạng mũ là không duy nhất, nhưng nếu kèm thêm điều kiện phần định trị phải nằm giữa 1 và 10 -1 thì phân tích luôn duy nhất. Phân tích về dạng như thế gọi là dạng chuẩn. Như vậy, phần định trị không có phần nguyên nên chỉ phải biểu diễn phần lẻ của nó. Hơn nữa trong dạng chuẩn, chữ số đầu tiên của phần định trị phải khác 0. Trong hệ đếm cơ số 2 nó phải là 1. bi u di n m t s trong m t vùngĐể ể ễ ộ ố ộ nh n bit ng i ta s d nh m t ph nớ ườ ẽ à ộ ầ bi u di n ph n đ nh tr v m t vùngể ễ ầ ị ị à ộ bi u di n ph n b c.ể ễ ầ ậ 43 Vị trí dấu phẩy Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh ± Phần định trị ± Phần bậc Hình 6.3. Biểu diễn dấu phẩy động Nguyên tắc mã dấu của phần định trị và phần bậc cũng giống như trong trường hợp số dấu phẩy tĩnh. Như vậy ví trí dấu phẩy thực sự của số là do phần bậc định ra trên phần định trị. Chính vì vậy người ta gọi kiểu biểu diễn số này là biểu diễn dấu phẩy động. Biểu diễn dấu phẩy động thực chất là biểu diễn chấp nhận sai số làm tròn. Để dễ hình dung, ta minh họa trên hệ thập phân. Ví dụ, phần định trị của một số trong hệ đếm cơ số 10 chỉ được dùng 6 vị trí còn phần bậc chỉ được dùng 2 chữ số. Khi đó số -56234566 sẽ có biểu diễn là:-0,562345.10 2 . Sai số tuyệt đối là 66 còn sai số tương đối là 0,000001 Ưu điểm dễ thấy của kiểu biểu diễn dấu phẩy động là ta có thể biểu diễn được các số rất lớn hoặc rất bé. Với 9 ngăn dành cho chữ số trong kiểu nguyên ta chỉ có thể biểu diễn được các số không quá 10 9 . Trong khi đó với kiểu biểu diễn dấu phẩy động như trên với 3 ngăn dành cho phần bậc ta có thể biểu diễn các số lớn tới 0,999999.10 99 hoặc các số dương nhỏ tới 0,1.10 -99 . Giá phải trả cho ưu điểm này chính là sai số làm tròn. Phần định trị càng ngắn thì sai số làm tròn càng lớn. 6.3. DỮ LIỆU PHI SỐ 6.3.1. Mã hoá chữ và dữ liệu kiểu văn bản Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu theo nghĩa rộng, không chỉ là các chữ cái Latinh mà kể cả chữ số, các dấu chính tả, các dấu toán học, các ký hiệu để trình bày. Mặt khác không phải dân tộc nào cũng dùng chữ latinh nên đối với một số dân tộc có thể có những chữ riêng. Ví dụ chữ Trung hoa có đến hơn 60 nghìn chữ. Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa chữ cái thông thường (letter) với "chữ" dùng trong văn bản nói chung kể cả văn bản máy tính, từ đây trở đi chúng ta sẽ dùng thuật ngữ ký tự (character) với ý nghĩa là một ký hiệu dùng trong văn bản. Nếu dùng một vùng nhớ k bit để mã hoá một chữ thì chỉ có thể biểu diễn được tối đa là 2 k ký tự vì chỉ có thể tạo được đúng 2 K các mã nhị phân khác nhau. Điều này giải thích tại sao người Mỹ chỉ cần 7 bit để mã cho các chữ của họ; để có thêm các mặt chữ châu Âu, chữ Hy Lạp và một số ký hiệu trình bày cũng chỉ cần 8 bit; trong khi đó người Trung Hoa hay người Nhật phải dùng các mã 16 bit. Các văn bản được hình dung như một chuỗi ký tự. Nội dung một cuốn sách, một bài thơ được đưa vào máy tính là những ví dụ cụ thể về thông tin văn bản. Hầu hết các máy tính và môi trường lập trình hiện nay đều sử dụng một byte để mã hoá một chữ. Trong thời gian tới hầu như chắc chắn sẽ phải dùng bộ mã UNICODE cho văn bản. Với bộ mã này mỗi chữ sẽ tốn 2 byte. Bài đọc thêm: Bảng mã dùng trong MTĐT Trước đây, để lưu trữ và xử lý thông tin trong MTĐT người ta đã xây dựng một số bảng mã: 44 Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh Mã BCD - 4 bit (Binary Coded Decimal) Lúc đầu người ta muốn dùng các chữ số hệ thập phân qua hệ nhị phân nên người ta đã mã hoá mỗi chữ số hệ thập phân bằng 4 bit theo bảng dưới đây: Chữ số thập phân 0 1 2 3 4 5 6 7 8 9 Mã BCD 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 Bảng 6.1. Bảng mã BCD Mã EBCDIC (Extended Binary Coded Decimal Interchange Code) Sau này người ta đã mở rộng mã BCD 4 bit thành mã BCD 6 bit để có thể mã cả các chữ latinh. Với 6 bit chỉ có thể biểu diễn được tới 64 ký tự. Do còn phải biểu diễn chữ số, các dấu chính tả và dấu phép toán nên không đủ chỗ cho cả chữ hoa và chữ thường, vì thế trong mã BCD 6 bit chỉ có mã cho các chữ latinh in. Với việc dùng máy tính có cấu trúc bộ nhớ địa chỉ hoá theo byte, bảng mã BCD đã được mở rộng thành bảng mã 8 bit. Tuy nhiên bảng này không dùng hết 256 chỗ. Đây là bộ mã thịnh hành trong thập kỷ 70 của thế kỷ 20 và được nhiều nước sử dụng với các máy tính đương thời. 45 Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh Ký tự Mã Ký tự Mã Ký tự Mã A B C D E F G H I 1100 0001 1100 0010 1100 0011 1100 0100 1100 0101 1100 0110 1100 0111 1100 1000 1100 1001 J K L M N O P Q R 110 10001 1101 0010 1101 0011 1101 0100 1101 0101 1101 0110 1101 0111 1101 1000 1101 1001 - S T U V U X Y Z 1110 0001 1110 0010 1110 0011 1110 0100 1110 0101 1110 0110 1110 0111 1110 1000 1110 1001 Bảng 6.2. Bảng mã EBCDIC Mã ASCII Bảng chữ được sử dụng nhiều để xử lý thông tin trên MTĐT là bảng chữ ASCII (American Standard Codes for Information Interchange) - bộ mã chuẩn của Mỹ để trao đổi thông tin. Mỗi ký tự ban đầu được mã bằng 7 bit. Sau này bảng mã ASCII được mở rộng thành bảng 8 bit với 256 mã khác nhau để có thể chứa thêm một số chữ cái của các quốc gia khác cũng như một số ký tự dùng để trình bày. Với 256 ký tự, mỗi ký tự được mã bằng một dãy 8 bit (một byte). Bảng 6.3 trình bày bộ mã ASCII. Các ký tự từ 0 đến 31 là các mã điều khiển có tên riêng với ý nghĩa điều khiển được quy ước trước. Ví dụ, ký tự số 2 STX (Start of Text) báo bắt đầu vùng văn bản trong dòng dữ liệu truyền thông, ký hiệu số 7 (Bell) để gây một tiếng chuông, ký hiệu thứ 10 CR (Carriage Return) dùng để điều khiển điểm làm việc của máy in hay màn hình về đầu dòng. Các ký tự từ 32 đến 127 là các ký tự gốc của bảng mã ASCII. Các ký tự từ 128 đến 255 có thể thay đổi tuỳ theo nhu cầu sử dụng. Có rất nhiều bộ mặt chữ cho vùng này mà Bảng 6.3 là một ví dụ. Trong bảng, mỗi ô có số thứ tự của ký tự và mặt chữ tương ứng, mã nhị phân của ký tự được ghép từ 5 bit của hàng và 3 bit của cột trong bảng. Ví dụ mã nhị phân của chữ H là 01001000. 000 001 010 011 100 101 110 111 00000 0 NUL 1 SOH 2 STX 3 EXT 4 EOT 5 6 7 BEL 00001 8 BS 9 HT 10 LF 11 VT 12 FF 13 CR 14 15 00010 16 17DC1 18DC2 19DC3 20DC4 21 22 23 00011 24 25 26 27 28 29 30 31 00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 ' 00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 / 00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _ 01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g 01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127 10000 128 129 130 131 132 133 134 † 135 ‡ 46 Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh 000 001 010 011 100 101 110 111 10001 136 ˆ 137 ‰ 138 Š 139 ‹ 140 141 142 143 10010 144 145 ‘ 146 ’ 147“ 148” 149 • 150 – 151— 10011 152 153 154 š 155 › 156 157 158 159 10100 160 161 Ă 162 Â 163 Ê 164 Ô 165 Ơ 166 Ư 167 Đ 10101 168 ă 169 â 170 ê 171 ô 172 ơ 173 ư 174 đ 175 ¯ 10110 176 ° 177 ± 178 ² 179 ³ 180 ´ 181 à 182 ả 183 ã 10111 184 á 185 ạ 186 º 187 ằ 188 ẳ 189 ẵ 190 ắ 191 ¿ 11000 192 À 193 Á 194 Â 195 Ã 196 Ä 197 Å 198 ặ 199 ầ 11001 200 ẩ 201 ẫ 202 ấ 203 ậ 204 è 205 Í 206 ẻ 207 ẽ 11010 208 é 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 215 ì 11011 216 ỉ 217 Ù 218 Ú 219 Û 220 ĩ 221 í 222 ị 223 ò 11100 224 à 225 ỏ 226 õ 227 ó 228 ọ 229 ồ 230 ổ 231 ỗ 11101 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 239 ù 11110 240 ð 241 ủ 242 ũ 243 ú 244 ụ 245 ừ 246 ử 247 ữ 11111 248 ứ 249 ự 250 ỳ 251 ỷ 252 ỹ 253 ý 254 ỵ 255 ÿ Bảng 6.3. Bảng mã ASCII Về mã tiếng Việt Vào thời kỳ đầu khi mới có MTĐT, Việt Nam sử dụng các bộ mã sẵn có trên các máy tính do đó không thể hiện được chữ Việt. Từ khi máy vi tính được sử dụng rộng rãi, đã xuất hiện nhu cầu lập bảng mã tiếng Việt trên cơ sở sửa đổi bảng mã ASCII. So với bộ chữ latinh, tiếng Việt có rất nhiều chữ riêng như ă, â, ư, ơ, ê, đ. Mỗi chữ này còn có thêm các dấu thanh trong cả dạng chữ thường và chữ in. Với chữ o sẽ phải có thêm các mặt chữ như ò ó ỏ ọ õ ò ó ỏ ọ õ. Tổng cộng có tới 134 mặt chữ không có trong bộ chữ latinh. Phần mở rộng của bảng chữ ASCII chỉ có thêm 128 chữ. Vì vậy về mặt nguyên tắc nếu không muốn hy sinh các mã điều khiển và các mã chữ trong bảng ASCII phần gốc, không thể đưa toàn bộ chữ Việt vào bảng mã ASCII. Có một số giải pháp được sử dụng như hy sinh một số chữ ít dùng trong bảng mã ASCII để lấy chỗ cho chữ Việt, hay hy sinh một số chữ in có dấu ít dùng (ví dụ ẫ). Đã có rất nhiều công ty hay tổ chức tạo các bộ mã tiếng Việt riêng của mình. Cho tới nay đã có tới 40 bộ mã khác nhau trong đó các bộ mã hay dùng nhất là TCVN1572-93, VNI, Tình trạng loạn mã dẫn đến văn bản soạn ở mã này không đọc được trên mã khác. Tới năm 1993, Bộ Khoa học Công nghệ và Môi trường đã ban hành chuẩn Quốc gia TCVN 5712-1993. Thực chất chuẩn này gồm 3 bộ mã riêng biệt. Chuẩn TCVN 5712 đã góp phần chấm dứt thời kỳ cát cứ về mã chữ Việt. Tuy vậy chuẩn này không giải quyết được cơ bản vấn đế thiếu chỗ trong bộ mã 8 bit. Sau đây là bộ mã TCVN 5712-3, 1993, một số chỗ bôi đen thực ra vẫn có mặt chữ nhưng với mục đích giới thiệu mã tiếng Việt nên chúng ta sẽ không giới thiệu ở đây: 000 001 010 011 100 101 110 111 00000 0 1 2 3 4 5 6 7 00001 8 9 10 11 12 14 14 15 00010 16 17 18 19 20 21 22 23 00011 24 25 26 27 28 29 30 31 00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 ' 00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 / 00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 47 Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh 000 001 010 011 100 101 110 111 01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _ 01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g 01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127 10000 128 129 130 131 132 133 134 135 10001 136 137 138 139 140 141 142 143 10010 144 145 146 147 148 149 150 151 10011 152 153 154 155 156 157 158 159 10100 160 161 Ă 162 Â 163 Ê 164 Ô 165 Ơ 166 Ư 167 Đ 10101 168 ă 169 â 170 ê 171 ô 172 ơ 173 ư 174 đ 175 10110 176 177 178 179 180 181 à 182 ả 183 ã 10111 184 á 185 ạ 186 187 ằ 188 ẳ 189 ẵ 190 ắ 191 11000 192 193 194 195 196 197 198 ặ 199 ầ 11001 200 ẩ 201 ẫ 202 ấ 203 ậ 204 è 205 206 ẻ 207 ẽ 11010 208 é 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 215 ì 11011 216 217 218 219 220 ĩ 221 í 222 ị 223 ò 11100 224 225 ỏ 226 õ 227 ó 228 ọ 229 ồ 230 ổ 231 ỗ 11101 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 239 ù 11110 240 241 ủ 242 ũ 243 ú 244 ụ 245 ừ 246 ử 247 ữ 11111 248 ứ 249 ự 250 ỳ 251 ỷ 252 ỹ 253 ý 254 ỵ 255 Bảng 6.4. Bảng mã TCVN 5712-3 Bộ mã UNICODE - Giải pháp toàn cầu So với Việt Nam thì một số nước như Trung Quốc hay Nhật bản vấn đề mã còn nan giải hơn. Bộ chữ của Trung Quốc có tới 6 vạn chữ. Bộ chữ Kangi của Nhật bản về cơ bản là bộ chữ Hán của Trung quốc, ngoài ra để có thể sử dụng được máy tính có chữ latinh, người Nhật buộc phải tạo ra bộ chữ có thể đánh vần được trên cơ sở chữ Hán và vẫn không bỏ được chữ latinh. Có lẽ vì thế mà ngay từ thập kỷ 80 của thế kỷ 20, người Nhật đã đề xuất ra một dự án xây dựng một bảng mã toàn cầu trong đó mỗi nước có thể sử dụng các trang bảng mã nhiều byte. Nếu mặt chữ nào có ở một nơi thì không cần định nghĩa ở nơi khác. Dự án này sau được mở rộng thành một dự án quốc tế gọi là UNICODE. Đầu thập kỷ 90 của thế kỷ 20, tổ chức tiêu chuẩn thế giới ISO đã thoả thuận với tổ chức UNICODE cùng thống nhất một bộ mã toàn cầu. Chuẩn ISO 10646 sử dụng luôn bộ mã UNICODE làm bộ mã chung. Trong UNICODE đã sẵn có cho tất cả chữ Việt kể cả chữ có dấu thanh. Nhận thức được việc sử dụng bộ mã UNICODE là một trong những giải pháp giải quyết tận gốc vấn đề mã chữ Việt và hội nhập với nền CNTT thế giới. Tháng 9/2001 Bộ Khoa học Công nghệ và Môi trường đã giao cho Uỷ ban tiêu chuẩn và chất lượng chuẩn bị để phê chuẩn bộ mã quốc gia trên cơ sở UNICODE. Bộ mã này được chính thức sử dụng từ ngày 01/01/2003. 6.3.2. Hình ảnh Hình ảnh cũng có thể xử lý bằng máy tính. Khác với hình ảnh thông thường, hình ảnh trong máy tính được mã hoá dưới dạng nhị phân. Có rất nhiều kiểu mã hoá ảnh trong đó hai kiểu thông dụng nhất. Kiểu thứ nhất là ảnh bitmap (nghĩa là bản đồ các bit) thể hiện ảnh như một lưới điểm. Như vậy mỗi điểm sẽ phải nằm trong một hàng và một cột nào đó trong lưới, ngoài ra màu của điểm cũng được mã hoá. Các ảnh 48 Hình 6.4. Ảnh bitmap Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh khí tượng do các vệ tinh chụp gửi về, ảnh phong cảnh, chân dung đều có thể thể hiện theo kiểu này. Ta cũng có thể đưa một ảnh bất kỳ vào máy dưới dạng bitmap bằng máy quét ảnh (scanner), máy quay video số (digital video camera) hay máy chụp ảnh số (digital camera) Nói chung, dữ liệu ảnh này là dữ liệu lớn. Vì vậy, người ta thường sử dụng các kỹ thuật nén ảnh khác nhau trước khi đưa vào máy, sự khác nhau là ở cách tổ chức để nén được ảnh mà vẫn giữ được chất lượng và thể hiện được các hiệu ứng ảnh. Còn lúc hiển thị để xem thì ảnh sẽ được khôi phục dưới dạng bitmap. Ảnh thể hiện theo từng điểm gọi là ảnh raster. Kiểu thứ hai thể hiện ảnh theo cách vẽ. Kiểu này chỉ phù hợp với các ảnh có thành phần là các điểm rời rạc, các đường hoặc hình thể hiện bằng các đường biên như bản vẽ kiến trúc, các bản vẽ kỹ thuật, bản đồ. Cách lưu trữ là lưu thông tin về các thành phần của ảnh. Đối với một đoạn thẳng thì chỉ lưu toạ độ các đầu mút, đối với một hình tròn thì chỉ lưu toạ độ tâm và bán kính Vì thế các ảnh này thường gọn gàng và dễ phóng to thu nhỏ (vì chỉ dùng các phép biến đổi toạ độ). Các ảnh kiểu này gọi là ảnh vector. 6.3.3. Âm thanh Âm thanh cũng có thể được xử lý bằng máy tính. Cũng có nhiều phương pháp mã hoá âm thanh. Có thể mã hoá bằng cách xấp xỉ dao động sóng âm bằng một chuỗi các byte thể hiện biên độ dao dộng tương ứng theo từng khoảng thời gian bằng nhau. Dĩ nhiên các đơn vị thời gian này cần phải đủ nhỏ để không làm nghèo âm thanh. Đơn vị thời gian này gọi là chu kỳ lấy mẫu. Hình 6.5 minh hoạ cách lưu trữ xấp xỉ sóng âm, theo đó sẽ lưu lại dãy các giá trị sau: (-4 -3 2 3 5 4 3 3 5 7 8 6 -1-4-6-6-6-7-6-3 2 5 5 4 3-1 ) Hình 6.5. Số hoá âm thanh Khi phát, một mạch điện sẽ khôi phục lại sóng âm với một sai khác chấp nhận được. Một cách khác là phân tích dao động âm thanh thành tổng các dao động 49 Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh điều hoà (các dao động hình sin với tần số và biên độ khác nhau) và chỉ lưu lại các đặc trưng về tần số và biên độ. Việc số hoá âm thanh cũng được thực hiện nhờ các thiết bị chuyên dụng. Xử lý âm thanh trên máy tính gồm những việc sau: • Thu và mã hoá âm thanh • Biên tập (sửa chữa, ghép, cắt) • Phân tích (tìm các đặc trưng để nhận dạng tiếng nói). Một số máy tính đã có thể nghe được các lệnh đơn giản. Các máy điện thoại di động hiện nay đã có khả năng nhận dạng tiếng nói. • Tổng hợp tiếng nói. ở mức độ đơn giản máy tính có thể đọc văn bản thành lời. 6.3.4. Về dữ liệu tri thức Người ta đang cố gắng làm máy tính thông minh hơn bằng cách tạo cho máy khả năng suy luận. Muốn vậy, ta phải cung cấp cho máy các sự kiện và các quy luật suy luận. Ví dụ, để máy có thể tìm được quan hệ họ hàng ta đưa vào các quy luật sau: • Nếu A là anh em với B và A là con C thì B cũng là con C • Nếu A là con B và B là con C thì A là cháu C • Nếu là cháu B và B là anh em với C thì A cũng là cháu C Nếu ta đưa vào các sự kiện: • Ngọc là chị Phượng • Hùng là em An • Lê là con Ngọc • An là con Lê thì máy có thể rút ra kết luận An là cháu Phượng. Hai nhóm thông tin này gọi là tri thức, nhóm thứ nhất được gọi là luật suy diễn, nhóm thứ hai gọi là sự kiện. Dữ liệu tri thức trình bày ở đây cho thấy một khía cạnh xử lý thông tin với một mục đích rõ nét hơn. Có nhiều cách biểu diễn tri thức (knowledge representation). Tuy nhiên đó là những vấn đề chuyên môn sâu nên ta sẽ không nghiên cứu ở đây. 6.4. BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH Đối với bộ nhớ trong, các thông tin sau khi mã hoá dưới dạng nhị phân được đưa vào bộ nhớ theo quy ước: Mỗi ngăn của ô nhớ sẽ lưu giữ một trong hai trạng thái được quy ước là một trong hai bit 0 hoặc 1. Với đĩa từ, người ta không ghi mã hoá bit 0 hay 1 theo chiều của từ thông của các vùng nhiễm từ. Vấn đề là khi đọc, đầu đọc trên nguyên tắc cảm ứng từ chỉ có thể cảm nhận được các trạng thái khác nhau qua sự biến thiên của từ trường. Nếu dùng chiều của từ thông để mã hoá thì không thể phân biệt được các bit giống nhau đứng liền nhau. Thông thường các bit được ghi theo kiểu 50 Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh điều tần. Các bit được thể hiện qua các kiểu biến thiên của từ trường chứ không phải chiều của từ thông một vùng nhiễm từ trên đĩa. Thực ra cách ghi trên đĩa từ khá phức tạp vì người ta không những chỉ ghi dữ liệu mà còn có các thông tin về địa chỉ và các thông tin đồng bộ giúp cho việc đọc thông tin được chính xác. 6.5. TRUYỀN TIN GIỮA CÁC MÁY TÍNH Người ta muốn truyền các bit từ máy này đến máy khác và cách đơn giản nhất là phân biệt các bit bằng điện áp, ví dụ điện áp 5 v để thể hiện bit 1, điện áp -5 v thể hiện bit 0. Thực tế không bao giờ có thể truyền và nhận các tín hiệu dưới dạng các xung vuông (Hình 6.6a) mà bao giờ khi chuyển từ mức điện áp nọ đến mức điện áp kia cũng có những giai đoạn điện áp nhận những giá trị trung gian (Hình 6.6b). Không những thế còn rất nhiều ảnh hưởng khác làm tín hiệu lúc nhận khác với tín hiệu mức thu như sự suy yếu tín hiệu làm biên độ thay đối (Hình 6.6c), hình dạng tín hiệu thay đổi - bị méo (Hình 6.6d) và đương cong tín hiệu không trơn như lúc đầu do nhiễu (Hình 6.6e). Những vấn đề này cần được khắc phục bằng các mạch vật lý. Hình 6.6. Tín hiệu truyền Thể hiện các bit bằng mức điện áp chỉ là một cách điều chế tín hiệu mà ta gọi là điều biên. Còn có các 51 a) Tín hiệu mong muốn b) Tín hiệu truyền d) Tín hiệu bị méo e) Tín hiệu bị nhiễu c) Tín hiệu bị suy giảm [...]...Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh phương pháp điều chế tín hiệu khác gọi là điều tần theo đó, các bit thể hiện bằng sự thay đổi tần số của tín hiệu và phương pháp điều pha theo đó các bit được thể hiện bằng pha của tín hiệu hình sin Hình 6. 7 minh hoạ một số phương pháp điều chế tín hiệu: a) băng tần cơ sở (tín hiệu nhị phân); b) điều biên, bit 0 thể... 0; c) Hình 6. 7 Điều chế tín hiệu điều tần, bit 0 được thể hiện bằng tần số thấp, bit 1 thể hiện bằng tần số cao; d) điều pha, bit 0 tương ứng với pha - π/2, bit 1 ứng với pha π/2 Người ta cũng kết hợp cả nhiều cách điều chế để có thể tăng tốc độ truyền tin Một trong các thiết bị cho phép truyền tin giữa các máy qua mạng điện thoại là modem Tên "modem" có nguồn gốc từ cặp từ "modulation - demodulation"... biên và điều pha cho phép có thể truyền tin với tốc độ cao hơn tần số của sóng mang Câu hỏi 1 Đúng hay sai khi nói rằng: Dữ liệu có hai loại là số và phi số? Giải thích câu trả lời 2 Trong Tin học Số được viết theo quy cách nào? 3 Hãy liệt kê các bộ mã thông dụng hiện nay 4 Hãy trình bày cách mã hoá dữ liệu các dạng: hình ảnh, âm thanh, tri thức 5 Quá trình truyền tin giữa các máy tính diễn ra như thế . chu kỳ lấy mẫu. Hình 6. 5 minh hoạ cách lưu trữ xấp xỉ sóng âm, theo đó sẽ lưu lại dãy các giá trị sau: (-4 -3 2 3 5 4 3 3 5 7 8 6 -1 - 4 -6 - 6- 6 - 7 -6 -3 2 5 5 4 3-1 ) Hình 6. 5. Số hoá âm thanh Khi. 44, 45 - 46. 47 / 00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77. 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 01010 80 P 81 Q 82 R 83 S 84 T 85 U 86

Ngày đăng: 28/07/2014, 18:20

Từ khóa liên quan

Mục lục

  • CHƯƠNG 6: BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH

    • 6.1. CÁC DẠNG DỮ LIỆU

    • 6.2. DỮ LIỆU KIỂU SỐ

      • 6.2.1. Biểu diễn số dấu phẩy tĩnh (fixed point number)

      • 6.2.2. Biểu diễn số dấu phẩy động (floating point number)

      • 6.3. DỮ LIỆU PHI SỐ

        • 6.3.1. Mã hoá chữ và dữ liệu kiểu văn bản

        • 6.3.2. Hình ảnh

        • 6.3.3. Âm thanh

        • 6.3.4. Về dữ liệu tri thức

        • 6.4. BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH

        • 6.5. TRUYỀN TIN GIỮA CÁC MÁY TÍNH

          • Câu hỏi

Tài liệu cùng người dùng

Tài liệu liên quan