Двоичное кодирование таблица кодов

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 — 127

00100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 — пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

2. Различные кодировки кириллицы.

1. Двоичное кодирование текстов. Кодовые таблицы.

Как известно, вся информация, которая попадает в компьютер, преобразуется в последовательность электрических импульсов. Наличие импульса принято условно обозначать "1", а его отсутствие -"О". Такой способ кодирования информации называется двоичным или бинарным. Один двоичный символ получил название бит. (bit от английскогоbinary digit "двоичная цифра").

При вводе в компьютер текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту (8 битам). Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код (или соответствующий ему двоичный код). Код символа хранится в памяти компьютера, где занимает, как уже говорилось, 1 байт. При таком способе можно закодировать 256 различных символов (256 = 2 8 ). Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского алфавита, цифры, знаки, графические символы и т. д.

Каждому символу такого алфавита ставится в соответствие уникальный десятичный код от 0 до 255, а каждому десятичному коду соответствует 8-разрядный двоичный код от 00000000 до 11111111. Таким образом, компьютер различает символы по их коду.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.

В настоящее время существует несколько различных кодировок (кодовых таблиц) для русских букв. Поэтому если текст создан в одной кодировке, то он не будет правильно отображаться в другой.

Понятно, что каждая кодировка задается своей кодовой таблицей. Одному и тому же двоичному коду в различных кодировках соответ­ствуют различные символы.

Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекоди­рования русского текста. Некоторые текстовые редакторы(например,MSWordи др.) содержат встроенные программы-конверторы, позволяющие читать текст в различных кодировках.

Присвоение символу конкретного кода является вопросом соглашения, которое и фиксируется в конкретной кодовой таблице. В качестве международного стандарта принята кодовая таблица ASCII. В этой кодовой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последова­тельного кодирования алфавитов.

Стандартными в этой таблице кодов ASCII являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

1. Двоичное кодирование звуковой информации.

Таблица соответствия кодов — представлений чисел. (десятичные от 1 до 255 и соответствующие восьмеричные, шестнадцатиричные, двоичные, ASCII коды).

ASCII (англосаксы говорят American Standard Code for Information Interchange) — американский стандартный код для обмена информацией. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Изначально разработанная как 7-битная, с широким распространением 8-битного байта ASCII стала восприниматься как половина 8-битной. В компьютерах обычно используют расширения ASCII с задействованной второй половиной байта.

Таблица 1. десятичные числа от 0 до 127.

Таблица соответствия кодов — представлений чисел. (десятичные от 0 до 127 и соответствующие восьмеричные, шестнадцатиричные, двоичные, ASCII коды).
Dec/
дес
яти
чный
Oct/
вось
мер
ичн
ый
hex/
шес
тна
дца
тер
ичн
Bin/
двоич
ный
ASCII
симв
пояснениеввод с клавиатурыDec/
дес
яти
чный
Oct/
вось
мер
ичн
ый
hex/
шес
тна
дца
тер
ичн
Bin/
двоич
ный
ASCII
симв
Dec/
дес
яти
чный
Oct/
вось
мер
ичн
ый
hex/
шес
тна
дца
тер
ичн
Bin/
двоич
ный
ASCII
симв
Dec/
дес
яти
чный
Oct/
вось
мер
ичн
ый
hex/
шес
тна
дца
тер
ичн
Bin/
двоич
ный
ASCII
симв
0000000000000NULПустой ASCII
символ
CTRL-@
320402000100000пробел/space641004001000000@961406001100000`
1001100000001SOHНачало заголовкаCTRL-A330412100100001!651014101000001A971416101100001a
2002200000010STXНачало текстаCTRL-B340422200100010"661024201000010B981426201100010b
3003300000011ETXКонец текстаCTRL-C350432300100011#671034301000011C991436301100011c
4004400000100EOTКонец передачиCTRL-D360442400100100$681044401000100D1001446401100100d
5005500000101ENQЗапросCTRL-E370452500100101%691054501000101E1011456501100101e
6006600000110ACKПодтвержд. полученияCTRL-F380462600100110&701064601000110F1021466601100110f
7007700000111BELЗвуковой сигналCTRL-G390472700100111711074701000111G1031476701100111g
8010800001000BS**Обратный ход кареткиCTRL-H400502800101000(721104801001000H1041506801101000h
9011900001001TAB**Горизонт. табуляцияCTRL-I410512900101001)731114901001001I1051516901101001i
10012A00001010LF**Начало строкиCTRL-J420522A00101010*741124A01001010J1061526A01101010j
11013B00001011VTВертикальная табуляцияCTRL-K430532B00101011+751134B01001011K1071536B01101011k
12014C00001100FFНачало формыCTRL-L440542C00101100,761144C01001100L1081546C01101100l
13015D00001101CR**Возврат кареткиCTRL-M450552D00101101771154D01001101M1091556D01101101m
14016E00001110SOПередачаCTRL-N460562E00101110.781164E01001110N1101566E01101110n
15017F00001111SIПриемCTRL-O470572F00101111/791174F01001111O1111576F01101111o
160201000010000DLEЗакр. канала связиCTRL-P4806030001100000801205001010000P1121607001110000p
170211100010001DC1Упр. устройством 1CTRL-Q4906131001100011811215101010001Q1131617101110001q
180221200010010DC2Упр. устройством 2CTRL-R5006232001100102821225201010010R1141627201110010r
190231300010011DC3Упр. устройством 3CTRL-S5106333001100113831235301010011S1151637301110011s
200241400010100DC4Упр. устройством 4CTRL-T5206434001101004841245401010100T1161647401110100t
210251500010101NAKОтрицание полученияCTRL-U5306535001101015851255501010101U1171657501110101u
220261600010110SYNСинхронизацияCTRL-V5406636001101106861265601010110V1181667601110110v
230271700010111ETBКонец пакетаCTRL-W5506737001101117871275701010111W1191677701110111w
240301800011000CANОтменаCTRL-X5607038001110008881305801011000X1201707801111000x
250311900011001EMЗакрытие средыCTRL-Y5707139001110019891315901011001Y1211717901111001y
260321A00011010SUBЗаменаCTRL-Z580723A00111010:901325A01011010Z1221727A01111010z
270331B00011011ESCЗавершениеCTRL-[590733B00111011;911335B01011011[1231737B01111011 <
280341C00011100FSРазделитель файловCTRL-600743C00111100941365E01011110^1261767E01111110
310371F00011111USРазделитель модулейCTRL-_630773F00111111?951375F01011111_1271777F01111111

Таблица 2. десятичные числа от 128 до 255.

Оцените статью
Ремонт оргтехники
Добавить комментарий