Кодировка букв в двоичной системе

Кодировка букв в двоичной системе

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Читайте также:  Забита капиллярная трубка в холодильнике

32 — 127

00100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 — пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Читайте также:  Восстановление пароля через смс вконтакте

Решил сделать такой ниструмент как преобразование текста в двоичный код и обратно, такие сервисы есть, но они как правило работают с латиницей, мой же транслятор работает с кодировкой unicode формата UTF-8, который кодирует кириллические символы двумя байтами.

На данный момент возможности транслятора ограничены двухбайтными кодировками т.е. китайские иероглифы транслировать не получиться, но я собираюсь исправить это досадное недоразумение.

Для преобразования текста в бинарное представление введите текст в левое окошко и нажмите TEXT->BIN в правом окошке появится его двоичное представление.

Для преобразования бинарного кода в текст введите кода в правое окошко и нажмите BIN->TEXT в левом окошке появится его символьное представление.

В случае, если перевод бинарного кода в текст или наоборот не получился — проверьте корректность ваших данных!

Обновление!

Теперь доступно обратное преобразование текста вида:

в нормальный вид. Для этого нужно поставить галочку: "Заменить 0 пробелами, а 1 заполнителем █". Затем вставьте текст в правое окошко: "Текст в бинарном представлении" и нажмите кнопку под ним "BIN->TEXT".

При копировании таких текстов нужно быть осторожным т.к. можно запросто потерять пробелы в начале или в конце. Например строка сверху имеет вид:

а на красном фоне:

видите сколько пробелов в конце можно потерять?

УРОК "Кодирование текстовой информации"

Представление информации происходит в различных формах в процессе восприятия окружающей среды живыми организмами и человеком, в процессах обмена информацией между человеком и человеком, человеком и компьютером, компьютером и компьютером и так далее.

Кодирование — преобразование информации из одной формы представления (знаковой системы) в другую.

Декодирование — обратный процесс, когда из компьютерного кода знак преобразуется в его графическое изображение.

В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. При вводе знака алфавита в компьютер путем нажатия соответствующей клавиши на клавиатуре происходит кодирование знака, то есть преобразование его в компьютерный код.

При вводе в компьютер текстовой и числовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код.

Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

Например, слово «МАМА» кодируется 32-разрядным двоичным числом:

МАМА ® 11101101 11100001 11101101 11100001

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.

Пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы:

Читайте также:  Сталкер бусы бабки бюрера

ASCII, КОИ-8

Unicode

1 символ — 1 байт

1 символ — 2 байта

ПРИМЕЧАНИЕ! В настоящее время широкое распространение получил новый международный стандарт Unicode , который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не N = 2 8 = 256 символов, а N = 2 16 = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows & Office (начиная с 1997 года).

Кодирование информации в ПК заключается в том, что каждому символу ставится в соответствие уникальный двоичный код. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

Алфавит – это набор букв, символов препинания, цифр, пробел и т.п.

Полное число символов в алфавите называют мощностью алфавита

Например, мощность алфавита из русских букв = 33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел = 54 символа

ПРИМЕР 1. Сколько места в памяти надо выделить для хранение предложения: Привет, Вася!

а) в КОИ-8 б) в UNICODE

Считаем все символы, включая знаки препинания (здесь 13 символов).

а) В кодировке КОИ-8 1 символ занимает 1 байт, следовательно V = k * i = 13 * 1 байт = 13 байт.

б) В кодировке UNICODE 1 символ занимает 2 байта , следовательно V = k * i = 13 * 2 байта = 26 байт.

Ответ: а) 13 байт б) 26 байт

ПРИМЕР 2 . Определите информационный объем документа в килобайтах, если известно, что в нем 32 страницы. На каждой странице по 64 строки и каждая строка содержит 56 символ, при этом 1 символ кодируется восьмибитовым способом. ( Ответ записать в виде целого числа.)

1) Считаем все символы: k = 64 строки * 56 символов * 32 страницы = 114 688 символов в документе

2) V = k * i = 114 688 * 1 байт

= 114 688 байт / 1024

Ответ: 112 Кбайт

Задача 3* . Сколько дискет объемом 1,4 Мбайт необходимо для хранения полной энциклопедии из 60 томов по 250 страниц, на каждой из которых две полосы по 80 строк из 45 знаков?

Решение: V = k * i

1) k = 80 строк * 45 знаков * 2 полосы * 250 страниц * 60 томов = 1 0 800000 0

2) 1 0 800 0 000 символов * 1 байт = 108000000 байт

3) 108000000 байт / 1024 = 105469 Кб / 1024 = 103 Мб

4) 103 Мб /1.4 Мб = 74 дискеты

а) Оцените информационный объем в КОИ-8 и Unicode сообщения: Без труда не вынешь рыбку из пруда!

б) Текст занимает полных 5 страниц. На каждой странице размещается 40 строк по 70 символов в строке. Какой объем памяти в КБ займет этот текст?

в) Вариант теста в кодировке Unicode имеет объем 20 Кбайт. На каждой странице теста 40 строк по 64 символа в каждой строке. Сколько страниц в тесте?

Ссылка на основную публикацию
Какой нормальный бесплатный антивирус
Рейтинг Антивирусов 2020 Среди этого списка антивирусов вы можете найти передовые решения для защиты компьютеров под управлением Windows 7-10 и...
Как уменьшить обои на рабочем столе
Обоями на рабочем столе компьютера называется рисунок, который является фоном для ярлычков файлов и папок. Каждый пользователь может выбрать любое...
Как уменьшить объем файла tiff
Compress TIFF files online for free. Reduce file size of TIFF images, just select the TIFF image file and click...
Какой объем диска нужен для windows 7
Сегодня хочется затронуть тему размера системного раздела в компьютерах с операционной системой Windows. Если кратко, то это раздел файловой системы,...
Adblock detector