Приглашаем в проект «300 ИнтелШкол-2010»

Кодирование текстовой информации

Материал из Letopisi.Ru — «Время вернуться домой»

Перейти к: навигация, поиск

заголовок ссылкиНачиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию.

Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. / = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события):

К = 2I = 28 = 256,

т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Присвоение символу определенного числового кода – это вопрос соглашения. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам).

Файл:Фионин KodASCII.gif Международная кодировка ASCII

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO), что вызывает дополнительные трудности при работе с русскоязычными документами.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Файл:Фионин таблица 4KOI.gif Кодировка КОИ8-Р

Наиболее распространенной в настоящее время является кодировка Microsoft Windows), обозначаемая сокращением CP1251 ("CP" означает "Code Page", "кодовая страница").

Файл:Фионин Kod-win.gif Кодировка CP1251

Таким образом, тексты, закодированные при помощи одной таблицы не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.

Двоичный код Десятичный код КОИ8 СР1251 СР866 Мас ISO
11000010 194 б В - - Т
Инструменты
организаторы проекта
Компания ТрансТелеКом
Корпорация Intel
PH International
www.Iteach.ru
партнер проекта

Почта России

Классный Журнал

www.centersot.org


наши друзья



Жужа. Ежедневная сказка
мы поддерживаем

Образование



Установите «Letopisi NewsReader» на свой компьютер