Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

Информатика->Реферат
В данной курсовой работе необходимо рассмотреть два метода минимизации функций: метод элементарных преобразований и минимизацию функций с помощью карт...полностью>>
Информатика->Реферат
Кажется, ещё совсем недавно компьютерные игры были лишь простой, незатейливой забавой. Они не отличались уникальным сюжетом, и их графическое оформлен...полностью>>
Информатика->Реферат
Інтелектуальна діяльність — це дії та розумові висновки людей у нестандартних ситуаціях, коли схема, алгоритм задачі, яка постала перед спеціалістом, ...полностью>>
Информатика->Реферат
На сегодняшний день технический прогресс дошел до того уровня, когда нет необходимости выстаивать длинные очереди для погашения задолженности, будь то...полностью>>

Главная > Лекция >Информатика

Сохрани ссылку в одной из сетей:

6.2

Международные системы байтового кодирования

Информатика и ее приложения интернациональны. Это связано как с объективными потребностями человечества в единых правилах и законах хранения, передачи и обработки информации, так и с тем, что в этой сфере деятельности (особенно в ее прикладной части) заметен приоритет одной страны, которая благодаря этому получает возможность "диктовать моду”.

Компьютер считают универсальным преобразователем информации. Тексты на естественных языках и числа, математические и специальные символы – одним словом все, что в быту или в профессиональной деятельности может быть необходимо человеку, должно иметь возможность быть введенным в компьютер.

В силу безусловного приоритета двоичной системы счисления при внутреннем представлении информации в компьютере кодирование "внешних” символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. При этом из технических соображений и из соображений удобства кодирования-декодирования следует пользоваться равномерными кодами, т.е. двоичными группами равной длины.

Попробуем подсчитать наиболее короткую длину такой комбинации с точки зрения человека, заинтересованного в использовании лишь одного естественного алфавита – скажем, английского: 26 букв следует умножить на 2 (прописные и строчные) – итого 52; 10 цифр, будем считать, 10 знаков препинания; 10 разделительных знаков (три вида скобок, пробел и др.), знаки привычных математических действий, несколько специальных символов (типа #, $, & и др.) – итого ~ 100. Точный подсчет здесь не нужен, поскольку нам предстоит решить простейшую задачу: имея, скажем, равномерный код из групп по N двоичных знаков, сколько можно образовать разных кодовых комбинаций. Ответ очевиден К = 2N. Итак, при N = 6 К = 64 – явно мало, при N = 7 К = 128 – вполне достаточно.

Однако, для кодирования нескольких (хотя бы двух) естественных алфавитов (плюс все отмеченные выше знаки) и этого недостаточно. Минимально достаточное значение N в этом случае 8; имея 256 комбинаций двоичных символов, вполне можно решить указанную задачу. Поскольку 8 двоичных символов составляют 1 байт, то говорят о системах "байтового” кодирования.

Наиболее распространены две такие системы: EBCDIC (Extended Binary Coded Decimal Interchange Code) и ASCII (American Standard Information Interchange).

Первая – исторически тяготеет к "большим” машинам, вторая чаще используется на мини- и микро-ЭВМ (включая персональные компьютеры). Ознакомимся подробнее именно с ASCII, созданной в 1963 г.

В своей первоначальной версии это – система семибитного кодирования. Она ограничивалась одним естественным алфавитом (английским), цифрами и набором различных символов, включая "символы пишущей машинки” (привычные знаки препинания, знаки математических действий и др.) и "управляющие символы”. Примеры последних легко найти на клавиатуре компьютера: для микро-ЭВМ, например, DEL – знак удаления символа.

В следующей версии фирма IBM перешла на расширенную 8-битную кодировку. В ней первые 128 символов совпадают с исходными и имеют коды со старшим битом равным нулю, а остальные коды отданы под буквы некоторых европейских языков, в основе которых лежит латиница, греческие буквы, математические символы (скажем, знак квадратного корня) и символы псевдографики. С помощью последних можно создавать таблицы, несложные схемы и др.

Для представления букв русского языка (кириллицы) в рамках ASCII было предложено несколько версий. Первоначально был разработан ГОСТ под названием КОИ-7, оказавшийся по ряду причин крайне неудачным; ныне он практически не используется.

В табл. 2 приведена часто используемая в нашей стране модифицированная альтернативная кодировка. В левую часть входят исходные коды ASCII; в правую часть (расширение ASCII) вставлены буквы кириллицы взамен букв, немецкого, французского алфавитов (не совпадающих по написанию с английскими), греческих букв, некоторых спецсимволов.

Знакам алфавита ПЭВМ ставятся в соответствие шестнадцатиричные числа по правилу: первая – номер столбца, вторая – номер строки. Например: английская 'А' – код 41, русская 'и' – код А8.

Таблица 2. Таблица кодов ASCII (расширенная)



Одним из достоинств этой системы кодировки русских букв является их естественное упорядочение, т.е. номера букв следуют друг за другом в том же порядке, в каком сами буквы стоят в русском алфавите. Это очень существенно при решении ряда задач обработки текстов, когда требуется выполнить или использовать лексикографическое упорядочение слов.

Из сказанного выше следует, что даже 8-битная кодировка недостаточна для кодирования всех символов, которые хотелось бы иметь в расширенном алфавите. Все препятствия могут быть сняты при переходе на 16-битную кодировку Unicode, допускающую 65536 кодовых комбинаций.

7.

Двоичное кодирование графической информации

С 80-х годов интенсивно развивается технология обработки на компьютере графической информации.

Компьютерная графика позволяет создавать и редактировать рисунки, схемы, чертежи, преобразовывать изображения (фотографии, слайды и т.д.), представлять статистические данные в форме деловой графики, создавать анимационные модели (научные, игровые и т.д.), обрабатывать «живое видео».

Графическая информация на экране монитора представляется в виде (изображения, которое формируется из точек (пикселей). В простейшем случае (черно-белое изображение без градаций серого цвета) каждая точка экрана может иметь лишь два состояния — «черная» или «белая», т.е. для хранения ее состояния необходим 1 бит.

Цветные изображения могут иметь различную глубину цвета (бит на точку: 4. 8, 16, 24). Каждый цвет можно рассматривать как возможное состояние точки, и тогда по формуле N = 21 может быть вычислено количество цветов, отображаемых на экране монитора.

Изображение может иметь различный размер, который определяется количеством точек по горизонтали и по вертикали. В современных персональных компьютерах обычно используются четыре основных размера изображения или разрешающих способностей экрана: 640*480, 800*600, 1024*768 и 1280*1024 точки.

Графический режим вывода изображения на экран определяется разрешающей способностью экрана и глубиной цвета. Полная информация о всех точках изображения, хранящаяся в видеопамяти, называется битовой картой изображения.

Для того чтобы на экране монитора формировалось изображение, информация о каждой его точке (цвет точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объем видеопамяти для наиболее распространенного в настоящее время графического режима (800*600 точек, 16 бит на точку).

Всего точек на экране: 800 * 600 = 480000

Необходимый объем видеопамяти: 16 бит * 480000 = 7680000 бит = 960000 байт = 937,5 Кбайт.

Аналогично рассчитывается необходимый объем видеопамяти для других графических режимов.

Таблица . Объем видеопамяти для различных графических режимов

Современные компьютеры обладают такими техническими характери­стиками, которые позволяют обрабатывать и выводить на экран, так называемое «живое видео», т.е. видеоизображение естественных объектов. Видеоизображение формируется из отдельных кадров, которые сменяют друг друга с высокой частотой (не воспринимаемой глазом). Обычно частота кадров составляет 25 Гц, т.е. за 1 секунду сменяется 25 кадров.

Двоичное кодирование звуковой информации

С начала 90-х годов персональные компьютеры получили возмож­ность работать со звуковой информацией. Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию. С помощью специальных про­граммных средств (редакторов аудиофайлов) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи и появляется возможность управления компьютером при помощи голоса.

Звуковой сигнал - это непрерывная волна с изменяющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компью­тер мог обрабатывать непрерывный звуковой сигнал, он должен быть дистретизирован, т.е. превращен в последовательность электрических им­пульсов (двоичных нулей и единиц).

При двоичном кодировании непрерывного звукового  сигнала он заменяется серией его отдельных выборок — отсчетов.

Современные звуковые карты могут обеспечить кодирование 65536 различных уровней сигнала или состояний. Для определения количества бит, необходимых для кодирования, решим показательное уравнение:

Таким образом, современные звуковые карты обеспечивают 16-битное кодирование звука. При каждой выборке значению амплитуды звукового сигнала присваивается 16-битный код.

Количество выборок в секунду может быть в диапазоне от 8000 до 48000, т.е. частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 Кгц. При частоте 8 Кгц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 Кгц - качеству звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.

Можно оценить информационный объем моном аудио файла длительно­стью звучания 1 секунду при среднем качестве звука (16 бит, 24 Кгц). Для этого количество бит на одну выборку необходимо умножить на количе­ство выборок в 1 секунду:

16 бит * 24000 = 384000 бит = 48000 байт или 47 Кбайт

8

Определить понятие "количество информации" довольно сложно. В решении этой проблемы существует два основных подхода. Исторически они возникли почти одновременно. В конце 1940 г. один из основоположников кибирнетиеи американский математик Клож Шенон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к "объемному подходу".

Количество информации как мера уменьшения неопределенности
(вероятностный подход)

С точки зрения отдельного человека, ценность информации определяется тем, насколько она проясняет для него какой-либо вопрос, то есть уменьшает неопределенность ситуации. При этом количество одной и той же информации может быть оценено различными людьми по-разному. Для объективного измерения количества информации необходимо формализовать задачу.

Будем считать события равновозможными, если мы не располагаем заранее никакой информацией (статистическими данными, логическими умозаключениями и т.д.), о том, что шансы одного из событий выше или ниже, чем шансы любого другого. При этом имеется в виду, что в результате опыта обязательно наступит какое-либо событие и притом только одно.

Так, например, при подбрасывании монеты выпадение орла или решки можно считать равновозможными событиями, предполагая монету идеальной, то есть исключив из рассмотрения возможность других исходов ("зависла в воздухе", "встала на ребро"), а также влияние на исход опыта чеканки на сторонах монеты, отклонения формы реальной монеты от правильной и т. д.

Чем больше равновозможных событий, тем больше неопределенность ситуации. Минимальный размер сообщения о том, что произошло одно из двух равновозможных событий, равен одному биту. Информацию о том, что произошло первое событие, можно закодировать в двоичном алфавите нулем, а о том, что произошло второе событие – единицей.

Для уменьшения неопределенности в два раза (вместо двух возможных событий – одно реально произошедшее) требуется один бит информации. Иначе говоря, сообщение, уменьшающее неопределенность ситуации в два раза, несет один бит информации. Если его длина, подсчитанная с использованием алфавитного подхода, больше, значит сообщение несет избыточную, с точки зрения уменьшения неопределенности, информацию.

Пример. С точки зрения уменьшения неопределенности, сообщение о исходе опыта бросания идеальной монеты (два равновозможных события) несет один бит информации.

Можно рассчитать длину сообщения в двоичном алфавите, необходимую для передачи информации. Для уменьшения неопределенности ситуации в 2n раз необходимо n бит информации.

Пример. С точки зрения уменьшения неопределенности, сообщение о исходе опыта бросания двух идеальных монет (четыре равновозможных события: орел-решка; решка-орел; орел-орел; решка-решка) несет два бита информации. Действительно, 2n в данном случае равняется четырем, следовательно n = 2.

Задача нахождения n по известному значению k = 2n решается нахождением логарифма числа k по основанию 2, поэтому, для того, чтобы закодировать информацию, уменьшающую неопределенность в k раз, необходимо log2k бит информации. Приведем таблицу некоторых двоичных логарифмов, являющихся целыми числами. n log2k

Пример. С точки зрения уменьшения неопределенности, сообщение о исходе опыта бросания точечного объекта на шахматную доску (равновозможные события - попадания в одну из 64 клеток) несет 6 бит информации. Действительно, k в данном случае равняется 64, log264 = 6. Минимальная длина двоичного сообщения также будет равна 6. Подробнее: номер клетки доски по вертикали можно закодировать целым числом от 0 до 7. Для этого требуется 3 двоичных разряда (см. Системы счисления). Еще 3 разряда нужны для того, чтобы закодировать номер клетки доски по горизонтали, 3+3=6. Можно также просто пронумеровать все клетки числами от 0 до 63. Для этого опять-таки потребуется 6 разрядов.

Если используется алфавит, состоящий не из двух, а из 2p знаков, то каждый знак может нести информацию, уменьшающую неопределенность ситуации в 2p раз. Таким образом, сообщение из m знаков позволяет уменьшить неопределенность в (2p)m = 2pm раз, то есть его информационный объем равен m·p бит, что согласуется с результатом, полученным при использовании алфавитного подхода.

Пример. Пусть для кодирования сообщения о попадании точечного объекта на клетку шахматной доски используется алфавит из 8 символов (2p = 8, следовательно p = 3). Сообщение уменьшает неопределенность в 64 раза, следовательно 2pm = 23m = 64, отсюда 3m = log264 = 6; m = 2, то есть для кодирования информации попадании точечного объекта на клетку шахматной доски потребуется сообщение из двух знаков восьмисимвольного алфавита. Действительно, в первом знаке сообщения можно закодировать, например, информацию о горизонтали клетки, а во втором — о вертикали. В общепринятой шахматной нотации фактически используется указанный способ именования клеток, только для удобства чтения первый символ сообщения записывается как буква, а второй - как цифра. С математической точки зрения ничто не мешает обозначать клетки a1 и h8 как aa и hh или 11 и 88, используя только 8 символов.

Алфавитный подход

Если информация представлена в виде дискретного сообщения, то логично считать количеством информации его длину, то есть общее число знаков в сообщении. Но длина сообщения зависит не только от содержащейся в нем информации. На нее влияет мощность алфавита используемого языка. Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

Пример: Сигнал SOS: 3 знака в латинском алфавите;

11 знаков в алфавите Морзе: ··· пауза – – – пауза ···.

Для упорядочивания измерений информационный объем сообщений принято измерять в битах. Один бит соответствует одному знаку двоичного алфавита. Итак, чтобы измерить длину сообщения, его нужно представить в двоичном виде и подсчитать количество двоичных знаков – битов. При этом совсем не обязательно уметь интерпретировать сообщения.

Пример: Пусть сообщение в двоичном алфавите выглядит следующим образом: 000100010001. Мы не знаем, какая информация была заложена в этом сообщении, но можем легко подсчитать его длину – 12 двоичных знаков, следовательно, его информационный объем равен 12-ти битам.

Такой способ измерения количества информации называется алфавитным подходом. При этом измеряется не содержание информации с точки зрения его новизны и полезности, а размер несущего информацию сообщения. Мы уже убедились, что при алфавитном подходе к определению количества информации одни и те же сведения, закодированные по-разному, будут иметь различный информационный объем. Сообщения одинаковой длины могут нести совершенно как совершенно бесполезные сведения, так и нужную информацию. Пример: Применяя алфавитный подход, получаем, что информационный объем слов “фыырпбьощ” и “компьютер” совершенно одинаков, а слов “ученик” и “учащийся” – различен.

Если алфавит содержит 2n знаков, то каждый из его знаков можно закодировать с помощью n знаков двоичного алфавита. Таким образом, объем информации, содержащейся в сообщении длиной m при использовании алфавита мощностью 2n, равен m·n бит.
Пример:

Найдем информационный объем слова SOS, записанного в компьютерной кодировке. При кодировании букв в компьютере используется либо алфавит ASCII (American Standard Code for Information Interchange — американский стандартный код обмена информацией), состоящий из 28=256 знаков, либо алфавит Unicode, мощность которого 216 = 65536. В слове SOS три буквы, следовательно, его информационный объем 3·8=24 или 3·16=48 бит, в зависимости от используемой кодировки.

Алфавитный подход удобен при подсчете количества информации, хранимого, передаваемого и обрабатываемого техническими устройствами. Действительно, устройствам нет дела до содержательной стороны сообщений. Компьютеры, принтеры, модемы работают не с самой информацией а с ее представлением в виде сообщений. Оценить информационные результаты их работы как полезные или бесполезные может только человек.

Единицы измерения информации

Для удобства, помимо бита используются более крупные единицы измерения количества информации. Вот соотношения между ними:

То, что отношения между единицами измерения кратны степеням 2, объясняется большим теоретическим и практическим значением двоичного кодирования в информатике.



Загрузить файл

Похожие страницы:

  1. Курс лекций по Информатике (1)

    Лекция >> Информатика
    ... . Физические стили.(единые) - жирный шрифт; - курсив; - шрифт фиксированной ширины (как на ... по верхнему краю), CENTER (выравнивание по центру - это значение принимается по умолчанию), BOTTOM (по ...
  2. Курс лекции по Информатике

    Конспект >> Информатика
    ... университет Кафедра прикладной математики и информатики ИНФОРМАТИКА Конспект лекций для студентов Направления: 010500 - Прикладная ... требует от него определенных знаний по информатике. Понятие информации определяется как “знания ...
  3. Курс лекций по Коммерческой логистике

    Лекция >> Логика
    ... _______ «____»________ 2003г. Курс лекций по дисциплине «Коммерческая логистика» для ... Романеева Е.В. Тольятти 2003 год Курс лекций по дисциплине «Коммерческая логистика» разработан ... взаимообусловливают друг друга. Информатика наиболее тесным образом связывает ...
  4. Курс лекций по Инновационному менеджменту

    Лекция >> Менеджмент
    ЛЕКЦИИ ПО КУРСУ “ИННОВАЦИОННЫЙ МЕНЕДЖМЕНТ” ДЛЯ 5 КУРСА СПЕЦИАЛЬНОСТЕЙ 1204 И 1901 Тема 1: “Инновационный ... г.г.) опирается на достижения в области микроэлектроники, информатики, биотехнологии, генной инженерии, новых видов ...
  5. Лекции по информатики (2)

    Реферат >> Информатика
    ... . Основная особенность курса информатики состоит в том, что все экзамены и зачеты по этому курсу, а также ... можно перепроверить свои знания по информатике. Данные тесты по информатике с 1997 года используются в систе­ме ...

Хочу больше похожих работ...

Generated in 0.0071678161621094