Введение
Тема реферата «Закономерности движения информации и их влияние на технологию информационного производства».
Цель работы – раскрыть смысл понятий - системы мер измерения движения информации; вербальной формы представления информации; единицы информации которые приняты в библиотечном производстве; количественными и качественными свойствами информации; статистическими и динамическими законами движениями информации.
1. Системы мер измерения движения информации и ее потоков
Изучение закономерностей движения информации в обществе и развития общественного информационного производства необходимо начать с определения системы мер, характеризующих эти процессы количественно.
Единого согласованного определения понятия «информация» в настоящее время не существует. До сих пор с различных позиций характеризуются сущность (субстанция) информации, ее структурные элементы, свойства и признаки, формы проявления (выражения) и организации, ее роль в производстве и управлении, в жизни и развитии общества.
Мы рассматриваем особый вид информации, объекты и субъекты которой — человек и техника. Человек или любая человеко-машинная система имеет дело не вообще с информацией того или иного вида, а с конкретными материальными формами ее проявления, которые часто называют структурными единицами (элементами) информации.
Конечная, элементарная единица информации — сигнал определенной природы, процесс или явление, позволяющие автомату или человеку воспринимать информацию, заключенную в сообщениях. В технических системах используются сигналы самой различной физической природы (электрические, пневматические, гидравлические и др.). В сигнальных системах типа «человек — человек» конечным сигналом служит слово. В смешанных, так называемых человеко-машинных системах слово, понятное человеку, преобразуется в сигналы, понятные машине, и наоборот. Промежуточным структурным элементом информации в этих преобразованиях служит знак (буквенный, цифровой или другой). Знак не дает достаточной информации об обозначаемом предмете, не является субъективным образом этого предмета. Только система знаков способна составить этот образ. Поскольку информация о предмете практически бесконечна, то образ отражает лишь часть данной информации. Знак, следовательно, несет не всю информацию о предмете, а его «информационный инвариант», то есть часть информации, общую и для предмета, и для образа.
Таким образом, схема трансформации информации при ее «движении» от объекта к субъекту будет следующей: предмет — образ — слово — знак — сигнал. Характерно, что при таком движении происходит редукция информации. Кроме информации о предмете и его образе, знак содержит и субъективную информацию, характеризующую отношение человека к предмету и образу.
Со знаком как со структурной единицей и формой выражения информации тесно связано понятие кода. В социально-технических системах код представляет собой значение знака или слова естественного языка, выраженное в символах какого-либо искусственного языка. Символы выбираются и строятся с таким расчетом, чтобы их можно было легко преобразовывать в сигналы, воспринимаемые и автоматом, и человеком. Знаки и знаковые системы, коды и кодовые системы, как формы выражения информации, обладают относительной независимостью от содержания информации, хранимой, передаваемой и обрабатываемой при их посредстве. Одна и та же информация может быть выражена при помощи различных знаков и кодов. Это очень важное положение теории информации. В соответствии с этим положением вся информационная техника развивается в направлении поисков и создания искусственных систем сигнализации, знаковых и кодовых систем, обеспечивающих более эффективное представление, а также передачу, хранение и обработку информации.
Важная структурная единица информации — язык. Выделяют два больших класса языков: естественные и искусственные. Искусственные информационные языки делятся на следующие виды: классификационные, дескрипторные, алгоритмические, машинные.
Более крупная единица информации — информационные модели, представляющие собой систему знаков, символов, слов, предложений искусственного или естественного языка, имитирующих объект (предмет, явление, процесс) в целом или его отдельные части, те или иные стороны (аспекты) его функционирования. Известны четыре основных класса (группы) информационных моделей: абстрактные (знаковые и графические), наглядные (изображения), предметные (макеты) и комбинированные.
Важным понятием является поток информации — направленное движение информации от источника к получателю. Направление потока задается, как правило, адресами источника и получателя информации. Содержание потока — перечень структурных единиц информации. Объем потока определяется количеством структурных единиц, обычно с указанием их максимальной длины. Режим потока определяется периодом времени между сообщениями.
С понятием потока информации тесно связано понятие «коммуникация» — путь информации. В настоящее время этот термин приобрел более широкий смысл и употребляется, помимо указанного, еще и в других значениях. Коммуникацией называют способность и сам факт общения между людьми (массовая коммуникация), а также сигнальный способ связи у животных. В исследованиях вопросов массовой коммуникации отмечается, что в настоящее время происходит процесс замены движения человека к информации на обратное движение — информации к человеку. Эта тенденции обусловлена необходимостью проведения особой политики в развитии средств обработки и доставки информации человеку.
С понятием «коммуникация» тесно связано понятие «связь». Вообще «связь», как и «информация», общенаучное понятие. В философском осмыслении связь — это взаимообусловленность существования явлений, разделенных в пространстве и времени. В Советском энциклопедическом словаре (СЭС) понятие «связь» трактуется как:
— форма движения материи: механическая, физическая (тепловая, электромагнитная, гравитационная, атомная, ядерная), химическая' биологическая, общественная;
— форма детерминизма (определенности): однозначная, вероятностная, корреляционная;
— сила: жесткая, корпускулярная, сильная, слабая (связь);
— характер результата: связи порождения, связи преобразования;
— направление действия: прямая, обратная (связь);
— тип процесса, который данная связь определяет: функционирование, развитие, управление;
— содержание, которое является предметом связи: перенос вещества, энергии, информации.
Мы рассматриваем понятие «связь» в контексте интересующих нас видов информации, то есть мы говорим о связи между людьми, человеком и автоматом, автоматом и автоматом. Таким образом, дополнительно к перечисленным видам связи добавляется связь как характер субъекта и объекта, передатчика и приемника (реципиента) информации.
Из приведенной классификации видов связи следует, что информация является содержанием, предметом связи. В вероятностно-статистической теории связи (именно эта теория положила начало теории информации) информация определяется как противоположность неопределенности, как уменьшаемая неопределенность (энтропия).
Исходя из этого, количество информации — это степень уменьшенной (снятой) неопределенности в результате передачи сообщений. В случае когда событие может иметь два равновероятных значения, один из возможных двоичных ответов на двоичный вопрос «да» или «нет» представляет собой минимальное количество информации. Этот ответ передается по каналам связи в виде физического сигнала, имеющего одно из двух равновесных значений — «0» или «1» (есть импульс или нет). Такому двоичному ответу на один из двоичных вопросов, передаваемому по каналам связи с помощью физического сигнала, и соответствует минимальное количество информации, которое Клод Э. Шеннон назвал «бит» (binary digit — двоичная цифра). Содержащееся в сообщении полное количество информации в битах определяется с учетом количества слов естественного языка (в случае социальной информации), количества знаков в каждом слове и количества двоичных символов (0 или 1), необходимых для выражения каждого знака. Двоичная форма кодирования информации, сейчас основная в дискретных системах типа «автомат — автомат», служит арифметической основой проектирования и функционирования дискретных средств вычислительной техники.
В работах Хартли и Шеннона информация возникает перед нами лишь в своей внешней оболочке, которая представлена отношениями сигналов, знаков, сообщений друг к другу — синтаксическими отношениями. Количественная мера Хартли—Шеннона не претендует на оценку содержательной (семантической) или ценностной, полезной (прагматической) сторон передаваемого сообщения.
Для раскрытия общих закономерностей движения информации в обществе необходимы более грубые и более предметные изменения информации и ее потоков. Нейропсихологи утверждают, что кратковременная память человека в состоянии удерживать около семи различных объектов, обдумываемых им одновременно. При этом сложность и природа объектов может быть различной. Причем в шенноновских битах (двоичных единицах) эти объекты, как правило, измерить не удается.
Общаясь друг с другом, люди работают в режиме «вопрос—ответ», причем в битах можно измерить только длину передаваемых сообщений. С позиций движения информации больший интерес представляет число вопросов и ответов, произведенных в процессе общения. Сложность вопросов и ответов только косвенно можно измерить битами. В зависимости от субъектов и темы общения сложность может измеряться в более крупных, чем бит или символ (буква, байт и пр.), единицах.
В сложных информационных производствах одновременно общаются друг с другом много пар: «человек—человек», «человек—машина», «машина—машина». В процессе общения вырабатываются и на какое-то время фиксируются некоторые порции информации. Сопоставить различные информационные производства можно только при относительно близких единицах измерения этих порций, или единицах информации.
В каждом информационном производстве информация перемещается в процессе ее использования или создания от одной технологической позиции к другой порциями, имеющими некоторое законченное содержание в виде формальных записей на бумажных, магнитных, электронных, акустических и других носителях, воспринимаемых получающей стороной, в том числе памятью людей.
Мы будем различать следующие порции (единицы) информации, принятые во многих информационных производствах: символ, поле, запись, документ, текст, файл или другие массивы информации.
Символ является одним из знаков принятого в производстве языка общения. Несколько символов составляют поле, имеющее в языке общения смысл некоторого указателя — слова или числа.
Несколько полей составляют запись, в которой содержится информация об одном или нескольких взаимосвязанных событиях и/или фактах, используемых или получаемых в процессе информационного про-зводства. Документ содержит несколько записей.
Из документов и записей формируются массивы информации краткосрочного или долговременного хранения. Наличие таких массивов предполагает использование в информационном производстве технологических позиций, обеспечивающих формирование и хранение массивов, поиск в массиве требуемых документов и/или записей и ознакомление с ними заинтересованных лиц — смежников по технологической цепочке производства. Поиск задается некоторой записью или документом, называемыми запросами.
2. Вербальная форма представления информации
Основным видом продукции информационного производства являются документы, содержащие текстовую и/или табличную запись каких-либо сведений. Такие средства представления сведений принято называть вербальными. Вербальная форма описания сведений присуща человеку. Вербальное мышление — наиболее доступная современным исследователям форма мышления.
Наиболее мощные средства информационного производства, в частности электронные вычислительные машины и автоматизированные средства связи и телекоммуникации, также имеют дело с вербальной информацией. Даже традиционные системы управления объектами техники, имеющие дело с датчиками и исполнительными органами и использующие аналоговые (не вербальные) способы задания информации, более или менее сложные преобразования информации проводят в цифровой или символьной, то есть вербальной, форме представления.
О главной закономерности развития вербальных языков лингвисты говорят так: «Языковые конструкции живут, пока и поскольку они используются в реальном информационном производстве». Под языковыми конструкциями здесь понимаются отдельные символы, слова и словосочетания, имеющие определенный смысл в том или ином информационном производстве.
Уровень развития какого-либо языка определяется потребностями информационного производства, многообразием и сложностью операций с информацией в этом производстве. При ограниченных потребностях некоторые языки могут практически не развиваться, сохраняя интенсивность своего использования на достаточно высоком уровне. Примерами тому могут служить язык музыкальной нотации и язык записи шахматных партий.
Используемый в информатике термин «данные» служит обобщенным именем информационных продуктов, являющихся предметом труда в информационном производстве.
Принятое в информатике разделение формальных языков на языки описания данных и языки манипулирования данными имеет технологический характер, свидетельствующий о том, что конструкции языка манипулирования данными используются в некотором информационном производстве для указания каких-либо процедур с данными. Таким образом, язык манипулирования данными можно рассматривать как язык описания данных в средствах информационного производства.
Основой любого языка являются символы: буквы, цифры, знаки препинания, нотные знаки и прочее. Из символов складываются слова, из слов складываются словосочетания, из словосочетаний формируются предложения, составляющие текст. Под текстом следует понимать не только отдельные единицы информации, но и произвольное их объединение.
Составитель (производитель) текста вкладывает в него определенный смысл в расчете на то, что именно он будет воспринят потребителем текста. Однозначность восприятия смысла любого текста несколькими людьми или несколькими информационными производствами можно обеспечить только по мере договоренности, поддерживаемой строгой технологической дисциплиной в общем информационном производстве. Попытки создать языки, обеспечивающие однозначность восприятия записанных на нем текстов людьми, не связанными с производителем текста строгой технологической дисциплиной, обречены на неудачу. Примером тому могут служить различные толкования Библии, различная интерпретация музыкальных произведений разными исполнителями, различное восприятие произведений литературы разными людьми в разное время и пр.
В итоге мы приходим к основному закону развития языков описания и манипулирования данными — закону относительной однозначности восприятия смысла текстов, который гласит: «Однозначность восприятия смысла текстов на каком-либо языке может быть обеспечена только строгой технологической дисциплиной в рамках единого информационного производства».
Примером информационного производства со строгой технологической дисциплиной восприятия текстов может служить набор текста на персональном компьютере, оснащенном текстовым редактором Word. Любое отступление от толкования инструкций этого редактора либо игнорируется компьютером, либо приводит к печальным последствиям. То и другое заставляет однозначно уяснить смысл минимального числа инструкций редактора, обеспечивающих удобную процедуру набора текстов.
Приведенный пример свидетельствует об одной важной особенности восприятия смысла текстов различными людьми и/или информационными производствами. Она заключается в том, что далеко не всегда человек и/или информационное производство стремятся к раскрытию всего смысла текста. Чаще всего они ограничиваются восприятием минимальной части смысла текста, достаточной, по их мнению, для принятия какого-либо решения.
Указанная особенность повсеместно используется в информационных производствах сложных текстов. Они разбиваются на отдельные смысловые части. К ним составляются оглавления, аннотации, рефераты и прочие менее сложные тексты, частично отражающие смысл исходного сложного текста, что позволяет потребителю существенно сократить трудозатраты на восприятие необходимой ему части смысла сложного текста.
Итак, закон неоднозначности восприятия следует дополнить законом минимального осмысления текста: «Потребитель сложного текста стремится предельно ограничить трудозатраты на выявление части его смысла, достаточной для принятия какого-либо решения».
Это стремление является основным стимулом развития формализованных языков описания данных, языков, позволяющих потребителю сложных информационных продуктов с минимальными затратами труда и времени найти минимальные фрагменты текстов, содержащие интересующий его смысл с достаточной полнотой.
Количественные оценки полноты поиска и избыточности найденного фрагмента текста зависят от принятого в информационном производстве языка описания данных. Основой всех языков описания данных служит дескриптор (описатель, определитель), представляющий собой набор символов и имеющий в рамках какого-либо информационного производства единственный смысл. Дескриптор может обозначать что угодно — предмет, действие, связь между предметами и действиями, количественный показатель чего-либо и т. п. Дескриптор может иметь форму слова или словосочетания. В некоторых случаях для обозначения дескриптора пользуются уникальным набором цифр или других символов.
Для повышения эффективности поиска фрагментов текста с нужным потребителю смыслом текст необходимо структурировать. Будем считать, что для упрощения поиска фрагмента текста с нужным смыслом текст разбивается на отдельные части (записи), которые дополняются некоторым набором дескрипторов — поисковым образом записи. Процесс составления набора дескрипторов принято называть индексированием записей. Предполагается, что набор дескрипторов достаточно полно отражает смысл записи с позиций потребителей текста.
Для составления набора дескрипторов нужно выявить в записи ключевые (определяющие смысл) слова и/или словосочетания и привести их к какой-либо канонической форме. С использованием современных компьютеров эти процедуры стали автоматизированными. Слова и словосочетания, объявленные дескрипторами, включаются в словарь дескрипторов, с помощью которого легко автоматизировать процедуры приведения терминологии к принятой в информационном производстве канонической форме, включая устранение синонимии терминов.
3. Библиотека как информационное производство, призванное обслуживать читателей. Принятые в нем единицы информации
Библиотека — это учреждение, которое создает библиотечную продукцию в форме материализованных продуктов и нематериализованных продуктов — библиотечных и информационных услуг. Состояние библиотечных ресурсов, разнообразие и оперативность библиотечных информационных услуг непосредственно влияют на развитие науки и техники и культуры общества, так как собираемая, систематизируемая и хранимая в библиотеках информация является носителем научно-культурного потенциала, без которого не может развиваться общество и человек. В наше время библиотечная продукция, в том числе библиографическая, стала предметом продажи и создает потребительную стоимость, через которую она связана с производством и производственными процессами.
В библиотеке, то есть в информационном производстве, призванном обслуживать читателей, можно обнаружить несколько различных единиц информации. Это книги, их библиографические описания, рефераты, каталожные записи, формуляры читателей и др.
Библиотека имеет несколько взаимосвязанных массивов. Прежде всего это массив книг (документов). Расстановка книг в хранилище однозначно отражается в одном или нескольких массивах каталогов (алфавитном, систематическом, предметном, авторском и т. п.). Одно из полей записи в этих каталогах содержит адрес книги в хранилище книг. Запросы читателей оформляются специальной записью в виде бланка заказа. Аналогичную организацию массивов можно наблюдать в каждом информационном производстве.
Знак и символ — основополагающие понятия библиотечно-информационной деятельности. В ГОСТ 7.0—99 понятие «знак» трактуется «как материальный предмет (явление, событие), который выступает в процессе коммуникации как представитель другого предмета, свойства или отношения и используется для передачи, переработки и хранения информации».
Понятие «символ» — «как элемент согласованного набора материальных предметов, используемых для представления знаков». Это понятие шире трактует «Краткая философская энциклопедия»: «Символ — отличительный знак... образ, воплощающий какую-либо идею: видимое, реже слышимое, образование, которому определенная группа людей придает особый смысл, не связанный с сущностью образования». Смысл символа доступен только посвященным в значение символа.
Библиотечно-информационное обслуживание (как и информационная деятельность в целом) практически представляет собой процесс знаково-символьного преобразования, который начинается с предъявления читателем запроса в библиотеку. Запрос представлен на естественном или искусственном языке (а язык, как трактует его ГОСТ 7.0—99, — «система знаков, обеспечивающая коммуникацию и включающая набор знаков (словарь) и правил их употребления и интерпретации (грамматика)».
Обобщенная схема действия библиотечно-информационного работника выглядит следующим образом. Указанный работник (при помощи читателя или без него) переводит систему знаков запроса в систему знаков библиотечно-информационной службы (то есть в нужную для поиска классификационную систему, принятую в данном учреждении, процесс преобразования может быть многократным), после чего поисковый образ запроса (представляющий собой систему знаков) идентифицируется с поисковым образом документа (тоже включающим систему знаков). В случае совпадения поискового образа запроса и документа читателю может быть предоставлена необходимая ему информацию.
Часто читатель сам ищет информацию, и тогда ему помогает мета-информация (то есть информация об информации) — система знаков и символов, содействующих доступу к библиотечным фондам, ориентированию в информации и созданию благоприятной среды.
Язык знаков и символов позволяет организовать документную информацию (по ГОСТ 7.0-99 — это информация, содержащаяся в документах), благодаря чему она становится более доступной пользователям. Язык знаков и символов (вместе с естественным языком) служит для ориентирования пользователей в библиотечной среде, содействует коммуникационному процессу.
Таким образом, библиотечная технология строится на кодировании и декодировании информации, переводе ее с одного языка на другой.
Комплектатор осуществляет преобразование языка информационных потребностей пользователей в язык содержания заказываемых документов. Каталогизатор переводит язык содержания документов на информационно-поисковый язык классификационных индексов или предметных рубрик и библиографической записи. Специалист по обслуживанию читателей преобразует естественный язык информационного запроса в язык библиографической записи и классификационных индексов, затем идентифицирует их с соответствующими элементами информационно-поисковой системы (в справочном аппарате и фонде), затем содержание найденного документа идентифицируется с реальным запросом читателя. Разрабатывая библиографический указатель, библиограф преобразует язык содержания документов в язык библиографических записей, которые группирует (с помощью языка группировки) в соответствии с возможными информационными потребностями читателей (язык информационных потребностей и запросов). На уровне модели эти преобразования могут быть представлены как перевод языка информационных запросов пользователей на язык содержания текстов и наоборот.
Для осуществления этих преобразований в информационной технологии применяются разные информационно-поисковые языки (УДК, ББК, классификация Дьюи, рубрикатор ГСНТИ, языки ключевых слов, многочисленные ситуационные языки группировки библиографических записей и т. д.). При использовании компьютерной технологии преобразование одного языка в другой во многих случаях осуществляется программными средствами.
Наряду с языками преобразования информации, которые служат для организации доступа к отдельным документам, фактам, библиотеки и другие информационные службы используют языки ориентации пользователей, обеспечивающие доступ к средовым объектам (отдельным помещениям, разделам фонда, техническим средствам и т. п.). Это так называемые языки рекламы, цвета, освещения, озеленения, размещения оборудования и технических средств, интерьера помещений.
Какими символами обозначил бы современный человек библиотеку или другую информационную службу? Скорее всего, он выбрал бы для этого понятия «знания», «информация».
Как свидетельствуют социологические исследования, запросы современного пользователя в основном носят деловой характер. Он хочет получить информацию, знания, которые должны помочь ему в учебе, в поиске работы, в получении квалификации, в научной работе и даже в развлечении. При этом современный пользователь требует получения информации по принципу «здесь и сейчас». Поэтому ныне у библиотеки или любой другой информационной службы должен появиться лозунг: «Информацию, знания — здесь и сейчас».
4. Определение количественных и качественных свойств информации
В процессе развития статической теории информации была выработана общая формула количества информации, которую можно применять и в непрерывных процессах. Статическая теория изучает информацию на уровне знаков и статистических соотношений между ними, что позволяет говорить о ней, как о синтаксической. Согласно этой теории, алфавит знаков задан, а вероятности соответствуют частотам их проявления и выражаются функциями распределения. Если подобное соотношение не соблюдается, то выразить информацию в двоичной форме и определить ее количество не представляется возможным. Таким образом, главная задача статической теории — обеспечить правильность передачи сигналов, физических носителей информации, которые рассматриваются без учета других важных свойств информации — ее содержания, смысла, ценности и т. д.
Однако в практической деятельности человек часто сталкивается именно с такими свойствами информации, поэтому в рамках математической теории информации стали разрабатываться нестатические подходы к определению количества информации. В настоящее время известен целый ряд так называемых теоретико-множественных подходов: алгоритмический, динамический, комбинаторный, топологический. Наряду с этим в последнее время осуществляются математические исследования возможности измерения не только количественных, но и качественных свойств информации — ее смысла, ценности, полезности. Разрабатываются так называемые семантическая и прагматическая концепции информации.
Несмотря на различие математических теорий информации (синтаксической, семантической, прагматической), в них есть много общего, прежде всего в понимании информации как уменьшенной (снятой) неопределенности, поддающейся количественному измерению. Однако для многих видов социальной информации это означает, что ее содержание, смысл и ценность измеряются в знаках, строках, страницах, хотя хорошо известно, что одна и та же информация имеет для разных людей различные смысл и ценность. Следовательно, существующие математические теории применимы только там, где необходимо и возможно измерить информационную емкость определенных материальных систем, пропускную способность определенных каналов связи, количество передаваемой в сообщениях информации, то есть некоторые количественные характеристики качественных свойств информации. Поэтому наряду с математическими развиваются и другие, нематематические теории (концепции) информации: энергетические, философские, управленческие и экономические.
В энергетических концепциях информация рассматривается как специфическая форма энергетических процессов. Энергетические взаимодействия бывают двух видов: физические и информационные. Информационное взаимодействие осуществляется через энергетические процессы, носителем которых является сигнал, несущий информацию. Это относится и к высшему типу информации — социальной информации. Устная речь, слово реализуются посредством энергии физических колебаний. Таким образом, можно говорить о теснейшей взаимосвязи информационных и физических процессов.
Философские теории информации связывают эти понятия с философскими понятиями «разнообразие» и «отражение». Концепцию разнообразия можно пояснить на следующем простом примере. Нельзя себе представить простейший механизм, все детали которого были бы совершенно одинаковыми. Только потому, что выступы одной детали заполняют пазы другой, а ось третьей входит во втулку четвертой и т. д., возможно функционирование механизма как целостной, упорядоченной структуры. Следовательно, лишь благодаря различию, разнообразию существует конкретная структура системы, утверждается ее упорядоченность, происходит взаимный обмен между компонентами и системы в целом со средой. Именно этот процесс позволяет системе находить вовне то, что ей необходимо для развития. Иными словами, упорядоченность системы в значительной мере определяется информационным разнообразием. Отсюда можно сделать вывод, что информационное разнообразие, информация есть важный фактор организации и самоорганизации, и именно поэтому мы рассматриваем данное понятие как фактор организации информатики.
Концепция отражения утверждает, что информация есть знание, результат отражения, обозначение содержания, полученного из внешнего мира. Однако это не всякое знание, не всякое содержание отражения, а знание, выраженное в сообщении.
Не существует знания вообще. Знание — это локальное понятие, относящееся к конкретному человеку в определенное время. Отчужденное от конкретного носителя, превращенное в особую овеществленную и обобществленную форму, знание трансформируется в более общее понятие (категорию) — информацию. Следовательно, социальная информация — это форма представления знания.
Изобретение письменности открыло перед человечеством возможность осуществления двух противоположно направленных процессов: превращение знания в информацию и получение знания из информации. Книгопечатание, электро-, радио- и телесвязь увеличили эти возможности. Появление ЭВМ, средств передачи данных радикально меняет качественные и количественные характеристики этих процессов.
«Возникают вопросы, — пишет академик В. Г. Афанасьев, — можно ли неиспользуемые данные исключить из понятия «информация», тогда как и они могут храниться и передаваться? Обязательным ли является осмысливание информации, поскольку в ЭВМ информация перерабатывается, но не осмысливается? Для ответа на эти вопросы управленческая концепция информации вводит понятие «данные». Данные — это всякие сведения, сообщения, знания, которые хранятся, передаются, перерабатываются, но характер информации приобретают тогда, когда получают содержание и форму, пригодную для использования человеком». Следовательно, данные — это промежуточная форма представления знаний и информации.
Рассматривая различные трактовки понятия «информация», мы синтезировали новое понятие триады «знания — данные — информация». Совершенно очевидно, что эффективность процессов перехода «знание — данные», «информация — данные» и «знания — информация» зависит от эффективности их организации. Каковы организационные формы этих переходов?
Одной из форм организации данных являются базы данных. Под базой данных в настоящее время понимают организованную специальным образом совокупность данных, отображающую свойства и состояния конкретных объектов (и их отношений), принадлежащих некоторой «предметной области». Предметная область представляет собой часть «информационного пространства», отображающую информационные потребности некоторого ограниченного круга пользователей рассматриваемой базы данных. Под информационным пространством некоторого объекта или их множества понимается совокупность всех информационных компонентов этого объекта (или множества) независимо от способов и средств отображения этих компонентов.
Одна из важнейших характеристик информационного пространства — его структурированность, под которой понимается такое его свойство, при котором все содержание и особенности этого пространства представляются «информационными компонентами» и взаимосвязями между ними, выраженными в понятном виде.
В зависимости от степени структурированности выделяются следующие виды информационного пространства:
— неструктурированные (например, разговорная речь);
— слабо структурированные (например, письменность);
— структурированные (например, информационные системы);
— формализованные (для которых известны не только информационные компоненты и связи между ними, но и алгоритмы получения значений любого компонента, например технико-экономические показатели деятельности объекта);
— машиноструктурированные, для которых известны алгоритмы получения не только информационных компонентов, но и их структурных единиц.
Информационные компоненты объектов могут иметь различную природу — это документация (организационно-распределительная, экономическая, конструкторская и т. п.), отчеты о НИР, информация на машинных носителях, звуковая и видеоинформация, информация от датчиков и т. д.
Соответственно понятиям «информация» и «данные» в теории баз данных рассматриваются два различных аспекта: инфологический и да-талогический.
Инфологический аспект включает вопросы смыслового содержания информации независимо от способов ее представления и организации в памяти информационной системы и характеризует предметную область базы данных, то есть ту часть реального мира, информационные потребности которого реализуются конкретной базой данных.
Даталогический аспект включает вопросы представления и организации данных в памяти информационной системы и характеризует формы и методы представления информации посредством данных, правила смысловой интерпретации и преобразования данных.
При формировании данных в соответствии с целями информационной системы происходит абстрагирование от несущественных деталей описания тех или иных свойств предметной области. Переход от инфологического к даталогическому представлению предметной области (от ее инфологической к даталогической модели) представляет собой сложный процесс проектирования отображения: «описание предметной области» — «описание физического размещения данных в памяти информационной системы». На практике он представляет собой последовательность более простых, как правило, итеративных процессов проектирования менее сложных промежуточных отображений, представляющих собой информационные модели предметной области различного уровня абстрагирования.
Основными уровнями абстрагирования и представления данных в настоящее время принято считать внешний, концептуальный и внутренний. Поэтому при создании баз данных проектируются соответствующие внешние, концептуальные и внутренние модели. На внешнем уровне реализуются модели, ориентированные на отдельных пользователей, на концептуальном — на всех пользователей, на внутреннем — также на всех пользователей, но с учетом требований производительности и экономного использования ресурсов вычислительной среды.
Объектами моделирования в технологии баз данных служат «предметная область», «база данных» и «данные», поэтому в теории и технологии баз данных широко используются термины «модель предметной области», «модель базы данных», «модель данных». Анализ специальной литературы позволяет сделать вывод, что эти термины являются родовыми для группы терминов, обозначающих разновидность моделей соответствующего типа.
С середины 1960-х годов в рамках исследований проблем искусственного интеллекта начало развиваться новое направление, связанное с концепцией информации на основе отражения, которое впоследствии получило название «представление знаний». Интеллект организованных систем зависит от их способностей к обучению, которые заложены в систему. В одном случае эти способности состоят в простом запоминании информации, в другом — в умении приобретать навыки использования этой информации для решения задач, в третьем — формировать новое знание в процессе использования уже имеющегося и т. п. В интересах реализации двух последних видов способностей и развивается новое направление науки и техники — «представление знаний».
Совокупность средств информатики, обеспечивающих поддержку представления знаний, именуется банком знаний. Этот комплекс включает в себя базу знаний, программные и технические средства, обеспечивающие процессы формирования, использования и коррекции базы знаний, а также дедуктивные машины для логических выводов, систем и т. д.
Основными формами материализации, овеществления и обособления знаний, превращения их в информацию, а также обратной трансформации информации в знания являются книги, журналы, материалы конференций, совещаний, симпозиумов, конгрессов и других временных объединений специалистов; репринты и препринты; научно-техническая документация и проекты; кино-, теле- и видеофильмы; фонограммы; научно-технические отчеты и диссертации; патенты и т. д.
5. Статические законы движения информации
Если представить общественное информационное производство в виде множества взаимосвязанных информационных производств, то в нем можно наблюдать потоки документов и/или записей. Эти потоки формируются благодаря как фиксированным связям между отдельными информационными производствами, так и временным разовым связям, возникающим по мере необходимости. В первом случае информация распространяется по заранее установленному регламенту (контракт, кооперация, подписка и др.) и не требует многократного оформления запроса. В таких случаях принято считать, что действует постоянный запрос. Во втором случае для получения информации заинтересованное информационное производство должно отправить запрос другому производству, которое по своей технологии подготовит и отправит заказчику ответ в виде записи или документа либо массивов записей или документов.
Наблюдая процессы передачи информации, можно заметить, что между отдельными субъектами общественного информационного производства идет интенсивный обмен информацией, в то время как между другими его практически нет. В этом случае мы говорим о наличии или отсутствии у субъектов взаимного интереса. Из этого следует, что предложить общую меру интереса, применимую для каждого конкретного случая, очень трудно. Данный показатель зависит от многих факторов, то есть, по терминологии математики, он является функцией многих аргументов. Перечислить все эти факторы или аргументы не представляется возможным. Для наших целей достаточно рассмотреть зависимость показателя интереса от трех обобщенных факторов: информационного расстояния — R, информационной сложности — S и старения — Т.
Под информационным расстоянием будем понимать некоторую усредненную величину, характеризующую удаленность двух субъектов общественного информационного производства, входящих в общую технологическую структуру. Информационное расстояние между субъектами информационного производства можно описать некоторым многомерным вектором, компоненты которого соответствуют географической, родственной, служебной, этнической и другой близости этих субъектов. Некоторую скалярную норму этого вектора обозначим R. Такое определение информационного расстояния, конечно, не является жестким. Уточнить его можно только при рассмотрении отдельных небольших групп информационных производств, поддерживающих взвешенные связи друг с другом. Однако для установления характера зависимости меры информационного интереса от информационного расстояния последнее можно определить также качественно.
Информационное расстояние до последнего времени существенно зависело от географического: чем дальше субъекты по месту их нахождения, тем больше информационное расстояние между ними. Если субъекты информационного производства — люди, информационное расстояние между ними увеличивается по мере удаленности родственных отношений, мест жительства, учебы или работы, профессиональных интересов и т. п.
Представим себе, что мы измерили интенсивность информационных потоков между всеми парами субъектов общественного производства и рассортировали их по величине информационного расстояния между субъектами пары. Для каждого достаточно малого интервала информационного расстояния (R + R ± AR) найдем среднюю величину интереса по всем парам с информационным расстоянием, лежащим в этом интервале, — J ( R ). Многочисленные наблюдения показывают, что эта зависимость представляет собой круто падающую функцию аргумента на относительно малом интервале R, близком к нулю. Если считать, что интерес субъекта информационного производства к самому себе (R=0) бесконечен, то зависимость среднего интереса от информационного расстояния может быть приблизительно описана выражением J (R) = K/R2, что позволяет сформулировать эмпирический закон информационного тяготения: «Интерес субъектов информационного производства друг к другу обратно пропорционален квадрату информационного расстояния между ними».
Несколько проще определяется зависимость показателя интереса от сложности информации. С достаточной определенностью сложность документа или записи можно измерить количеством содержащихся в них полей или символов. Если сложность документа очень большая, то им интересуется не очень много людей и/или информационных производств. Полный комплект технической документации на производство самолета, пожалуй, не интересует никого в отдельности. Но наличием свободных мест на конкретные рейсы самолета интересуются многие тысячи людей ежедневно. Полный комплект документации на самолет содержит сотни тысяч иди миллионы записей, а информация о наличии свободных мест укладывается в одной короткой записи. Подсчитав число запросов на документы различной сложности в течение достаточно длительного промежутка времени, мы можем построить зависимость средней величины показателя интереса к документам от их сложности — J (S).
Наблюдения показывают, что эта зависимость также представляет собой круто падающую у нуля кривую. В точке нулевой сложности интерес также равен нулю, поэтому функция величины показателя интереса определяется только для сложности, большей некоторой величины. Эту функцию можно представить в виде гиперболы, примыкающей к минимальной сложности s, — J (S) = L/(S-s)a, и мы формулируем эмпирический закон информационной сложности: «Интерес к документу обратно пропорционален его сложности».
Данный закон используют на практике многие действующие информационные производства. В библиотеке гораздо чаще обращаются к библиографическим карточкам, чем к книгам. Для этого и создаются в библиотеках, архивах, музеях и других хранилищах сложных документов справочные массивы их кратких смысловых идентификаторов. Конечно, никакие справочные массивы не могут полностью заменить процесс непосредственного ознакомления со сложными документами.
Старение информации также влечет за собой снижение интереса к ней. Но ко многим стареющим информационным продуктам периодически возобновляется интерес со стороны тех или иных субъектов информационного производства. Это явление способствует обновлению забытого информационного продукта и позволяет сформулировать эмпирический закон старения информации, который гласит: «Интерес к информации обратно пропорционален времени, прошедшему с момента ее последнего проявления».
Под моментом последнего проявления понимается момент последнего использования информации в каком-либо акте общения в информационном производстве. Старый документ может быть интересен бесконечно долго, если к содержащейся в нем информации люди обращаются достаточно долго. Примером могут служить учебники, содержащие проверенные практикой научные истины.
Определение каким-либо информационным производством параметров старения информации позволяет совершенствовать технологию перемещения записей и документов между массивами оперативного, ретроспективного и архивного хранения (большой, средней и малой величины показателя информационного интереса). Потребность в ретроспективном и/или архивном документе позволяет вернуть его в оперативный фонд, где, как правило, реализуются более новые технологии копирования и распространения.
Следует подчеркнуть, что три упомянутых выше закона реализуются в практической деятельности. Исключение составляют относительно узкие специфические информационные производства. Действие этих законов информатики ослабевает вблизи нулевых значений величин информационного расстояния, информационной сложности и времени старения.
Информационные производства развиваются под влиянием спроса на информацию, который, в свою очередь, обусловлен интересом. Развитые информационные производства, эффективно удовлетворяющие этот спрос (находящиеся в активном общении), способствуют повышению интереса к производимой ими информации. Если какое-либо информационное производство успешно функционирует, то можно утверждать, что оно подчиняется приведенным выше законам информатики. Если информационное производство не совершенствуется, то оно не подчиняется этим законам.
6. Динамические законы движения информации
Наряду с тремя статическими законами движения информации действуют и динамические законы движения информации, связанные с изменением ее содержания в информационных продуктах.
Сама проблема отношения формы (информационного продукта) и содержания (содержащейся и/или извлекаемой информации) является вечной и, по мнению многих специалистов, неразрешимой проблемой. Остановимся только на внешних проявлениях этой проблемы, доступных прямому наблюдению и обобщению.
Преобразуясь по мере движения от одного информационного производства к другому, информация может содержательно сохраняться, обогащаться и теряться. Что касается вербальной информации, то она сохраняется в процессах простого копирования, то есть в процессах переноса символов с одного физического носителя на другой.
Информация может обогащаться и не теряться, если наряду с копированием предмета информационного производства к нему добавляются некоторые комментарии. Заметим, что добавление реквизитов копировального производства обогащает исходный предмет труда информационного производства.
Если в продукте информационного производства присутствует только часть предмета труда и нет комментариев, то происходит потеря информации. Эта процедура часто используется для создания простых и достаточно эффективных идентификаторов сложных информационных продуктов. Однако такая процедура бывает связана и с умышленным, а иногда и с криминальным утаиванием информации.
Частичное присутствие предмета труда в продукте информационного производства и наличие комментариев, несмотря на потери, способствует обогащению этого предмета труда. Сопровождение реквизитами производителя частичной копии предмета труда также обогащает его. Обогащением следует считать подборки частичных копий предметов труда и результаты их статической, математической, аналитической и другой обработки и обогащения.
Любое обобщение информации, содержащейся в предмете труда, приводит как к обогащению, так и к потере информации, если в продукте информационного производства отсутствует точная копия предмета труда.
Отмеченную закономерность можно выразить в форме первого закона информационной динамики: «Только полное копирование информационных продуктов сохраняет информацию».
Игнорирование этого закона негативно сказывается на работе информационных производств, анализирующих обобщенную информацию о результатах деятельности большого количества других производств — заводов, институтов, школ, организаций и т. п. Тем не менее органы власти в советский период и в современной России в своих решениях опираются на данные Государственного комитета по статистике и многочисленных аналитических центров, использующих ту же самую статистику.
Наряду с потерями информации в результате частичного копирования документов при их движении в общественном информационном производстве наблюдается случайное или намеренное искажение информации. Случайное искажение может быть следствием опечаток при копировании документов (перенос мыслей человека на механические или электронные носители можно считать авторским копированием). Оно может появиться при изложении содержания документа на другом языке (перевод текста). Такого рода искажения присутствуют всюду. Они представляют определенную опасность при использовании документов в качестве средства производства содержательной составляющей документа. Опечатка в рецептуре лекарства может привести к тяжким последствиям для больного, а некачественный перевод дипломатического документа — к осложнению отношений между странами.
Для выявления случайных искажений информации в информационных производствах присутствуют специальные процедуры их обнаружения и исправления, в частности такие, как редактирование и корректура текстов документов. Однако всегда остается некоторая (не нулевая) вероятность появления случайных искажений в любом документе. Этот факт можно сформулировать в виде второго закона информационной динамики: «Никакой информационный продукт не гарантирован от случайных искажений при своем движении в общественном информационном производстве».
Гораздо больший урон государству доставляют намеренные искажения информации, приводящие к сознательной дезинформации и прямому обману отдельного человека, групп людей и общества в целом. Нет ни одного человека в мире, не испытавшего на себе последствий намеренного искажения информации. Ложь и клевета на бытовом уровне, искажение данных в финансовых документах с целью обмануть деловых партнеров и государство представляют собой неустранимые и повсеместные явления. В тоталитарных государствах ложь является основой внутренней и внешней политики. В Советском Союзе государственная статистика являлась обобщением ложных данных, поставляемых предприятиями и регионами. Примечательно то, что и эти данные на государственном уровне подправлялись в цельях получения нужной картины состояния дел в стране для ее демонстрации внутренним и внешним друзьям и врагам. В советский период народ различал три степени распространяемой в обществе лжи: простая ложь, кощунственная ложь и статистика.
Если для выявления случайных искажений практика выработала довольно эффективные методы, то намеренные искажения зачастую обнаруживаются только по их последствиям.
Подмеченные свойства намеренных искажений информации можно считать третьим законом информационной динамики: «Намеренные искажения информации обнаруживаются только по их последствиям».
Литература
1. Артамонов Г. Т. Информатика: теория и практика (заготовки к книге). Глава 3. Метрика и законы движения информации // НТИ. Сер. 1. — 1998. — №4.-С. 31-36.
2. Горькова В. И. Информетрия (количественные методы в научно-технической информетрии) // Итоги науки и техники. Сер. Информатика. Т. 10. — М.: ВИНИТИ, 1988.- 329 с.
3. Колмогоров А. Н. Три подхода к определению понятия «количество информации» // Проблемы передачи информации. — 1965. — Т. 1., вып. 1. — С. 3-11.
4. Мотылев В. М. Основы количественных исследований в библиотечной теории и практике. — Л.: Наука, 1988. — 198 с.
5. Партыко 3. В. Измерение количества информации в вербальных и невербальных сообщениях (обзорная теория информации) // НТИ. Сер. 2. — 2001. — № 1. - С. 5-13.
6. Партыко 3. В. Оценивание количества информации // НТИ. Сер. 2. — 2002. - № 2. - С. 32-36.
7. Турмилов Д. А. Символьная организация научного знания в 2000 году // НТИ. Сер. l.- 2001.-№ 1.-С. 11-19.
8. Узилевский Г. Я. Начала эргономической семиотики. — Орел : ОРАГС, 2000. - 408 с.
9. Чечкин А. В. Математическая информатика. — М.: Наука, 1981.