Рефетека.ру / Информатика и програм-ие

Курсовая работа: Автоматизация работы в офисе

Дипломная работа

Житомирское Высшее профессиональное училище №17

Специальность: оператор ЭВМ

г.Житомир, 2001 г.

Аннотация дипломной работы оператора ЭВМ ??? ??? на тему «Автоматизация работы в офисе»

Современное общество не может существовать без документооборота. Документы сопровождают нас на каждом шагу. Даже мелкая покупка товара в магазине сопровождается выдачей документа – кассового чека. Мы можем выбросить ненужный чек в урну сразу после покупки, но это не меняет дела. Все равно в магазине остается копия чека, которая еще долго будет храниться и учитываться.

Одна из задач, стоящих перед информатикой, как наукой, состоит в переводе документооборота из бумажной формы и электронную. Эту задачу решают путем разработки и внедрения аппаратных и программных средств и методов электронного документооборота.

В данной дипломной работе будут рассмотрены вопросы, касающиеся использования двух наиболее значительных программных средств автоматизации документооборота, которыми являются FineReader, программа, предназначенная для распознавания текстов на русском, английском, немецком, украинском и многих других языках, и Promt98, комплект программ, используемый для автоматического перевода текстов с английского, немецкого и французского языка на русский и с русского на английский, немецкий и французский.

Введение

Ежедневно в мире создаются миллиарды копий больших и малых документов. На производство и воспроизводство документов расходуется немыслимое количество бумаги и леса, а на учет, проверку и хранение документов тратится огромное количество времени.

Одна из основных задач информатики состоит в разработке и внедрении средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Современные сетевые технологии позволяют решить эту задачу, но пока лишь частично. Все банки мира уже связаны электронными сетями и финансовые документы циркулируют в основном в электронном виде. Постепенно выходят из употребления бумажные акции предприятий и другие ценные бумаги. Их заменяют электронные депозитарии – базы данных, в которых сведения об акционерах хранятся в виде записей.

Сравнительно недавно появились электронные деньги. Это тоже записи в базах данных. Движение электронных денег происходит по безбумажной технологии, путем переноса данных из одних записей в другие. Для персонального использования электронных денег служат пластиковые карты, содержащие сведения о владельце электронного счета на магнитной полосе, или смарт-карты, в которых те же данные записаны на небольшой плоской микросхеме, встроенной в карту.

По безбумажной технологии сегодня работают большинство средств массовой информации. Все этапы подготовки газеты, журнала, книги или рекламной листовки проводятся на компьютере. Многозадачные операционные системы типа Windows9Х позволяют одновременно готовить и редактировать тексты, создавать и обрабатывать иллюстрации, а компьютерные сети объединяют всех участников, работающих над одним проектом, в автономные рабочие группы.

Рабочая группа может обходиться без бумажных документов до полного завершения работы над проектом. Лишь когда работа завершается, создается итоговый бумажный документ. Это может быть как макет газеты, так и полный комплект чертежей, необходимый для постройки ракетного крейсера.

В тех случаях, когда исходные данные сразу имеют электронный вид, перевод документооборота на безбумажную технологию происходит сравнительно просто. Все этапы редактирования и корректуры выполняют в электронном виде с помощью специальных программных средств. Работа передается с одного рабочего места на другое по компьютерной сети, и все участники работы помогают друг другу и исправляют ошибки коллег без создания бумажных документов.

Возможно, в далеком будущем, когда все документы будут сразу готовиться только в электронном виде, человечество сможет перейти полностью к безбумажной технологии, и остатки лесов будут спасены от полного уничтожения, а целлюлозно-бумажные комбинаты перестанут сбрасывать отравленные воды в реки и озера. Однако сегодня персональный компьютер стоит еще не на каждом рабочем месте и не все участники документооборота объединены компьютерными сетями в рабочие группы. Поэтому основным препятствием на пути создания безбумажной технологии стоит проблема ввода исходных данных именно в электронном виде.

В информатике эта проблема решается созданием и внедрением специальных аппаратных и программных средств для перевода графической и текстовой информации в электронную форму.

1. Средства создания электронного документооборота

1.1. Автоматизация ввода информации в компьютер

Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование – это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.

1.1.1. Сканеры для ввода текстов и иллюстраций

В настоящее время для ввода текстовой и графической информации используют следующие виды сканеров.

Ручные сканеры. Это самый простой вид сканеров, дающий наименее качественное изображение. Такой сканер не имеет движущихся частей, и сканирование производится путем перемещения сканера по документу.

Недостатком ручных сканеров является очень узкая полоса сканирования (стандартный лист бумаги приходится сканировать в несколько проходов), а также высокие требования к самому процессу сканирования. Так, если рука, держащая сканер, слегка подрагивает или движется рывками, говорить о хорошем качестве сканирования не приходится. Ручные сканеры пригодны для сканирования текстов, но использовать их для сканирования изображений (фотографий) затруднительно.

Листовые сканеры. Сканеры этого типа позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специальных валиков (как в принтере). Листовые сканеры гарантируют хорошее качество сканирования. но они способны сканировать только отдельные листы. Перевести с их помощью в электронную форму страницу книги или разворот журнала невозможно.

Планшетные сканеры обеспечивают наилучшее качество и максимальное удобство при работе с бумажными документами. Под крышкой планшетного сканера располагается прозрачное основание, на которое укладывают документ. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Продолжительность сканирования стандартного машинописного листа составляет от одной до нескольких секунд.

1.1.2. Специальные типы сканеров

Барабанные сканеры обеспечивают наивысшее разрешение сканирования, но они предназначены для сканирования не бумажных документов, а прозрачных материалов, например слайдов, негативов и т. п. В сканерах этого типа считывающая головка установлена неподвижно, а изображение, закрепленное на цилиндрическом барабане, вращается с высокой скоростью и сканируется построчно.

Сканеры форм – специальные сканеры для ввода информации с заполненных бланков. Это разновидность листовых сканеров. С помощью подобных устройств вводят данные из анкет, опросных листов, избирательных бюллетеней. От сканеров этого типа требуется не высокая разрешающая способность, а очень высокое быстродействие. В частности, для сканеров этого типа автоматизируют подачу бумажных листов в устройство.

Штрих-сканеры – разновидность ручных сканеров. Предназначены они для считывания штрих-кодов с маркировки товаров в магазинах. Штрих-сканеры позволяют автоматизировать процесс подсчета стоимости покупок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных платежных средств (кредитных карт, смарт-карт и т. п.).

1.2. Связь сканера с операционной системой

Для подключения сканера к компьютеру используют разные методы. Существуют сканеры со специальной платой расширения, так называемым контроллером. Плату устанавливают в одно из гнезд расширений материнской платы компьютера, а сканер подключают к разъему платы.

Некоторые сканеры подключают к свободному параллельному порту (порту принтера). В таком случае передача данных происходит медленнее, зато никаких дополнительных устройств для подключения сканера не требуется.

Наиболее производительные сканеры используют интерфейс SCSI, разработанный специально для подключения к компьютеру внешних устройств. Компьютер в этом случае должен иметь специальный контроллер, обеспечивающий работу с этим аппаратным интерфейсом. Такой контроллер чаще всего выполняется на плате расширения.

Поскольку аппаратные интерфейсы сканеров отличаются многообразием, были предприняты специальные меры для стандартизации программного интерфейса, обеспечивающего связь между сканерами и операционной системой. Этот интерфейс основан на специальном протоколе TWAIN. Если сканер поддерживает данный протокол, то операционная система Windows9Х способна обеспечить взаимодействие между сканером и программным приложением, предназначенным для работы с ним. Все современные сканеры поддерживают стандарт TWAIN.

1.2.1. Особенности Windows95

Операционная система Windows95 появилась, когда сканеры еще не считались необходимыми компонентами настольной компьютерной системы, и по этой причине штатных средств поддержки стандарта TWAIN в Windows95 нет. При установке сканера в системе Windows95 необходимо использовать драйверы, поставляющиеся вместе с ним.

1.2.2. Особенности Windows98

Операционная система Windows98 уже осведомлена о наличии такого устройства как сканер. Стандарт TWAIN поддерживается в ней по умолчанию, а в случае присоединения к компьютерной системе сканера, в окне папки «Панель управления» появляется соответствующий значок, позволяющий производить настройку.

Таким образом, в большинстве программ работа со сканером производится при посредстве специального диалогового окна, обеспечивающего непосредственное взаимодействие со сканером. После того как пользователь дает команду на сканирование документа, данные передаются в программу, обратившуюся к сканеру, с использованием протокола TWAIN.

1.3. Автоматическое распознавание текстов

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.

Подобные системы назывались OCR (Optical Character Recognition – оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

1.3.1. Программы распознавания текстов

Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.

Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR, способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.

Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.

Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском и украинском языках. Такие программы выпускаются в основном российскими производителями. Наиболее широко известны и распространены программы FineReader и CuneiForm. Мы подробно остановимся на программе FineReader, обеспечивающей высокое качество распознавания и удобство применения.

1.3.2. Программа FineReader

Программа FineReader выпускается российской компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.

FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 4.0, одной из последних версий на данный момент.

2. Распознавание документов в программе finereader

2.1. Окно программы

После установки программы FineReader в меню «Программы» Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows9Х вид и содержит строку меню, ряд панелей инструментов и рабочую область.

В левой части рабочей области располагается панель «Пакет», содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обработки в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.

Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания текста.

Остальную часть рабочей области занимают окна документов. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.

В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут использоваться в программе FineReader.

Панель инструментов «Стандартная» содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения представления документа.

Панель «Scan&Read» содержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.

Панель «Распознавание» позволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.

Панель «Инструменты» используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.

Элементы управления панели «Форматирование» используют для изменения представления готового текста или при его редактировании.

2.2. Порядок распознавания текстовых документов

Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.

Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.

Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».

Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.

Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.

2.3. Сканирование документа

Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.

Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scan&Read» или при нажатии комбинации клавиш CTRL+K.

Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.

Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Сканировать» и выбрать в открывшемся меню пункт «Опции» – откроется диалоговое окно «Опции».

Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке «Выбрать сканер». В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.

Для изменения настроек сканера используют кнопку «Настройки сканера».

Когда сканер выбран, активизируются два флажка в нижней части диалогового окна. Если установить флажок «Показывать диалог TWAIN-драйвера сканера», то сканирование производится через протокол TWAIN с отображением специального диалогового окна. В противном случае программа работает со сканером напрямую. Использовать протокол TWAIN имеет смысл только в том случае, когда работа напрямую невозможна или дает некачественные результаты.

Флажок «Показывать опции перед началом сканирования» применяют только в том случае, когда бумажные страницы документа существенно отличаются друг от друга. Это может быть вызвано, например, свойствами бумаги или тем, что разные страницы печатались в разное время и разными средствами. В этом случае перед сканированием каждой страницы открывается диалоговое окно настройки сканера, чтобы пользователь мог отрегулировать качество процесса.

Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.

2.4. Сегментация документа

Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако, если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называется сегментацией.

Автоматическая сегментация – не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок.

Если промежутки между строками вообще отсутствуют, то, по всей видимости, речь идет об иллюстрации. Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то, вероятно, в текст включена таблица.

Если щелкнуть на кнопке «Сегментировать выделенные страницы», то сегментация страницы производится автоматически. Правда, если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно, что проявится в избыточном количестве слишком мелких блоков.

В таких случаях можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании создаваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию.

Если страница имеет простой стандартный вид, то проще вручную создать одиночный блок, охватывающий всю страницу, чем предоставить это программе, рискуя возможностью появления ошибок.

Один из созданных блоков всегда является текущим. Он обведен более жирной линией, а его вершины помечены маркерами. Перетаскиванием этих маркеров можно регулировать границы блока.

Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инструментов «Инструменты». Все кнопки этой панели используются именно на этапе сегментации.

Программа FineReader различает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню «Тип блока контекстного меню».

2.5. Распознавание документа

После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы – собственно распознавание. Обычно этот этап проходит автоматически.

Автоматизация работы в офисеЕсли документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке «Распознать открытую страницу» достаточно, чтобы документ был распознан.

Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки.

В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.

Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду «Сервис®Редактор эталонов», щелкнуть в открывшемся диалоговом окне «Эталоны» на кнопке «Новый эталон» и ввести имя создаваемого эталона.

Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Распознать открытую страницу» и выбрать пункт «Опции». В открывшемся диалоговом окне в группе «Обучение» следует выбрать только что созданный эталон. Если предполагается распознавание документа, соответствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон.

Для «обучения» эталона следует установить флажок «Распознавание с обучением».

Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно «Ручное обучение эталона». В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку.

В поле со списком «Символ» приведен символ, который, как полагает программа, находится в рамке.

Необходимо убедиться, что символ в поле указан верно и заменить его в случае необходимости. После этого надо щелкнуть на кнопке «Обучить».

Если неверно указаны границы символа, то кнопки «Сдвинуть влево» и «Сдвинуть вправо» позволяют поправить положение рамки.

Если верно расположить рамку не удается или в тексте встретился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке «Пропустить».

2.6. Особенности настройки программы FineReader

Как и большинство других приложений Windows, программу FineReader можно настроить в соответствии с требованиями конкретного пользователя. Все настройки осуществляются при помощи диалогового окна «Опции», которое открывают с помощью любой раскрывающей стрелки на панели инструментов «Scan&Read» или через меню «Сервис». Если использована панель инструментов, то диалоговое окно открывается на вкладке, соответствующей использованной кнопке панели инструментов.

Вкладка «Сканирование» служит для выбора и настройки сканера, а также для определения способа доступа к нему.

Вкладка «Сегментация» позволяет настраивать некоторые параметры для автоматической сегментации. Здесь задают параметры автоматического разбиения таблиц и настраивают режим автоматической сегментации многоколоночного текста.

Средства вкладки «Форматирование» позволяют задать способ форматирования распознанной страницы и выбрать используемые шрифты.

Вкладка «Распознавание» определяет параметры распознавания документа. Она позволяет задать язык документа и особенности исходного шрифта, а также настроить режим распознавания с обучением. Здесь же задается метод цветового выделения ненадежно распознанных символов.

Элементами управления вкладки «Проверка» задают метод проверки орфографии и способ пометки обнаруженных ошибок или сомнительных мест.

Вкладка «Установки» определяет общие настройки программы. Здесь задают язык интерфейса и настраивают используемые единицы измерения.

Флажки панели «Показывать» определяют способ представления окна программы и открытых документов.

Панель «Цвета» позволяет определить цвета различных элементов документа. В нижней части окна можно задать дополнительные параметры.

2.7. Распознавание бланков

Важной особенностью программы FineReader является возможность распознавания бланков. Бланк представляет собой отформатированный документ, в специальные поля которого вносятся данные. Типичными примерами бланков являются анкеты. Формат бланка может быть достаточно вычурным и не напоминать ни книжную, ни журнальную страницу.

Особенность работы с бланками заключается в том, что приходится иметь дело с объемным пакетом документов одинаковою формата, заполненных разными людьми. В таких документах различается содержание заполненных полей, а стандартные заголовки не представляют интереса. Данные, полученные из набора бланков, обычно подлежат последующей обработке, например статистической. Для обработки бланков предназначено специальное приложение FineReader Forms.

Для распознавания содержимого бланка необходимо предварительно создать шаблон формы. Для этого служит команда «Сервис®Шаблоны». В открывшемся диалоговом окне «Шаблоны» можно создать новый шаблон или открыть для редактирования уже имеющийся.

В этом случае программа открывает окно «Редактор шаблонов» и дополнительное диалоговое окно «Параметры». В этом окне размещают блоки, соответствующие полям бланка и для каждого блока указывают тип содержащегося в нем значения. Блоки, содержащие данные, задаваемые пользователем, помечаются как экспортируемые. Данные могут записываться в текстовый файл или заноситься в базу данных в качестве записей.

Созданный шаблон используется на этапе сегментации. Сегментация в данном случае состоит не в реальном разбиении страницы на блоки, а в наложении шаблона. Положение шаблона корректируется в соответствии с тем, насколько ровно был размещен бланк при сканировании.

Заключительный этап состоит в распознавании содержимого бланка. Результат представляется в виде формы, содержащей названия полей и их содержание. Последовательность распознанных бланков может быть сохранена в рамках единой базы данных для последующей обработки.

3. Автоматический перевод документов

Идея автоматического перевода текстов с одного языка на другой витает в воздухе со времени появления самых первых компьютеров. Если бы полноценный перевод был возможен, значительно упростилось бы общение между народами и обмен документами, но это очень сложная задача, о полном решении которой пока не приходится говорить.

Все упирается в объем переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако ситуация заметно усложняется, когда мы переходим к переводу целых фраз и, тем более, абзацев связного текста.

Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксический и смысловой. Синтаксический уровень определяет построение предложения, а смысловой – его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и абзац или даже целую главу текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя.

Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить.

Если нет никаких требований к качеству перевода текста с иностранного языка на русский, то программы автоматического перевода можно рассматривать как удобные средства получения простейшего черновика. Если подобные требования есть, то использовать подобные программы не рекомендуется. Квалифицированное редактирование текста, полученного автоматическим путем, обходится в несколько раз дороже, чем услуги специалистов-переводчиков.

3.1. Средства автоматического перевода

Программные средства автоматического перевода можно условно разбить на две основные категории. Первую категорию представляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвестного слова.

Преимущество компьютерных словарей состоит в быстроте доступа и удобстве автоматического поиска значения выделенного слова. Автоматический словарь обычно предоставляет возможность перевода слова по нажатию выделенной комбинации клавиш.

Ко второй категории относятся программы, позволяющие выполнить автоматический перевод связного текста. Они принимают текст на одном языке (предположительно грамотный и не содержащий опечаток) и выдают текст на другом языке. В ходе работы программа использует обширные словари, наборы грамматических правил и другие средства, обеспечивающие наилучшее (с точки зрения программы) качество перевода. Словарь может содержать не только отдельные слова, но и типичные словосочетания.

Используя эти средства, программа анализирует грамматическую структуру предложений исходного текста, обнаруживает связи между словами и пытается построить верный перевод фразы на другом языке. Чем короче предложение, тем больше шансов на то, что такое преобразование будет правильным. В длинных предложениях и сложных грамматических конструкциях любая система перевода может давать сбои.

В Украине наиболее широкое распространение получили программы автоматического перевода с английского языка на русский, а также с русского на английский. Это объясняется ведущей ролью английского языка в сфере международного общения. Английский язык достаточно прост для изучения, однако его простота неожиданно создает дополнительные трудности для систем автоматического перевода. Дело в том, что одинаково написанные слова в английском языке часто относятся к разным частям речи. Это затрудняет грамматический анализ предложения и нередко приводит к возникновению грубых ошибок в автоматическом переводе.

3.1.1. Программа Promt98

Из систем автоматического перевода с русского языка на английский и наоборот наиболее распространены такие программы, как Socrat и Stylus. Stylus, вне всяких сомнений, обеспечивает более высокое качество и более высокую гибкость при переводе. Последняя версия программы Stylus сменила название и теперь называется Promt98.

Программа Promt98 предназначена для автоматического перевода текстов с английского языка на русский и с русского на английский. Она способна работать с документами в различных форматах, допускает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.

Система Promt98 включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управления их использованием. Перевод слов, которые не входят ни в один из словарей, можно определить самостоятельно и сохранить в пользовательском словаре. Кроме того, программа Promt98 позволяет указать правила работы с именами собственными и другими словами, не требующими перевода, например сокращениями.

Дополнительные возможности программы включают пакетный перевод файлов, быстрый перевод неформатированного текста, а также возможности синхронного перевода Web-страниц в Интернете. Эти средства реализованы как отдельные приложения.

3.2. Рабочее окно программы Promt98

После установки программы Promt98 в Главном меню появляются пункты, которые позволяют ее запустить. Дополнительно на панели индикации (на правом краю Панели задач) устанавливается значок для быстрого запуска программы. Щелчок правой кнопкой мыши на этом значке открывает меню, позволяющее запускать все приложения системы. Основная программа запускается при выборе пункта PROMT98.

Интерфейс Promt98 реализован в соответствии с требованиями операционной системы Windows9Х. После запуска программы на экране открывается окно приложения, которое содержит строку меню, ряд панелей инструментов и рабочую область.

Рабочая область окна приложения разбита на несколько подобластей. Две основные зоны содержат исходный текст и его перевод. Они располагаются непосредственно под панелями инструментов.

В нижней части окна приложения расположена информационная панель. Она содержит три вкладки, предназначенные для отображения и выбора используемых словарей, для ведения списка слов текущего документа, не знакомых программе, и для управления списком зарезервированных слов, не требующих перевода. Эту панель в случае необходимости можно убрать с экрана.

В верхней части окна приложения под строкой меню располагаются инструментальные панели. Панель инструментов «Основная» содержит кнопки для открытия и сохранения документов и для операций с буфером обмена. Здесь же находятся кнопки, позволяющие произвести проверку орфографии, контекстный поиск и замену слов, а также пересылку документа по электронной почте. Прочие кнопки этой панели служат для изменения представления документа в окне приложения.

Панель «Перевод» содержит элементы управления, используемые при выполнении перевода. С их помощью осуществляется работа со словарями, перевод всего текста или отдельных его фрагментов, выбор направления перевода (то есть, языков оригинала и перевода), а также резервирование отдельных слов и целых абзацев.

Панель форматирование используют при редактировании исходного текста или текста перевода. Программа позволяет сохранять документы в форматах основных текстовых процессоров.

Панель «Сервис» используют при работе с другими вспомогательными приложениями. К таковым относятся программы сканирования и распознавания документов, а также дополнительные справочные словари. Здесь же расположены элементы управления, предназначенные для сбора статистики о документе и для настройки программы. На этой же панели располагается кнопка контекстной справки, позволяющая узнать назначение имеющихся элементов управления.

3.3. Автоматический перевод

Простой перевод исходного файла, содержащего текст, с помощью программы Promt98 выполняется очень легко. Сначала надо загрузить файл с исходным текстом. Это выполняют командой «Файл®Открыть» или с помощью соответствующей кнопки на панели инструментов «Стандартная».

После выбора имени исходного файла программа открывает диалоговое окно «Конвертировать файл». В этом диалоговом окне автоматически выби-рается формат файла и необходимое направ-ление перевода. Пользо-вателю остается только убедиться в том, что параметры заданы верно, и щелкнуть на кнопке «ОК».

Исходный документ загружается в программу и поначалу одновременно отображается как в области оригинала, так и в области перевода. Для выполнения перевода надо дать команду «Перевод®Весь текст» или воспользоваться кнопкой «Весь текст» на панели инструментов «Перевод». Перевод представляет собой достаточно сложную и медленную операцию. Во время перевода в основном окне программы можно наблюдать прокручивание исходного документа и замену абзацев исходного текста текстом на другом языке.

По достижении конца документа можно просмотреть как исходный текст, так и текст перевода, а также выполнить их редактирование.

Если в оригинал вносятся изменения, можно повторить перевод измененных абзацев. Для этого используют команду «Перевод®Текущий абзац» или кнопку «Текущий абзац» на панели инструментов «Перевод». В этом случае все остальные абзацы перевода остаются неизменными.

3.4. Работа со словарями

Качество автоматического перевода существенно зависит от того, какие именно словари используются. Система Promt98 предоставляет генеральный словарь, который содержит общеупотребительные слова, а также специализированные словари по разным областям знаний.

Необходимость в специализированных словарях связана с тем, что в разных областях человеческой деятельности используются различные термины, которые описывают понятия, относящиеся к данной области. Некоторые из этих терминов могут иметь только специфические значения, некоторые могут использоваться и в обыденной жизни, хотя, возможно, в другом смысле. При переводе специальных текстов термины должны использоваться только в соответствующем смысле.

Рассмотрим в качестве примера английское слово box. Универсальные словари могут переводить его как коробку или ящик. Но в текстах, связанных с программным обеспечением, это слово скорее всего обозначает диалоговое окно.

Другой способ повышения качества перевода состоит в том, чтобы указать программе способ обработки некоторых слов, которые она не может перевести или не должна переводить. Для этого необходимо зарезервировать слова, которые не должны переводиться (например, Windows), и задать правила перевода слов, которые отсутствуют в словаре программы.

3.4.1. Выбор словаря

Список используемых словарей приводится на вкладке «Используемые словари» на информационной панели. Словари просматриваются в указанном порядке, причем переход к следующему словарю осуществляется только в том случае, если в данном словаре нужное слово отсутствует. Таким образом, на качество перевода влияет не только количество словарей, но и порядок их следования в наборе.

Обратите особое внимание на то, что первым в наборе обычно идет словарь, который считается пользовательским. Пользовательские словари открыты для редактирования и изменения. Таким образом, словарные статьи, добавленные и измененные пользователем, принимаются во внимание в первую очередь.

Чтобы изменить список используемых словарей, надо дать команду «Словари» и выбрать нужное направление перевода. Можно также использовать кнопку «Словари» на панели инструментов «Перевод». При этом открывается диалоговое окно «Словари», содержащее вкладку, соответствующую выбранному направлению перевода.

Это диалоговое окно позволяет просматривать, подключать и отключать дополнительные словари, создавать новые пользовательские словари, а также регулировать порядок просмотра словарей.

Не рекомендуется подключать дополнительные словари «на всякий случай», так как это замедляет работу программы и может отрицательно повлиять на качество перевода.

3.5. Резервирование слов

Многие документы требуют лишь «частичного» перевода. Некоторые слова и понятия должны оставаться на языке оригинала. Например, в компьютерной литературе не принято переводить или каким-то образом преобразовывать названия программ, операционных систем и компаний-производителей.

Для того чтобы система автоматического перевода не переводила определенное слово или словосочетание, это слово необходимо зарезервировать. Зарезервированные слова перечисляются в списке на вкладке «Зарезервированные слова» на информационной панели. Когда зарезервированное слово встречается в тексте документа, оно выделяется цветом.

Для добавления слова в список зарезервированных слов, его надо выделить и дать команду «Сервис®Зарезервировать» или щелкнуть на кнопке «Зарезервировать слово» на панели инструментов «Перевод». Нужное слово можно также вводить в список зарезервированных слов методом перетаскивания.

При этом открывается диалоговое окно «Зарезервировать слово», на котором указывается само слово и смысловая категория, к которой оно относится. Здесь же присутствует флажок, указывающий необходимость транслитерации. Если слово было зарезервировано после первоначального перевода текста, то абзацы, содержащие это слово, или весь текст необходимо перевести заново.

При сохранении документа во внутреннем формате программы список зарезервированных слов сохраняется вместе с файлом. В программе Promt98 также предусмотрены возможности независимого хранения списка зарезервированных слов с последующим подключением к переводимому документу, а также импорт такого списка из другого документа.

Возможность использования единого списка зарезервированных слов очень удобна при работе с группой документов, относящихся к одной теме, или с многочисленными частями одного объемного документа.

3.6. Пополнение и настройка словарей

Несмотря на то что словари, включенные в состав программы Promt98, достаточно богаты, нельзя гарантировать, что в них содержится любое слово, которое можно встретить в документах. Незнакомые слова программа выделяет красным цветом.

Не все незнакомые слова действительно требуют включения в словарь. Среди них могут встретиться слова, которые необходимо зарезервировать. Надо также проверить, не содержат ли эти слова опечаток. Если дело действительно в неполноте словаря, то слово можно добавить в пользовательский словарь.

Квалифицированное пополнение словаря – очень важное и ответственное мероприятие. Избыточность словаря может ухудшать качество перевода. Следует также иметь в виду, что одно слово может иметь много различных грамматических форм.

Программа Promt98 предусматривает два режима добавления слов в словарь: начинающий и специалист. В первом режиме все недостающие грамматические формы слова добавляются автоматически, но не всегда правильно. Во втором режиме пользователь сам задает все грамматические формы, но это требует хорошего знания грамматики двух языков.

В режиме специалист добавление слов происходит в следующем порядке.

Дайте команду «Перевод®Словарная статья» – откроется диалоговое окно «Открыть словарную статью».

В этом диалоговом окне следует изменить форму слова на стандартную (именительный падеж для существительных, неопределенная форма для глаголов и т. п.) – откроется диалоговое окно «Словарная статья».

Выбрав вкладку, соответствующую нужной части речи, следует щелкнуть на кнопке «Добавить», если нужное слово не входит ни в один из словарей, или на кнопке «Правка», если перевод слова необходимо изменить.

Последующие диалоговые окна позволяют определить тип изменения слова, а также указать правописание других форм этого слова.

Последнее диалоговое окно определяет разные формы слова на исходном языке и то, для каких из этих форм следует использовать введенный вариант перевода.

Для глаголов и существительных программа Promt98 позволяет задать дополнительную информацию, определяющую согласование слов друг с другом. В случае глаголов для этой цели служит кнопка «Управление». Она позволяет указать, например, способ связи данного глагола с дополнением: какой предлог необходим, в каком падеже должно стоять дополнение и т. д.

3.7. Прочие настройки программы Promt98

Эффективность и качество работы системы автоматического перевода зависит в основном от состава словарей и от их качества. Качество же словарей зависит от того, насколько аккуратно было проведено их пополнение.

Действие прочих настроек программы Promt98 сводится к изменению оформления экрана и заданию особенностей некоторых технических операций. Общие настройки программы выполняют в диалоговом окне «Настройка параметров программы», которое открывают командой «Сервис®Параметры» или с помощью кнопки «Параметры» на панели инструментов «Сервис».

Данное диалоговое окно имеет две вкладки. Вкладка «Разное» позволяет изменить параметры настройки программы. Здесь указывается, как должно заполняться окно перевода при загрузке исходного текста, включается автоматическая загрузка списков зарезервированных слов, определяется уровень доступа к словарям.

Флажок «Использовать мгновенный перевод» включает отображение перевода отдельных слов и коротких выделенных фрагментов во всплывающем окне.

Вкладка «Цвета» позволяет задать цвета различных элементов текста, а также включить или отключить специальную маркировку абзацев.

Дополнительные возможности настройки состоят в изменении содержания панелей инструментов. Не исключено, что после накопления опыта работы с программой станет ясно, что ряд кнопок панелей инструментов практически не используется, в то время как кнопки некоторых частых операций отсутствуют. Состав панелей инструментов изменяют командой «Сервис®Настройка панелей».

В диалоговом окне «Настройка инструментальных панелей» список «Категории» содержит перечень пунктов строки меню. Если выбрать любой из этих пунктов, на панели «Кнопки» появятся кнопки для команд из соответствующего меню. Чтобы добавить кнопку, ее надо перетащить из диалогового окна на панель инструментов. Удаление ненужной кнопки с панели инструментов осуществляют путем перетаскивания ее с панели инструментов внутрь диалогового окна.

3.8. Пакетный перевод файлов (File Translator)

Для быстрого перевода пакета из нескольких документов без надзора со стороны пользователя предназначено дополнительное приложение File Translator. Его запускают через Главное меню или с помощью значка программы Promt98 на панели индикации.

Файлы, подлежащие переводу, помещают в очередь перевода. Для этого служит команда «Файл®Добавить» или кнопка «Добавить» на панели инструментов. Нужные файлы выбирают в открывшемся диалоговом окне.

Специальные элементы управления, расположенные в правой части окна программы File Translator, служат для настройки условий перевода. С их помощью можно указать направление перевода, формат исходного файла и файла перевода, а также подключить списки зарезервированных слов и словари.

После формирования очереди, выбирают пункт «Перевод!» в строке меню. Файлы переводятся в том порядке, в каком они включены в очередь. Переведенный текст записывается в заданный файл, а переведенный исходный файл покидает очередь.

3.9. Быстрый перевод текста (Qtrans)

Для быстрого перевода неформатированного текста предназначено приложение Qtrans. Его также можно запустить через Главное меню или кнопку на панели индикации.

В этом приложении не предусмотрены средства для загрузки или сохранения документов. Исходный текст вводится вручную или копируется через буфер обмена. Задать направление перевода позволяет кнопка «Направление перевода». Выбранное направление перевода отображается в строке заголовка окна.

Переведенный текст отображается в нижней части окна после щелчка на кнопке «Перевести». Этот текст можно сохранить только путем копирования через буфер обмена, что выполняют щелчком на кнопке «Скопировать перевод». Прочие командные кнопки приложения Qtrans используют при выборе словарей и задании зарезервированных слов.

3.10. Перевод Web-страниц (WebView).

Многие пользователи рассматривают Web-страницы Интернета как документы, для которых нужен срочный перевод, причем без особых требований к качеству. Абсолютное большинство Web-страниц в мире написано на английском языке, и система Promt 98 имеет специальное приложение для немедленного перевода Web-страниц – программу WebView.

Программу WebView запускают так же, как и остальные приложения Promt98, то есть, через Главное меню или с использованием специального значка на панели индикации. WebView представляет собой броузер, производящий синхронный перевод Web-страниц во время работы в Интернете. Функциональные возможности WebView как средства просмотра Web соответствуют возможностям обозревателя Internet Explorer.

В отличие от традиционных броузеров окно программы WebView разбито на две области. В верхней области отображается исходная Web-страница, полученная из Интернета, а в нижней – ее перевод.

В переводе сохраняются гиперссылки, изображения, встроенные объекты. Обе области абсолютно равноправны в смысле использования гиперссылок, присутствующих в документе.

Перевод страницы осуществляется автоматически в ходе загрузки. Режим автоматического перевода можно отключить. В этом случае для перевода страницы используют команду «Перевод®Перевод страницы».

Важной особенностью программы WebView является также автоматический перевод ключевых слов, используемых при поиске нужной информации в Сети.

Если дать команду «Переход®Поиск в Web» или щелкнуть на кнопке «Поиск в Web», открывается диалоговое окно «Поиск в Интернет», позволяющее сформировать запрос к поисковому серверу. Запрос формируется по заданным правилам (разным на разных вкладках этого диалогового окна).

Ключевые слова запроса автоматически переводятся в соответствии с заданным направлением перевода. Сформированный запрос отображается на экране.

Этот запрос можно направить в любую из нескольких допускаемых программой WebView поисковых систем.

3.11. Сохранение переведенных документов

Перевод документа обычно представляет собой промежуточную операцию, поэтому система Promt98 предлагает много разных вариантов сохранения документа. Выбор варианта сохранения зависит от того, как предполагается использовать документ в дальнейшем.

Команда «Файл®Сохранить документ» и кнопка «Сохранить» на панели инструментов «Основная» сохраняют весь документ Promt98 во внутреннем формате программы. Команда «Файл®Сохранить документ как» также сохраняет документ во внутреннем формате, но позволяет выбрать имя файла.

Сохранение документа во внутреннем формате системы Promt98 имеет смысл в тех случаях, когда работа по автоматическому переводу документа еще не завершена. Чтобы продолжить работу с оригиналом или с переводом другими средствами, эти тексты надо сохранить в одном из общепринятых форматов.

Если требуется сохранить только результаты перевода (и, возможно, результаты редактирования оригинала), надо использовать подменю «Файл®Сохранить». Этим способом сохраняют только исходный текст или только перевод. В открывшемся диалоговом окне можно выбрать любой из доступных форматов сохранения текста.

Если в дальнейшем предполагается редактирование перевода в одном из распространенных текстовых процессоров, удобно использовать сохранение в режиме билингвы, то есть двуязычного текста. В этом режиме Promt98 записывает в файл абзацы оригинала и перевода поочередно. Таким образом, при последующем редактировании и оригинал, и перевод все время находятся перед глазами одновременно. Правда, при сохранении билингвы форматирование текста может превратиться в помеху, поэтому большая часть данных о форматировании отбрасывается, и набор допустимых форматов файлов для сохранения билингвы сокращен.

Другие возможности подменю «Сохранить» включают отдельное сохранение списков незнакомых слов и списков зарезервированных слов. Список зарезервированных слов можно в дальнейшем подключить к другому тематически похожему документу.

4. Техника безопасности

Работа на ЭВМ, а также на периферийных устройствах, входящие в состав ЭВМ, связано с возможностью возникновения опасных и вредных фактов:

Появления повышенного значения напряжения электрической цепи, замыкания которое может произойти через тело человека в случае прикосновения к открытым токопроводящим частям или к электропроводке с нарушенной изоляцией.

Наличие вращающихся частей ограждения машин, вентиляционных и других устройствах ЭВМ.

Воспламенение легковоспламеняющихся жидкости (ЛВЖ), при нарушении правил обращения с ними во время хранения и работы по техническому обслуживанию устройств ЭВМ (при проведении этих работ применяется спирт, бензин и другие ЛВЖ).

Возникновения повышенного уровня шума в помещении вычислительного центра (ВЦ), в особенности на рабочих местах машинного зала.

Перенапряжение зрения при работе с экранным устройством, в особенности при нерациональном освещении рабочей поверхности в зоне видео экрана, и нерациональное расположение экрана по отношению к глазам.

При работе оператора ЭВМ необходимо быть внимательным, не отвлекаться на посторонние дела и не отвлекать людей.

Обо всех неисправностях немедленно сообщать мастеру (начальнику), а в аварийных ситуациях немедленно прекратить работу. Соблюдать правила личной гигиены, принимать пищу только в специально оборудованных для этого местах.

Для обеспечения личной безопасности перед началом работы оператор ЭВМ обязан:

Надеть исправную рабочую одежду;

Проверить, визуально, порядок на своём рабочем месте и убедиться в отсутствии нарушений правил безопасности;

Для длительной работы (более 30мин) подготовить рабочее место: отрегулировать сидение на оптимально удобное место, расположить элементы рабочего места так, чтобы угол зрения составлял 16°, расстояние до экрана было 40-50см; принять меры при нормальной освещённости прямой свет не падал на экран.

После окончания работы следует навести порядок на своём рабочем месте. Поставить все тумблера в положение «Выкл».

Нарушение вышеперечисленных требований может привести к тяжёлым последствиям, поэтому к нарушителям применяются административные меры наказания.

Заключение

Одна из задач, стоящих перед информатикой, как наукой, состоит в переводе документооборота из бумажной формы и электронную. Эту задачу решают путем разработки и внедрения аппаратных и программных средств и методов электронного документооборота.

Одним из основных приемов перевода бумажных документов в электронную форму является сканирование.

В результате сканирования создается графический образ текстового документа. Для сканирования применяют специальные устройства, которые называются сканерами, хотя графический образ документа можно получить и с помощью других средств ввода информации, таких как цифровые фото- и видеокамеры.

Преобразование графического образа в текстовый документ выполняют программным путем. Для этого применяют специальные программные средства, называемые программами распознавания образов.

Одной из наиболее популярных программ распознавания текстов является программа FineReader. Версия FineReader 4.0 позволяет выполнять распознавание многоязычных текстов, набранных различными шрифтами.

При обработке документов, имеющих недостаточную четкость печати или сложные для распознавания символы, программу можно настроить на шрифт индивидуального документа. Такую настройку называют тренировкой или обучением программы.

Сканирование и распознавание документов, написанных на иностранных языках, часто используют как операции, предшествующие автоматическому переводу текста.

Одной из наиболее популярных систем автоматического перевода текстов с английского языка на русский и наоборот является программа Promt98. В состав системы входят несколько приложений, обеспечивающих разные режимы перевода текстов.

Проблема автоматического перевода текстов отличается высокой сложностью. В настоящее время не существует автоматических средств, обеспечивающих удовлетворительное качество перевода без специальной настройки программы.

Настройка программ автоматического перевода в основном заключается в выборе словарей и определении порядка их подключения, а также в пополнении словарей новыми словами с правильным указанием грамматических форм на двух языках.

Словари, подключаемые к системе автоматического перевода, делят на генеральные, специализированные и пользовательские. Генеральный словарь содержит общеупотребительные слова. Специализированные словари ориентированы на узкие области науки и техники и учитывают особенности терминологии этих областей.

Генеральные и специализированные словари поставляются в составе системы или приобретаются отдельно. Пользовательский словарь создает сам пользователь в соответствии с особенностями каждого конкретного документа.

В связи с тем, что качество автоматического перевода текстов, как правило, не является достаточным, системы автоматического перевода обычно имеют встроенные средства для ручного редактирования как исходного, так и результирующего текста.

Характерной особенностью средств автоматического перевода является возможность сохранения документов в файлах многочисленных форматов. Это позволяет продолжить работу над документом и повысить его качество с помощью других программных средств, например с помощью текстового процессора.

Список литературы

Симонович С.В., Евсеев Г.А., Алексеев А.Г. Специальная информатика: Учебное пособие. – М.: Инфорком-Пресс, 2000. – 480 с.

Евсеев Г.А., Симонович С.В. WINDOWS98: Полный справочник в вопросах и ответах. – М.: Инфорком-Пресс, 2001. – 496 с.

Аммерал Л. Машинная графика на персональных компьютерах: Пер. с англ. – М.: «Сол систем», 1992. – 232 с.

КоутсР., Влейминк И. Интерфейс «человек-компьютер»: Пер. с англ. – М.: Мир, 1990. – 501 с.


Похожие работы:

  1. • Использование СУБД ACCESS 7.0
  2. • Access для юристов
  3. • Типологические особенности современного китайского ...
  4. • Выбор программного средства для комплексной автоматизации ...
  5. • Автоматизация управления производством
  6. • Электронный офис в маркетинге
  7. • Внедрение системного информационного комплекса в офисе ...
  8. • Автоматизация процессов документооборота
  9. • Автоматизация управления коммерческого предприятия
  10. • Методы управления документооборотом в организации
  11. • Организация работы турфирмы
  12. • Совершенствование информационной системы управления ...
  13. • Вопросы повышения экономической эффективности деятельности ...
  14. • Модель электронного документооборота на примере ЗАО ...
  15. • Анализ деятельности ООО "Атлант-Техно"
  16. • Корпоративные системы управления
  17. • Современные средства оргтехники
  18. • Современные средства оргтехники
  19. • Копировальные аппараты
Рефетека ру refoteka@gmail.com