
           .gif)

Сергей Осипов, osw@irk.ru Multimedia-Салон, г.Иркутск
О пользе OCR
|
В прошлый раз мы размышляли о пользе переводчиков. Но для того, чтобы перевести какой-либо текст, нужно иметь его в электронном виде, т.е. в виде файла. Довольно часто хочется иметь перевод какой-либо документации, приложенной к купленной вами вещи, или, например, прочитать статью из зарубежного журнала. И если у вас нет желания набирать весь этот текст на клавиатуре, то, помимо переводчика, вам придется воспользоваться сканером и какой-либо системой OCR.
OCR (Optical Character Recognition) - это технология преобразования графического изображения текстового документа в компьютерный текстовый файл. Графическое изображение документа поступает в компьютер через сканер, но вы не сможете редактировать это изображение в текстовом редакторе до тех пор, пока не преобразуете его в текстовый файл с помощью системы OCR.
Сегодня одна из самых популярных в России - система распознавания CuneiForm for MS Windows. Она обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов в редактируемый текст для использования их в любых электронных текстовых редакторах. Кроме значительного выигрыша по скорости по сравнению с ручным вводом текста, система CuneiForm делает это и более качественно. Вся работа с CuneiForm строится по принципу "What You Scan Is What You Get"™ "Что Сканируешь, То и Получишь"™ - это означает, что CuneiForm позволяет получить полную копию вводимого бумажного документа, включая: шрифтовое оформление и форматирование; расположение текста, иллюстраций и таблиц; колонки, абзацы, отступы, стили и размеры шрифтов; цветные иллюстрации.
На сегодняшний день фирма разработчик - Cognitive Technologies Ltd. предлагает пользователям свой продукт - CuneiForm 98 Collection, включающий две версии CuneiForm для профессиональной обработки отсканированного изображения. Это CuneiForm 96 Gold Professional и CuneiForm 98 Direct. Кроме этого, в состав коллекции входит электронный архив Евфрат II 97@SOHO.
Давайте познакомимся с ними подробнее.
CuneiForm 96 Gold Professional для Windows 3.1x/95/NT 3.5x-4.0
CuneiForm 96 GOLD for Windows 3.1x/95/NT является первой в мире самообучаемой интеллектуальной системой оптического распознавания (OCR), использующей новейшую технологию адаптивного распознавания текстов - без участия человека OCR-система каждому графическому символу подбирает электронный эквивалент. Кроме этого, она создает внутренний шрифт из отсканированных символов и с помощью этого шрифта повторно «проверяет» результат. Это очень актуально для текстов низкого качества.
CuneiForm работает практически со всеми сканерами, продаваемыми в России: Hewlett-Packard, Epson, Mustek, Primax, Genius и др. Большинство из них поставляются в комплекте с облегченной версией CuneiForm. Это единственная OCR, поддерживающая работу с ручными сканерами. Кроме того, она работает с протоколом TWAIN. При сканировании CuneiForm обеспечивает автоматический подбор оптимальных параметров сканирования (разрешение, яркость сканирования). Затем CuneiForm может импортировать отсканированные графические файлы во множество форматов.
CuneiForm 96 Gold распознает русский, английский, немецкий, французский, а также смешанный русско-английский текст. Дополнительно поставляются модули распознавания для других языков: украинского, испанского, итальянского, шведского, сербского, хорватского и других. Для каждого языка поставляется словарь для контекстной проверки и повышения качества результатов распознавания.
CuneiForm 96 Gold может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров, за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.
Пользуясь CuneiForm 96 Gold, вы можете не заботиться о форматировании выходного текста, программа сама сохранит все стили и начертания в формате RTF. Если Вы хотите оставить в документе картинки, то CuneiForm отсканирует их и поместит на то же место, где они находились на оригинале.
Имеется также встроенная утилита, которая позволяет распознавать таблицы и стандартные формы с сохранением результатов в форматы DBF, WKS и CSV и прямым экспортом в MS Word и MS Excel, или любой ODBC источник данных. Кроме этого вы можете сохранить результат распознавания таких распространенных форматах как: ASCII, Smart ASCII (DOS), ANSI, Smart ANSI (Windows), RTF (MS Word), а также DBF, WKS и CSV.
CuneiForm удобно вписывается в оболочку Windows и разрешает напрямую обращаться к себе из Microsoft Word for Windows, Lotus AmiPro, Евфрат. Реализован также прямой экспорт результатов распознавания в MS Word, Write, Excel, Notepad, Internet Explorer, Netscape Navigator или любой ODBC источник данных. Доступны опции командной строки и поддержка Drag&Drop для вызова из внешних приложений, сканирования, распознавания и сохранения результатов в автоматическом режиме. Если вы пользуетесь ручным сканеров, то вам может пригодиться возможность склейки страниц. При работе с многоколоночными текстами и текстами сложной структуры и с графическими элементами удобны автоматический и полуавтоматический режимы поиска блоков текста и графики. А автоматическое пополнение пользовательского словаря и возможность экспорта/импорта словаря в/из текстовых файлов сводят число ошибок при распознавании практически к нулю.
Дальнейшим этапом развития систем CuneiForm явилось появление CuneiForm 98 Direct.
OCR CuneiForm 98 Direct Windows для 95/NT 4.0
Универсальная система распознавания CuneiForm 98 Direct представляет собой не только инструмент для ввода тестов. Это целый комплекс средств по работе с документами, реализованный с абсолютно новыми интерфейсом пользователя и технологическими возможностями. Возросшая на 20-30% по сравнению с предыдущими версиями точность распознавания CuneiForm 98 Direct обеспечена за счет дальнейшего совершенствования алгоритмов самообучаемого адаптивного распознавания, впервые реализованных в версии CuneiForm 96. Они позволяют повысить точность распознавания даже самых низкокачественных документов 1,5-2 раза по сравнению с методами, используемыми в обычных системах OCR.
Принципиально новый в семействе программ CuneiForm интерфейс пользователя реализован с учетом пожеланий многочисленных бета-тестеров и пользователей системы. Он сохранил лучшие черты CuneiForm 96, такие как интуитивность и простота в использовании. Среди нововведений хотелось бы отметить появление мощного текстовые редактора, не уступающего по своим возможностям Note Pad, встроенного в систему и запускаемого отдельно, добавление волшебника (wizard) для быстрого распознавания; появление выпадающих контекстных меню, наличие настраиваемых панелей быстрого доступа к основным функциям системы, а также поддержку технологий OLE и Drag&Drop.
CuneiForm 98 является полностью 32-х битным приложением Windows, функционирующим под Windows 95 и Windows NT 4.0. Панель быстрого доступа CuneiForm 98 Direct позволяет получить простой и быстрый доступ к основным функциям CuneiForm. Работая, например, в текстовом редакторе, вы можете вести процесс сканирования и распознавания текста без активизации всего программного комплекса CuneiForm. При этом результат распознавания попадает сразу на рабочий стол того редактора, с которым вы работаете.
Приятным дополнением является запуск распознавания графического образа прямо из Windows Explorer, а также встроенная функция по распознаванию факсов, полученных с помощью Microsoft Exchange/Outlook, прямо из папки "Входящие" (Inbox).
Модуль распознавания CuneiForm 98 поддерживает технологию Intel MMX Tecnology, что позволяет увеличить скорость распознавания на 30% и задействовать дополнительный модуль повышения точности распознавания. Данная возможность автоматически задействуется при наличии у компьютера пользователя процессора, поддерживающего технологию Intel MMX Tecnology. В то же время, CuneiForm 98 Direct может отлично работать и на компьютерах, не поддерживающих эту технологию.
Появилась также уникальная возможность одновременного показа распознанного текста и оригинала документа с "подсветкой" взаимосоответствующих позиций, что позволяет полностью избежать необходимости обращения к бумажному оригиналу при редактировании.
Теперь в систему встроена возможность словарного контроля (900 000 слов), что позволило еще выше поднять точность распознавания. Словарь для контекстной проверки поставляется для каждого языка.
Но и на этом компания-разработчик - Cognitive Technologies Ltd. решила не останавливаться. Она вполне логично предположила, что раз уж вы пользуетесь ее весьма производительными системами OCR, то у вас наверняка уже имеется некоторое количество документов, которые вам не помешает систематизировать. Так появилось семейство продуктов Евфрат, включающее в себя Евфрат 97 Клиент, Евфрат 97 Document Server и Евфрат 97@SOHO.
Продукты Евфрат 97 объединяют основные интеллектуальные технологии от одного производителя для комплексной автоматизации делопроизводства и рекомендуются для совместной работы с системами CuneiForm.
Евфрат 97 Клиент
Евфрат 97 Клиент для Windows 3.1x/95/NT 4.0 - представляет широкие возможности для комплексной автоматизации делопроизводства, включая создание, регистрацию, контроль исполнения, передачу, создание электронного архива и поиска документов, полученных из самых различных источников - Internet/Intranet документы, файлы компьютерных приложений, например MS Office, электронная почта, сканированные и распознанные образы бумажных документов и, даже, документы, существующие только на бумаге.
Евфрат 97 Клиент может использоваться самостоятельно или как клиент для Евфрат 97 Document Server. Если вы работаете в Internet, то вы можете осуществлять прямой ввод документов из Internet через Netscape Navigator и Microsoft Internet Explorer. Возможна автоматическая загрузка содержимого WWW-серверов для последующего просмотра без соединения с Internet (функция автономного браузера). Предусмотрено автоматическое отслеживание изменений в содержании и месторасположении документов (в т.ч. в Internet) с уведомлением пользователя и, по возможности, с автоматической переиндексацией.
Документы можно вводить в базу непосредственно из MS Word, принимаются образы электронных документов и распознанного текста из OCR CuneiForm, не забыт при этом и ввод из браузеров Internet. Регистрация (индексация) введенных документов осуществляется по всем словам текста с учетом русской морфологии в форматах DOC, HTML, RTF, WRI, TXT (OEM, ANSI), предусмотрена и регистрация (индексация) введенных документов по реквизитам (ключевым словам).
Если вам необходимо найти какой-либо документ в вашей базе, то к вашим услугам целый набор вариантов поиска. Возможен полнотекстовый и гипер-полнотекстовый поиск документов. Запрос моментально строится по выделенным словам документа в режиме просмотра его текста. Дополнительные возможности поиска документов: по аннотации, по реквизитам, по близости и началу слов, по названию документов, смешанный поиск в любой комбинации. Использование морфологического анализа значительно уменьшает объем индексных данных и увеличивает быстродействие. Время поиска в архиве из 100,000 документов (~400 Мб) не превышает 4-5 секунд.
Евфрат 97 Document Server
Для организации взаимосвязанной комплексной работы нескольких пользователей в локальной сети существует специальная версия Евфрат 97 Document Server, которая выполняет функции координатора работы всех клиентских рабочих мест. Евфрат 97 Document Server, являясь администратором, обеспечивает совместную работу отдельных клиентов, благодаря использованию общей базы данных.
Основные функции Евфрат 97 Document Server - это функции администрирования.
Евфрат 97 @SOHO
Это самый популярный продукт из серии Евфратов. Кстати, именно он и поставляется в составе CuneiForm 98 Collection. Он призван помочь пользователям Internet, которые испытывают значительные неудобства при поиске информации, загруженной из World Wide Web (WWW) на "жесткий" диск персонального компьютера. Действительно, найти нужный документ в формате HTML без использования браузера и длительных блужданий по гипер-ссылкам очень не просто.
Если вы постоянно работаете в Internet/Intranet, то документы, файлы компьютерных приложений, например MS Office, электронная почта, сканированные и распознанные образы бумажных документов, накапливаясь в вашем компьютере, имеют тенденцию теряться в нем. Особенно это относится к потоку информации, идущей из Internet. Если вы просто храните созданные или полученные документы в файловой среде вашего компьютера, то обязательно настанет день, когда вы что-то не сможете найти. Это всего лишь вопрос о количестве документов, информацию о которых вы можете одновременно держать в своей памяти.
Евфрат 97@SOHO как раз и помогает решить подобные проблемы - работая внутри Netscape Navigator или Microsoft Internet Explorer, вам достаточно сохранять документы WWW в Евфрат 97@SOHO и дальнейшие поиск и извлечение нужной вам информации не составит никакого труда.
Евфрат 97 @SOHO, по сути, является облегченной версией от Евфрат 97 Клиент. Евфрат 97 @SOHO не содержит специфического делопроизводственного наполнения (специальных картотек, папок, шаблонов документов). Но у базы данных Евфрат 97 @SOHO есть и свои ограничения - она позволяет зарегистрировать в ней не более 2.000 документов. Евфрат 97 @SOHO также не может выступать в роли клиентской части для Евфрат 97 Document Server - необходим upgrade до Евфрат 97 Клиент.
На этом пора прерваться. Хороших программ много, но рассказать обо всех сразу - нереально. Если кого-то заинтересовала эта информация, и он хочет узнать о новых продуктах компании Cognitive Technologies Ltd. еще больше - заглядывайте на их страничку, там есть и демо-версии. От себя хотелось бы добавить, что многие из вас наверняка уже пользовались облегченными версиями CuneiForm, поставляемыми вместе со сканерами, но это далеко не то, что вы сможете получить, работая с полным пакетом. Так что ставьте, пробуйте - наверняка вы найдете там много полезного для себя.
|

           .gif)
|