OCR - технології для розпізнавання паперових документів
Оптичне розпізнавання символів — це механічне або електронне переведення зображень рукописного, машинописного або друкованого тексту в послідовність кодів, що використовуються для представлення в текстовому редакторі. Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці. Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в компактнішій формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.
Точне розпізнавання латинських символів у друкованому тексті зараз можливе тільки, якщо доступні чіткі зображення, такі як друковані документи. Точність при такій постановці задачі перевищує 99%, абсолютна точність може бути досягнута тільки шляхом наступного редагування людиною. Проблеми розпізнавання рукописного «друкованого» тексту й стандартного рукописного тексту, а також друкованих текстів інших форматів (особливо з дуже великою кількістю символів) зараз є предметом активних досліджень.
Точність роботи методів може бути вимірювана декількома способами, і тому може сильно варіюватися. Приміром, якщо зустрічається спеціалізоване слово, відсутнє в словниках відповідного програмного забезпечення, при пошуку неіснуючих слів, помилка може збільшитися.
Розпізнавання символів он-лайн іноді плутають з оптичним розпізнаванням символів. Метод оптичного розпізнавання символів — офф-лайн-метод, що працює зі статичною формою подання тексту, у той час як он-лайн-розпізнавання символів ураховує рухи під час писання. Наприклад, в он-лайн-розпізнаванні, що використовує PenPoint OS або планшетний ПК, можна визначити, з якої сторони пишеться рядок: справа ліворуч або зліва праворуч.
Як працює OCR
Першим кроком процесу оптичного розпізнавання є використання сканера з метою обробки фізичної форми документа. Після копіювання всіх сторінок програма OCR перетворює документ в двобарвне або чорно-білу версію. Відскановане растрове зображення аналізується на наявність світлих і темних областей. При цьому темні області ідентифікуються як символи, які необхідно розпізнати, а світлі області - як фон. Після цього темні області обробляються для пошуку букв або цифр.
Комментарии
Отправить комментарий