Recogemos en este artículo distintas aplicaciones, tecnologías y curiosidades relacionadas el Reconocimiento í“ptico de Caracteres. Para extraer el texto que ya no es texto, que es imagen, en formatos de archivo de imagen y/o pdf.
Hablaremos de:
- Un servicio gratuito web,
- dos aplicaciones de escritorio específicas, una para fotografías y otra para capturas de pantalla,
- la relación de Google con la tecnología OCR, derechos de autor,
- OCR colaborativo,
- OCR en Adobe Acrobat,
- Reconocimiento í“ptico Tipográfico online.
OCR Terminal | Servicio web
Servicio web gratuito:
- Te registras
- Subes la imagen o el pdf
- Te devuelve un archivo de texto en formato .txt o .rtf.
- Lo descargas o lo envías por email.
Dos limitaciones: máximo 30 páginas y sólo reconoce textos en inglés.
Vía: Convirtiendo imágenes y PDF en texto con Google OCR Terminal
TopOCR | Especializado en imágenes de cámaras digitales y smartphones
Esta app de escritorio está pensada para que en vez de que escanees los documentos los fotografíes. En este tutorial te dan algunos consejos.
Soporta 11 idiomas, entre ellos español e inglés.
Descarga TopOCR | Windows
Vía: OCR Document Scanning With Smartphones [en]
JOCR | Para capturas de pantalla
JOCR es un app de escritorio gratuita para Windows útil para reconocer el texto de una captura de pantalla.
Trabaja rápido, haces la captura de toda la pantalla o de un área y JOCR copia en el portapapeles y en el bloc de notas el texto que ha reconocido en esa imagen.
Soporta varios idiomas, entre ellos inglés y español, antes del reconocimiento debes indicar el idioma del texto.
Por supuesto puedes también intentar utilizar su tecnología OCR para cualquier otra imagen, un documento escaneado o una fotografía que contenga un texto.
Vía: How To Extract Text From Images (OCR) – Windows Only [en]
Google, ¿apoyando y abusando?
Google y sus soluciones:
- OCR en su servicio de correo electrónico Gmail
- Google Books
- Google Books Mobile | Vía: Bitácora del Webmaster,
- apoya el software de código abierto OCRopus.
OCR y derechos de autor
Los derechos de autor son la causa del litigio que The Authors Guild Inc. mantiene con Google. Según Guild Inc. los proyectos de las bibliotecas virtuales y digitales de Google han vulnerado los derechso de autor.
En http://www.googlebooksettlement.com/ los autores pueden reclamar dichos derechos.
Fuentes:
- Reclamación de derechos de autor a nivel mundial frente a Google Books
- ¿Tienen derechos de autor en libros que se venden en el mercado de USA?
OCR colaborativo | reCAPTCHA
Este proyecto de código abierto de la School of Computer Science de la Universidad de Carnegie Mellon ofrece una tecnología anti-spam al mismo tiempo que desarrolla y mejora su tecnología OCR para la digitalización de libros.
El sistema es muy sencillo, los textos que su OCR no ha podido reconocer los va insertando en los millones de sitios webs que tienen este filtro anti-spam, el usuario hace el reconocimiento y el webmaster se asegura que no es un robot.
Puedes instalarlo mediante:
- este plugin para WordPress
- PHP
- y una cantidad de plugins para Joomla, Drupal, Mediawiki, etc.
OCR en Adobe Acrobat
Si tienes Adobe Acrobat siempre puedes utilizar su OCR.
Tutorial en Desfaziendo Entuertos
Reconocimiento tipográfico online | WhatTheFont
Si lo que necesitas es averiguar el tipo que utiliza el texto de una imagen puedes utilizar WhatTheFont
Otros enlaces de interés:
- Para Linux: Ocr y desbloqueo de archivos pdf
- Otros 3 proyectos de Software OCR de código abierto: GOCR, ocre, Tesseract
Deja una respuesta