jueves, mayo 03, 2007

Sistema OCR gratuito con Gmail

Gmail nos ofrece un servicio indirecto de OCR (Reconocimiento óptico de carácteres, de una imagen nos da los carácteres que incluye) a través de las imágenes de los archivos adjuntos. Para ello hay que hacer lo siguiente:

  • Enviamos en Gmail un documento pdf con imágenes a nosotros mismos. Al recibirlo elegimos ver como HTML (view as HTML):
  • Y ya esta, nos mostrará sólo el texto ya procesado. Visto que son sólo imágenes, Google utilizará su sistema OCR para reconocérnoslo:
  • Y aquí podemos ver la imagen que contenía el documento pdf original:
Interesante, ¿no?

El sistema no es perfecto, pero funciona bastante bien. En este ejemplo como podemos ver sólo se equivoca en el DE que lo reconoce como OE. Incluso detecta tipos de letra, negrita, cursiva, tamaños, etc.

Hay que recordar que Google ofrece gratuitamente como software libre Ocropus, software que segúramente utilizará internamente para realizar el reconocimiento y se presupone que utiliza para el reconocimiento OCR de Google Books.
Este software sólo soporta Linux, así que si quieres probarlo pásate a Linux ;-)

3 comentarios:

Shawe dijo...

Grácias tio, seguro que lo usaré más de una vez :P

Nicolás dijo...

Interesante. Ojalá hubiera un servicio que puedas enviar imagenes y el OCR te las lea. Seria util.

Saludos

Alberto dijo...

Nicolás, esto realmente es eso pero de una manera indirecta...