lunes, 27 de mayo de 2019

OCR on line

Resultado de imagen de ocr
OCR es la sigla de Optical Character Recognition, una expresión en lengua inglesa que puede traducirse como Reconocimiento Óptico de Caracteres. La noción se utiliza en la informática para nombrar a un procedimiento que permite digitalizar un texto a través de un escáner.

Practicaremos en clase con una web de transformación de pdf's o jpg's a .odt

Los archivos jpg en ocasiones hay que "limpiarlos" un poco con Gimp, para quitar sombras, zonas negras, borrar algún anuncio, o recortar bordes.

con diferentes resultados (no siempre buenos).

Cogí una foto de un artículo del periódico que salía bastante gris, y no se hizo la transferencia demasiado bién. 

Podemos investigar en otros sitios web, si no nos funciona.

Tarea
  1. guarda en tu ordenador la siguiente imagen http://diario-de-estilo.blogs.elle.es/files/2010/03/shouroukstella-texto-1.jpg 
  2. prueba a hacer el OCR de jpg a odt en la web que te indiqué antes
  3. Abre el documento generado con LibreOffice Writer
  4. adapta la página a formato A4 con márgenes de 2 cm por cada lado.
  5. Enséñaselo a la profe para que te apunte la tarea.
  6. Sube un artículo a tu blog contando el ejercicio de hoy, con alguna imagen ilustrativa del trabajo (el "antes" y el "después").


De casualidad encontré un sitio web donde han hecho el OCR a libros antiguos de Darwin, y puedes leer el original el jpg y el texto mal digitalizado, os dejo el vínculo a la obra "La expresión de las emociones" de Darwin: http://darwin-online.org.uk/content/frameset?pageseq=141&itemID=F1214.1&viewtype=side
 
para que el que termine pronto la tarea investigue un poco en esta biblioteca.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.