OCR es la sigla de Optical Character Recognition,
una expresión en lengua inglesa que puede traducirse como
Reconocimiento Óptico de Caracteres. La noción se utiliza en la
informática para nombrar a un procedimiento que permite digitalizar un
texto a través de un escáner.
Practicaremos en clase con una web de transformación de pdf's o jpg's a .odt
Los archivos jpg en ocasiones hay que "limpiarlos" un poco con Gimp, para quitar sombras, zonas negras, borrar algún anuncio, o recortar bordes.
con diferentes resultados (no siempre buenos).
Cogí una foto de un artículo del periódico que salía bastante gris, y no se hizo la transferencia demasiado bién.
Podemos investigar en otros sitios web, si no nos funciona.
Tarea:
- guarda en tu ordenador la siguiente imagen http://diario-de-estilo.blogs.elle.es/files/2010/03/shouroukstella-texto-1.jpg
- prueba a hacer el OCR de jpg a odt en la web que te indiqué antes
- Abre el documento generado con LibreOffice Writer
- adapta la página a formato A4 con márgenes de 2 cm por cada lado.
- Enséñaselo a la profe para que te apunte la tarea.
- Sube un artículo a tu blog contando el ejercicio de hoy, con alguna imagen ilustrativa del trabajo (el "antes" y el "después").
De casualidad encontré un sitio web donde han hecho el OCR a libros antiguos de Darwin, y puedes leer el original el jpg y el texto mal digitalizado, os dejo el vínculo a la obra "La expresión de las emociones" de Darwin: http://darwin-online.org.uk/content/frameset?pageseq=141&itemID=F1214.1&viewtype=side
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.