CULTURA Y DIVULGACIóN
302 meneos
3154 clics
La Hemeroteca Digital de la Biblioteca Nacional de España ya es descargable en formatos abiertos, libres y reutilizables

La Hemeroteca Digital de la Biblioteca Nacional de España ya es descargable en formatos abiertos, libres y reutilizables

La Biblioteca Nacional de España ha anunciado que el texto completo de las publicaciones de dominio público de la Hemeroteca Digital ya pueden descargarse en formatos abiertos libres y reutilizables. Gratis, por supuesto. La institución ha incorporado una nueva página a su web en la que se recoge un listado de los título de dominio público cuyo texto al completo puede ser descargado. Estos textos, explican, se obtienen a partir de un proceso de reconocimiento óptico de caracteres u OCR.

| etiquetas: hemeroteca , biblioteca nacional de españa , bne , datos
156 146 0 K 430
156 146 0 K 430
Tienen La Flaca. El título quizás no os diga nada, pero seguro que todos habréis visto viñetas de esa revista en los libros de texto de bachillerato. Esta que pongo debajo es una de las viñetas más conocidas que hayan aparecido en las páginas de La Flaca. Dejo enlace a la revista.
hemerotecadigital.bne.es/details.vm?q=id:0004088885&lang=es  media
Gracias por el envío
Buena iniciativa, pero espero que mejoren el OCR, porque el resultado a menudo es catastrófico. Por poner un ejemplo, este "semanario económico" de 1765: hemerotecadigital.bne.es/issue.vm?id=0003999177&search=&lang=e . No pegaré el texto que obtiene el sistema de reconocimiento de texto porque es prácticamente ilegible, entiendo que es un texto viejo y mal fotocopiado, pero por ejemplo se detecta la "s" del texto, que es bastante curiosa, con "C" o "f". Y si aun fuera sólo eso, pero hay muchísimos otros fallos. Creo que hace falta una generación de reconocimiento de textos que utilice las técnicas más modernas de AI para ser capaz de hacer una traducción más efectiva.
#4 #5 Lo ideal (creo) es que pusieran un pdf que integre el texto en el propio documento con lo que se haya podido rescatar con el ocr. Permitiría hacer alguna búsqueda y se agradecería. Pero los txt que he probado, sin una referencia contextual no me parece que tengan mucho interés y son bastante ilegibles. Y aunque el texto fuera correcto, imagina un periódico de hoy en día convertido en txt, sin distinguir titulares de noticias ni columnas, etc... no lo veo. Un gasto de recursos y dudo que valga para algo.
#4 #5 #9 Me he colado y veo que SI que hay botón para descargar el pdf y tiene el texto integrado en el sitio de la imagen... OK. Era a lo que me refería. Eso si que me parece útil. Aunque siempre se podría mejorar el ocr, claro.
A ver si tienen La Flaca, mítica revista de la segunda mitad del siglo XIX.
Pero alguien ha abierto algún texto?
He abierto uno aleatoriamente y...  media
Sería de agradecer que el listado en sí pudiera descargarse en formato xls o csv, y que en la actualización mensual hubiese un enlace a las novedades (si hubiese)
#2: Y JSON, que es un formato hijo de JavaScript y está bien porque hay bibliotecas de lectura para muchos lenguajes diferentes.
#2 Y perfumado con unas gotas de Shumukh.
En TXT no pocos de ellos, que reutilizable, por favor... Ahora sí, compatible de narices.

Saludos.

menéame