Registro-Índice de la Población Reclusa (1938-1955)
Indexación probabilística automática (PrIx) del Registro-Índice de la Población Reclusa (1938-1955), un conjunto de datos históricos que contiene más de 500.000 imágenes de registros de presos. Este proyecto permite búsquedas textuales eficientes en imágenes digitalizadas de estos registros mediante PrIx. A diferencia del Reconocimiento de Texto Manuscrito (HTR), que a menudo presenta dificultades de precisión en documentos degradados o complejos, PrIx ofrece un enfoque más flexible y robusto para la recuperación de información.
Los documentos proceden de la posguerra civil española, durante la cual se generaron vastos registros sobre presos políticos. Estos registros incluyen datos personales, detalles de encarcelamientos e información sobre sentencias. Dada la variabilidad en los estilos de escritura, las condiciones de los documentos y la calidad de archivo, la selección cuidadosa de los datos de entrenamiento para los modelos de aprendizaje automático fue crucial.El proyecto evalúa los desafíos tipográficos, paleográficos y estructurales inherentes a estos documentos para optimizar el proceso de indexación.
La aplicación de PrIx a archivos históricos de gran tamaño, en particular aquellos con mala legibilidad y diversos estilos de escritura, facilita la investigación histórica, mejora el acceso a los materiales de archivo y apoya las iniciativas en curso en humanidades digitales y estudios de justicia transicional.
Además, debido a los requisitos legales de la legislación española, ciertos datos de estos registros se han anonimizado automáticamente eliminando los datos extraídos de campos específicos y censurando dichas secciones de las imágenes correspondientes.
Este trabajo destaca la importancia de las técnicas avanzadas de indexación para preservar y democratizar el acceso a los registros históricos, permitiendo a los investigadores y al público explorar el complejo pasado de España de forma más eficaz.
Páginas de muestra








Retos
La indexación probabilística automática (PrIx) del Registro-Índice de la Población Reclusa (1938-1955) presenta varios desafíos debido a la variabilidad y complejidad de los documentos históricos involucrados. Estos desafíos surgen de inconsistencias en la estructura de los documentos, la diversidad de escrituras y la necesidad de procesamiento automatizado de datos para mejorar la capacidad de búsqueda y cumplir con los requisitos legales.
Una de las principales dificultades radica en que, aunque los documentos estaban estructurados como formularios, quienes los escribieron no siempre se adhirieron a los campos designados. La información a menudo se escribía fuera de las áreas predefinidas, lo que dificultaba la extracción y categorización automática de datos. Esta falta de un formato estricto complica el proceso de indexación, requiriendo técnicas avanzadas de aprendizaje automático para detectar y reconocer correctamente el texto manuscrito.
Otro desafío se deriva del hecho de que los documentos fueron escritos por varias personas durante un largo período, lo que resulta en variaciones significativas en los estilos de escritura, los tipos de tinta y los instrumentos de escritura. Estas variaciones afectan la precisión de los modelos de reconocimiento de texto, ya que deben ser entrenados para manejar una amplia gama de diferencias tipográficas y paleográficas. La presencia de tinta descolorida, manchas y papel degradado dificulta aún más la extracción de información fiable.
El proceso de anonimización añade complejidad. Los campos que requerían anonimización no siempre aparecían en una posición fija dentro de los formularios; en ocasiones, se ubicaban libremente dentro del documento. Esta variabilidad dificulta la localización y redacción automática de información confidencial, lo que requiere métodos robustos de reconocimiento de texto y diseño para detectar estos campos independientemente de su posición.
Además, el conjunto de datos consta de múltiples plantillas de formulario, cada una con estructuras y ubicaciones de campos distintas. Esta diversidad requiere modelos adaptativos capaces de identificar y procesar diferentes formatos de documento sin una intervención manual extensa. La estandarización de la extracción entre diversas plantillas garantiza la coherencia en la indexación y la funcionalidad de búsqueda.
Otro aspecto crítico es el manejo de abreviaturas. Muchas entradas contienen versiones abreviadas de palabras, que deben expandirse automáticamente para una búsqueda eficaz. Esto requiere un sistema sofisticado de normalización de texto capaz de reconocer abreviaturas históricas comunes y convertirlas a sus equivalentes completos, preservando al mismo tiempo el significado contextual.
Resultados
Se procesaron con éxito más de 500.000 imágenes digitalizadas de registros históricos de prisioneros.El proyecto aplicó eficazmente técnicas de aprendizaje automático para extraer, indexar y anonimizar la información textual de estos documentos, lo que permitió una búsqueda eficiente a pesar de los desafíos que plantean la variabilidad de la escritura a mano, la degradación de los documentos y las inconsistencias estructurales.
Para evaluar el rendimiento del sistema, se analizaron varias métricas clave, categorizadas en resultados de reconocimiento de texto global, impreso y manuscrito:
- Tasa de Error de Caracteres (CER): 4,4 (global), 0,7 (impreso), 9,5 (manuscrito)
- Tasa de Error de Palabras (WER): 9,7 (global), 1,0 (impreso), 20,1 (manuscrito)
- Precisión Promedio (AP): 0,94 (global), 0,99 (impreso), 0,87 (manuscrito)
Estos resultados demuestran una alta precisión, especialmente para texto impreso, a la vez que mantienen un rendimiento sólido para texto manuscrito a pesar de su complejidad inherente.El enfoque de indexación probabilística permitió una recuperación eficaz de la información incluso en casos de escritura muy variable o difícil de descifrar.
Todos los datos y resultados procesados se han puesto a disposición en la plataforma del cliente, garantizando la accesibilidad a investigadores e instituciones interesados en explorar los archivos históricos penitenciarios de España. Este proyecto representa un avance significativo en la preservación y democratización del acceso a los archivos históricos mediante tecnologías avanzadas de indexación y búsqueda.