ExtraDOC
ExtraDOC (Extracción de Información de Imágenes de Documentos de Texto) es un proyecto de I+D centrado en mejorar las capacidades del conjunto de herramienta de PrIx. El proyecto busca desarrollar técnicas especializadas de aprendizaje automático para extraer y analizar información directamente de imágenes de documentos de texto, especialmente documentos manuscritos complejos.
Objetivos:
El objetivo principal de ExtraDOC es facilitar el análisis y la catalogación integral de documentos sin necesidad de transcribir el texto completo. Para lograrlo, el proyecto integra y mejora varias funciones clave en el ecosistema PrIx:
- Clasificación de Documentos: PrIx permite la clasificación automática de documentos en categorías predefinidas mediante la representación propia del contenido textual.
- Segmentación de Documentos: ExtraDOC permite la segmentación de documentos en secciones significativas. Los documentos simples se pueden segmentar utilizando únicamente análisis de las imágenes, mientras que los documentos complejos se benefician de la combinación de las características de la imagen con la comprensión textual derivada del resultado de PrIx
- Analítica de Textos: El proyecto introduce métodos para extraer y analizar información textual (p. ej., nombres, lugares, fechas, cantidades) y estadísticas de documentos manuscritos.
- Búsqueda y extracción de información semántica: ExtraDOC va más allá del contenido superficial para extraer relaciones semánticas dentro de documentos. Esto incluye la identificación de relaciones estructurales en tablas o formularios (clave-valor), lo que permite funciones avanzadas de búsqueda y recuperación de información
ExtraDOC ha demostrado la potencia y flexibilidad del ecosistema basado en PrIx en el manejo de documentos manuscritos complejos, logrando avances significativos en el campo del análisis de imágenes de documentos. Su capacidad para realizar una extracción robusta de información sin transcripción abre nuevas posibilidades para el procesamiento a gran escala de archivos históricos, registros administrativos y otras fuentes documentales.
El proyecto ha sido subvencionado por el Centro para el Desarrollo Tecnológico e Industrial (CDTI), en el marco del programa Neotec2022 (EXP00152032/SNEO20222386).
Páginas de muestra








Retos
Uno de los principales desafíos del proyecto ExtraDOC fue la complejidad y variabilidad inherentes a los documentos manuscritos.
Estos documentos suelen presentar diversos diseños y degradaciones, como deterioro físico, manchas y tinta superpuesta, lo que limita considerablemente la fiabilidad de las técnicas estándar de procesamiento y reconocimiento de imágenes.
Además, los documentos suelen incluir varios idiomas y una amplia gama de estilos de escritura, muchos de los cuales son muy irregulares o difíciles de leer. Los autores rara vez se adhirieron estrictamente a formatos estructurados, como tablas o formularios, y a menudo colocaban la información libremente a lo largo de la página, lo que complica la extracción de datos estructurados.
Para tareas como la clasificación y la segmentación, otra dificultad significativa fue que las categorías de los documentos suelen ser implícitas y no se indican directamente en el texto. En su lugar, el sistema debe aprender a inferir la clase o estructura de un documento basándose en pistas contextuales, patrones de diseño o elementos visuales y semánticos, lo que requiere modelos robustos de aprendizaje automático capaces de gestionar datos con ruido, ambiguos y con etiquetas débiles.