Segmentación y Clasificación Automática

Segmentación y Clasificación

En tranSkriptorium, además de ser especialistas en reconocimiento automático de texto manuscrito, ofrecemos servicios de segmentación y clasificación documental para transformar grandes volúmenes de archivos en colecciones estructuradas, comprensibles y fáciles de gestionar.

La segmentación es el proceso de reconocer los segmentos que componen un texto y separarlos ordenadamente en bloques coherentes de información, los cuales pueden extenderse por unos pocos párrafos a una o múltiples páginas. Una vez segmentado, si fuera necesario, cada bloque puede ser clasificado en categorías predefinidas según su contenido, lo que permite automatizar su organización y búsqueda.

Ventajas

Entre otros, la segmentación y la clasificación tienen utilidades muy demandadas:

  • Búsqueda optimizada: mejora la navegación, búsqueda y ordenación, ideal para archiveros, investigadores y el público en general.
  • Organización automatizada: facilita la administración, el control de acceso y reduce el esfuerzo en tareas manuales.
  • Preparación a futuro: este proceso completo, o cualquiera de sus partes por separado, podrían agilizar un futuro análisis de la colección.

Páginas de muestra

Retos

El mayor reto de la segmentación y la clasificación es la correcta anotación de las muestras de entrenamiento y la calidad y balance de éstas. Para garantizar resultados precisos, es necesaria la anotación precisa de la información contenida en cada segmento por los transcriptores y su clase predeterminada. Se ha de escoger con cautela un conjunto muy representativo de la colección a segmentar y clasificar (Ground Truth). Los problemas más comunes que significan un reto son:

  • Ambigüedad en las clases: a veces, incluso para los transcriptores, dividir manualmente un texto ya existente en segmentos de información coherente, o incluso reconocer a qué tipo de documento pertenece, es una tarea compleja. Otras veces, un documento podría no encajar en ninguna clase de las predeterminadas. Los errores de este tipo son cruciales.
  • Desbalanceo: es común que entre una colección se encuentren muchos documentos de una clase y sólo unos pocos de alguna otra clase. Este desbalanceo hace que el entrenamiento requiera técnicas específicas de compensación.
  • Calidad del texto: la clasificación y la segmentación se basan, principalmente, en el contenido textual. Un texto de mala calidad o una mala transcripción, manual o automática, implica una mala segmentación y clasificación. Si se trata de texto manuscrito (nuestra especialidad), un reconocimiento de texto satisfactorio es primordial.

Resultados

Segmentación

Para medir cuán bien hemos realizado la segmentación, usamos como medida el Error de Alineamiento de Contenido (CAER), que mide cuánta información de un segmento ha sido tomada como parte de otro al que no pertenece. Así pues, la segmentación se considera mejor cuanto más bajo es el CAER.

En el proceso de segmentar, se engloban casos de dos tipos:

  • Aquellos en los que toda una página pertenece al mismo segmento.
  • Aquellos en los que varias páginas pueden contener segmentos distintos.

En el primero de los casos, la segmentación ha resultado con un CAER menor de 5%. Para el segundo caso, alguna colección resultó con un CAER de menos de un 3%.

Clasificación

En clasificación, al tratarse de un resultado binario a diferencia de la segmentación, se usa como métrica común el Porcentaje de Error (ER), que indica cuántos documentos se han clasificado mal del total a clasificar. Por lo tanto, una clasificación es mejor cuanto más bajo es el ER.

En el caso de los documentos de un archivo, entre los cuales había que clasificar poderes, testamentos, ventas, cesiones, etc; se consiguió un ER de menos de un 6%.

 

Idiomas

Cualquiera

Siglo

Tipo de Escritura

Mecanografiada, Cortesana, Impresa, Humanistica

Estructura

Cuerpo de texto, Tablas, Fichas, Partituras, Periódicos

Entidades

Cualquiera

Tecnologías

Clasificación, Segmentación

Idiomas

Cualquiera

Siglo

Tipo de Escritura

Mecanografiada, Cortesana, Impresa, Humanistica

Estructura

Cuerpo de texto, Tablas, Fichas, Partituras, Periódicos

Entidades

Cualquiera

Tecnologías

Clasificación, Segmentación