Menú

¿Cómo funciona el análisis de imagen en la gestión de contratos?

En este artículo, vamos a echar un vistazo más de cerca a los principales bloques de construcción de la inteligencia artificial de DiliTrust con el fin de desmitificar el trabajo de nuestro equipo de Científicos de Datos y hacerlo más concreto. Está dirigido a un público principiante que desee comprender mejor determinadas técnicas de inteligencia artificial.

En el proceso de análisis de contratos desarrollado por DiliTrust, todo suele empezar con el análisis de imágenes. La mayoría de los documentos que procesamos son documentos escaneados en los que no se puede acceder directamente al texto. Por lo tanto, es necesario pasar por una fase de análisis de la imagen, cuyo objetivo es resolver los siguientes problemas

extraer el texto de la imagen (reconocimiento óptico de caracteres u OCR),
extraer elementos visuales importantes como iniciales, firmas o sellos,
comprender el orden de lectura del documento, lo que resulta especialmente necesario en el caso de los documentos con varias columnas.
Aunque estas tareas puedan parecer muy diferentes, en realidad implican técnicas de análisis similares.

En este artículo encontrará más información sobre las técnicas de análisis y sus aplicaciones prácticas en la gestión de contratos.

¿Cómo funciona el análisis de imagen para los contratos?

Las técnicas de análisis de imágenes que utilizamos en DiliTrust se basan en redes neuronales cuyo objetivo es extraer representaciones interesantes, o características, que luego pueden utilizarse para resolver un problema concreto.

Imaginemos que queremos saber si se ha firmado nuestro contrato:

En primer lugar, ¿qué es una imagen desde el punto de vista de la red neuronal?
Cuando vemos un contrato, la red ve una enorme tabla de números, una matriz. Cada celda de esta matriz contiene 3 valores que corresponden a la intensidad de los colores rojo, verde y azul de cada píxel de la imagen. Esta matriz contiene varios millones de celdas.

Esta representación no es muy adecuada para deducir si nuestro contrato contiene o no una firma. Para ello, necesitamos analizar nuestra imagen a mayor escala, para encontrar zonas de interés que agrupen varios píxeles. En otras palabras, necesitamos establecer vínculos entre distintas partes de nuestra imagen.

Para ello, utilizamos las llamadas redes neuronales convolucionales. Un filtro de convolución puede verse como una ventana que se desliza sobre la imagen inicial, nuestra gran matriz, y realiza operaciones matemáticas en todos los píxeles contenidos dentro de esta ventana. Como resultado, este filtro extrae información localmente de los distintos píxeles contenidos dentro de la ventana.

Estos filtros se han utilizado siempre en el análisis de imágenes, incluso antes que las redes neuronales. Se pueden utilizar para desenfocar una imagen, detectar contornos o mejorar la nitidez, simplemente modificando los parámetros que componen el filtro. El ejemplo siguiente muestra el resultado de una convolución, que consiste simplemente en sacar la media de los píxeles alrededor de una posición dada. Podemos ver que a medida que aumentamos el tamaño de la vecindad considerada, la imagen se vuelve más borrosa.

Les avancées récentes dans le domaine de l’analyse d’image par réseaux de neurones convolutionnels viennent du fait que les filtres de convolution sont désormais appris par le modèle lors d’une phase d’entraînement. Les filtres obtenus sont donc, en théorie, les plus adaptés à la tâche sur laquelle le modèle a été entraîné. Néanmoins, là où nous gagnons en performance, nous perdons en interprétabilité. En effet, les filtres ainsi appris ont un effet plus difficile à interpréter que ceux que nous avons pu présenter.

Análisis de imagen y gestión de contratos en acción

OCR

El OCR es el proceso de localizar y extraer todas las palabras y letras contenidas en una imagen. Es un paso esencial cuando se desea extraer y analizar la información textual contenida en un contrato. En DiliTrust, utilizamos nuestro ladrillo OCR para :

Indexar automáticamente el contenido de sus contratos para ofrecerle un potente motor de búsqueda,

Analizar y extraer el contenido de sus contratos para extraer los elementos más importantes, como las partes del contrato, la fecha de vencimiento, el plazo de preaviso o determinadas cláusulas (fuerza mayor, responsabilidad, etc.)

Análisis de la estructura del documento

Un contrato no es siempre una mera sucesión de cláusulas, y su formato puede variar mucho de una empresa a otra. Existen muchas variaciones posibles en la estructura de los contratos: multicolumna, tabla, formulario, etc. Para ofrecer un análisis lo más sólido posible, hemos desarrollado nuestro propio ladrillo de análisis de la estructura de los documentos para :

  • mejorar las etapas de análisis y extracción, que son especialmente sensibles a la calidad del texto;
  • detectar posibles zonas de interés (tablas, encabezados, pies de página, etc.) para poder ignorarlas o, por el contrario, buscar en ellas información específica.

Extracción de firmas con el análisis de imagen

Un contrato solo adquiere validez una vez firmado, por lo que esta suele ser una de las primeras cosas que los clientes de DiliTrust tratan de comprobar. Además de las firmas, nuestra IA es capaz de detectar iniciales y elementos manuscritos de un contrato para identificar rápidamente cualquier tachadura o corrección.

¿Quiere hablar con uno de nuestros expertos?