Consultoría & Consultores

El reconocimiento de texto es una técnica analítica que resulta cada vez más necesaria en el mundo de los negocios. Son muchas las empresas, independientemente del sector al que pertenezcan, que cuentan con información como albaranes, facturas o informes en formato imagen (documentos escaneados o fotografiados). Para poder extraer los datos de estos documentos, deben ser leídos por una persona física que introduzca finalmente la información en la base de datos correspondiente para que pueda ser explotada. Con el fin de optimizar este proceso que resulta tedioso y acarrea un gasto notable de dinero y tiempo, se crean los sistemas de reconocimiento de texto.

A pesar de que en este post nos queremos centrar en el uso del reconocimiento de texto para automatizar la extracción de información de documentos, es importante destacar que existe una multitud de usos posibles para estos sistemas, como por ejemplo la detección de matrículas en imágenes, de nombres de calles, reconocimientos de marcas de ropa, publicidad, etc.

¿Qué es el reconocimiento de texto?

El reconocimiento de texto es una técnica analítica que consigue extraer y analizar la información que se encuentra en documentos de formato imagen, como por ejemplo JPG o PNG. Se puede aplicar a cualquier imagen que contenga texto, independientemente del idioma en el que esté el mismo.

No se deben analizar los sistemas de reconocimiento de texto como un ente aislado con la única finalidad de detectar y extraer datos de manera automática de documentos que a priori no son procesables. El desarrollo de estos sistemas debe ir de la mano del desarrollo de un sistema de procesamiento de lenguaje natural (NLP), a partir del cual se puedan analizar y estudiar dichos textos de manera individual y conjunta, sacando el máximo partido posible de la información.

En el siguiente vídeo, se muestra una demo sobre cómo un sistema de reconocimiento de texto es capaz de automatizar y explotar la información contenida en un conjunto de facturas:

Como se puede ver en el vídeo, tras el análisis de los datos se puede saber la cantidad de cada tipo de factura, el dinero que supone cada una de ellas, su evolución a lo lago de los años, etc.

¿Cómo funciona el reconocimiento de texto?

Actualmente la tecnología más utilizada para los sistemas de reconocimiento de texto es el Deep Learning o Aprendizaje Profundo. Pero ya desde los años 90 se analizaba y trabajaba con los sistemas de OCR o reconocimiento óptico de caracteres, para intentar reconocer textos en imágenes.

Con el fin de conseguir llevar a cabo el reconocimiento de texto en imágenes, estas técnicas de Deep Learning primero localizan dónde se encuentra ubicado el texto dentro de la imagen para posteriormente identificar qué palabras componen ese texto.

Para localizar el texto dentro de la imagen, se utilizan redes neuronales convolucionales (CNN). Se ha demostrado de manera reciente, que el hecho de añadir una red recurrente (actualmente se utiliza una LSTM) tras la CNN que ayude a detectar patrones, mejora la precisión de dicha extracción.

Para la segunda etapa de los sistemas de reconocimiento de texto, vuelven a utilizarse redes convolucionales. Antes de intentar identificar el texto de la imagen, es importante realizar una binarización del contenido (texto negro sobre blanco), quitar el ruido de la imagen lo máximo posible, etc. Para adaptarse a cómo haya sido entrenada esta red, es importante antes de introducir los bloques de texto identificados, que se realice un muestreo de cada bloque de texto, creando para la misma imagen diferentes tamaños.

Seguidamente se introduce toda esta información dentro de la red que se encargará de identificar el texto. Es recomendable, en caso de conocer el idioma añadir un pequeño diccionario tras la CNN para evitar errores debido al parecido de ciertas letras, mejorando mucho la solución.

En el siguiente vídeo se realiza una explicación técnica de cómo funcionan estos sistemas de reconocimiento de texto, y cuáles son las dificultades a la hora de realizar su tarea.

Los sistemas de reconocimiento de texto resultan tremendamente útiles para las empresas, ya que agiliza procesos internos, facilita el acceso a los datos, saca valor de los mismos y además aumenta la seguridad de la información.