Seguro que has escuchado más de una vez el término “Procesamiento del Lenguaje Natural” (PLN) o su nombre en inglés Natural Language Processing (NLP). Esta tecnología no es nueva, pero sí es cierto que su evolución en los últimos años ha sufrido un crecimiento exponencial debido a los grandes volúmenes de datos disponibles, la capacidad de computación actual y los avances en el campo de la algoritmia. ¿Sabes qué es el Procesamiento del Lenguaje Natural y para qué se utiliza actualmente? Te lo contamos en este artículo.
El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje. Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.
Los asistentes virtuales o chatbots son una de las utilidades más conocidas de la PLN, pero no son la única. Además, es importante entender que el PNL no dota de inteligencia a un chatbot, sólo le da la capacidad de procesar y generar lenguaje humano. En caso de querer dotar de inteligencia a un asistente virtual, habría que utilizar sistemas como reglas o redes neuronales.
Muchas veces cuando se habla de procesamiento de lenguaje natural, algunas personas únicamente lo relacionan con los chatbots, por eso vamos a ver otros usos del PLN.
El procesamiento del lenguaje natural (PLN o NLP), se utiliza actualmente en diferentes áreas y para distintas funciones, como por ejemplo:
La comprensión del lenguaje natural (CLN o NLU) es la parte del procesamiento del lenguaje natural que se encarga de interpretar un mensaje y entender su significado e intención, tal y como haría una persona. Para que el sistema funcione necesita datasets en el idioma específico, reglas de gramática, teoría semántica y pragmática (para entender el contexto e intencionalidad), etc.
La generación del lenguaje natural (GLN o NLG) dota a la máquina de la capacidad de crear un nuevo mensaje en lenguaje humano de manera autónoma. De manera resumida, lo que hacen estos modelos es: escoger la información a reproducir (dependiendo de la interpretación del mensaje a contestar), decidir cómo organizarla y cómo reproducirla (léxico y recursos gramaticales, morfología, estructuras sintácticas, etc.). Estos modelos generan frases nuevas palabra a palabra y tienen que ser entrenados para que funcionen correctamente.
La recuperación de información (RI) o en inglés Information Retrieval (IR), es el campo dentro de la informática que se encarga de procesar textos de documentos, para poder recuperar partes específicas en base a palabras clave. Por ejemplo técnicas como la extracción de información estructurada (permite obtener de un documento el trozo de texto en el que está lo que buscas) o los sistemas de respuesta a preguntas de usuarios (que devuelve ante una consulta, una respuesta de una batería de respuestas ya existentes, asociadas a palabras clave de la consulta). No genera nuevas frases, por lo que no necesita utilizar reglas gramaticales. No es tan “inteligente” como la Generación del Lenguaje Natural.
Los sistemas de reconocimiento de voz procesan los mensajes en voz humana, los transforman en texto, los interpretan y comprenden la intencionalidad de los mismos, y tras la generación de la respuesta en texto, se vuelve a transformar en voz humana a través de la síntesis de voz. La síntesis del habla o de voz, es la que capacita a la máquina para poder generar y reproducir habla en lenguaje natural.
La Traducción automática o Machine Translation en inglés, es un campo de investigación dentro de la lingüística computacional que estudia los sistemas capaces de traducir mensajes entre diferentes lenguas o idiomas. Por ejemplo Google es una de las empresas que más ha invertido en sistemas de traducción automática, con su traductor que utiliza un motor estadístico propio. Los sistemas de autocorrección y autocompletado de texto, también utilizan Procesamiento del Lenguaje Natural (PLN o NLP).
También se está utilizando el procesamiento del lenguaje natural para resumir textos de extensiones largas de manera automática o extraer palabras clave para clasificarlos. Muchas veces, debido a la gran cantidad de documentación o por la longitud de la misma, utilizar estos sistemas ayuda en sectores como el legal a encontrar partes dentro de las leyes, o resumir una gran cantidad de documentación.
Otro de los usos que se le da a esta función de clasificación, es la de detección de spam. Empresas como Google utilizan esta tecnología para clasificar los textos de los correos electrónicos y detectar si se trata de spam o no. Para esto, toman palabras clave como “gratis” o “descuento”, la condición de palabras en mayúscula o las exclamaciones.
Uno de los usos más novedosos del PLN es el análisis de sentimientos. Cada vez más empresas y profesionales del marketing están utilizando esta tecnología para saber qué sienten los usuarios sobre una marca, producto o servicio, utilizando datos de entrada como mensajes, comentarios o reacciones en diferentes redes sociales.