La deconstrucción del lenguaje humano

Se conoce como generación del lenguaje natural (GLN) al proceso de construcción deliberada de texto en lenguaje natural con el fin de alcanzar capacidades comunicativas previamente especificadas (McDonald, 1987). Con este objetivo, la GLN se convierte en elemento indispensable para múltiples aplicaciones que derivan en fines más concretos como la construcción automática de informes estandarizados, la producción automática de resúmenes, la traducción automática, la publicación multilingüe de documentos, la creación de sistemas de diálogo,  la búsqueda de respuestas, o la presentación multimodal  de la información (entendiendo como tal la diversidad de formas en la emisión de un mensaje). La consecución de éstas y otras aplicaciones relacionadas ha explotado en múltiples tareas de tal complejidad que, con el fin de obtener soluciones de alta calidad, ha planteado diferentes problemas tanto teóricos como prácticos, conformando toda una línea propia de investigación.  De esta manera, y tomando como base la definición de Reiter y Dale (1997), podemos hablar de GLN como una línea de investigación en el ámbito de las Tecnologías del Lenguaje Humano (TLH), cuyo fin último es el de proporcionar un conjunto de herramientas y técnicas capaces de producir texto comprensible en lenguaje natural a partir de una representación no lingüística de la información, generalmente, desde bases de datos o fuentes de conocimiento.

Otra de las grandes líneas que emanan de las TLH es la compresión del lenguaje natural (CLN) que trata de extraer, de manera automática, el significado de un texto dado y obtener una representación estructurada del mismo para su uso posterior. Así, GLN y CLN podrían llegar a entenderse como grandes procesos de análisis simétricos, donde las mismas técnicas empleadas para generar lenguaje natural a partir de datos estructurados, podrían invertirse para generar datos estructurados desde el lenguaje natural. Sin embargo, esta visión naïve de la cuestión dista mucho de la realidad ya que los problemas a resolver en CLN están más relacionados con los mecanismos de análisis y descomposición de la información, mientras que los problemas de la GLN están más relacionados con la obtención de un plan para la composición de la información y su correspondiente modelo de representación. En este contexto, la investigación tradicional de TLH ha disociado sus líneas en las dos grandes ramas citadas, GLN y CLN, dando lugar a un conjunto de aproximaciones diferentes, que si bien parten de hipótesis teóricas comunes, sus realizaciones finales distan en muchos casos de ser compatibles (Reiter & Dale, 2000).

Mientras tanto, la situación actual de las tecnologías de la información, hace que gran parte de las aplicaciones finales de TLH necesiten hacer uso de ambas tecnologías. La cantidad, variedad e inmediatez de la información no estructurada que se genera, día a día en Internet, hace que el uso de bases de datos estructuradas como fuente fundamental de conocimiento haya quedado totalmente obsoleto. Para obtener resultados realmente actualizados y significativos, los nuevos sistemas de GLN deben acometer la captura de información desde colecciones documentales no estructuradas, multilingües y multimodales, con escasas garantías de fiabilidad y diversos grados de formalidad, provenientes de fuentes tan dispersas y diversas como artículos periodísticos, informes técnicos, blogs, microblogs, wikis o redes sociales. En este sentido, los actuales sistemas GLN carecen de sentido si, previamente, no acometen la fase de CLN que genera datos estructurados a partir de las fuentes documentales indicadas y, por tanto, el modelo de GLN no puede ser independiente del modelo CLN. Sin embargo, la realidad es que la investigación generalista, debido a la disociación de sus líneas, ha tratado siempre de manera independiente a ambos modelos. Únicamente, el estudio de una aplicación concreta de principio a fin ha podido generar ese modelo único CLN/GLN que, no obstante, difiere de una aplicación a otra. Consecuentemente, no existe un modelo único de comprensión y generación del lenguaje independiente de la aplicación.

Otra vertiente a considerar es la nueva readaptación del modelo clásico de GLN, que comienza a orientarse hacia las nuevas formas sociales de expresar la información y de transmitirla. El problema ya no es tanto la generación de lenguaje textual sintácticamente correcto como las nuevas perspectivas multimodales, multilingües, con diferentes grados de formalidad y de subjetividad que conviven con las clásicas formas de comunicación. Como consecuencia de estos cambios, se abre un campo de investigación orientado hacia los nuevos modelos del lenguaje humano y no tanto en los componentes del lenguaje natural; a los cuales nos referimos con CLH/GLC (Comprensión/Generación del Lenguaje Humano).

La deconstrucción en la generación del lenguaje humano

Este equipo de investigación, consciente de los nuevos retos que deben resolver los sistemas de generación del lenguaje humano, plantea en este proyecto un nuevo modelo, independiente de la aplicación,  capaz de integrar las fases de comprensión y generación del lenguaje, basado en el concepto postmodernista de deconstrucción.

El célebre creador gastronómico, Ferran Adrià , define la deconstrucción en cocina como "utilizar (y respetar) armonías ya conocidas, transformando las texturas de los ingredientes, así como su forma y temperatura [….] manteniendo cada ingrediente o incluso incrementando la intensidad de su sabor" (Adrià, 1998). Esta definición, a su vez, se apoya en la filosofía de la ‘Escuela de Arquitectura Deconstructivista’, un movimiento que se inició a finales de la década de 1980, caracterizado por  la fragmentación, la manipulación de las ideas de la superficie de las estructuras, las formas no rectilíneas, la distorsión y dislocación de los principios elementales de la arquitectura respecto a la estructura y la envolvente del edificio. Dicha escuela tiene su base en el movimiento teórico-literario también llamado deconstrucción. En ambos casos, se trata de un nuevo procedimiento cuyo objetivo es la ruptura del orden predeterminado mediante la descomposición de las estructuras conocidas en unidades esenciales de conocimiento (sean ingredientes culinarios o piezas arquitectónicas) que, tras ser potenciadas y enriquecidas,  vuelven a combinarse en nuevas estructuras impredecibles para el observador. Se trata de un viaje que partiendo del orden preestablecido se dirige al caos; y del caos a un caos controlado, aunque impredecible se muestra revelador. El deconstructivismo permite al observador percibir un conocimiento inédito, una nueva perspectiva, a partir de ingredientes básicos extraídos de fuentes sobradamente conocidas.

En este proyecto, siguiendo la analogía que el propio Ferran Adrià  realiza entre cocina y lenguaje, se descontextualizará el concepto de deconstrucción para redefinirlo en el marco de las Tecnologías del Lenguaje Humano, como un modelo que permitirá descomponer textos conocidos en un caos de unidades básicas de conocimiento (fase de comprensión del lenguaje) que, mediante la apropiada definición de nuevas estructuras, volverá a combinarse para proporcionar nuevos conocimientos (fase de generación del lenguaje). La deconstrucción, así entendida, nos permitirá modelar una nueva metodología para la generación de un lenguaje humano no tan centrado en la definición de estructuras gramaticales correctas sino de estructuras prácticas que muestren al receptor nuevos conocimientos ocultos en los documentos originales.

En consecuencia, este proyecto perseguirá tres metas fundamentales. En primer lugar, la definición de una unidad básica de conocimiento orientada a la GLH a la que denominaremos L-Brick (Language Brick, o Ladrillo de Lenguaje) por analogía con las piezas básicas (bricks) usadas en los famosos juegos infantiles de bloques, que se convierten en unidad atómica para reconstruir diferentes objetos del mundo real. En segundo lugar, el modelado del proceso de deconstrucción que, a partir de una colección documental, debe ser capaz de generar la representación del mismo en un sistema caótico de L-Bricks, definiendo el conjunto de recursos y técnicas útiles para dotar de contenido necesario a esas estructuras. Y por último, el rediseño de las tareas de los sistemas clásicos de GLN en función de los L-Bricks y de sus reglas de composición, de tal manera que permitan definir nuevas formas de comunicación del conocimiento, tomando como única base la información contenida en ellos.

Desde esta perspectiva, el L-Brick se convierte en el elemento central que funde los modelos CLH y GLH al contener, por un lado, todo lo necesario para la GLH, pero a su vez, todo su contenido deberá ser cargado desde las tareas de CLH. Dicho de otra manera, la generación se redefine pensando en el resultado de la comprensión, y a su vez, la comprensión se redefine pensando en la generación.

La Figura 1 representa gráficamente la propuesta de CLH/GLH que se espera alcanzar como objetivo fundamental de este proyecto. Un caso de estudio que ilustraría esta propuesta podría ser el que plantease un usuario buscando noticias sobre un hecho ocurrido (por ejemplo, el naufragio del crucero Costa Concordia ), en el que nuestra propuesta recopilaría todas las fuentes de información que traten dicho suceso, para llevar a cabo el proceso de CLH, deconstruyendo en L-Bricks a partir de los cuales el usuario podría seleccionar el tipo de aplicación que generaría nuevas formas de comunicar conocimiento. Entre otras soluciones, podría solicitar un resumen parametrizado por el estilo (formal, informal o simplificado según el paradigma de lectura fácil), longitud en palabras, tasa compresión e idioma (es decir generando el resumen en un idioma diferente al de origen). Otra aplicación podría ser la Búsqueda de Respuestas en la que a partir de una pregunta del usuario, en lugar de mostrar la respuesta como un extracto seleccionado de los documentos de entrada, se generase una respuesta con información de diferentes documentos. Una nueva aplicación podría ser la solicitud de generar un esquema o grafo temporal de la sucesión de acontecimientos o noticias del suceso. Por último, también podría generarse información multimodal, diferente a la textual, como sería la generación de imágenes más relevantes del accidente.

Propuesta de tratamiento del lenguaje humano mediante técnicas de deconstrucción

Figura 1. Propuesta de tratamiento del lenguaje humano mediante técnicas de deconstrucción