El procesamiento del lenguaje natural (PLN) trata de la gestión automatizada de cualquier fuente escrita o hablada en general no estructurada, es decir, textos y conversaciones de cualquier origen y dominio de aplicación. Es un área de investigación compleja, tanto o más como el propio lenguaje humano, en el que se deben tratar problemas estructurales y cognitivos. Morfología, sintaxis, semántica, y pragmática, todos son aspectos del lenguaje susceptibles de automatización. La multilingualidad es otro aspecto que cada día adquiere mayor relevancia. La mejora de los interfaces abandonando los límites impuestos por los formularios cada vez más demandada.
El fin último es conseguir desarrollar herramientas que lleguen a la comprensión del lenguaje y, por tanto, a la comunicación de ideas y al razonamiento. La llamada Sociedad de la Información no sólo exige acceso a todo tipo de materiales, principalmente textos, sino que genera una cantidad de nuevos documentos que crece exponencialmente cada día. Actualmente, ya es imposible manejar tal cantidad de información sin la ayuda de un ordenador y de las herramientas lingüísticas adecuadas. Nadie, por ejemplo, se plantea su trabajo, hoy en día, sin recurrir a un corrector ortográfico, un traductor o un buscador.
Sin embargo, es un área de investigación relativamente reciente que representa un gran reto, y que necesariamente se ha de fraccionar en subproblemas más o menos complejos. Los siguientes son nuestra oferta y nuestros principales intereses en investigación sobre el PLN:
Recuperación de Información, que incluye diversas herramientas según el resultado esperado: la propia recuperación, la extracción de información, la respuesta a preguntas y la minería de textos.
Análisis Semántico, desde el significado de las palabras en el texto hasta la detección de sentimientos y emociones.
Generación de Recursos para el PLN, imprescindibles para el funcionamiento preciso y eficiente de las herramientas lingüísticas.
También puede consultarse el listado de Tesis Doctorales leídas por nuestro personal.
La recuperación de información, (IR, de Information Retrieval), aborda la búsqueda de documentos, de información en esos mismos documentos, de metadatos que describan documentos, o, también, la búsqueda en bases de datos, ya sea a través de internet o intranet, para textos, imágenes, sonido o datos de otras características.
La IR cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de estas disciplinas son la psicología cognitiva, la arquitectura de la información, diseño de la información, el comportamiento humano hacia la información, la lingüística, la semiótica, informática, biblioteconomía, documentación e incluso la visión artificial.
Por un lado, es interesante destacar que una disciplina aparentemente tan distante como la visióń artificial, tiene una fuerte presencia dentro de este campo debido a que en los últimos años unas de las disciplinas más activas dentro del área de la Recuperación de Información es la Recuperación de Información Multimodal. Mientras que la RI clásica se ha basado tradicionalmente en el contenido textual los documentos indexados, la recuperación multimodal hace uso de un conjunto de fuentes más heterógeno (imagen, sonido, video y texto), buscando formas de combinar de forma óptima la diversidad de fuentes disponibles.
Por otro lado, hay que tener en cuenta que los buscadores, Google por ejemplo, son una de las aplicaciones más populares de la recuperación de información, pero la recuperación de la información no sólo busca y ofrece documentos relacionados con ciertas palabras clave, se puede especializar en función del uso de la información recuperada o del objetivo de la búsqueda.
Aunque populares, los buscadores no son herramientas perfectas, aún queda mucho camino por andar. La ingente cantidad de documentos presentes en la red provoca grandes problemas de gestión, al tiempo que los resultados no siempre son satisfactorios por incompletos o irrelevantes. Se echa en falta, por ejemplo, una carga semántica no presente en la Web actual que nos permita reducir la cantidad de resultados obtenidos en una búsqueda, o la especialización en dominios restringidos que ayuden a una búsqueda más eficiente y eficaz.
A veces, no se desea simplemente un conjunto de documentos relacionados con nuestro interés sino la extracción de información concreta para, por ejemplo, almacenarla en bases de datos, o tan sólo queremos la respuesta a una pregunta. Para estos dos objetivos se han planteado dos tareas del PLN en las que se están centrando gran cantidad de recursos humanos y técnicos: la extracción de información y la respuesta a preguntas.
La gran variedad de formatos digitales existentes en la red y el boom de los contenidos multimedia, han hecho necesario desarrollar y/o adaptar herramientas de búsqueda de información a las características de estos nuevos formátos como son el video y la imagen entre otros.
Actualmente los buscadores comerciales de contenidos multimedia, como los bien conocidos Youtube o Flickr , basan las búsquedas sólo en el texto que acompaña a la imagen o al video. El desarrollo de este tipo de herramientas está dentro del área de investigación de la Recuperación de Información Visual (RIV).
La RIV se puede decir que es un área específica dentro de la Recuperación de Información (RI), en la cual de hecho inicialmente se han utilizado sistemas de RI tradicionales sin ninguna adaptación especifica a la RIV para llevar a cabo búsquedas utilizando las anotaciones que acompañan a las imágenes o vídeos. Así, las colecciones que utilizan los sistemas de RIV estan compuestas de colecciones de imágenes o videos y de las anotaciones que describen a las mismas.
Históricamente en el área de la RIV se han utilizado dos enfoques para llevar a cabo la RI de imágenes: En los inicios de la RIV a finales de los años 70, los sistemas de RIV se basan en las anotaciones que acompañan a las imágenes, se trata pues de sistemas de RIV Basados en Texto (RIBT). Más tarde a principios de los años 90, en un intento de superar la dependencia de los sistemas de RIBT de la existencia de anotaciones textuales de una imagen para su indexación, surgen los sistemas de RIV Basados en el Contenido de la Imagen (RIBC).
Finalmente en los últimos años a medida que las tecnologías utilizadas por los sistemas de RIBC han ido madurando, un tercer enfoque para afrontar el problema de la RIV ha surgido, se trata de los sistemas que combinan tecnologías basadas en texto y en imagen. En este contexto los esfuerzos se centran en encontrar metodos adecuados para la combinación multimodad de fuentes de información tan diferentes.
La extracción de información (IE, de Information Extraction) es un tipo de recuperación de la información cuyo objetivo es detectar la información que es relevante dentro de un conjunto de textos, ignorarando la no relevante, y estructurarla para su almacenamiento en una base de datos.
Los datos a extraer se definen mediante plantillas en las que se especifica el tipo de información deseado. La construcción de estas plantillas se realiza de antemano y dependerán del contexto sobre el que vaya a trabajar, el escenario.
Desde la perspectiva del procesamiento del lenguaje, los sistemas de extracción de información son sistemas completos que deben trabajar en distintos niveles, desde el reconocimiento de palabras hasta el análisis de sentencias, y desde el entendimiento a nivel de sentencia sobre el análisis de discurso al del texto completo.
Los sistemas de reconocimiento de entidades, (NER, de Named Entity Recognition) pueden entenderse como una especialización de la IE o como una subtarea de la misma.
El reconocimiento de entidades con nombre consiste en la detección dentro de un texto de, por ejemplo, organizaciones, lugares o personas, o de cualquier tipo de término dentro de una clasificación preestablecida en función del uso de esta información. Estos sistemas son considerados como un paso previo a la comprensión automática de un texto, pues aportan conocimiento sobre su contenido.
Normalmente se encuentran integrados en sistemas completos de IE o de minería de textos aunque, en realidad, contribuyen con información muy valiosa al éxito de muchas de las tareas del PLN.
La recuperación de información, en general, adolece de falta de precisión en cuanto que devuelve textos completos dependiendo de que las palabras utilizadas en la pregunta se encuentren dentro de los mismos. La respuesta a preguntas, (QA, de Question Answering) es un tipo de recuperación de la información que pretende obtener la respuesta a una pregunta concreta como por ejemplo, “¿qué río pasa por Zaragoza?” o “¿en qué restaurante italiano puedo reservar mesa para esta noche?”. En general, dada una cierta cantidad de documentos, el sistema debería ser capaz de recuperar respuestas a preguntas planteadas en lengua natural. QA es entendido como un paso adelante en la tecnología del buscador, un método de recuperación que requiere una tecnología lingüística más compleja ya que, después de recuperar todos los textos considerados relevantes para la pregunta, ha de encontrar y extraer la respuesta, y ofrecerla al usuario.
La minería de textos es el proceso de analizar texto en lenguaje natural de forma automática con el objetivo de descubrir información y conocimiento que típicamente son difíciles de recuperar. El término es una adaptación de la muy conocida minería de datos, que analiza grandes bases de datos buscando información no explícitamente almacenada como pueda ser “qué tendencias se observan en el mercado que permitan prever la demanda futura de vehículos todoterreno”. Típicamente, la dificultad añadida en la minería de textos frente a la de datos es la necesidad de aplicar tecnologías lingüísticas, dada la libertad propia de la escritura de documentos. Una de las aplicaciones más pujantes en la actualidad es la bioinformática. La magnitud de la información que generan las investigaciones realizadas sobre el genoma humano es tal que, probablemente, supera la generada hasta ahora por otras investigaciones en otras disciplinas científicas. Mucha de esta información viene en forma de artículos científicos, y es tal el volumen de datos disponibles (y esperados) que es prácticamente imposible su tratamiento manual haciéndose imprescindible un proceso automático que permita analizarlos y extraer conclusiones. Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos conocimientos. En la minería de datos, por el contrario, se captan y procesan los datos con la esperanza de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el porqué presentan determinada configuración y comportamiento. Siendo los objetivos de la tarea tan ambiciosos, se hace evidente que todas las herramientas del PLN son candidatos a formar parte de un sistema de estas características por lo que su complejidad es muy alta, tratando todos los aspectos del lenguaje, desde la sintaxis hasta la semántica.
La escritura de un texto en lenguaje natural es el medio para transmitir ideas y sentimientos. El fin último del conjunto de herramientas del PLN es la comprensión automatizada de los contenidos, su análisis y su aprovechamiento en forma de nuevo conocimiento o como ayuda a la toma de decisiones. Dentro del análisis semántico podemos encontrar multitud de problemas que, actualmente, son objeto de grandes esfuerzos en investigación. Nuestras líneas de investigación en análisis semántico se describen a continuación.
Una parte importante del procesamiento del lenguaje es la correcta interpretación de las referencias pronominales. Si bien esta tarea se ubica entre el análisis sintáctico y el semántico, su influencia en el contenido es fundamental dado que la resolución de los posibles antecedentes de los pronombres ayuda a comprender el texto.
Acercarnos a la comprensión automática de textos escritos en lenguaje natural incluye la asignación de sentidos a las palabras, especialmente las polisémicas. Al igual que hace un humano al leer un texto, un sistema de resolución automática de la ambigüedad léxica (WSD, de Word Sense Disambiguation) decide el sentido de las palabras en función del contexto en que se encuentren. Por ejemplo, banco puede interpretarse de distintas formas si se encuentra dentro de la oración “voy al banco a pagar el recibo” o en “te espero sentado en el banco del parque”.
La importancia de esta tarea es evidente si pensamos en que una búsqueda por internet de documentos relacionados con la palabra “banco” podría refinarse si pudiéramos distinguir entre los sentidos posibles de esta palabra y eligiéramos el que nos interesa. La traducción automática es otra tarea que se beneficiaría de WSD puesto que las palabras polisémicas no suelen tener la misma traducción dependiendo de cuál sea su sentido correcto en el texto.
Las aproximaciones a la tarea se pueden resumir en supervisadas y no supervisadas, atendiendo a la utilización de corpus anotados con sentidos o no. Habitualmente, los métodos supervisados se basan en grandes corpus anotados con sentidos y en técnicas de Apredizaje Automático.
El significado de una oración no se basa solamente en las palabras que lo forman, sino también en el orden, agrupación y relaciones entre las mismas.
Un rol o papel semántico es la relación entre un constituyente sintáctico (argumento del verbo) y un predicado. Un rol identifica el papel de un argumento del verbo en el evento que dicho verbo expresa, por ejemplo, un agente, un beneficiario o también adjuntos, como causa o manera.
Consideremos la oración, Los ejecutivos dieron al jefe una cerrada ovación. Las palabras de esta oración se agrupan formando tres constituyentes sintácticos, cada uno de ellos con un rol diferente. El constituyente sintáctico los ejecutivos tiene el rol agente, y los constituyentes, al jefe y una cerrada ovación, tienen los roles recipiente y tema respectivamente.
La información obtenida con este proceso de análisis es clave para otras tareas de PLN tales como Búsqueda de Respuesta o Extracción de Información. Por ejemplo, en el caso de sistemas de Búsqueda de Respuesta, los roles semánticos podrían ayudar a responder preguntas del tipo quién o cuándo, por ejemplo.
El término “implicación textual” se utiliza para indicar la situación en la que la semántica de un texto en lenguaje natural se puede inferir de la semántica de otro texto en lenguaje natural. Más específicamente, si la verdad de un enunciado implica la verdad de otro enunciado, llamado también hipótesis. Sean los dos textos siguientes:
1. El encuentro del G8, de tres días, tendrá lugar en Escocia.
2. La reunión del Grupo de los Ocho durará tres días.
es evidente que la semántica del segundo se puede inferir de la semántica del primero; se dice, pues, que existe implicación textual entre ambos textos (el primero implica al segundo). También puede observarse que el reconocimiento de implicación textual requiere un procesamiento tanto a nivel léxico (por ejemplo, sinonimia entre encuentro y reunión o entre G8 y Grupo de los Ocho) como sintáctico
Otra de las dificultades del PLN es el hecho de que las mismas ideas se pueden expresar de muy diferentes formas. Si de palabras o expresiones cortas se trata, hablamos de sinonimia; si la expresión es más complicada, una oración completa o un conjunto de oraciones, hablamos de paráfrasis.
La importancia de la paráfrasis es mayor si tenemos en cuenta que se aplicaría para mejorar los sistemas actuales de recuperación de información, de búsqueda de respuestas o de extracción de información, en los que los resultados no deberían basarse únicamente en la aparición de las palabras exactas de la búsqueda o la pregunta.
El análisis automático del tiempo y el espacio es un problema en auge dado que mucha de la información que se maneja es de este tipo. El reto que se plantea viene derivado de la necesaria combinación de trasladar el texto a una representación más precisa de las entidades temporales, su relación con una cierta ontología y la capacidad de razonamiento combinado inferencia del sentido común con axiomas temporales.
Es común pensar en este problema en sistemas de QA donde cierto tipo de preguntas tienen que ver con “cuándo” o “dónde”, pero lo cierto es que afecta directamente a numerosas áreas del PLN y la inteligencia artificial.
A lo largo de la historia el ser humano ha utilizado el lenguaje para trasmitir sus conocimientos, sentimientos, emociones, sensaciones, comunicarse con el resto de los humanos y esta función del lenguaje la ha desarrollado de manera oral, gráfica, escrita o por señas.
A pesar de que, a lo largo de la década de los ochenta, la Lingüística Cognitiva planteó y demostró que el significado metafórico y no literal, no sólo forma parte común de nuestra capacidad lingüística, sino que también es un aspecto básico en la cognición humana (Lakoff & Johnson 1980), los intentos por someterlo a un análisis por medios computacionales han sido más bien escasos. Desde el PLN se ha trabajado sobre todo con los sentidos literales de las palabras (WSD), y sólo en los últimos años se han iniciado proyectos para procesar también significados no literales, tanto a nivel léxico como oracional. Si se busca dar cuenta del significado de un texto en general desde un punto de vista computacional, y asumiendo la hipótesis cognitiva de que todo texto contiene metáforas y significados no literarales (producidos por el propio funcionamiento de la cognición humana), un sistema de PLN debe ser capaz de detectar esos usos metafóricos e interpretarlos correctamente. Éste es, por tanto, el objetivo prinicipal de esta línea de investigación: la detección e interpretación de expresiones metafóricas y usos lingüísticos no literales.
La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante la cual, es posible compartir, procesar y transferir información de forma sencilla. Esta Web extendida y basada en el significado, se apoya en lenguajes universales que resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el acceso a la información se convierte en una tarea difícil y frustrante.
La Web ha cambiado profundamente la forma en la que nos comunicamos, hacemos negocios y realizamos nuestro trabajo. La comunicación prácticamente con todo el mundo en cualquier momento y a bajo coste es posible hoy en día. Podemos realizar transacciones económicas a través de Internet. Tenemos acceso a millones de recursos, independientemente de nuestra situación geográfica e idioma. Todos estos factores han contribuido al éxito de la Web. Sin embargo, al mismo tiempo, estos mismos factores también han originado sus principales problemas: sobrecarga de información y heterogeneidad de fuentes de información con el consiguiente problema de interoperabilidad. La Web Semántica ayuda a resolver estos dos importantes problemas permitiendo a los usuarios delegar tareas en software. Gracias a la semántica en la Web, el software es capaz de procesar su contenido, razonar con este, combinarlo y realizar deducciones lógicas para resolver problemas cotidianos automáticamente.
La web semántica es un área pujante nacida en la confluencia de la inteligencia artificial y las tecnologías web, que propone nuevas técnicas y paradigmas para la representación del conocimiento que faciliten la localización, compartición e integración de recursos a través de la Web. Estas nuevas técnicas se basan en la introducción de conocimiento semántico explícito que describa y/o estructure la información y servicios disponibles, de forma susceptible de ser procesada automáticamente por un programa. Uno de los ejes principales de esta visión es la noción de ontología como herramienta clave para alcanzar un entendimiento entre las partes (usuarios, desarrolladores, programas) que participan de este conocimiento común.
La atribución de autoría (AA) trata de clasificar documentos por autor. Para ello intenta reflejar el perfil del autor mediante marcas idiosincráticas que no estén bajo su control consciente. La AA es un área multidisciplinar, ya que en ella confluyen diferentes áreas de investigación (lingüística, derecho e informática) que trabajan de forma conjunta con un objetivo común: automatizar el tratamiento lingüístico del autor en ámbitos jurídicos y judiciales.
Entre los problemas que dificultan el desarrollo de esta tarea está la posible complejidad en la reconstrucción del perfil lingüístico del autor, puesto que éste puede variar en función del género o tema, de la época en que se produjo o incluso en distintas secciones del mismo documento según la sección. También dificulta la identificación del autor la presencia de obras escritas de forma colaborativa. Además de los aspectos comentados, uno de los mayores inconvenientes en la AA, es la falta de corpus estándar para poder valorar las mejoras introducidas y compararlas con las técnicas existentes.
Respecto a las técnicas aplicadas, los primeros estudios estaban basados en la aplicación de técnicas estadísticas, mientras que posteriormente, se han ido introduciendo técnicas de aprendizaje automático. Otras técnicas que se han comenzado a aplicar en los últimos años - sin estar exentas de controversia su utilización- son los algoritmos de compresión. Las técnicas de compresión encuentran cadenas comunes dentro del texto, codificando las más largas con el menor número de bits posible.
Para caracterizar la escritura del autor, se utilizan una serie de marcas a distintos niveles lingüísticos (a nivel de token, sintácticos, basados en la riqueza del vocabulario, según la frecuencia de aparición de las palabras, errores ortográficos y gramaticales, etc) junto a los métodos estadísticos y de aprendizaje automático, mientras que, los algoritmos de compresión se aplican directamente sobre los documentos, puesto que éstas técnicas, debido a su naturaleza, tienen la capacidad de capturar por ellas mismas rasgos distintivos de la escritura del autor a partir del texto al completo, sin ser necesaria una extracción previa de marcas de estilo.
El objetivo principal de esta tarea es obtener una versión reducida del documento o documentos fuente, reduciendo su contenido de tal forma que se seleccionen y queden presentes en el resumen los conceptos más importantes de dichos documentos. Esta tarea no es nueva, ya que los primeros intentos de producir resúmenes automáticos se llevaron a cabo a finales de los años 50, cuando se propusieron técnicas como la frecuencia de las palabras o la posición que las frases ocupaban en un documento para producir resúmenes de forma automática, sin ninguna intervención humana. Sin embargo, ha experimentado una gran evolución en la última década, sobre todo desde el rápido crecimiento de Internet. La gran cantidad de información disponible en formato electrónico crece de manera exponencial, dando lugar a millones de documentos cuya magnitud dificulta en gran medida su manejo. Debido a esto, la generación de resúmenes es de gran utilidad en el desarrollo de herramientas y sistemas del PLN que permiten, de alguna manera, procesar dicha información y presentarla de forma resumida y sencilla, de modo que ofrezca al usuario, o a otras tareas del PLN, la posibilidad de gestionar la información requerida más eficientemente.
Uno de los aspectos fundamentales en la generación de resúmenes es el paradigma que se sigue para obtener el resumen final. Así, podemos diferenciar entre extractos, si se seleccionan de forma literal las frases más importantes del documento, o bien abstractos, si se realiza algún tipo de transformación sobre las frases seleccionadas, de manera que la información que aparezca en el resumen quede expresada de forma distinta a como aparece en el documento original. La generación de abstractos supone, en la actualidad, un gran reto para la tarea y para poder abordarla de manera eficaz se necesita es imprescindible el uso de conocimiento semántico, además de otras técnicas del PLN, como pueden ser el reconocimiento de la implicación textual, la resolución de la anáfora o la extracción de información, entre otras.
En mayor o menor medida, todas las tareas del PLN se basan en ciertos recursos confeccionados para ayudar a su éxito. Se trata de colecciones de ejemplos, ontologías, diccionarios, etc. que son imprescindibles según la aproximación elegida para solucionar una tarea concreta.
La mayoría de las tareas del procesamiento del lenguaje natural se abordan mediante métodos del aprendizaje automático, para los que es necesario disponer de un número suficiente de ejemplos anotados y no anotados. Es por ello que la recopilación de textos de muy diversa naturaleza y su posterior etiquetado con información lingüística se hace imprescindible si se quieren obtener herramientas software robustas y eficaces. El GPLSI ha participado en varios proyectos relacionados con la construcción de corpus paralelos anotados sintáctica y semánticamente en español, catalán y euskera.
Una ontología es una representación de nuestro conocimiento del mundo; es más que un diccionario donde sólo se exponen los posibles significados de una palabra; es más que una taxonomía en la que sólo se muestran unas pocas relaciones entre términos. Una ontología es un conjunto de conceptos interrelacionados y que intenta sistematizar y correlacionar nuestro conocimiento, desde lo más abstracto hasta lo más concreto. Es una herramienta de vital importancia para las nuevas propuestas de compartición de la información a través de internet como la Web semántica o la Web 2.0, y también para herramientas del PLN como pueda ser la búsqueda de respuestas.