Líneas de investigación

El Procesamiento del Lenguaje Natural trata de la gestión automatizada de cualquier fuente escrita o hablada generalmente no estructurada, es decir, textos y conversaciones de cualquier origen y dominio de aplicación. Es un área de investigación compleja, tanto o más como el propio lenguaje humano, en el que se deben tratar problemas estructurales y cognitivos. Morfología, sintaxis, semántica y pragmática son aspectos del lenguaje susceptibles de automatización para  productividad en tareas cotidianas, tanto laborales como personales. La multilingualidad es otro aspecto que cada día adquiere mayor relevancia debido a que Internet es un compendio de lenguas que requieren ser analizadas, comprendidas y relacionadas.

El fin último es conseguir desarrollar herramientas que lleguen a la comprensión del lenguaje y, por tanto, a la comunicación de ideas y al razonamiento. La llamada Sociedad de la Información no sólo exige acceso a todo tipo de materiales, principalmente textos, sino que genera una cantidad de nuevos documentos que crece exponencialmente cada día. Actualmente, ya es imposible manejar tal cantidad de información sin la ayuda de un ordenador y de las herramientas lingüísticas adecuadas. Nadie, por ejemplo, se plantea su trabajo, hoy en día, sin recurrir a un corrector ortográfico, un traductor o un buscador.

Sin embargo, es un área de investigación relativamente reciente que representa un gran reto, y que necesariamente se ha de fraccionar en subproblemas más o menos complejos. Nuestra oferta y nuestros principales intereses en investigación sobre el Procesamiento del Lenguaje Natural son los siguientes:

La Recuperación de Información aborda la búsqueda de textos, documentos e, incluso, archivos multimedia sobre gandes volúmenes de información para filtrar la información relevante para el usuario de la que no. Esto permite acceder a la información rápidamente eliminando la información no interesante. En el GPLSI desarrollamos motores de búsquedas que acceden a donde otros no pueden alcanzar y los personalizamos a las necesidades del usuario hasta donde permite la tecnología actual.

La Extracción de Información es un tipo de Recuperación de la Información cuyo objetivo es detectar información muy específica y almacenarla de forma estructurada. Esta línea de investigación se utiliza para automatizar procesos tediosos de introducción de datos para mejorar el rendimiento de los usuarios, minimizando al máximo el esfuerzo humano.

La Recuperación de Información, en general, adolece de falta de precisión en cuanto que devuelve documentos completos dependiendo de que las palabras utilizadas en la pregunta se encuentren dentro de los mismos. La Búsqueda de Respuestas es un tipo de recuperación de la información que pretende obtener la respuesta concreta a una pregunta formulada en lenguaje natural. Por ejemplo, ¿qué río pasa por Zaragoza? o ¿en qué restaurante italiano puedo reservar mesa para esta noche? son preguntas que requieren de una respuesta y no una colección de documentos.

Una parte importante del procesamiento del lenguaje es la correcta interpretación de las referencias pronominales. Si bien esta tarea se ubica entre el análisis sintáctico y el semántico, su influencia en el contenido es fundamental dado que la resolución de los posibles antecedentes de los pronombres ayuda a comprender el texto.

Acercarnos a la comprensión automática de textos escritos en lenguaje natural incluye la asignación de sentidos a las palabras, especialmente las polisémicas. Al igual que hace un humano al leer un texto, un sistema de resolución automática de la ambigüedad léxica decide el sentido de las palabras en función del contexto en que se encuentren. Por ejemplo, banco puede interpretarse de distintas formas si se encuentra dentro de la oración “voy al banco a pagar el recibo” o en “te espero sentado en el banco del parque”.

El significado de una oración no se basa solamente en las palabras que la forman, sino también en el orden, agrupación y relaciones entre las mismas. Un rol o papel semántico es la relación entre un constituyente sintáctico (argumento del verbo) y un predicado. Un rol identifica el papel de un argumento del verbo en el evento que dicho verbo expresa, por ejemplo, un agente, un beneficiario o también adjuntos, como causa o manera.

El término implicación textual se utiliza para indicar la situación en la que la semántica de un texto en lenguaje natural se puede inferir de la semántica de otro texto en lenguaje natural. Más específicamente, si la verdad de un enunciado implica la verdad de otro enunciado, llamado también hipótesis.

Otra de las dificultades del Procesamiento del Lenguaje Natural es el hecho de que las mismas ideas se pueden expresar de muy diferentes formas. Si de palabras o expresiones cortas se trata, hablamos de sinonimia; si la expresión es más complicada, una oración completa o un conjunto de oraciones, hablamos de paráfrasis.

El análisis automático del tiempo y el espacio es un problema en auge dado que mucha de la información que se maneja es de este tipo. El reto que se plantea viene derivado de la necesaria combinación de trasladar el texto a una representación más precisa de las entidades temporales, su relación con una cierta ontología y la capacidad de razonamiento combinado inferencia del sentido común con axiomas temporales.

El análisis de sentimientos y la minería de opiniones son dos ramas del Procesamiento del Lenguaje Natural en auge debido al surgimiento de las redes sociales y la Web 2.0. Es una línea de investigación que nos permite detectar si una persona está satisfecha con un producto, descubrir la opinión de usuarios del todo el mundo con respecto a un político o empresa incluso preveer actos delictivos o posibles casos de suicidios a partir de comentarios en blogs, foros, redes sociales, etc.

En muchas ocaciones las palabras se utilizan con un sentido diferentes al que tienen establecido en el diccionario. Este fenómeno se conoce como uso metafórico de las palabras.

La Web Semántica es una web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante la cual, es posible compartir, procesar y transferir información de forma sencilla.

La Atribución de Autoría trata de identificar al autor que ha realizado de uno o varios textos. Para ello intenta reflejar el perfil del autor mediante marcas idiosincráticas que no estén bajo su control consciente. La Atribución de Autorías es un área multidisciplinar, ya que en ella confluyen diferentes áreas de investigación (lingüística, derecho e informática) que trabajan de forma conjunta con un objetivo común: automatizar el tratamiento lingüístico del autor en ámbitos jurídicos y judiciales.

El objetivo principal de esta tarea es obtener una versión reducida del documento o documentos fuente, disminuyendo su contenido de tal forma que se seleccionen y queden presentes en el resumen los conceptos más importantes de dichos documentos.

El objetivo principal de esta línea es el uso de diferentes técnicas de procesamiento de lenguaje natural de manera que de cualquier texto podamos tener una versión del mismo caracterizada por:  fácil lectura, fácil comprensiónmensaje claro, que todo el mundo lo entienda. De esta manera, cualquier texto estará al alcance de personas con discapacidades intelectuales que ne

Si algo caracteriza a la Web 2.0 en su carácter colaborativo. Esto ha dado lugar a la aparición de los denominados contenidos generados por usuarios.

Últimas noticias

Noticias científicas