Blogs

Towards Context-Aware Search and Analysis on Social Media Data

Overview about the main challenges in Online Social Networks related to geography and temporal events.

Contar historias digitales: cómo hacer presentaciones de forma diferente

Curso realizado por Rosana Santorre y Faraón Llorens sobre cómo planificar, diseñar y presentar charlas en una auditoría.

http://prezi.com/ftwbjdsqf8lt/contar-historias-digitales

Métodos para separar frases

Navegando por la red he encontrado un artículo interesante donde explica algunos métodos para partir frases en inglés, tanto en Java como en c#. El enlace es: http://di002.edv.uniovi.es/~dani/PFCblog/index.php?entry=entry070517-210926

A continuación os pongo el extracto donde pone los métodos completos:

Jornada de la Investigación a la Innovación en la Universidad de Alicante

Joaquín Marhuenda, Director del Parque Cientico de Alicante, presentó esta jornada dando un repaso de los diferentes eventos que engloban las jornadas del Parque Científico que está organizando sobre esta temática. La jornada de hoy trata sobre la propiedad intelectual y como crear Empresas de Base Tecnológica (EBT),

A simple approach to use bilingual information sources for word alignment

Traducción automática. Imagen obtenida de http://www.top5newspapers.info/languages/La traducción automática es la tarea de traducir texto de un idioma a otro de forma automática o semiautomática utilizando un sistema informático. Para estos sistemas es muy usual utilizar corpus paralelos, en que tenemos documentos en un idioma y su traducción en otro, para después, de forma probabilística, alinear términos o segmentos de un idioma a otro. El alineamiento en traducción automática es la capacidad de los sistemas automáticos de asociar trozos de texto (palabras, expresiones, frases, ...) en un idioma dado con su equivalente en el otro idioma. De tal forma que, después del alineamiento, conozcamos los equivalentes de esos trozos de texto en el otro idioma. Después, el resultado de este alineamiento se puede dar como traducción final pero lo usual es que las técnicas de alineamiento se apliquen como primeras etapas de otras técnicas para refinar estas traducciones.

Las aproximaciones con las que se suele atacar el alineamiento se pueden dividir en dos grandes bloques: modelos estadísticos o métodos heurísticos. Los primeros, como su nombre indica, utilizan la estadística para, a partir de grandes colecciones de documentos paralelos, intentar descubrir las probabilidades que tiene cada par de fragmento origen y destino. Los más famosos son los modelos IBM de alineamiento y los Modelos Ocultos de Markov (MOMs). Sobre los MOMs espero hablar en sucesivas entradas pero son modelos muy utilizados en las técnicas de aprendizaje automático (como pudiera ser Bayes, Redes Neuronales, Support Vector Machine, etc...) cuya particularidad es que permiten, de forma muy natural, determinar secuencias de características. Esto es muy útil si lo que se quiere es traducir una frase que se puede ver como una secuencia de términos. Estos sistemas están muy limitados por el tamaño del corpus, la restricción del dominio y el tiempo elevado de entrenamiento. Cuando más pequeño es el tamaño de los corpus paralelos, peores resultados darán y crear estos corpus es un trabajo manual y muy tedioso y costoso, así que obtener grandes corpus paralelos siempre es un problema. Otro problema es si entrenamos un corpus paralelo sobre un determinado tema y entrenamos el sistema con él, los modelos probabilísticos aprenden sobre el contexto de ese dominio y no son capaces de funcionar igual en otros dominios. Por último, estos sistemas tienen un coste de entrenamiento my elevado, sobretodo si los corpus crecen en tamaño y el modelo en complejidad.

Chiste obtenido de la página http://informaticaytraduccion.blogspot.com.es/2012/05/traduccion-automatica.html

Por otra parte, están los basados en métodos heurísticos que usan todo tipos de reglas, recursos y técnicas muy dispares pero que no están basadas en probabilidades ni en técnicas de aprendizaje automático. El problema de utilizar estos métodos es que la gran mayoría se basan en diccionarios y si la palabra no se encuentra en dichos diccionarios el sistema no será capaz de traducirlas. De cualquier forma existen algunos que aplican técnicas para intentar solucionar este problema (como por ejemplo, técnicas de similitud léxica).

También existen sistemas mixtos, que a los modelos estadísticos se les añade técnicas heurísticas para mejorar los resultados.

Felipe Sánchez, de la Universidad de Alicante, nos habla de un método que ellos han denominado pressure alignment (alineamiento de presión). Este sistema tiene la ventaja de que se puede utilizar en tiempo real (no requiere un entrenamiento previo) y que, además, puede utilizar muchos recursos combinados como diccionarios bilingües, traductores on-line o memorias de traducción. La idea del autor se basa en coger las frases original y traducidas y las divide ambas en n-gramas (combinaciones de términos consecutivos de un tamaño n) hasta un tamaño de 5 y se manda cada segmento a los distintos recursos para obtener alineamientos asimétricos, es decir, que los resultados serán distintos en un sentido y en el otro. Con todos los resultados de la traducción utilizando estos recursos, se crea una matriz en que un eje serán los términos en un idioma y en el otro los términos en el otro idioma. Cuando un término o subsecuencia de términos aparezcan como traducción de otro, se aumenta la presión en las cuadrículas que intersectan. Esta presión se calcula en proporción de los resultados de los recursos que devuelven traducciones similares dividido por el área que ocupan.

A partir de esta matriz, se obtiene aquellas palabras que han obtenido mayores presiones en su cuadrícula. En caso de empate se utilizan todas las combinaciones (aunque no me ha quedado claro como).

Análisis del uso de métodos de similitud léxica con conocimiento semántico superficial para mapear la información de enfemería

Imagen obtenida de http://imaginefarma.blogspot.com.es/2011/01/respuestas-de-farmacologia-del-mir-2011.htmlLa terminología farmacéutica y médica, pese a lo que la mayoría de la gente pueda pensar, es bastante ambigua y para un mismo concepto pueden utilizarse, por distintos profesionales, distintos términos para referenciar a un mismo concepto. Esto genera innumerables problemas, sobretodo a la hora de compartir historiales médicos entre profesionales. Esta varianza de terminología también provoca que algoritmos de procesamiento del lenguaje para, por ejemplo, simplificar el texto de cara al paciente; para traducir el historial a distintos idiomas si el paciente se tiene que ir al extranjero; o, en general, para unificar la terminología en una común que todos entiendan. Jorge Cruanes, de la Universidad de Alicante, nos presenta un propuesta para intentar unificar toda esta terminología a través de una ontología de referencia mediante algoritmos de similitud añadiendo una capa de semántica basado en tres principios: expresiones existenciales, antónimos y sinónimos.

Mediante las expresiones existenciales se pretende buscar expresiones léxicas que deben aparecer en ambos términos, o en ninguno de ellos. Si aparecen en ambos o no aparecen en ninguno entonces podemos tener en cuenta esos términos como sinónimos si la similitud léxica supera cierto umbral, en caso contrario ni siquiera los consideraríamos. La otra técnica, usando antónimos, detecta si hay palabras en los términos que son antónimas, en tal caso, esos términos se descartan como similares. Finalmente, se usan expresiones léxicas sinónimas para aumentar la cobertura al relacionar palabras aunque no tengan una semejanza léxica.

Los resultados que el autor expone, demuestran que las dos primeras técnicas son considerablemente buenas aunque la última, la del uso de sinónimos, aporta ciertas irregularidades.

Entre los trabajos futuros quedan, por tanto, mejorar el uso de sinónimos en las comparaciones, así como aumentar el conocimiento semántico superficial del método. De cara a mejorar el uso de sinónimos los autores proponen una búsqueda de un mínimo número de términos comunes.

Learning to Rank - Tutorial

Imagen obtenida de http://finanzasuniversitarias.edunomia.es/2011/10/08/rankings-universitarios/Este supuesto tutorial¹, presentado por Parth Gupta de la Universidad Politécnica de Valencia, explica cómo mejorar los resultados de búsqueda mediante algoritmos de aprendizaje automático. Hoy en día, los motores de búsqueda son primordiales para la vida contemporánea. Aunque no lo sepas, cuando navegas por Internet y buscas algo en alguna página concreta mediante un buscador o utilizas Google o Bing, estás utilizando un motor de búsqueda. Prácticamente todos estos buscadores te devuelven un resultado de búsqueda formado por una lista ordenada de enlaces a documentos (ranking), normalmente también te muestran un trozo del texto de cada uno de los documentos (snippet)para que puedas tener una idea de lo que contiene dicho documento sin tener que visitarlo. La clave de estos buscadores es presentar este ranking de documentos de forma que haya la mayor proporción de documentos interesantes para ti (precisión) y que estén el mayor número de documentos interesantes que pueda haber en la web intentando no dejar alguno importante (cobertura). Por tanto, estos buscadores intentan mejorar estos dos factores en sus búsquedas para mejorar la calidad.

Normalmente, los buscadores utilizan técnicas estáticas, que no mejoran con el tiempo, basadas en lo llamada métodos no supervisados. El autor propone un nuevo sistema basado en aprendizaje automático y para ello utiliza el corpus supervisado llamado LetoR Dataset que aprende de sus errores y aciertos utilizando técnicas de aprendizaje automático supervisado. Estos sistemas tienen bastantes ventajas como, por ejemplo, que aprenden con el tiempo y, por lo tanto, mejoran afinando los parámetros del modelo de forma automática, se pueden adaptar a las preferencias de cada usuario a partir de la retroalimentación de éstos² o permiten incorporar nuevas características de aprendizaje.

A clustering-based Approach for Unsupervised Word Sense Disambiguation

Imagen obtenida de http://www.aertia.com/productos.asp?pid=193Tamara Martín, de la Universidad de Educación a Distancia (UNED), nos presenta una interesante aproximación para desambiguar palabras mediante técnicas de agrupamiento. Un problema recurrente que tienen las técnicas de Procesamiento del Lenguaje Natural es conocer el significado concreto de una palabra polisémica. Esto genera verdaderos quebraderos de cabeza para los que trabajan en técnicas de lenguaje natural. Es muy importante encontrar el sentido concreto de un término para muchaImagen obtenida de http://www.aertia.com/productos.asp?pid=193s tareas de PLN como, por ejemplo, a la hora de encontrar sinónimos para expandir consultas para sistemas de recuperación de información o para traducción automática para encontrar la mejor traducción.  Por otra parte, las técnicas de agrupamiento (clustering en inglés) son técnicas sin supervisión humana (unsupervised) que, de forma normalmente estadística, intenta agrupar la información en distintos conjuntos.

Las técnicas no supervisadas suelen relacionar cada palabra con contextos similares para reconocer que pertenecen al mismo grupo. Por ejemplo, si tengo varios ejemplos como "Mi coche es rojo" o "Mi coche es azul", un sistema estadístico no supervisado podría relacionar los términos rojo y azul a un mismo grupo que nosotros podríamos llamar colores. Tamara intenta desambiguar cada palabra de una frase viendo en qué contexto aparece dicho término y comprobar qué otras palabras (por ejemplo sinónimos) tienen los mismos contextos utilizando estas técnicas de agrupamiento estadístico.

Análisis de técnicas PLN de expansión de consulta aplicadas a la tarea de la recuperación de información geográfica

Imagen obtenida de http://www.condo-consulting.com/presencia-en-buscadores.p.aspxJosé M. Perea, de la Universidad de Jaén, nos presenta una revisión de la tarea de expansión de la consulta, es decir, de añadir nuevos términos relevantes a partir de la consulta original, aplicada a la Recuperación de Información Geográfica (GIR por sus siglas en inglés). Ésta área se enfoca en recuperar documentos relacionados con información geográfica como países, regiones, referencia a monumentos, coordenadas, etc. Estos sistemas combinan la búsqueda temática con restricciones geográficas. Pero ambas búsquedas están relacionadas mediante una relación. Por ejemplo, "Accidente de avión cerca de ciudades rusas". Este es un campo multidisciplinar pues afectan a áreas de recuperación de información, procesamiento del lenguaje o descubrimiento del conocimiento.

La expansión de la pregunta es un paso clásico en el área de la Recuperación de Información (IR) pero las técnicas tradicionales de expansión suelen fallar en GIR debido a la ambigüedad de muchos términos geográficos. Por lo tanto, para estas tareas se aplican técnicas concretas de expansión especialmente diseñadas para la información geográficas.

Terminó la presentación presentando el sistema SINAI-GIR que combina varias propuestas de expansión de la consulta en un sistema de recuperación de información geográfica.

Natural Language Inference in Natural Language Terms

Charla realizada en el SEPLN por Ido Dagan de la Universidad Bar Ilan en Israel sobre Textual Inference (Inferencia Textual) y su aplicación al Textual Entailment (Implicación Textual). La Inferencia Textual es el razonamiento informático a partir de premisas mediante ciertas reglas predefinidas. De esta forma se puede inferir nuevas expresiones de texto aplicando ciertas operaciones sobre el texto original. Según el ponente hay dos tipos de inferencias: la inferencia a partir de información extra-linguistica (por ejemplo, ayer llovió entonces ayer fue húmedo), en el área del Lenguaje Natural se suele llamar a esta información conocimiento del mundo o contextual; y la inferencia a partir de la variabilidad del lenguaje (por ejemplo sinónimos o relaciones léxicas) aunque no existe una frontera definida entre ambos.

Por otra parte la Implicación Textual es la ciencia que intenta descubrir la relación unidireccional entre dos fragmentos de texto: un texto t y una hipótesis  h, en la cual la hipótesis se ve confirmada por el texto. Es decir, estos sistemas intentan descubrir si un texto que es nuestra hipótesis, se puede deducir del texto original. Un ejemplo sería deducir que "Ayer llovió" (hipótesis) cuando tengo el texto "Ayer salí a correr y me mojé por la tormeta".  Aunque el texto original no se menciona la lluvia, se puede deducir que la tormenta vino acompañada de lluvia porque me mojé.

Como la Implicación Textual es un subconjunto de la Inferencia Textual, ésta suele ser aplicada a aquellas áreas en las que también se aplica la inferencia, como en  Question Answering (Búsqueda de Respuestas), Information Extraction (Extracción de Información), Information Retrieval (Recuperación de Información) o Automatic Summarization (Resumen Automático).

Los problemas de la inferencia clásica es que se debe inventar una lógica matemática para el texto pero estas reglas lógicas no suelen ser apropiadas para tratar con el lenguaje natural y por eso las técnicas de Implicación Textual han tenido tanto auge en los últimos tiempos. BIUTEE Inference Engine es un sistema de Inferencia Textual que integra en una plataforma ambas aproximaciones además de usar aprendizaje automático para estimar los parámetros del sistema. Con este sistema se puede seguir la traza del conjunto de transformaciones que se realiza sobre un texto para alcanzar la hipótesis. Para ello utiliza reglas léxicas, sintactico-léxicas o reglas sintácticas generales.

BIUTEE es un sistema open source, configurable, extensible, en el que se puede hacer una traza visual y se puede añadir inferencia a partir del conocimiento del mundo o contextual así como razonamiento temporal, aritmético o espacial.

Imagen obtenida de http://naviglinlp.blogspot.com.es/

Últimas noticias

Noticias científicas