Noticias GPLSI y de divulgación

Aquí encontrarás noticias sobre nuestro grupo de investigación así como noticias de divulgación científica.

Imagen de un libro que representa conocimientoLa ciencia toma la palabra: los problemas sociales de las pseudociencias pretende ser un curso de divulgación de la ciencia y concienciación social. Este año nos centraremos en los problemas sociales que las pseudociencias acarrean y cómo se están implantando cada vez más en nuestra sociedad pese a que no hay ninguna evidencia científica que las avale. Es más, muchas de ellas incluso están totalmente desacreditas, son contraproducentes o directamente absurdas y opuestas a todo el conocimiento científico actual.

Los temas que tratan van, desde la astrología y el fin del mundo Maya hasta la física cuántica, pasando por la astronomía, física, química,medicina, botánica o, incluso, las dietas milagro. Para ello traeremos a grandes expertos de la Comunidad Valenciana pero también del resto de España.

En este curso, que participa como organizador un miembro del departamento, se aportarán herramientas intelectuales para evitar que nos engañen con este tipo de pseudocienas.

Este curso entra dentro de los organizado dentro de los Cursos de Verano de la Universidad de Alicante "Rafael Altamira" y está abierto a todos los públicos. Tiene un coste de 70€ para universitarios y parados y de 90€ para el resto, aunque se repartirán un número dado de becas (todavía sin determinar) a estudiantes con mejores expedientes. Para todas aquellas universidades con convenios especificos de la Red Lluis Vives podrán convalidar el curso por 2 créditos de libre configuración.

Overview about the main challenges in Online Social Networks related to geography and temporal events.

Curso realizado por Rosana Santorre y Faraón Llorens sobre cómo planificar, diseñar y presentar charlas en una auditoría.

http://prezi.com/ftwbjdsqf8lt/contar-historias-digitales

En este trabajo se presentan los beneficios de añadir información semántica al proceso de clasificación supervisada de sentimientos. En resumen realizan aprendizaje automático utilizando como características los sentidos de las palabras contenidas en los documentos a clasificar. Dichos sentidos los obtienen a partir de WordNet.

En este artículo se realiza un estudio sobre la clasificación supervisada de sentimientos mediante técnicas básicas de aprendizaje automático. Los resultados no son tan buenos como en la clasificación de textos clásica pero son mejores que los obtenidos manualmente.

El Grupo GPLSI de investigación en Procesamiento del Lenguaje y Sistemas de Información gplsi.dlsi.ua.es del departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante, ofrece un puesto de Formación de Personal Investigador FPI de 4 años (2013-2017) para realizar la Tesis Doctoral dentro del proyecto LEGOLANG: Técnicas de deconstrucción aplicadas a las Tecnologías del Lenguaje Humano (TIN2012-31224) dirigido por el Dr. Patricio Martínez Barco.

The Language Processing and Information Systems research group 

En el área del procesamiento del lenguaje natural es muy importante tener colecciones de datos (típicamente documentos) etiquetado indicando qué elementos aparecen en ellos. Es decir, tener documentos en que se describa, de forma que lo pueda entender una máquina, ciertos aspectos que aparecen en el texto. Por supuesto, estas etiquetas o anotaciones dependerán de la tarea a la que estará destinado dicho corpus. Por ejemplo, si tengo que construir un sistema que automáticamente sepa clasificar mi correo como spam, debo proporcionar a mi cliente de correo una muestra de correos normales y otra de spam indicándole cuándo el correo es bueno o es basura. Si lo que me interesa es detectar los verbos, predicados o sustantivos, tendré que tener un texto que ya estén marcados estos elementos para que un sistema de aprendizaje automático, a partir de ciertas propiedades del texto (como las propias palabras o su orden), pueda aprender a discernir cuando una palabra es un verbo, un artículo o, incluso, un sintagma nominal.

Pantallazo del Teamware

Pantallazo del Teamware¹

El principal problema de estos corpus anotados es que requieren un enorme trabajo manual para su construcción. Por ejemplo, para construir un sistema de análisis de sentimiento como son nuestros sistemas GPLSI Social Observer o GPLSI EmotiReview, fue necesario que muchos miembros de nuestro grupo etiquetaran 6000 mensajes realizados en Twitter. Es por eso una labor muy tediosa y mecánica que a nadie le gusta realizar. Por lo tanto, es muy importante que hayan mecanismos o sistemas que faciliten esta labor.

Arquitectura del Teamware

Arquitectura del Teamware¹

Entre estos sistemas de anotación el Teamware es una aplicación web para el etiquetado colaborativo de corpus de propósito general que incorpora una multitud de características muy interesantes y que es uno de los mejores y más ambiciosos sistemas de anotación que yo haya analizado hasta el momento.

Se basa en el framework de desarrollo de GATE y entre sus principales características son:

  • soporta diferentes roles de usuario (anotador, editor, administrador) de forma que los usuarios con distintos roles realicen distintas tareas;
  • personalización de las interfaces de usuario mediante esquemas XML o, incluso, plugins que se adapten fácilmente a la tarea de anotación concreta;
  • permite definir nuevos flujos de trabajo (workflow) colaborativo de tal manera que se pueda asignar ciertos protocolos de actuación para cada uno de los roles en el todo el proceso de anotado;
  • almacenamiento remoto e, incluso, distribuido pero eficiente;
  • una preanotación automática, es decir, permite ejecutar sistemas parcialmente ya entrenados previamente para que el anotador sólo tenga que confirmar o eliminar las anotaciones automáticas y así ahorrar mucho trabajo;
  • calcula automáticamente factores de calidad del corpus como el Inter-Annotator Agreement (IAA) que nos indica cuándo una anotación tiene la suficiente calidad para utilizarlo en sistemas reales;
  • mecanismos de entrenamiento de los anotadores pues, aunque no lo parezca, una anotación de un corpus no es una tarea trivial y requiere un entrenamiento previo, según (Snow et al. 2008), el resultado de anotación de 10 anotadores no preparados equivale, en calidad, a un experto anotador y por lo tanto un entrenamiento previo puede reducir enormemente esta proporción;
  • comunicación entre los distintos usuarios y roles, por ejemplo, para que un anotador pregunte sus dudas al editor, mediante un chat;
  • definir máximos de anotación y evitar que algunos anotadores etiqueten más de lo que deben;
  • anotación a distintos niveles tanto a nivel de documento (clasificadores), palabra (entidades nombradas, POS, tags), relaciones (coorreferencias), árboles (sintácticos, semánticos), ontologías, etc.;
  • mecanismos de consenso entre distintas anotaciones del mismo documento para que, por ejemplo, un editor experto pueda decidir, cuando qué anotación es la más precisa;
  • anotación concurrente que permita que varios anotadores trabajen sobre el mismo documento sin que se produzcan problemas;
  • obtener estadísticas sobre el proceso global de anotación y administrar o bloquear corpus;
  • generar informes de los proyectos de anotación;
  • diversos formatos de documentos tanto de entrada como de salida;
  • y un buscador basado en palabras claves para localizar partes de un corpus anotado.

Estas charlas que entran dentro de las Jornadas ESCUCHA ACTIVA organizadas por la Cámara de Comercio de Alicante y la empresa Human Like nos presentan una nueva forma de entender las redes sociales aplicadas a los negocios y cómo aprovecharlas mediante software específico de vigilancia tecnológica en redes sociales.

En mi último post hablaba de los sistemas de integración de recursos y herramientas que son útiles en para la investigación en tecnologías de la información presentando uno de los frameworks de integración de más auge: el UIMA. Hoy os voy a hablar de un sistema que utiliza otro conocido framework, el GATE, como base (del cuál hablaré próximamente) para realizar una integración basada en computación nube. Esta plataforma se llama GATECloud.

En el artículo titulado GATECloud.net: Cloud Infrastructure for Large-Scale, Open-Source Text Processing, publicado en las actas del AHM 2011, Tablan et al. nos explican brevemente, en un artículo corto de 3 páginas, las líneas generales de esta plataforma basada en la familia GATE de software, más concretamente en sus versiones servidoras GATE Teamware y GATE Mimir. Con estas plataformas servidoras montan un cluster de ordenadores en Amazon que nos permite definir Annotation Jobs y flujos de trabajos entre estos al puro estilo GATE. El usuario final simplemente tiene que definir estos flujos de trabajos y subir los documentos de entrada y el sistema ejecuta todo el proceso de forma paralela en el cluster consiguiendo tiempos muy reducidos de procesamiento. Finalmente, cuando el trabajo termina, GATECloud envía un email para que el usuario se descargue los archivos resultantes.

El principal problema de este artículo es su brevedad que no se centra en el detalle sino una visión global. Otras críticas es la única referencia bibliográfica a un artículo de los propios autores que, en mi opinión, no viene a colación.

El profesor Mikhail Alexandrov nos presenta el Group Method of Data Handling, un método inductivo predictivo para resolver tareas de aprendizaje automático. En el cual, busca la optimización de la estructura (o del modelo) en vez de buscar la optimización de los parámetros. Este algoritmo se considera un algoritmo evolutivo de la inteligencia artificial. El ojetivo del GMDH es buscar el grado de complejidad óptima dentro de una clase dada. Ésta clase debe ser especificada de antemano.

Charla realizada en el SEPLN por Ido Dagan de la Universidad Bar Ilan en Israel sobre Textual Inference (Inferencia Textual) y su aplicación al Textual Entailment (Implicación Textual). La Inferencia Textual es el razonamiento informático a partir de premisas mediante ciertas reglas predefinidas. De esta forma se puede inferir nuevas expresiones de texto aplicando ciertas operaciones sobre el texto original. Según el ponente hay dos tipos de inferencias: la inferencia a partir de información extra-linguistica (por ejemplo, ayer llovió entonces ayer fue húmedo), en el área del Lenguaje Natural se suele llamar a esta información conocimiento del mundo o contextual; y la inferencia a partir de la variabilidad del lenguaje (por ejemplo sinónimos o relaciones léxicas) aunque no existe una frontera definida entre ambos.

Por otra parte la Implicación Textual es la ciencia que intenta descubrir la relación unidireccional entre dos fragmentos de texto: un texto t y una hipótesis  h, en la cual la hipótesis se ve confirmada por el texto. Es decir, estos sistemas intentan descubrir si un texto que es nuestra hipótesis, se puede deducir del texto original. Un ejemplo sería deducir que "Ayer llovió" (hipótesis) cuando tengo el texto "Ayer salí a correr y me mojé por la tormeta".  Aunque el texto original no se menciona la lluvia, se puede deducir que la tormenta vino acompañada de lluvia porque me mojé.

Como la Implicación Textual es un subconjunto de la Inferencia Textual, ésta suele ser aplicada a aquellas áreas en las que también se aplica la inferencia, como en  Question Answering (Búsqueda de Respuestas), Information Extraction (Extracción de Información), Information Retrieval (Recuperación de Información) o Automatic Summarization (Resumen Automático).

Los problemas de la inferencia clásica es que se debe inventar una lógica matemática para el texto pero estas reglas lógicas no suelen ser apropiadas para tratar con el lenguaje natural y por eso las técnicas de Implicación Textual han tenido tanto auge en los últimos tiempos. BIUTEE Inference Engine es un sistema de Inferencia Textual que integra en una plataforma ambas aproximaciones además de usar aprendizaje automático para estimar los parámetros del sistema. Con este sistema se puede seguir la traza del conjunto de transformaciones que se realiza sobre un texto para alcanzar la hipótesis. Para ello utiliza reglas léxicas, sintactico-léxicas o reglas sintácticas generales.

BIUTEE es un sistema open source, configurable, extensible, en el que se puede hacer una traza visual y se puede añadir inferencia a partir del conocimiento del mundo o contextual así como razonamiento temporal, aritmético o espacial.

Imagen obtenida de http://naviglinlp.blogspot.com.es/

Imagen obtenida de http://www.condo-consulting.com/presencia-en-buscadores.p.aspxJosé M. Perea, de la Universidad de Jaén, nos presenta una revisión de la tarea de expansión de la consulta, es decir, de añadir nuevos términos relevantes a partir de la consulta original, aplicada a la Recuperación de Información Geográfica (GIR por sus siglas en inglés). Ésta área se enfoca en recuperar documentos relacionados con información geográfica como países, regiones, referencia a monumentos, coordenadas, etc. Estos sistemas combinan la búsqueda temática con restricciones geográficas. Pero ambas búsquedas están relacionadas mediante una relación. Por ejemplo, "Accidente de avión cerca de ciudades rusas". Este es un campo multidisciplinar pues afectan a áreas de recuperación de información, procesamiento del lenguaje o descubrimiento del conocimiento.

La expansión de la pregunta es un paso clásico en el área de la Recuperación de Información (IR) pero las técnicas tradicionales de expansión suelen fallar en GIR debido a la ambigüedad de muchos términos geográficos. Por lo tanto, para estas tareas se aplican técnicas concretas de expansión especialmente diseñadas para la información geográficas.

Terminó la presentación presentando el sistema SINAI-GIR que combina varias propuestas de expansión de la consulta en un sistema de recuperación de información geográfica.

Imagen obtenida de http://www.aertia.com/productos.asp?pid=193Tamara Martín, de la Universidad de Educación a Distancia (UNED), nos presenta una interesante aproximación para desambiguar palabras mediante técnicas de agrupamiento. Un problema recurrente que tienen las técnicas de Procesamiento del Lenguaje Natural es conocer el significado concreto de una palabra polisémica. Esto genera verdaderos quebraderos de cabeza para los que trabajan en técnicas de lenguaje natural. Es muy importante encontrar el sentido concreto de un término para muchaImagen obtenida de http://www.aertia.com/productos.asp?pid=193s tareas de PLN como, por ejemplo, a la hora de encontrar sinónimos para expandir consultas para sistemas de recuperación de información o para traducción automática para encontrar la mejor traducción.  Por otra parte, las técnicas de agrupamiento (clustering en inglés) son técnicas sin supervisión humana (unsupervised) que, de forma normalmente estadística, intenta agrupar la información en distintos conjuntos.

Las técnicas no supervisadas suelen relacionar cada palabra con contextos similares para reconocer que pertenecen al mismo grupo. Por ejemplo, si tengo varios ejemplos como "Mi coche es rojo" o "Mi coche es azul", un sistema estadístico no supervisado podría relacionar los términos rojo y azul a un mismo grupo que nosotros podríamos llamar colores. Tamara intenta desambiguar cada palabra de una frase viendo en qué contexto aparece dicho término y comprobar qué otras palabras (por ejemplo sinónimos) tienen los mismos contextos utilizando estas técnicas de agrupamiento estadístico.

Imagen obtenida de http://finanzasuniversitarias.edunomia.es/2011/10/08/rankings-universitarios/Este supuesto tutorial¹, presentado por Parth Gupta de la Universidad Politécnica de Valencia, explica cómo mejorar los resultados de búsqueda mediante algoritmos de aprendizaje automático. Hoy en día, los motores de búsqueda son primordiales para la vida contemporánea. Aunque no lo sepas, cuando navegas por Internet y buscas algo en alguna página concreta mediante un buscador o utilizas Google o Bing, estás utilizando un motor de búsqueda. Prácticamente todos estos buscadores te devuelven un resultado de búsqueda formado por una lista ordenada de enlaces a documentos (ranking), normalmente también te muestran un trozo del texto de cada uno de los documentos (snippet)para que puedas tener una idea de lo que contiene dicho documento sin tener que visitarlo. La clave de estos buscadores es presentar este ranking de documentos de forma que haya la mayor proporción de documentos interesantes para ti (precisión) y que estén el mayor número de documentos interesantes que pueda haber en la web intentando no dejar alguno importante (cobertura). Por tanto, estos buscadores intentan mejorar estos dos factores en sus búsquedas para mejorar la calidad.

Normalmente, los buscadores utilizan técnicas estáticas, que no mejoran con el tiempo, basadas en lo llamada métodos no supervisados. El autor propone un nuevo sistema basado en aprendizaje automático y para ello utiliza el corpus supervisado llamado LetoR Dataset que aprende de sus errores y aciertos utilizando técnicas de aprendizaje automático supervisado. Estos sistemas tienen bastantes ventajas como, por ejemplo, que aprenden con el tiempo y, por lo tanto, mejoran afinando los parámetros del modelo de forma automática, se pueden adaptar a las preferencias de cada usuario a partir de la retroalimentación de éstos² o permiten incorporar nuevas características de aprendizaje.

Imagen obtenida de http://imaginefarma.blogspot.com.es/2011/01/respuestas-de-farmacologia-del-mir-2011.htmlLa terminología farmacéutica y médica, pese a lo que la mayoría de la gente pueda pensar, es bastante ambigua y para un mismo concepto pueden utilizarse, por distintos profesionales, distintos términos para referenciar a un mismo concepto. Esto genera innumerables problemas, sobretodo a la hora de compartir historiales médicos entre profesionales. Esta varianza de terminología también provoca que algoritmos de procesamiento del lenguaje para, por ejemplo, simplificar el texto de cara al paciente; para traducir el historial a distintos idiomas si el paciente se tiene que ir al extranjero; o, en general, para unificar la terminología en una común que todos entiendan. Jorge Cruanes, de la Universidad de Alicante, nos presenta un propuesta para intentar unificar toda esta terminología a través de una ontología de referencia mediante algoritmos de similitud añadiendo una capa de semántica basado en tres principios: expresiones existenciales, antónimos y sinónimos.

Mediante las expresiones existenciales se pretende buscar expresiones léxicas que deben aparecer en ambos términos, o en ninguno de ellos. Si aparecen en ambos o no aparecen en ninguno entonces podemos tener en cuenta esos términos como sinónimos si la similitud léxica supera cierto umbral, en caso contrario ni siquiera los consideraríamos. La otra técnica, usando antónimos, detecta si hay palabras en los términos que son antónimas, en tal caso, esos términos se descartan como similares. Finalmente, se usan expresiones léxicas sinónimas para aumentar la cobertura al relacionar palabras aunque no tengan una semejanza léxica.

Los resultados que el autor expone, demuestran que las dos primeras técnicas son considerablemente buenas aunque la última, la del uso de sinónimos, aporta ciertas irregularidades.

Entre los trabajos futuros quedan, por tanto, mejorar el uso de sinónimos en las comparaciones, así como aumentar el conocimiento semántico superficial del método. De cara a mejorar el uso de sinónimos los autores proponen una búsqueda de un mínimo número de términos comunes.

Traducción automática. Imagen obtenida de http://www.top5newspapers.info/languages/La traducción automática es la tarea de traducir texto de un idioma a otro de forma automática o semiautomática utilizando un sistema informático. Para estos sistemas es muy usual utilizar corpus paralelos, en que tenemos documentos en un idioma y su traducción en otro, para después, de forma probabilística, alinear términos o segmentos de un idioma a otro. El alineamiento en traducción automática es la capacidad de los sistemas automáticos de asociar trozos de texto (palabras, expresiones, frases, ...) en un idioma dado con su equivalente en el otro idioma. De tal forma que, después del alineamiento, conozcamos los equivalentes de esos trozos de texto en el otro idioma. Después, el resultado de este alineamiento se puede dar como traducción final pero lo usual es que las técnicas de alineamiento se apliquen como primeras etapas de otras técnicas para refinar estas traducciones.

Las aproximaciones con las que se suele atacar el alineamiento se pueden dividir en dos grandes bloques: modelos estadísticos o métodos heurísticos. Los primeros, como su nombre indica, utilizan la estadística para, a partir de grandes colecciones de documentos paralelos, intentar descubrir las probabilidades que tiene cada par de fragmento origen y destino. Los más famosos son los modelos IBM de alineamiento y los Modelos Ocultos de Markov (MOMs). Sobre los MOMs espero hablar en sucesivas entradas pero son modelos muy utilizados en las técnicas de aprendizaje automático (como pudiera ser Bayes, Redes Neuronales, Support Vector Machine, etc...) cuya particularidad es que permiten, de forma muy natural, determinar secuencias de características. Esto es muy útil si lo que se quiere es traducir una frase que se puede ver como una secuencia de términos. Estos sistemas están muy limitados por el tamaño del corpus, la restricción del dominio y el tiempo elevado de entrenamiento. Cuando más pequeño es el tamaño de los corpus paralelos, peores resultados darán y crear estos corpus es un trabajo manual y muy tedioso y costoso, así que obtener grandes corpus paralelos siempre es un problema. Otro problema es si entrenamos un corpus paralelo sobre un determinado tema y entrenamos el sistema con él, los modelos probabilísticos aprenden sobre el contexto de ese dominio y no son capaces de funcionar igual en otros dominios. Por último, estos sistemas tienen un coste de entrenamiento my elevado, sobretodo si los corpus crecen en tamaño y el modelo en complejidad.

Chiste obtenido de la página http://informaticaytraduccion.blogspot.com.es/2012/05/traduccion-automatica.html

Por otra parte, están los basados en métodos heurísticos que usan todo tipos de reglas, recursos y técnicas muy dispares pero que no están basadas en probabilidades ni en técnicas de aprendizaje automático. El problema de utilizar estos métodos es que la gran mayoría se basan en diccionarios y si la palabra no se encuentra en dichos diccionarios el sistema no será capaz de traducirlas. De cualquier forma existen algunos que aplican técnicas para intentar solucionar este problema (como por ejemplo, técnicas de similitud léxica).

También existen sistemas mixtos, que a los modelos estadísticos se les añade técnicas heurísticas para mejorar los resultados.

Felipe Sánchez, de la Universidad de Alicante, nos habla de un método que ellos han denominado pressure alignment (alineamiento de presión). Este sistema tiene la ventaja de que se puede utilizar en tiempo real (no requiere un entrenamiento previo) y que, además, puede utilizar muchos recursos combinados como diccionarios bilingües, traductores on-line o memorias de traducción. La idea del autor se basa en coger las frases original y traducidas y las divide ambas en n-gramas (combinaciones de términos consecutivos de un tamaño n) hasta un tamaño de 5 y se manda cada segmento a los distintos recursos para obtener alineamientos asimétricos, es decir, que los resultados serán distintos en un sentido y en el otro. Con todos los resultados de la traducción utilizando estos recursos, se crea una matriz en que un eje serán los términos en un idioma y en el otro los términos en el otro idioma. Cuando un término o subsecuencia de términos aparezcan como traducción de otro, se aumenta la presión en las cuadrículas que intersectan. Esta presión se calcula en proporción de los resultados de los recursos que devuelven traducciones similares dividido por el área que ocupan.

A partir de esta matriz, se obtiene aquellas palabras que han obtenido mayores presiones en su cuadrícula. En caso de empate se utilizan todas las combinaciones (aunque no me ha quedado claro como).

Joaquín Marhuenda, Director del Parque Cientico de Alicante, presentó esta jornada dando un repaso de los diferentes eventos que engloban las jornadas del Parque Científico que está organizando sobre esta temática. La jornada de hoy trata sobre la propiedad intelectual y como crear Empresas de Base Tecnológica (EBT),

Navegando por la red he encontrado un artículo interesante donde explica algunos métodos para partir frases en inglés, tanto en Java como en c#. El enlace es: http://di002.edv.uniovi.es/~dani/PFCblog/index.php?entry=entry070517-210926

A continuación os pongo el extracto donde pone los métodos completos:

Últimas noticias

Noticias científicas