gplsi2010's blog

Teamware: una aplicación web de anotación colaborativa

En el área del procesamiento del lenguaje natural es muy importante tener colecciones de datos (típicamente documentos) etiquetado indicando qué elementos aparecen en ellos. Es decir, tener documentos en que se describa, de forma que lo pueda entender una máquina, ciertos aspectos que aparecen en el texto. Por supuesto, estas etiquetas o anotaciones dependerán de la tarea a la que estará destinado dicho corpus. Por ejemplo, si tengo que construir un sistema que automáticamente sepa clasificar mi correo como spam, debo proporcionar a mi cliente de correo una muestra de correos normales y otra de spam indicándole cuándo el correo es bueno o es basura. Si lo que me interesa es detectar los verbos, predicados o sustantivos, tendré que tener un texto que ya estén marcados estos elementos para que un sistema de aprendizaje automático, a partir de ciertas propiedades del texto (como las propias palabras o su orden), pueda aprender a discernir cuando una palabra es un verbo, un artículo o, incluso, un sintagma nominal.

Pantallazo del Teamware

Pantallazo del Teamware¹

El principal problema de estos corpus anotados es que requieren un enorme trabajo manual para su construcción. Por ejemplo, para construir un sistema de análisis de sentimiento como son nuestros sistemas GPLSI Social Observer o GPLSI EmotiReview, fue necesario que muchos miembros de nuestro grupo etiquetaran 6000 mensajes realizados en Twitter. Es por eso una labor muy tediosa y mecánica que a nadie le gusta realizar. Por lo tanto, es muy importante que hayan mecanismos o sistemas que faciliten esta labor.

Arquitectura del Teamware

Arquitectura del Teamware¹

Entre estos sistemas de anotación el Teamware es una aplicación web para el etiquetado colaborativo de corpus de propósito general que incorpora una multitud de características muy interesantes y que es uno de los mejores y más ambiciosos sistemas de anotación que yo haya analizado hasta el momento.

Se basa en el framework de desarrollo de GATE y entre sus principales características son:

  • soporta diferentes roles de usuario (anotador, editor, administrador) de forma que los usuarios con distintos roles realicen distintas tareas;
  • personalización de las interfaces de usuario mediante esquemas XML o, incluso, plugins que se adapten fácilmente a la tarea de anotación concreta;
  • permite definir nuevos flujos de trabajo (workflow) colaborativo de tal manera que se pueda asignar ciertos protocolos de actuación para cada uno de los roles en el todo el proceso de anotado;
  • almacenamiento remoto e, incluso, distribuido pero eficiente;
  • una preanotación automática, es decir, permite ejecutar sistemas parcialmente ya entrenados previamente para que el anotador sólo tenga que confirmar o eliminar las anotaciones automáticas y así ahorrar mucho trabajo;
  • calcula automáticamente factores de calidad del corpus como el Inter-Annotator Agreement (IAA) que nos indica cuándo una anotación tiene la suficiente calidad para utilizarlo en sistemas reales;
  • mecanismos de entrenamiento de los anotadores pues, aunque no lo parezca, una anotación de un corpus no es una tarea trivial y requiere un entrenamiento previo, según (Snow et al. 2008), el resultado de anotación de 10 anotadores no preparados equivale, en calidad, a un experto anotador y por lo tanto un entrenamiento previo puede reducir enormemente esta proporción;
  • comunicación entre los distintos usuarios y roles, por ejemplo, para que un anotador pregunte sus dudas al editor, mediante un chat;
  • definir máximos de anotación y evitar que algunos anotadores etiqueten más de lo que deben;
  • anotación a distintos niveles tanto a nivel de documento (clasificadores), palabra (entidades nombradas, POS, tags), relaciones (coorreferencias), árboles (sintácticos, semánticos), ontologías, etc.;
  • mecanismos de consenso entre distintas anotaciones del mismo documento para que, por ejemplo, un editor experto pueda decidir, cuando qué anotación es la más precisa;
  • anotación concurrente que permita que varios anotadores trabajen sobre el mismo documento sin que se produzcan problemas;
  • obtener estadísticas sobre el proceso global de anotación y administrar o bloquear corpus;
  • generar informes de los proyectos de anotación;
  • diversos formatos de documentos tanto de entrada como de salida;
  • y un buscador basado en palabras claves para localizar partes de un corpus anotado.

Divulgación de la Investigación

Esta charla del marco de las Jornadas sobre Ciencia y Sociedad charlan sobre cómo divulgar la investigación y las razones de por qué es importante la divulgación para la sociedad. En esta conferencia, los ponentes fueron Cristina Ribas, Fernando Sapiña y Rosa Ballester y nos presentaron 3 distintas charlas que se centraron, primero, en qué herramientas y filosofía debemos seguir para difundir, por qué hay que difundir, los problemas de la sociedad no instruida en ciencia y la ignorancia que generalmente se posee en ciencia, incluido dentro del ámbito cientifico y, finalmente, Rosa se centró en la historia de la investigación y divulgación científica en la medicina.

La financiación de la innovación

Inauguradores de las jornadas de la financiación de la innovaciónEstas jornadas se centran en la búsqueda de financiación en proyectos de I+D e innovadores y exponen varias vías como los Bussines Angels

Las jornadas las inauguraron Manual Palomar Sanz, Vicerrector de Investigación de la Universidad de Alicante y Carlos Castillos Márquez, Concejal de Fomento y Empleo del Ayuntamiento de Alicante.

Carlos Castillo Márquez comenta que Alicante tiene dificultades en buscar financiación, por lo tanto tenemos que apostar en la generación de innovación y búsqueda de financiación mediante la creación del autoempleo de ingenieros e investigadores. Los alumnos de las universidades deben pensar en formar su propia empresa puesto que el mercado ya no puede absorber a todos los licenciados. Los jóvenes pueden encontrar nuevas soluciones empresariales. Sólo si empezamos a hacer normal que nuestros jóvenes y estudiantes creen empresas se podrán crear suficientes puestos de trabajo para cubrir la demanda de licenciados. Para eso hay que fomentar los estudios en el entorno empresarial. Es decir, crear emprendedores. Hay que intentar conectar al que tiene buenas ideas con el que el emprendedor con capital para llevar a cabo estas áreas. Hay que implantar planes de formación para aportar herramientas suficientes para preparar a los jóvenes en el mundo empresarial. La práctica demuestra que los que se basan en la adjudicación de subvenciones y no diseñan un plan estratégico orientado a los beneficios no triunfan. Tenemos el conocimiento suficiente para crear emprendedores con éxito. Hay que dar a entender que la innovación es una oportunidad de inversión y que hay que dar a conocer este hecho a las organizaciones empresariales. Los inversores no tienen confianza suficiente puesto que desconocen la capacidad de la innovación para generar negocio. También hay que dejar claro a los inversores que no sólo deben aportar capital si no que deben implicarse más aportando su experiencia y su conocimiento de los mercados. Estamos muy lejos de desarrollar el concepto de buissines angels como ocurre en otros países. En España se ha realizado muy poco en fomentar este tipo de financiación. Existen empresas interesadas en financiar la innovación si conocieran bien el proceso.

Jornadas divulgativas en la UA: mujeres e investigación

Aprovechando el año internacional de las mujeres investigadoras debido al centenario del premio Nobel de Marie Currie, la Universidad de Alicante organiza unas jornadas de divulgación científica centradas en la mujer investigadora. El objetivo es incentivar el aumento de las mujeres en el mundo científico, ver los progresos sociales y discutir las causas que pueden llevar a la discriminación, en especial en altos puestos de la organización universitaria.

Las jornadas empezaron con la apertura por parte de Manuel Palomar Sanz, Vicerrector de Investigación, Desarrollo e Innovación, Nieves Montesino Sánchez, Directora del Centro de Estudios Sobre la Mujer y María José Rodríguez Jaume, Delegada del Rector para Políticas de Género. Posteriormente hubo una charla de Pilar López Sancho, Presidenta de la Asociación de Mujeres Investigadoras y Tecnólogas (AMIT) para finalizar con una mesa redonda cuyos invitados fueron: Amparo Navarro Faure, Catedrática de Derecho Financiero y Tributario, Emilia Morallón Nuñez, Catedrática de Química y Física y Directora del Instituto Universitario de Materiales, Paloma Moreda Pozo, Investigadora responsable del proyecto europeo FIRST, Berenice Güerri Agulló, Gerente de la empresa de base tecnológica ​Gen Biotech GL ​y Juan Diego Ramos Pichardo, profesor ayudante del Dpto. de Enfermería. La charla fue moderada por el propio Ignacio Jiménez Raneda, rector de la Universidad de Alicante.

Imagen decorativa

Charla de María Vallet Regí sobre bioquímica

Imagen de la mesa de ponentes en las jornadas

Hoy a tenido lugar, en el marco de las Jornadas Divulgativas del ciclo de Ciencia y Sociedad, una interesante charla de María ​Vallet Regí, profesora e investigadora de la Universidad Complutense de Madrid, sobre bioquímica, nanotecnología y su aplicabilidad a la medicina. La elección de la charla (sobre química) y de esta investigadora no ha sido meramente casual. La verdadera razón es que éste año ha sido el año internacional de la química así como el año internacional de la mujer investigadora y, usando como pretexto esta conyuntura, se ha invitado a esta prestigiosa investigadora a dar una charla sobre bioquímica. En esta charla se ha hablado de las nuevas tecnologías para crear materiales porosos basados en materiales cerámicos, que, por una parte, obtengan una resistencia suficiente pero que, a su vez, permitan el flujo de las células y tratamientos a través de ellos. Estos nuevos materiales permiten no sólo crear implantes en las estructuras óseas sino que, además, incluir ciertos tratamientos aprovechando los poros de estos materiales.

Faster and Smaller N -Gram Language Models

Interesante artículo que explica cómo desarrollar modelos de lenguajes basados en N-gramas más rápidos y de menor consumo de memoria. Adam Pauls y Dan Kein publicaron este artículo en el ACL del 2011 y, según los autores, consiguen reducir un 75% el coste de almacenaje de estos modelos y aumentar un 300% la velocidad comparado con el SRILM.

There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Un estudio realizado por Ines Rehbein y Josef Ruppenhofer de la Saarland University para el congreso LREC del 2010. En él realizan un estudio de cómo afecta el tamaño del corpus en los sistemas de aprendizaje automático aplicados al PLN (concretamente a la tarea de desambiguación semántica) y comparando dos técnicas semi-supervisadas opuestas.

Últimas noticias

Noticias científicas