Tweet Translation Workshop at SEPLN 2015
TweetMT es un taller y tarea compartida en torno a la traducción automática de tweets. El evento tendrá lugar en septiembre de 2015 en Alicante, junto al congreso SEPLN 2015. El objetivo de este taller es reunir a un grupo de investigadores interesados en el tema, así como unir fuerzas en una tarea compartida para estudiar y comparar diferentes aproximaciones para la traducción de tweets. Este taller es una continuación de dos anteriores: TweetNorm2013 y TweetLId2014.
La traducción automática de tweets es una tarea compleja que depende mucho de los datos con los que se quiera trabajar. Es muy diferente traducir un texto generado por un gestor de contenidos que uno tecleado desde un móvil con errores y diversos signos y diacríticos. Además estructuralmente incluye sus características específicas (hashtags, identificadores, retweets…). La traducción de tweets se puede enfocar como una traducción directa (tweet a tweet) o indirecta (normalizar los tweets a texto estándar (Kaufmann&Kalita, 2011), traducir texto y, si se quiere, generar tweets). Aunque la primera aproximación es atractiva, la falta de textos paralelos o comparables entre tweets de varios idiomas (Petrovic et al., 2010) nos puede llevar a una aproximación indirecta. También hay autores que buscan tweets similares en otro idioma (CLIR).
No existen muchos artículos sobre el tema en la literatura científica, pero si un interés creciente en el tema (Gotti et al., 2013). El esfuerzo hecho para traducir textos SMS durante el terremoto de Haití es una referencia importante (Munro, 2010).
La idea principal de la tarea que proponemos es estudiar los retos y problemas de la traducción de tweets entre idiomas de la Península Ibérica (español, portugués, catalán, euskera, y gallego). Se proporcionarán corpus de desarrollo y test en diversos pares de idiomas (es-ca, es-eu, es-en…) obtenidos de un limitado número de cuentas que emiten mensajes en varios idiomas. Sabemos que estos corpus no son representativos de la gran cantidad de variantes y formas informales de comunicación, pero es una primera aproximación a la parte más fácil de la tarea. En el futuro no descartamos una tarea sobre corpus más informales y variados.
El taller pretende ser un foro de referencia que permita a los investigadores comparar sus herramientas, sistemas y resultados.
Organizadores
Iñaki Alegria |
Universidad del País Vasco / Euskal Herriko UnibertsitateaBarrio Sarriena, s/n |
Colaboradores
Nora Aranberri |
Universidad del País Vasco / Euskal Herriko UnibertsitateaBarrio Sarriena, s/n |
Cristina España |
Universitat Politècnica de CatalunyaCalle Jordi Girona, 31 |
Eva Martínez | |
Pablo Gamallo |
Universidade de Santiago de CompostelaPraza do Obradoiro, s/n |
Hugo Oliveira |
Universidade de CoimbraPalácio dos Grilos |
Iñaki San Vicente |
Elhuyar |
Antonio Toral (DCU, Dublin) |
Dublin City UniversityGlasnevin, Dublin 9 |
Arkaitz Zubiaga |
University of WarwickCoventry CV4 7AL |