Tweet Translation Workshop at SEPLN 2015

TweetMT es un taller y tarea compartida en torno a la traducción automática de tweets. El evento tendrá lugar en septiembre de 2015 en Alicante, junto al congreso SEPLN 2015. El objetivo de este taller es reunir a un grupo de investigadores interesados en el tema, así como unir fuerzas en una tarea compartida para estudiar y comparar diferentes aproximaciones para la traducción de tweets. Este taller es una continuación de dos anteriores: TweetNorm2013 y TweetLId2014.

La traducción automática de tweets es una tarea compleja que depende mucho de los datos con los que se quiera trabajar. Es muy diferente traducir un texto generado por un gestor de contenidos que uno tecleado desde un móvil con errores y diversos signos y diacríticos. Además estructuralmente incluye sus características específicas (hashtags, identificadores, retweets…). La traducción de tweets se puede enfocar como una traducción directa (tweet a tweet) o indirecta (normalizar los tweets a texto estándar (Kaufmann&Kalita, 2011), traducir texto y, si se quiere, generar tweets). Aunque la primera aproximación es atractiva, la falta de textos paralelos o comparables entre tweets de varios idiomas (Petrovic et al., 2010) nos puede llevar a una aproximación indirecta. También hay autores que buscan tweets similares en otro idioma (CLIR).

No existen muchos artículos sobre el tema en la literatura científica, pero si un interés creciente en el tema (Gotti et al., 2013). El esfuerzo hecho para traducir textos SMS durante el terremoto de Haití es una referencia importante (Munro, 2010).

La idea principal de la tarea que proponemos es estudiar los retos y problemas de la traducción de tweets entre idiomas de la Península Ibérica (español, portugués, catalán, euskera, y gallego). Se proporcionarán corpus de desarrollo y test en diversos pares de idiomas (es-ca, es-eu, es-en…) obtenidos de un limitado número de cuentas que emiten mensajes en varios idiomas. Sabemos que estos corpus no son representativos de la gran cantidad de variantes y formas informales de comunicación, pero es una primera aproximación a la parte más fácil de la tarea. En el futuro no descartamos una tarea sobre corpus más informales y variados.

El taller pretende ser un foro de referencia que permita a los investigadores comparar sus herramientas, sistemas y resultados.

Organizadores

Iñaki Alegria

Universidad del País Vasco / Euskal Herriko Unibertsitatea

Barrio Sarriena, s/n
48940 Leioa, Vizcaya
+34 946 01 20 00

 Colaboradores

Nora Aranberri

Universidad del País Vasco / Euskal Herriko Unibertsitatea

Barrio Sarriena, s/n
48940 Leioa, Vizcaya
+34 946 01 20 00

Cristina España

Universitat Politècnica de Catalunya

Calle Jordi Girona, 31
08034 Barcelona
934 01 62 00

Eva Martínez  
Pablo Gamallo

Universidade de Santiago de Compostela

Praza do Obradoiro, s/n
15782 Santiago de Compostela
+34 881 811 000

Hugo Oliveira

Universidade de Coimbra

Palácio dos Grilos
Rua da Ilha
3000-214 Coimbra
+351 239 859 900

Iñaki San Vicente

Elhuyar

Antonio Toral (DCU, Dublin)

Dublin City University

Glasnevin, Dublin 9
Ireland
+353 1 700 5000

Arkaitz Zubiaga

University of Warwick

Coventry CV4 7AL
United Kingdom
+44 24 7652 3523

 

Sponsors