La traducción automática es la tarea de traducir texto de un idioma a otro de forma automática o semiautomática utilizando un sistema informático. Para estos sistemas es muy usual utilizar corpus paralelos, en que tenemos documentos en un idioma y su traducción en otro, para después, de forma probabilística, alinear términos o segmentos de un idioma a otro. El alineamiento en traducción automática es la capacidad de los sistemas automáticos de asociar trozos de texto (palabras, expresiones, frases, ...) en un idioma dado con su equivalente en el otro idioma. De tal forma que, después del alineamiento, conozcamos los equivalentes de esos trozos de texto en el otro idioma. Después, el resultado de este alineamiento se puede dar como traducción final pero lo usual es que las técnicas de alineamiento se apliquen como primeras etapas de otras técnicas para refinar estas traducciones.
Las aproximaciones con las que se suele atacar el alineamiento se pueden dividir en dos grandes bloques: modelos estadísticos o métodos heurísticos. Los primeros, como su nombre indica, utilizan la estadística para, a partir de grandes colecciones de documentos paralelos, intentar descubrir las probabilidades que tiene cada par de fragmento origen y destino. Los más famosos son los modelos IBM de alineamiento y los Modelos Ocultos de Markov (MOMs). Sobre los MOMs espero hablar en sucesivas entradas pero son modelos muy utilizados en las técnicas de aprendizaje automático (como pudiera ser Bayes, Redes Neuronales, Support Vector Machine, etc...) cuya particularidad es que permiten, de forma muy natural, determinar secuencias de características. Esto es muy útil si lo que se quiere es traducir una frase que se puede ver como una secuencia de términos. Estos sistemas están muy limitados por el tamaño del corpus, la restricción del dominio y el tiempo elevado de entrenamiento. Cuando más pequeño es el tamaño de los corpus paralelos, peores resultados darán y crear estos corpus es un trabajo manual y muy tedioso y costoso, así que obtener grandes corpus paralelos siempre es un problema. Otro problema es si entrenamos un corpus paralelo sobre un determinado tema y entrenamos el sistema con él, los modelos probabilísticos aprenden sobre el contexto de ese dominio y no son capaces de funcionar igual en otros dominios. Por último, estos sistemas tienen un coste de entrenamiento my elevado, sobretodo si los corpus crecen en tamaño y el modelo en complejidad.

Por otra parte, están los basados en métodos heurísticos que usan todo tipos de reglas, recursos y técnicas muy dispares pero que no están basadas en probabilidades ni en técnicas de aprendizaje automático. El problema de utilizar estos métodos es que la gran mayoría se basan en diccionarios y si la palabra no se encuentra en dichos diccionarios el sistema no será capaz de traducirlas. De cualquier forma existen algunos que aplican técnicas para intentar solucionar este problema (como por ejemplo, técnicas de similitud léxica).
También existen sistemas mixtos, que a los modelos estadísticos se les añade técnicas heurísticas para mejorar los resultados.
Felipe Sánchez, de la Universidad de Alicante, nos habla de un método que ellos han denominado pressure alignment (alineamiento de presión). Este sistema tiene la ventaja de que se puede utilizar en tiempo real (no requiere un entrenamiento previo) y que, además, puede utilizar muchos recursos combinados como diccionarios bilingües, traductores on-line o memorias de traducción. La idea del autor se basa en coger las frases original y traducidas y las divide ambas en n-gramas (combinaciones de términos consecutivos de un tamaño n) hasta un tamaño de 5 y se manda cada segmento a los distintos recursos para obtener alineamientos asimétricos, es decir, que los resultados serán distintos en un sentido y en el otro. Con todos los resultados de la traducción utilizando estos recursos, se crea una matriz en que un eje serán los términos en un idioma y en el otro los términos en el otro idioma. Cuando un término o subsecuencia de términos aparezcan como traducción de otro, se aumenta la presión en las cuadrículas que intersectan. Esta presión se calcula en proporción de los resultados de los recursos que devuelven traducciones similares dividido por el área que ocupan.
A partir de esta matriz, se obtiene aquellas palabras que han obtenido mayores presiones en su cuadrícula. En caso de empate se utilizan todas las combinaciones (aunque no me ha quedado claro como).