|
La traducción automática estadística, a la cual a veces le llama Stat MT o SMT, es un paradigma de traducción automática donde se generan traducciones en base a modelos estadísticos y de teoría de la información cuyos parámetros se obtienen, del análisis de corpus de textos bilingües. El enfoque, estadístico contrasta con los enfoques tradicionales como la traducción automática basada en reglas y la basada en ejemplos.
Las ideas que hay detrás de la traducción automática, estadística vienen de la teoría de la información. Esencialmente, el documento se traduce en la probabilidad p (e | f) de que una cadena e de la lengua nativa (por ejemplo, inglés), sea la traducción de una cadena f en la lengua extranjera (por ejemplo, francés). Generalmente, estas probabilidades se calculan utilizando técnicas de estimación de parámetros.
Como los sistemas de traducción, no pueden almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto no es suficiente. Los modelos, de idiomas son típicamente aproximados por modelos de n-gramas suavizados, y se han aplicado aproximaciones similares a los modelos de traducción, pero hay una complejidad adicional debido a las diferentes longitudes de frase y ordenación de palabras en las distintas lenguas. Los modelos estadísticos, de traducción estaban inicialmente basados en palabras (Modelos 1-5 de IBM), pero se hicieron avances significativos con la introducción de modelos basados en frases. El trabajo, reciente ha incorporado sintaxis o estructuras casi sintácticas.
Orden Diferente de Palabras
El orden de las palabras, en las distintas lenguas no es el mismo. Se puede, hacer un poco de clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una frase y se puede hablar, por ejemplo, de lenguas SVO o VSO. Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.
|