ATLSWORLD

AT Language Solutions asiste al EMNLP 2018 y al WMT18

EMNLP2018

Entre el 31 de octubre y el 4 de noviembre se celebró en Bruselas (Bélgica) la conferencia anual sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP2018) y la tercera conferencia sobre traducción automática (WMT18). La WMT18 es uno de los eventos internacionales más importantes sobre investigación y desarrollo en traducción automática (TA), en el cual los participantes, que proceden tanto de empresas como de universidades, se reúnen para presentar los avances más recientes en este ámbito y debatir sobre ellos. Este año, AT Language Solutions ha participado con éxito en la tarea compartida de la WMT18 de filtrado de un corpus paralelo.

Traducción automática basada en datos

La tarea en cuestión aborda el problema de la limpieza de corpus paralelos que presentan interferencias. Este es un escenario habitual en el desarrollo de los sistemas actuales de traducción automática basados en datos, que requieren cantidades ingentes de datos de entrenamiento para funcionar de manera adecuada. Los datos de entrenamiento se pueden obtener, por ejemplo, mediante rastreo web. Sin embargo, ese tipo de procedimiento tiende a dar como resultado datos con muchas interferencias. Los corpus paralelos obtenidos mediante rastreo web pueden contener frases en un tercer idioma, oraciones que no se corresponden entre sí, traducciones incorrectas o incompletas, etc. En la WMT18 se pidió a los participantes en la tarea de filtrado de un corpus que diseñaran un método para seleccionar pares de traducción válidos a partir de un corpus alemán-inglés con un alto nivel de interferencias, que se había obtenido mediante rastreo web, y que presentaran el subconjunto resultante de pares de frases sin interferencias. Las propuestas se evaluaron midiendo la calidad de los sistemas de traducción automática entrenados a partir de los datos seleccionados.

Participación de AT Language Solutions

En nuestra presentación, abordamos el problema en el marco del aprendizaje automático, en que el objetivo es estimar hasta qué punto dos frases paralelas en dos idiomas se corresponden entre sí y, por lo tanto, se pueden considerar traducciones la una de la otra. El artículo presentado a la conferencia, que contiene todos los detalles técnicos, está disponible públicamente aquí. La presentación se llevó a cabo durante una sesión en la que los distintos participantes mostraron sus enfoques. El nuestro, puede verse aquí. Como resumen de nuestra participación, obtuvimos una puntuación que nos situó en el tercio superior de los participantes, solo unos pocos puntos por detrás de los sistemas con mejor rendimiento. Los resultados detallados de la tarea se pueden consultar aquí.