AT Language Solutions participe aux conférences EMNLP 2018 et WMT18
Du 31 octobre au 4 novembre, la conférence annuelle sur les méthodes empiriques du traitement du langage naturel (EMNLP2018) et la troisième conférence sur la traduction automatique (WMT18) se sont tenues à Bruxelles (Belgique). La conférence WMT18 est l’un des événements internationaux les plus importants en matière de recherche et de développement en traduction automatique (TA), au cours duquel les participants issus d'entreprises et d'universités se rencontrent pour présenter et aborder les avancées les plus récentes dans ce domaine. Cette année, AT Language Solutions a participé avec succès à la tâche commune de filtrage d’un corpus parallèle de la WMT18.
Traduction automatique basée sur des données
La tâche en question aborde le problème du nettoyage des corpus parallèles qui présentent des interférences. Il s'agit d'un scénario courant dans le développement des systèmes actuels de traduction automatique basés sur des données, lesquels nécessitent d'énormes quantités de données de formation pour fonctionner correctement. Les données de formation peuvent être obtenues, par exemple, par indexation web. Cependant, ce type de procédure a tendance à produire des données avec de nombreuses interférences. Les corpus parallèles obtenus par indexation web peuvent contenir des phrases dans une troisième langue, des phrases ne se correspondant pas, des traductions incorrectes ou incomplètes, etc. Dans le cadre de la conférence WMT18, les participants à la tâche de filtrage d’un corpus ont été invités à concevoir une méthode permettant de sélectionner des paires de traduction valides dans un corpus allemand-anglais avec un niveau élevé d’interférences, qui avait été obtenu par indexation web, ainsi qu'à présenter le sous-ensemble résultant de paires de phrases sans interférences. Les propositions ont été évaluées en mesurant la qualité des systèmes de traduction automatique formés à partir des données sélectionnées.
Participation d'AT Language Solutions
Dans notre présentation, nous abordons le problème dans le cadre de l'apprentissage automatique, l'objectif étant d'estimer dans quelle mesure deux phrases parallèles dans deux langues se correspondent et peuvent donc être considérées comme des traductions l'une de l'autre. L'article présenté à la conférence, qui contient tous les détails techniques, est disponible ici. La présentation a été réalisée lors d'une session au cours de laquelle les différents participants ont montré leurs approches. La nôtre peut être consultée ici. En résumé de notre participation, nous avons obtenu un score nous plaçant dans le tiers supérieur des participants, à quelques points seulement des systèmes offrant les meilleures performances. Les résultats détaillés de la tâche peuvent être consultés ici.