AT Language Solutions assisteix a l'EMNLP 2018 i a la WMT18
Entre el 31 d'octubre i el 4 de novembre es va celebrar a Brussel·les (Bèlgica) la conferència anual sobre mètodes empírics en el processament del llenguatge natural (EMNLP2018) i la tercera conferència sobre traducció automàtica (WMT18). La WMT18 és un dels esdeveniments internacionals més importants sobre recerca i desenvolupament en traducció automàtica (TA), en el qual els participants, que procedeixen tant d'empreses com d'universitats, es reuneixen per presentar els avenços més recents en aquest àmbit i debatre sobre ells. Aquest any, AT Language Solutions ha participat amb èxit en la tasca compartida de la WMT18 de filtratge d'un corpus paral·lel.
Traducció automàtica basada en dades
La tasca en qüestió aborda el problema de la neteja de corpus paral·lels que presenten interferències. Aquest és un escenari habitual en el desenvolupament dels sistemes actuals de traducció automàtica basats en dades, que requereixen quantitats ingents de dades d'entrenament per funcionar de manera adequada. Les dades d'entrenament es poden obtenir, per exemple, mitjançant el rastreig web. Tanmateix, aquest tipus de procediment tendeix a donar com a resultat dades amb moltes interferències. Els corpus paral·lels obtinguts mitjançant rastreig web poden contenir frases en un tercer idioma, oracions que no es corresponen entre si, traduccions incorrectes o incompletes, etc. A la WMT18 es va demanar als participants en la tasca de filtratge d'un corpus que dissenyessin un mètode per seleccionar parells de traducció vàlids a partir d'un corpus alemany-anglès amb un alt nivell d'interferències, que s'havia obtingut mitjançant rastreig web, i que presentessin el subconjunt resultant de parells de frases sense interferències. Les propostes es van avaluar mesurant la qualitat dels sistemes de traducció automàtica entrenats a partir de les dades seleccionades.
Participació d'AT Language Solutions
En la nostra presentació, abordem el problema en el marc de l'aprenentatge automàtic, en què l'objectiu és estimar fins a quin punt dues frases paral·leles en dos idiomes es corresponen entre si i, per tant, es poden considerar traduccions l'una de l'altra. L'article presentat a la conferència, que conté tots els detalls tècnics, està disponible públicament aquí. La presentació es va dur a terme durant una sessió en què els diferents participants van mostrar els seus enfocaments. El nostre es pot veure aquí. Com a resum de la nostra participació, vam obtenir una puntuació que ens va situar en el terç superior dels participants, només uns quants punts darrere dels sistemes amb millor rendiment. Els resultats detallats de la tasca es poden consultar aquí.