Image    Planeta

13 gen 2020 - 19:38

Considero que la traducció automàtica anglès -> català és la més important en una societat on molt del coneixement es genera en llengua anglesa. Durant els darrers dos anys ens hem plantejat a Softcatalà: per què no invertim en la millora de la traducció automàtica anglès -> català. La primera qüestió que es plantejà era: on som en termes de qualitat? i on volem arribar? I cap de les dues qüestions són fàcils de respondre: on som i on volem arribar respecte a quines expectatives? Per exemple, per quins tipus de textos, què vol dir una qualitat acceptable?


Llavors he fet una anàlisi de la qualitat dels traductors disponibles en anglès - català amb els següents objectius:

  • Com es compara la traducció anglès -> català d’Apertium (el traductor que usem i col·laborem des de Softcatalà) respecte a opcions com Google Translator, Yandex, i altres. I en concret hem fet l'anàlisi sobre tres corpus: traducció informàtica (un manual del GNOME), textos informals (Global Voices) i textos de la Wikipedia. 
  • Trobar les mancances més importants del traductor d’Apertium i corregir-les.
  • Intentar entendre que hauríem de fer durant 2020 per millorar el parell de llengües anglès -> català (independentment de la tecnologia, sigui Apertium o una altra).


A Softcatalà els esforços per construir un traductor lliure anglès -> català han anat bàsicament en dues direccions:

  • Contribuir a Apertium en parell anglès -> català. Marc Riera porta des de fa dos anys treballant en millorar el parell. A finals de 2018 vam presentar una millora important en el parell anglès - català. L’Apertium és un sistema de traducció basant en regles i vocabulari i continuem millorant-lo però ens ha faltat tenir més feedback sobre la qualitat.
  • Durant 2018 vam fer proves de concepte entrenant models de xarxes neuronals (Sofcatalà NMT) amb uns resultats molt bons en un context molt concret: traducció de programari informàtic. El resultat va ser la publicació de dos models lliures i els seus corpus. Vam deixar-ho aquí, ja que no disposem de prou corpus lliure per entrenar models per a contextos més genèrics.
  Taula comparativa de la qualitat del parell anglès -> català amb diferents traductors automàtics   Corpus GNOME Help   Corpus Global Voices   Corpus Wikimatrix     BLEU NIST BLEU NIST BLEU NIST Apertium 0.16 4.66 0.13 4.93 0.30 7.77 Yandex 0.28 6.00 0.20 5.82 0.37 8.47 Google 0.48 8.00
0.26 6.80 0.46 9.52 Softcatalà NMT (2018) 0.21 4.67 0.02 1.66 0.07 3.58

Tant BLUE com NIST són mètriques que s’utilitzen per avaluar els sistemes de traducció automàtica. Com més alt és el nombre més s'assembla a una traducció de referència.

La conclusió d’aquests resultats és que Google sempre és el millor i que Apertium té els resultats més modestos, en comparació als altres traductors pel parell anglès -> català. Però també hi ha una conclusió molt important, el traductor en xarxes neuronals Softcatalà NMT quan l’usem contra un corpus ben entrenat s’apropa molt a la qualitat d’Apertium, per la qualcosa és una opció a continuar explorant.

Llavors per què continuar treballant amb Apertium o altres tecnologies lliures si Google ho fa tan bé? Nosaltres pensem que és absolutament imprescindible que una tecnologia d’aquesta importància tingui una implementació lliure: tant en el codi com en les dades. Això no només pot estar en mans d’empreses privades. Hem parlat àmpliament d’això en el passat. 

Llavors, quin és el nostre pla a Softcatalà? Ara mateix:

  • Continuar millorant Apertium. Utilitzar aquesta anàlisi i demanar més explícitament ajuda als usuaris perquè comparteixin les traduccions que pensen siguin millorables.  Com mostra l'anàlisi, i com nosaltres mateixos sabem, es pot millorar significativament.
  • Reentrenar el traductor de Softcatalà NMT (neuronal) amb corpus més genèrics, això inclou GlobalVoices, WikiMatrix, Open Food Network. i OpenSubtitles i començar a avaluar els resultats dels nous models.
  • Serà impossible millorar els models neuronals si no disposem de corpus anglès -> català de qualitat lliures alineats. En aquest sentit el nostre punt de partida serà WikiMatrix i demanar ajuda als usuaris per validar-ne la qualitat (aproximadament un 36% del corpus conté errades, basant-nos en una anàlisi manual que hem fet).


És possible que en futur a Softcatalà usem per al parell anglès -> català models neuronals en comptes d’Apertium o que utilitzem un sistema híbrid amb avaluació en temps real. Al final la solució serà la que ens permeti oferir millor qualitat a la nostra comunitat.


Si us interessa la traducció automàtica, saber-ne més o donar un cop de mà, disposem d’un canal de Telegram per coordinar aquests esforços.

12 gen 2020 - 20:21
Materials per a una polsera de 24 cm de circumferència210 cm de corda de paracaigudisme de 3mmUna tanca Faxtex20 minuts de temps


InstruccionsPodem utilitzar un suport com el de la primera imatge on es pot veure la preparació i la comprovació de la longitud. Comprovem sovint que els dos extrems tenen la mateixa longitud i si cal ho corregim ara.


A la segona imatge veiem la tasca a mig camí. Comprovarem sovint que els dos extrems tenen la mateixa longitud per a un bon acabat.Si un és més llarg canviem de costat per compensar la força que fa la mà dominant.
A la tercera imatge ho veiem just abans de fer el darrer nus i de repartir tots els nusos per que quedi regular i els extrems ben atrapats.Si, com en aquest cas, no arribem a fer el darrer nus, desfem els tres darrers i els apretem més per guanyar corda.
També podem desfer els sis darrers nusos i fer-los menys menys tensats per que no ens sobri corda, tensant més els dos darrers per que no es desfaci.
Braçalet acabat!
#paracord #bracelet
17 oct 2019 - 06:57

Hui m'acaba d'entrar una actualització d'Ubuntu. Mireu:

Compareu-la amb aquesta de fa uns dies:

Tot està llest per a la nova versió d'Ubuntu.