 |
Projecte

 |
RESTAD. Recursos de suport a la traducció automatitzada aplicats a la docència
Participants
Universitat Autònoma de Barcelona. Servei de Llengües
Universitat de Girona. Servei de Llengües Modernes
Universitat Oberta de Catalunya. Servei Lingüístic
Universitat Politècnica de Catalunya. Servei de Llengües i Terminologia
Amb l’ajut del Departament d’Educació i Universitats de la Generalitat de Catalunya
Descripció
El projecte consisteix a desenvolupar recursos que facilitin i que millorin la traducció automatitzada al català dels documents docents, atès que un nombre elevat de materials docents es fan en castellà o anglès. Especialment es proposa de treballar la documentació que el professorat posa a disposició de l’alumnat en el campus virtual (tant si es tracta d’assignatures presencials com d’assignatures virtuals), i també els documents acadèmico-administratius, els quals cada cop més s’haurà d’estar en disponibilitat d’oferir-los en dues o tres llengües.
Aquests recursos es poden agrupar en dos grans blocs.
Bloc 1. Continguts
Sistematització i reaprofitament de la informació lingüística de què disposen els serveis lingüístics universitaris amb la finalitat de fer més fàcil la traducció de materials docents al català i assegurar la qualitat dels textos docents en aquesta llengua:
- memòries de traducció
- gestió de lèxic d’especialitat
Bloc 2. Aplicacions informàtiques
Desenvolupament d’aplicacions que permetin generar els continguts esmentats anteriorment i que permetin optimitzar els processos de traducció de què ja disposen els serveis lingüístics:
- alineador automàtic de textos, imprescindible per a tenir unes bones memòries de traducció;
- extractor de lèxic d’especialitat a partir dels textos de les memòries de traducció (termes en català amb els equivalents en altres llengües);
- entorn de traducció assistida per ordinador, facilita la tasca de traducció en disposar de memòries de traducció i lèxic d’especialitat en la mateixa aplicació;
- cercador i recuperador d’enllaços, detecta els enllaços no actius dels documents i suggereix automàticament les pàgines web que contenen l’enllaç actiu;
- aplicacions de comunicació entre els programes que utilitzen actualment els serveis lingüístics amb la finalitat de reaprofitar tota la informació de què disposen.
Diagrama de flux

|

Motivació

L’espai europeu d’ensenyament superior (EEES) representa un canvi de paradigma en el model d’ensenyament-aprenentatge a les nostres universitats en aspectes com ara:
- l’homologació de les titulacions entre els diferents països,
- l’increment de la mobilitat d’estudiants i de professors,
- la importància de la docència virtual i dels materials elaborats o recopilats pel mateix professor,
- l’augment de la relació interpersonal professor-alumne en espais virtuals de comunicació, en què hi ha un ús de la llengua més clarament percebut com a institucional,
- la recerca personal de l’alumne com a part primordial del procés d’aprenentatge.
El procés d’internacionalització dels entorns universitaris promourà l’elaboració d’estratègies per a la gestió del multilingüisme que proporcionin als titulats la capacitació plurilingüe acadèmica i professional que necessitaran per a la mobilitat acadèmica i al llarg de la vida.
Les institucions d’ensenyament superior hauran de definir models lingüístics coherents que ajudin a donar resposta a les demandes de l’entorn immediat, europeu i mundial. La definició de l’ús de les llengües a les universitats tindrà un valor estratègic en la societat mundial del coneixement.
La formulació i l’aplicació d’un model de gestió del multilingüisme seran una oportunitat per als responsables acadèmics, tècnics o de servei i, per descomptat, per als estudiants, perquè permetran consolidar una cultura universitària de respecte actiu per la diversitat lingüística i cultural.
Aquests canvis incidiran clarament en els usos lingüístics docents i discents. La llengua oral de la docència, que fins ara era l’indicador clau per a determinar la situació sociolingüística a les universitats, ja no serà el factor determinant, sinó que el procés d’aprenentatge esdevindrà més complex, hi intervindran més elements, cosa que finalment provocarà que l’alumne deixi el paper passiu a què s’havia relegat fins ara i esdevingui un agent que triarà la llengua que li resulti més convenient, per a comunicar-se amb el professor i amb la resta d’alumnes de l’aula i per a accedir als materials de la xarxa.
Les TIC i les tecnologies aplicades al processament del llenguatge han de permetre preservar un espai per al català com a llengua preferent de la docència i aprofitar la conjuntura del marc del nou disseny metodològic europeu com una oportunitat per a la llengua catalana a la universitat, perquè continuï essent la llengua de comunicació a l’aula i per a promocionar una nova manera de treballar dins de cada universitat i entre universitats.
|

Objectius

|
Principals
- Oferir a l’alumnat universitari materials docents en llengua catalana.
- Garantir més qualitat lingüística dels materials docents en llengua catalana que es posen a disposició dels alumnes universitaris.
- Facilitar l’ús de la llengua catalana en l’àmbit acadèmic, oferint suport lingüístic especialitzat al personal acadèmic perquè pugui publicar en català, i alhora facilitar la publicació en altres llengües quan escaigui.
- Reaprofitar la informació lingüística generada a les nostres universitats a partir de la utilització i interrelació d’eines informàtiques i maquinari de suport lingüístic.
- Ampliar el rol professional dels tècnics lingüistes amb la incorporació dels programes informàtics de suport a la llengua als fluxos de treball del serveis.
Secundaris
- Coordinar totes les universitats que formen part del sistema universitari català.
- Homogeneïtzar i automatitzar processos.
- Classificar la documentació acadèmica i administrativa segons unes àrees temàtiques determinades.
- Fer servir les mateixes eines de suport lingüístic.
- Compartir memòries de traducció i llistes lèxiques de qualitat.
- Treballar amb més rapidesa, eficàcia i qualitat final.
- Oferir al personal acadèmic un banc de dades de dades lingüístiques en català, castellà i anglès.
- Esdevenir cada vegada més autònom en la tasca d’elaboració de materials docents en llengua catalana.
|

Resultats

|
Les activitats del projecte RESTAD s’han centrat en el desenvolupament d'eines i recursos informàtics de codi obert que donen suport a l'edició de documents, la traducció automatitzada i la traducció assistida i l’elaboració de continguts.
El projecte RESTAD ha generat un banc de dades excepcional que permet treballar amb molta més rapidesa, eficàcia i qualitat final. El personal acadèmic té els mitjans per a esdevenir cada vegada més autònom en la tasca d’elaboració de materials docents i l’alumnat pot tenir materials docents en llengua catalana. Aquestes eines i recursos assoliran un impacte molt més gran si s’aconsegueix que totes les universitats que formen part del sistema universitari català es coordinin per a homogeneïtzar i automatitzar processos, classificar la documentació segons unes àrees temàtiques determinades, utilitzar les mateixes eines de suport lingüístic i compartir les memòries de traducció.
Eines
Pel que fa a les eines, s’han desenvolupat aplicacions informàtiques de codi obert i distribució lliure que donen suport als processos productius i sistemes de traducció automatitzada integrats en els serveis lingüístics universitaris i que permetran millorar els processos de correcció, traducció elaboració de criteris que habitualment duen a terme. Seguidament es fa una descripció de les eines que s'han desenvolupat.
- El Frog Translator, entorn de traducció assistida de codi obert i distribució lliure que ajuda a rendibilitzar la tasca del traductor humà sense haver de comprar cap programa comercial. També permet la incorporació de noves funcions, adaptades a les necessitats del traductor sense haver de dependre del propietari del programa.
- El CREN, eina de suport a l'edició que facilita la tasca de revisió dels enllaços a pàgines web que hi ha en múltiples documents.
- L'Alinuoc i l'Stem-LES, eines que permeten la creació de memòries de traducció i llistes de lèxic d’especialitat en català amb equivalents en castellà i anglès.
- El TXT2TMX, eina que fa possible l’intercanvi entre memòries de traducció i llistes multilingües de termes perquè siguin operatives tant en un sistema de traducció assistida com en un sistema de traducció automatitzada.
El procés de creació de memòries de traducció i llistes de termes genera productes derivats com ara corpus bilingües, que poden ser útils per a futurs treballs de terminologia, elaboració de glossaris i de nomenclatures.
| Inventari d’eines |
| Frog Translator |
Entorn de traducció assistida per ordinador. |
| CREN
| Cerca i revisió d'enllaços. |
| Alinuoc |
Alineador automàtic de documents per segment/frase. |
| Stem-LES |
Extractor automàtic de lèxic d'especialitat i entorn de selecció i edició d'equivalents de traducció. |
| TXT2TMX |
Eines d'intercanvi de formats.
|

Recursos
Pel que fa als recursos, gràcies a la sistematització i reaprofitament de la informació lingüística de què disposen els serveis lingüístics universitaris, s’han generat memòries de traducció i llistes de lèxic d’especialitat amb la finalitat de fer més fàcil la traducció de materials docents al català i assegurar la qualitat dels textos docents en aquesta llengua, a més de potenciar treballs terminològics posteriors. El contingut de les memòries de traducció i les llistes de lèxic d’especialitat són el resultat d'aplicar les eines que s'han presentat més amunt. Les memòries i el lèxic provenen de dominis temàtics de recent formació i que tenen una presència cada cop més important a Internet i en diversos àmbits del coneixement.
| Inventari de recursos |
| Memòries de traducció català-castellà i català-anglès de documents de l’àmbit universitari. |
| Bases de dades català-castellà-anglès de lèxic científic i tècnic i també administratiu, propi dels àmbits de les universitats que hi han participat. |
Finalment, s'ha elaborat un informe d'estratègies per a millorar la qualitat del motor de traducció automatitzada que fan servir les universitats implicades en el projecte. Aquest informe parteix de l'anàlisi de les deficiències del motor de traducció feta pel Servei de Llengües i Terminologia de la UPC.
|

Programari lliure. Distribució

El projecte es concep en clau de programari lliure, perquè serà més fàcil de distribuir-lo a totes les universitats, institucions, empreses i persones interessades a fer-ne ús mitjançant baixades des d’Internet i perquè es facilitarà que es puguin fer adaptacions a altres necessitats. La política de programari lliure permet la lliure distribució, utilització i modificació del programari i facilita la cooperació en el seu desenvolupament i millora.
 
Eines
- Frog Translator. Entorn de traducció assistida per ordinador.
Disponibilitat pública pendent.
- CREN. Cerca i revisió d'enllaços.
- TXT2TMX. Conversor de text a format TMX.
Continguts. Apèndix tècnic

|
1. Memòries de traducció
Una memòria de traducció és una base de dades de frases o segments en una determinada llengua amb la seva corresponent traducció a una llengua o a més d'una. Les universitats generen una gran quantitat de documents que sovint es tradueixen a altres llengües. Per a crear memòries de traducció a partir d’aquests documents originals i traduïts cal alinear-los, és a dir, relacionar cada frase o segment del document original amb la frase o segment corresponent del document traduït.
L’alineació manual de documents és una tasca feixuga que requereix una gran dedicació i fa que sigui poc viable per a un gran volum de documents. Per aquest motiu, cal desenvolupar alineadors automàtics que permetin processar els documents sense intervenció humana. Tenir aquests programes permetria alinear grans volums de documents i, per tant, la creació de grans memòries de traducció.
Aquestes memòries de traducció poden ser molt útils per a:
- Fer-les servir amb sistemes de traducció assistida (com, per exemple DéjàVu, Transit, Trados, ForeignDesk, etc.).
- Interaccionar amb sistemes de traducció automàtica (Comprendium, Internostrum, Salt, etc.).
- Crear bases de dades de lèxic d’especialitat mitjançant tècniques d’extracció automàtica de segments i de cerca automàtica dels equivalents de traducció. A continuació explicarem amb més detall aquest aspecte.
2. Bases de dades de lèxic d’especialitat
Els sistemes d’extracció automàtica de lèxic d’especialitat detecten, a partir d’un conjunt de textos o d’una memòria de traducció, una sèrie de candidats a termes. Amb aquests sistemes es poden confeccionar d’una manera ràpida llistes lèxiques monolingües. Amb les tècniques de cerca automàtica d’equivalents de traducció es poden determinar els termes equivalents de les llengües traduïdes que s’han fet servir en la traducció dels documents. Així, es poden crear d’una manera ràpida i precisa llistes lèxiques bilingües i, per tant, bases de dades de lèxic d’especialitat que es poden fer servir per als casos següents:
- sistemes de traducció assistida,
- sistemes de traducció automàtica,
- sistemes de postedició de documents traduïts per a assegurar la coherència del lèxic d’especialitat de les traduccions,
- creació de diccionaris bilingües especialitzats, siguin en format paper o en format electrònic.
Aquests recursos també poden millorar els processos de redacció i correcció d’originals i la fase de preparació dels textos abans de ser enviats al motor de traducció automàtica, fase que s’anomena preedició.
|

|