Traductor automáticu castellán-asturianu
Transcripción
Traductor automáticu castellán-asturianu
Traductor automáticu castellán-asturianu-castellán Dellos datos 11-2-2010 Universidá d’Uviéu Traductor automáticu castellán-asturianu-castellán Dellos datos 11-2-2010 Qué ye Ferramienta informático pa la traducción instantánea de tou tipu de testos dixitales (testu planu, testu con formatu y páxines web), no que supón un desenvolvimientu tecnolóxicu inéditu pa la llingua asturiana y un pasu importante pal so accesu con garantíes a la sociedá de la información. La ferramienta que se presenta consiste nun software de traducción de llicencia pública que fai traducciones instantánees de testos dixitales castellanos al asturianu y, de manera provisional y menos avanzada, tamién asturianu-castellán. Amás del motor de traducción puramente dichu, ufiértase de manera complementaria un paquete d’aplicaciones que dexa: 1) la traducción automática d’un fragmentu de testu ellaboráu ad hoc, 2) una aplicación de descarga y traducción d’arquivos de testu dixital, con o ensin formatu (txt, rtf, html, opd, doc, docx, pdf) mesmo que presentaciones y fueyes de cálculu, y 3) un navegador que dexa la traducción automática de URLs (páxines web)1. De manera adicional, y con calter esencialmente testimonial, el mesmu servidor ufre versiones bien básiques de traductores al asturianu dende inglés, francés, italianu, portugués, gallegu, catalán y euskera. Trátase, nesti casu, d’un desenvolvimientu complementariu, una aportación «a mayores» y ensin costu económicu nengún. Desarrollu páx. 2 de 7 Desenvolvióse demientres 24 meses, dende finales de 20082. Nel primer añu de trabayu, dispónse de la versión básica castellán-asturianu enteramente funcional y una versión alfa del sentíu asturianu-castellán. 1 Ye importante’l considera qu’esti paquete d’aplicaciones ye puramente independendiente del software de traducción. De fechu, ye un desarrollu personal del nuestru informáticu (Daniel Vicente Quílez) que meyora dellos de los servicios ufríos davezu por otros traductores on-line, vei Apertium, Opentrad o’l mesmu Google). 2 Anque la primer subvención correspondió a l’anualidá del 2008, lo cierto ye que por mor de cuestiones alministratives financióse con ella’l trabayu del primer cuatrimestre del 2009. L’anualidá del 2009 abarca’l trabayu de mayu del 2009 a mayu del 2010. Estáu de realización del proyectu El traductor castellán-asturianu ye una versión enteramente funcional, con un bon nivel de prestaciones pero con errores y faltes visibles entá, en gran midida diagnosticaos y solucionables demientres los próximos meses de trabayu. Sía que non, simplifica de manera bultable’l procesu de traducción de grandes cantidaes de testu complexo, al marxe de la posible conveniencia de revisiones manuales a posteriori. Poro, ye una ferramienta de calter provisional y susceptible de meyora, pero yá válida dafechu. L’accesu públicu a la mesma va ayudar nesta fase final de perfeccionamientu de les prestaciones. Acordies col plan preestablecíu, falten por cumplise les fases de trabayu vinientes: 1) La traducción automática en sentíu asturianu-castellán. Masque gran parte del trabayu ta antemanáu na versión actual, ríquese un trabayu específicu en delles de cuestiones, d’aende que’l sentíu asturianu-castellán presente mayores defectos que’l sentíu castellán-asturianu, el más desarrolláu. 2) Tola fase de desambiguación na traducción castellán-asturianu. Implica un trabayu de traductoloxía más de detalle, que sía pa prevenir de manera automática problemes típicos de sinonimia, polisemia, contestualización pragmática, etc… La presentación de la ferramienta nesta fase de desenvolvimientu obedez precisamente a la voluntá d’abrir la definición de les pautes llingüístiques del prototipu al criteriu de los usuarios, que van poder unviar al proyectu les sos idees y suxerencies. páx. 3 de 7 3) Definición (y corrección) de riegles gramaticales progresivamente más precises y específiques. 4) Carga continua de nuevu vocabulariu, de cuenta que nun se garantice namás la traducción de conteníos cada vuelta más complexos, sinón que s’asegure la sintaxis correcta del testu resultante. Ferramienta como ésta ye por definición imperfecta, inclusive nel grau más avanzáu que sía posible del so desenvolvimientu. Por embargu, tamién tien la virtualidá de ser indefinidamente meyorable. El calter llibre y públicu que se quier dar a esti software y la so disponibilidá llibre pa usuarios y potenciales desarrolladores ye una manera de garantizar la continuidá nesti procesu de revisión y meyora acullá de la duración específica del proyectu actual. Los autores del proyectu L’equipu de desarrolladores del traductor asturianu ta compuestu por cuatro llicenciaos de la Universidá d’Uviéu contrataos con esa fin, dos inxenieros informáticos (Daniel Vicente Quílez y María Fernanda García) y dos llicenciaos en Filoloxía Española (José Arsenio Coto Pérez y Roberto Hinojal Díaz). Collaboraron de manera puntual nel proyectu María Cueto Fernández (Llicenciada en Filoloxía Románica) y Cesáreo García Fernández (Llicenciáu en Filoloxía Inglesa). La coordinación y supervisión de los trabayos tuvo al cargu de los profesores de la Universidá d’Uviéu Ángel Neira Álvarez, Alfredo Alguero y David Melendi (Departamentu d’Informática), y Xulio Viejo Fernández (Departamentu de Filoloxía Española). La base del proyectu páx. 4 de 7 Los fundamentos técnicos de la ferramienta que se presenta tán nel trabayu desenvueltu pol proyectu Eslema de la Universidá d’Uviéu polos profesores señalaos, amás de becarios y collaboradores (más información detallao nos sitios web indicaos). Esti proyectu, activu dende 2004, fexo parte del Plan Nacional d’I+D 2005-2008 de la Dirección Xeneral d’Investigación del Ministeriu d’Educación y Ciencia. Tenía coles mesmes calter internacional, dada la participación nél d’investigadores del Departamentu de Ciencia Computacional de la Universidá de Brandeis (Massachussets, USA) y de Georgetown. Mientres el periodu indicáu desarrollóse la construcción del Corpus Xeneral de la Llingua Asturiana, un recursu pioneru nos estudios de llingüística computacional n’Asturies y n’asturianu. Amás del corpus llingüísticu puramente dichu, d’unos 10.000.000 de palabres, desenvolvió daquella distintes aplicaciones (etiquetador, buscador, lematizador, analizador gramatical) que Arsenio Coto sentaron unes bases suficientes pa plantegar la construcción d’un traductor. El traductor automáticu pa la política llingüística Una de les llinies de trabayu pa esta llexislatura ye l’accesu n’asturianu al mundu dixital, colo que tien d’apertura a posibilidaes ilimitaes de desenvolvimientu, nel marcu global de la sociedá de la información. Nesti sentíu, la esistencia d’una serie de desarrollos previos en llingüística computacional dientro de la mesma universidá pública asturiana ufiertaba’l puntu de partida acionáu pa la ellaboración del software necesariu, homologable a los estándares internacionales y con una inversión mínima. La Conseyería de Cultura asumió los gastos de contratación de los collaboradores al traviés d’una subvención nominativa al Vicerrectoráu d’Investigación de la Universidá d’Uviéu; la Universidá, al empar, garantiza tanto les condiciones llaborales del personal, como’l sentíu esencialmente formativu d’estos contratos pa llicenciaos universitarios (dientro d’un campu que tien puxu na investigación tecnolóxica actual) y el calter públicu, llibre y gratuitu del software resultante. Aportaciones institucionales a) Conseyería de Cultura y Turismu: 130.721,68 € (en trés anualidaes: 25.163,68 en 2008; 75.558 € en 2009; 30.000 €, pa completar les fases últimes, nel 2010). páx. 5 de 7 b) Universidá d’Uviéu: apurre la base tecnolóxica Eslema, les infraestructures necesaries, l’asesoramientu y supervisión técnica y llingüística, función que desenvuelven (de manera non remunerada) los profesores universitarios yá citaos. Arsenio Coto El traductor asturianu nel ámbitu de la traducción automática actual: aplicaciones y aportaciones 1) Amás de nes meyores en llingüística asturiana del corpus antes indicaes, el traductor asturianu básase nel motor de traducción automática desenvueltu por Apertium, comunidá internacional de desarrolladores de software llibre, impulsada dende la Universidá d’Alicante (www.apertium.org). Trátase del mesmu motor de traducción usáu va años pol consorciu Opentrad (www. opentrad.org) pa la creación de sistemes de traducción automática ente les distintes llingües d’España, financiáu pol Ministeriu d’Industria y distintes universidaes y empreses. L’equipu asturianu trabaya coordináu cola comunidá de desarrolladores Apertium y benefíciase del so asesoramientu y ayuda técnica, lo que facilita y reduz de manera bultable’l costu de la ferramienta, y d’otra banda garantiza la so homologación con otros traductores asemeyaos, nos que s’implica cerca d’una trentena de llingües. Esto, nun plazu curtiu, facilita notablemente’l desenvolvimientu de nuevos pares de traducción al asturianu, de los que la ferramienta actual ufierta una amuesa testimonial en versiones alfa inglés-asturianu, francés-asturianu, portugués-asturianu, y tamién a gallegu, catalán y euskera)3. 2) A la inversa, el trabayu fechu dende Asturies beneficia al restu de la comunidá Apertium. Por casu, el traductor asturianu xeneró un de los mayores diccionarios informáticos de castellán (entiéndase de palabres y locuciones col so correspondiente etiquetariu morfolóxicu) del proyectu Apertium. Cualesquier persona de cualesquier parte del mundu, interesada en desenvolver un nuevu par de traducción al castellán puede disponer llibre y de baldre d’esti material y beneficiar asina’l so trabayu, de la mesma manera que’l nuevu traductor resultante a la tercer llingua sería d’aplicación inmediata al asturianu, con un altu nivel d’eficiencia. Asina, crecen de manera esponencial, y siempres a costu bien baxu, les posibilidaes d’usu del asturianu na comunicación global. 3) Tocantes a la so funcionalidá, masque la traducción automática nun puede llegar a ufiertar el mesmu nivel de garantía d’una traducción humana profesional, la capacidá de xestionar en poco tiempu (y a costu bien baxu) grandes volúmenes de testu y la facilidá p’adaptase de manera eficiente a tipoloxíes testuales altamente formalizaes (llinguaxes científicos, alministrativu, etc.…) espliquen el so usu cada vez más abondosu na denomada sociedá de la información, n’especial n’instituciones supranacionales o nel senu de sociedaes plurilingües. A cencielles n’España, les distintes alministraciones (según empreses, prensa dixital, etc.…) faen usu constante d’esti tipu de tecnoloxía y inverten nel so desarrollu constante. El traductor asturianu dexa dar dende Asturies los primeros pasos nesti mesmu sentíu. páx. 6 de 7 4) El traductor asturianu representa una ferramienta potente de normalización y espardimientu social del asturianu, tanto poles sos funcionalidaes como pol so calter públicu, gratuitu y abiertu a nuevos desenvolvimientos y aplicaciones llibres (en cuantes que software llibre, de llicencia xeneral pública GPL). 5) La ferramienta multiplica de manera bultable la capacidá de producción testual del asturianu: traducción automática de tou tipu de testos (suxeta a 3 Y, de manera indirecta, la so disponibilidá, con garantíes, en sistemes de traducción indirecta con cualesquier otra llingua con accesu a esti mesmu tipu de tecnología (incluyendo llingües alloñaes dende’l puntu de vista tipolóxicu, casu del árabe, el chinu o’l xaponés), conforme’l modelu popularizáu nos años últimos pola empresa Google. revisión humana n’aplicaciones más formales y profesionales), accesu a más de 10.000.000 de páxines web (prensa, universidaes, instituciones, centros culturales y d’investigación, ociu…), a biblioteques dixitales con miles d’exemplares de llibre disposición. 6) El traductor empréstase igualmente a distintes aplicaciones profesionales, nel ámbitu de la enseñanza (como ferramienta de trabayu nes aules) como na investigación llingüística (en cuantes qu’incorpora diccionarios y analizadores morfolóxicos). Tamién ye directamente aplicable a l’alministración dixital d’instituciones, universidaes y empreses. Tanto la Universidá d’Uviéu como’l Gobiernu asturianu van instalar el traductor nes sos web, con accesu llibre (na Web del Principáu, de fechu, ta operativu dende esta mesma mañana). 7) Ye una ferramienta versátil: lo que se presenta ye un prototipu con unes determinaes elecciones gramaticales y léxiques, pero ye fácilmente adaptable (y a baxu costu) a distintes necesidaes idiomátiques: por casu, llibros d’estilu de medios de comunicación, llinguaxe alministrativu, científicu, etc… distintes modalidaes dialectales del asturianu o, a cencielles, personalizaciones al gustu del usuariu. 8) Ye una inversión fecha nuna institución d’investigación pública asturiana, como ye la Universidá d’Uviéu. La inversión dedícase cásique de manera íntegra a contratos d’altu potencial formativu pa recién llicenciaos universitarios, nunes condiciones llaborales dignes. 9) Ye gratuitu pal usuariu y reduz de manera bultable los costos de traducción d’alministraciones, empreses y editoriales. páx. 7 de 7 10) La tecnoloxía xenerada, de llibre disposición pública, ye susceptible de desenvolvimientu y esplotación comercial poles empreses interesaes.