Traductor automáticu castellán-asturianu

Transcripción

Traductor automáticu castellán-asturianu
Traductor automáticu castellán-asturianu-castellán
Dellos datos
11-2-2010
Universidá
d’Uviéu
Traductor automáticu castellán-asturianu-castellán
Dellos datos
11-2-2010
Qué ye
Ferramienta informático pa la traducción instantánea de tou tipu de testos dixitales (testu planu, testu con formatu y páxines web), no que supón un desenvolvimientu tecnolóxicu inéditu pa la llingua asturiana y un pasu importante pal so
accesu con garantíes a la sociedá de la información.
La ferramienta que se presenta consiste nun software de traducción de llicencia
pública que fai traducciones instantánees de testos dixitales castellanos al asturianu y, de manera provisional y menos avanzada, tamién asturianu-castellán.
Amás del motor de traducción puramente dichu, ufiértase de manera complementaria un paquete d’aplicaciones que dexa:
1) la traducción automática d’un fragmentu de testu ellaboráu ad hoc,
2) una aplicación de descarga y traducción d’arquivos de testu dixital, con o
ensin formatu (txt, rtf, html, opd, doc, docx, pdf) mesmo que presentaciones y
fueyes de cálculu, y
3) un navegador que dexa la traducción automática de URLs (páxines web)1.
De manera adicional, y con calter esencialmente testimonial, el mesmu servidor ufre versiones bien básiques de traductores al asturianu dende inglés,
francés, italianu, portugués, gallegu, catalán y euskera. Trátase, nesti casu,
d’un desenvolvimientu complementariu, una aportación «a mayores» y ensin
costu económicu nengún.
Desarrollu
páx. 2 de 7
Desenvolvióse demientres 24 meses, dende finales de 20082. Nel primer añu
de trabayu, dispónse de la versión básica castellán-asturianu enteramente
funcional y una versión alfa del sentíu asturianu-castellán.
1 Ye importante’l considera qu’esti paquete d’aplicaciones ye puramente independendiente del software de
traducción. De fechu, ye un desarrollu personal del nuestru informáticu (Daniel Vicente Quílez) que meyora dellos de
los servicios ufríos davezu por otros traductores on-line, vei Apertium, Opentrad o’l mesmu Google).
2 Anque la primer subvención correspondió a l’anualidá del 2008, lo cierto ye que por mor de cuestiones
alministratives financióse con ella’l trabayu del primer cuatrimestre del 2009. L’anualidá del 2009 abarca’l trabayu
de mayu del 2009 a mayu del 2010.
Estáu de realización del proyectu
El traductor castellán-asturianu ye una versión enteramente funcional, con
un bon nivel de prestaciones pero con errores y faltes visibles entá, en gran
midida diagnosticaos y solucionables demientres los próximos meses de trabayu. Sía que non, simplifica de manera bultable’l procesu de traducción de
grandes cantidaes de testu complexo, al marxe de la posible conveniencia de
revisiones manuales a posteriori.
Poro, ye una ferramienta de calter provisional y susceptible de meyora, pero
yá válida dafechu. L’accesu públicu a la mesma va ayudar nesta fase final de
perfeccionamientu de les prestaciones. Acordies col plan preestablecíu, falten
por cumplise les fases de trabayu vinientes:
1) La traducción automática en sentíu asturianu-castellán. Masque gran parte
del trabayu ta antemanáu na versión actual, ríquese un trabayu específicu en
delles de cuestiones, d’aende que’l sentíu asturianu-castellán presente mayores defectos que’l sentíu castellán-asturianu, el más desarrolláu.
2) Tola fase de desambiguación na traducción castellán-asturianu. Implica un
trabayu de traductoloxía más de detalle, que sía pa prevenir de manera automática problemes típicos de sinonimia, polisemia, contestualización pragmática, etc… La presentación de la ferramienta nesta fase de desenvolvimientu
obedez precisamente a la voluntá d’abrir la definición de les pautes llingüístiques del prototipu al criteriu de los usuarios, que van poder unviar al proyectu
les sos idees y suxerencies.
páx. 3 de 7
3) Definición (y corrección) de riegles gramaticales progresivamente más precises y específiques.
4) Carga continua de nuevu vocabulariu, de cuenta que nun se garantice
namás la traducción de conteníos cada vuelta más complexos, sinón que
s’asegure la sintaxis correcta del testu resultante.
Ferramienta como ésta ye por definición imperfecta, inclusive nel grau más
avanzáu que sía posible del so desenvolvimientu. Por embargu, tamién tien la
virtualidá de ser indefinidamente meyorable. El calter llibre y públicu que se
quier dar a esti software y la so disponibilidá llibre pa usuarios y potenciales
desarrolladores ye una manera de garantizar la continuidá nesti procesu de
revisión y meyora acullá de la duración específica del proyectu actual.
Los autores del proyectu
L’equipu de desarrolladores del traductor asturianu ta compuestu por cuatro
llicenciaos de la Universidá d’Uviéu contrataos con esa fin, dos inxenieros informáticos (Daniel Vicente Quílez y María Fernanda García) y dos llicenciaos en
Filoloxía Española (José Arsenio Coto Pérez y Roberto Hinojal Díaz). Collaboraron de manera puntual nel proyectu María Cueto Fernández (Llicenciada en Filoloxía Románica) y Cesáreo García Fernández (Llicenciáu en Filoloxía Inglesa).
La coordinación y supervisión de los trabayos tuvo al cargu de los profesores
de la Universidá d’Uviéu Ángel Neira Álvarez, Alfredo Alguero y David Melendi (Departamentu d’Informática), y Xulio Viejo Fernández (Departamentu de
Filoloxía Española).
La base del proyectu
páx. 4 de 7
Los fundamentos técnicos de la ferramienta que se presenta tán nel trabayu
desenvueltu pol proyectu Eslema de la Universidá d’Uviéu polos profesores
señalaos, amás de becarios y collaboradores (más información detallao nos
sitios web indicaos). Esti proyectu, activu dende 2004, fexo parte del Plan
Nacional d’I+D 2005-2008 de la Dirección Xeneral d’Investigación del Ministeriu d’Educación y Ciencia. Tenía coles mesmes calter internacional, dada la
participación nél d’investigadores del Departamentu de Ciencia Computacional de la Universidá de Brandeis (Massachussets, USA) y de Georgetown.
Mientres el periodu indicáu desarrollóse la construcción del Corpus Xeneral
de la Llingua Asturiana, un recursu pioneru nos estudios de llingüística computacional n’Asturies y n’asturianu. Amás del corpus llingüísticu puramente dichu, d’unos 10.000.000 de palabres, desenvolvió daquella distintes
aplicaciones (etiquetador, buscador, lematizador, analizador gramatical) que
Arsenio Coto
sentaron unes bases suficientes pa plantegar la construcción d’un traductor.
El traductor automáticu pa la política llingüística
Una de les llinies de trabayu pa esta llexislatura ye l’accesu n’asturianu al
mundu dixital, colo que tien d’apertura a posibilidaes ilimitaes de desenvolvimientu, nel marcu global de la sociedá de la información. Nesti sentíu, la esistencia d’una serie de desarrollos previos en llingüística computacional dientro de la mesma universidá pública asturiana ufiertaba’l puntu
de partida acionáu pa la ellaboración del software necesariu, homologable
a los estándares internacionales y con una inversión mínima. La Conseyería de Cultura asumió los gastos de contratación de los collaboradores al
traviés d’una subvención nominativa al Vicerrectoráu d’Investigación de la
Universidá d’Uviéu; la Universidá, al empar, garantiza tanto les condiciones llaborales del personal, como’l sentíu esencialmente formativu d’estos
contratos pa llicenciaos universitarios (dientro d’un campu que tien puxu
na investigación tecnolóxica actual) y el calter públicu, llibre y gratuitu del
software resultante.
Aportaciones institucionales
a) Conseyería de Cultura y Turismu: 130.721,68 € (en trés anualidaes:
25.163,68 en 2008; 75.558 € en 2009; 30.000 €, pa completar les fases
últimes, nel 2010).
páx. 5 de 7
b) Universidá d’Uviéu: apurre la base tecnolóxica Eslema, les infraestructures necesaries, l’asesoramientu y supervisión técnica y llingüística, función
que desenvuelven (de manera non remunerada) los profesores universitarios
yá citaos.
Arsenio Coto
El traductor asturianu nel ámbitu de la traducción automática actual: aplicaciones
y aportaciones
1) Amás de nes meyores en llingüística asturiana del corpus antes indicaes,
el traductor asturianu básase nel motor de traducción automática desenvueltu por Apertium, comunidá internacional de desarrolladores de software
llibre, impulsada dende la Universidá d’Alicante (www.apertium.org). Trátase
del mesmu motor de traducción usáu va años pol consorciu Opentrad (www.
opentrad.org) pa la creación de sistemes de traducción automática ente les
distintes llingües d’España, financiáu pol Ministeriu d’Industria y distintes
universidaes y empreses.
L’equipu asturianu trabaya coordináu cola comunidá de desarrolladores
Apertium y benefíciase del so asesoramientu y ayuda técnica, lo que facilita y reduz de manera bultable’l costu de la ferramienta, y d’otra banda
garantiza la so homologación con otros traductores asemeyaos, nos que
s’implica cerca d’una trentena de llingües. Esto, nun plazu curtiu, facilita
notablemente’l desenvolvimientu de nuevos pares de traducción al asturianu, de los que la ferramienta actual ufierta una amuesa testimonial en
versiones alfa inglés-asturianu, francés-asturianu, portugués-asturianu, y
tamién a gallegu, catalán y euskera)3.
2) A la inversa, el trabayu fechu dende Asturies beneficia al restu de la comunidá Apertium. Por casu, el traductor asturianu xeneró un de los mayores
diccionarios informáticos de castellán (entiéndase de palabres y locuciones col
so correspondiente etiquetariu morfolóxicu) del proyectu Apertium. Cualesquier
persona de cualesquier parte del mundu, interesada en desenvolver un nuevu
par de traducción al castellán puede disponer llibre y de baldre d’esti material
y beneficiar asina’l so trabayu, de la mesma manera que’l nuevu traductor resultante a la tercer llingua sería d’aplicación inmediata al asturianu, con un altu
nivel d’eficiencia. Asina, crecen de manera esponencial, y siempres a costu bien
baxu, les posibilidaes d’usu del asturianu na comunicación global.
3) Tocantes a la so funcionalidá, masque la traducción automática nun puede
llegar a ufiertar el mesmu nivel de garantía d’una traducción humana profesional, la capacidá de xestionar en poco tiempu (y a costu bien baxu) grandes
volúmenes de testu y la facilidá p’adaptase de manera eficiente a tipoloxíes
testuales altamente formalizaes (llinguaxes científicos, alministrativu, etc.…)
espliquen el so usu cada vez más abondosu na denomada sociedá de la
información, n’especial n’instituciones supranacionales o nel senu de sociedaes plurilingües. A cencielles n’España, les distintes alministraciones (según
empreses, prensa dixital, etc.…) faen usu constante d’esti tipu de tecnoloxía
y inverten nel so desarrollu constante. El traductor asturianu dexa dar dende
Asturies los primeros pasos nesti mesmu sentíu.
páx. 6 de 7
4) El traductor asturianu representa una ferramienta potente de normalización
y espardimientu social del asturianu, tanto poles sos funcionalidaes como pol
so calter públicu, gratuitu y abiertu a nuevos desenvolvimientos y aplicaciones
llibres (en cuantes que software llibre, de llicencia xeneral pública GPL).
5) La ferramienta multiplica de manera bultable la capacidá de producción
testual del asturianu: traducción automática de tou tipu de testos (suxeta a
3 Y, de manera indirecta, la so disponibilidá, con garantíes, en sistemes de traducción indirecta con cualesquier otra
llingua con accesu a esti mesmu tipu de tecnología (incluyendo llingües alloñaes dende’l puntu de vista tipolóxicu,
casu del árabe, el chinu o’l xaponés), conforme’l modelu popularizáu nos años últimos pola empresa Google.
revisión humana n’aplicaciones más formales y profesionales), accesu a más
de 10.000.000 de páxines web (prensa, universidaes, instituciones, centros culturales y d’investigación, ociu…), a biblioteques dixitales con miles
d’exemplares de llibre disposición.
6) El traductor empréstase igualmente a distintes aplicaciones profesionales,
nel ámbitu de la enseñanza (como ferramienta de trabayu nes aules) como na
investigación llingüística (en cuantes qu’incorpora diccionarios y analizadores morfolóxicos). Tamién ye directamente aplicable a l’alministración dixital
d’instituciones, universidaes y empreses. Tanto la Universidá d’Uviéu como’l
Gobiernu asturianu van instalar el traductor nes sos web, con accesu llibre (na
Web del Principáu, de fechu, ta operativu dende esta mesma mañana).
7) Ye una ferramienta versátil: lo que se presenta ye un prototipu con unes
determinaes elecciones gramaticales y léxiques, pero ye fácilmente adaptable
(y a baxu costu) a distintes necesidaes idiomátiques: por casu, llibros d’estilu
de medios de comunicación, llinguaxe alministrativu, científicu, etc… distintes modalidaes dialectales del asturianu o, a cencielles, personalizaciones al
gustu del usuariu.
8) Ye una inversión fecha nuna institución d’investigación pública asturiana,
como ye la Universidá d’Uviéu. La inversión dedícase cásique de manera íntegra a contratos d’altu potencial formativu pa recién llicenciaos universitarios,
nunes condiciones llaborales dignes.
9) Ye gratuitu pal usuariu y reduz de manera bultable los costos de traducción
d’alministraciones, empreses y editoriales.
páx. 7 de 7
10) La tecnoloxía xenerada, de llibre disposición pública, ye susceptible de
desenvolvimientu y esplotación comercial poles empreses interesaes.

Documentos relacionados