Por: Redacción
En la mitología náhuatl, Xolotl es el hermano mellizo de Quetzalcóatl, que al rehusarse a ser sacrificado para dar movimiento al Quinto Sol, recurrió a sus poderes de transformación para esconderse. Primero se convirtió en una planta de maíz, luego en una penca de maguey, y finalmente en el animal llamado axolotl.
Académicos y estudiantes de la UNAM retomaron el nombre y la imagen de este anfibio endémico del Valle de México para nombrar al repositorio digital que permite consultar documentos que cuentan con más de un millón de palabras con traducción del español al náhuatl.
El objetivo de Axolotl, corpus paralelo español-náhuatl, es ofrecer textos paralelos, traducciones del español al náhuatl o del náhuatl al español, con los que se puede saber qué oración corresponde a esa misma en la otra lengua (su significado y uso). Traer esos textos con base a una búsqueda determinada nos sirve para conocer cómo se utiliza una palabra en la otra lengua.
“Además, permite tener una base para la generación de léxico bilingüe entre estas dos lenguas y una componente básica para hacer un sistema de traducción automática”, explicó Gerardo Sierra, jefe del grupo de Ingeniería Lingüística del Instituto de Ingeniería (II) de la UNAM.
Para crear este corpus paralelo se recurrió a técnicas de procesamiento del lenguaje natural e inteligencia artificial que permiten segmentar y paralelizar textos.
“Se utilizaron tecnologías del lenguaje, un sistema de recuperación de la información y un software de reconocimiento óptico de caracteres con el fin de que los usuarios pudieran hacer búsquedas en las fuentes de la naturaleza paralela español-náhuatl”, explicó Ximena Gutiérrez, estudiante de posgrado y participante del proyecto Axolotl.
Normalmente, prosiguió, los traductores de lenguas se basan en grandes colecciones, lo que facilita estadísticamente encontrar la equivalencia entre una palabra y otra.
Pero para desarrollar Axolotl, el reto fue mayor. Tras una búsqueda exhaustiva de documentos, se localizaron unos 30 libros traducidos del español al náhuatl, o viceversa. Entre ellos hay textos antiguos y actuales, con temáticas que van desde lo religioso e histórico hasta los cuentos o recetarios.
También fue necesario que el grupo multidisciplinario que creó este sitio web elaborara un diccionario que permitiera al reconocedor óptico de caracteres identificar de mejor manera las grafías del náhuatl, pues este tipo de software usualmente está enfocado a lenguas como el inglés y no funciona bien cuando se enfrenta a lenguas menos conocidas.
“Cuando ingresas a Google Translate ves muchos pares de lenguas: del francés al japonés, del japonés al italiano, y nosotros pensamos: ¿Por qué no del español al náhuatl o del zapoteco al español? Éste es nuestro primer caso de estudio de extracción léxica bilingüe y traducción, pero queremos que exista para muchas otras lenguas mexicanas”, añadió Gutiérrez.
El jefe de Ingeniería Lingüística, Gerardo Sierra, coincidió en que ante la vasta diversidad lingüística de México se debe incentivar el desarrollo de repositorios digitales y tecnología para ellas.
El equipo que creó Axolotl colabora con académicos y estudiantes del Centro Nacional de Investigación y Desarrollo Tecnológico (Cenidet), para construir un corpus similar de textos entre el mixteco y el español.
Axolotl está disponible para el público en general desde la dirección http://www.corpus.unam.mx/axolotl, y es usado principalmente por estudiosos de la lengua –sobre todo del náhuatl–, tecnólogos del lenguaje o ingenieros lingüistas, a quienes les interesa desarrollar tecnología para lenguas con escasos recursos digitales.
No Comment