Presentación de PowerPoint

Transcripción

Presentación de PowerPoint
CORDIAM: cuatrocientos años de historia
del español en América
Virginia Bertolotti (Universidad de la
República, Uruguay)
Concepción Company Company
Academia Mexicana de la Lengua
Universidad Nacional Autónoma de México
C O N TAC T , VAR IAT I O N AN D C HAN G E :
c o r p o r a d e v e l o p m e n t a n d a n a l y s i s o f
I b e r o -R o m a n c e l a n g u a g e v a r i e t i e s
1. Presentación
Motivación para crear CORDIAM
• Casi 90% de la población hispanohablante nativa es
americana
• Gramáticas y obras generales (casi) no incorporan
diacronía del español de América (algo de sincronía)
• No existen descripciones lingüísticas de la mayoría de
los países hispanohablantes americanos
• Hay algunos estudios lingüísticos de conjunto para
español americano con breves apuntes históricos
3
1. Presentación
Motivación para crear CORDIAM
• NO se incorpora diacronía por ¿desinterés? o ¿falta de
información documental histórica fácilmente accesible?
• Ya: numerosos esfuerzos filológicos y ecdóticos
individuales
• Ya: bastantes colecciones documentales diacrónicas
americanistas publicadas y algunos materiales en red
• NO hay un corpus en red de documentación americana
que abarque diacronía amplia y diatopía amplia
4
2. ¿Qué es CORDIAM?
Características de CORDIAM
• Corpus de corpus
• Infraestructura para la investigación
• Documentos americanos exclusivamente
• No literarios y no periodísticos: inmediatez
comunicativa
• Recabados directamente de archivo
• Profundidad histórica de 400 años: 1493-1904
• Los 19 países hispanohablantes de América +
EEUU (Nueva España), Jamaica, Haití, Guyana,
5
2. ¿Qué es CORDIAM?
Características de CORDIAM
•
•
•
•
•
•
•
•
Cantidad de documentos a la fecha: 3185
Universo de palabras actual: 4700000 aprox
Corpus en red de acceso libre (alojado en la AML)
Informatizado y con un sistema de búsqueda y
procesamiento diseñado para el análisis lingüístico
Plantilla de metadatos asociados de relevancia
lingüístico-histórica (diferencia con otros corpus)
Sistematización informática de documentos
Abierto a pruebas en mayo de 2014
Apertura general en febrero de 2015
6
3. Finalidad de CORDIAM
• Hacer la historia del español de América
• En todos los niveles de lengua (acceso al facsímil)
• Historia externa: conocer trayectorias históricas y
•
•
•
•
migratorias (plantilla de metadatos)
Hacer una dialectología histórica del español América
Hacer una Gramática Histórica del Español general sin
calificativos restrictivos dialectales, o con los adjetivos
restrictivos dialectales pertinentes para el fenómeno
Enriquecer conocimiento empírico y teórico de
Lingüística Histórica
Estudiar fenómenos de contacto de lenguas
7
4. La construcción de CORDIAM
• Con la colaboración de investigadores
americanos, europeos y norteamericanos que
han autorizado el uso informático de sus
materiales y han elaborado en parte los
metadatos
• Con un equipo de jóvenes filólogos
(AML/UNAM)
8
Programa CORDIAM
EQUIPOS DE DESARROLLO Y DISEÑO
CORDIAM es desarrollado por dos investigadores del Instituto Politécnico
Nacional (México)
• Alexander Gelbukh: http://www.gelbukh.com/
• Grigori Sidorov: http://www.g-sidorov.org/
La interfaz gráfica de CORDIAM es desarrollada por un despacho de diseño
• Cantera: www.scientika.mx
[email protected]
Programa CORDIAM
9
5. Documentos de CORDIAM
• Archivos y/o fondos documentales: 58
• Siglo y año: XV-XX, 1493-1904
• Nacidos en América, excepto siglo XVI y las zonas de
poblamiento tardío
• Adscripción política geográfica actual: país y lugar
• Adscripción administrativa histórica:
• Virreinato (4)
• Audiencias
• Capitanías
• Gobernación
Titulo de la página
10
7. Sistematización informática
FACSÍMIL VS TRANSCRIPCIÓN
La transcripción para un corpus electrónico no puede ser
una reproducción fotográfica del original.
Algunos intentos de reproducir fielmente el documento
resultan en transcripciones poco funcionales y confusas
para búsquedas electrónicas
Regularización de transcripciones dudosas
• y con juan / nunz de herrª → minz → martinez
• y supuco a su md y a los demas mis señores relyxosos →
suplico
• abnque → aunque bna → una
[email protected]
13
7. Sistematización Informática
¿Qué problemas se generan por falta de
sistematicidad informática?
•
Pérdida de información léxica
• Confusión para el usuario
• Complicación en las búsquedas
Por lo tanto, la transcripción de los documentos
para su uso electrónico deben seguir criterios
claros y homogéneos
[email protected]
14
8. Características Filológicas II: el documento y
su contexto
METADATOS
• Nombre
• Siglo
• Año
• Autor (datos étnicos)
• Autor (hombre o mujer)
• País actual
• Topónimo actual
• Topónimo histórico
[email protected]
Características filológicas
15
8. Características Filológicas II: el documento y
su contexto
METADATOS
• Adscripción histórica
• Archivo
• Tipo textual
• Número de folios
• Número de palabras
• Créditos
• Facsimilar disponible
• Síntesis
[email protected]
Características filológicas
16
8. Datos externos
•
•
•
•
•
•
Nombre
Archivo
Número de folios
Número de palabras
Créditos
Facsimilar disponible
17
8. Datos lingüísticos
•
•
•
•
•
•
•
•
Siglo
Año
Autor (datos étnicos)
Autor (hombre o mujer)
País actual
Topónimo actual
Topónimo histórico
Tipo textual
18
9. Características informáticas
FUNCIONES DEL MOTOR DE
BÚSQUEDA
•
•
•
•
•
•
•
•
•
Búsquedas básicas por palabra
Búsquedas de construcciones
Búsquedas avanzadas por metadatos
Búsqueda lematizada
Puede o no distinguir mayúsculas
Puede buscar palabras adyacentes
Puede ordenarse por siglo, por país o por documento
Puede hacer búsquedas aleatorias
Despliega frecuencias: ocurrencias/número de
documentos/universo de palabras
[email protected]
Características informáticas
19
9. Características informáticas
OPERADORES LÓGICOS DEL
MOTOR DE BÚSQUEDA
•
* : Cero o más letras:
a. “cu*a”  Buscar palabras con cualquier número de letras en la
posición: cura, cuchara, cuenta, curva, cuba…
b. “aunque * venga”  Buscar dos palabras, con cualquier otra palabra
entre ellas
c. “*mente”  Buscar una palabra terminada en –mente con cualquier
número de letras antes
[email protected]
Características informáticas
20
9. Características informáticas
DESPLIEGE DE RESULTADOS
• Barra lateral (tamaño ajustable)
• Selección por documento
• Marcar, borrar, mantener
• Ventana emergente con metadatos básicos por
concordancia
• Vista de ejemplo sin salir de la página de
concordancias
[email protected]
Características informáticas
21
9. Características informáticas
IMPORTACIÓN Y CUENTAS DE
USUARIO
• Exportación (Word, Excel, e-mail, guardar en la
canasta)
• Cuenta de usuario
• Gestión de carpetas por investigación (sólo usuarios
registrados)
[email protected]
Características informáticas
22
10. Fases de CORDIAM
DESARROLLADAS
• Motor de búsqueda
• Motor de búsqueda parcialmente lematizado
• Búsqueda avanzada
• Imagen
[email protected]
Fases de CORDIAM
23
10. Fases de CORDIAM
PREVISTAS PARA DESARROLLO
• Exportación
• Cuentas de usuario
• Facsímil
• Búsqueda en el facsímil
• Localización geográfica de documentos (Mapas)
• Datos cuantintativos
[email protected]
Fases de CORDIAM
25
11. Tipología textual para CORDIAM
Problema 1: Adscripción textual en base a clases y géneros
•
•
•
•
•
•
•
•
•
•
•
Cartas entre particulares
Cartas oficiales
Descripciones geográficas
Relaciones de sucesos
Actas de cabildo
Probanzas de méritos
Juicios civiles
Juicios de residencia
Capitulaciones
Informes
Memoriales de méritos
• etc., etc., etc.
• Inventarios de barcos
• Inventarios de bienes de difunto
• Notas, billetitos y recados
• Testamentos
• Testimonios en juicios
• Docs. diversos probatorios en ju.
• Bandos
• Decretos
• Denuncias / Querellas
• Sentencias
• Nombramientos
26
11. Tipología textual de CORDIAM
Problema 2: Riesgo de atomización en búsquedas
• Resultados cuantitativos muy pobres
• Corpus “pequeño” cuantitativamente para un corpus
electrónico
• Requisitos por el volumen del corpus:
• Pocos agrupamientos
• Agrupamientos grandes con “homogeneidad” interna
• Etiquetas generales que respeten el funcionamiento
de la administración americana virreinal / colonial
27
11. Tipología textual de CORDIAM
Preguntas de investigación para la propuesta tipológica
•
Reflexión e investigación sobre propuestas antecedentes:
Biber (1986); Biber y Conrad (2008); Koch y Oesterreicher
(1990); Oesterreicher (1996), entre otros
•
No sirven de mucho para CORDIAM porque toman ángulos
de taxonomía distintos de cómo se construye la
administración americana: ‘inmediatez comunicativa’,
‘interactivo-editado’, contenido ‘abstracto-situado’,
‘dialógicos-no dialógicos’, etc.
•
¿Qué buscaría un usuario en una tipología de un
corpus en red? = Recurrencias estructurales
lingüísticas: usus scribendi, gramaticales, léxicas y
semánticas–pragmáticas, hasta cierto punto diferentes
según grupos / tipos textuales
28
11. Tipología textual de CORDIAM
•
Propuesta de tipología textual
• Eje taxonómico divisorio: tipo de circulación del
documento y cómo llega a un archivo; grosso modo es un
eje-continuum con fronteras no nítidas, pero con base
empírica fuerte y bastante homogeneidad estructural
interna = Más privado > Más público
• Cuatro tipos (con 48 subclases en total)
• Documentos entre particulares: cartas y otros
• Cronísticos
• Jurídicos
• Administrativos
29
11. Ejes que guiaron la clasificación
•
Es una clasificación-guía de lo lingüísticamente “esperable”:
léxico diferente; sintaxis diferente (mayor o menor uso de
subordinación, estilo directo o no, tipos de anáforas, etc.);
morfología diferente (sistemas pronominales), etc.
•
No es una tipología textual en abstracto de clases de textos, sino
que tiene 4 bases empíricas: lingüística-estructural, ecdótica,
temática y curso de la documentación
•
La clase 1 llega a los archivos por azar (no siempre es así, límites
borrosos y complejos), las otras 3 son parte integral de las
estructuras administrativas y jurídicas de la América Española
•
Cuanto más grande y heterogénea es en apariencia la clase, más
homogénea-empaquetada y sencilla de adscribir a los criterios /
parámetros expuestos
30
11. Muestra de tipos textuales
1. Documentos entre particulares
Mi mas estimada y querida esposa de / mi corazon me alegrare que al
rresibo desta / te alles con la salu que yo para mi deseo / en conpañia, de
mis dos amadas iJas de mi corason / y de tu familia y mia / la que yo
difruto es buena para que me mandes / que lo are como me toca de
obligasion
2. Cronísticos
Y / así diçen que los vnos salieron de qüebas, los otros de çerros, /25 y
otros de fuentes, y otros de lagunas y otros de pies de árboles, / y otros
desatinos desta manera; y que por auer salido y enpeçado / a muntiplicar
destos lugares y auer sido de allí el prinçipio / de su linaje, hizieron guacas
y adoratorios estos lugares / en memoria del primero de su linaje que de
allí proçedió; /30 y así cada nación se uiste y trae el traje con que a su
guaca / uestían.
31
11. Muestra de tipos textuales
3. Jurídicos
yo Jose Candido Baes besino de el pueblo de antimano y residente de la Ciudad
de San Felipe / Ante V paresco y digo que el rreo nombrado ylario Silba es un
honbre que me a sentensiado a muerte con una lansa que a sacado en mi misma
casa y por no aber tenido los testigo (sic) no me presente ante V y de contra A
una muJer que tengo en mi Casa a sacado un puñal para matarla en la casa de
el Señor Miguel Bara por un pique que tie <inter: ne> con hella por una mujer que
el tenia y llo la hise salir de el Sitio de Carapa y por Cullo motivo Cuantas beses
pasa por mi casa a distintas horas de la noche se benga Con pegar un astaso a
las tiJas de mi CoRedor que estan a la bista las tiJas quebradas en dicho
Coredor
4. Administrativos
Muy magnífico señor: / El que la presente lleva es Juan Freyle, que / a servido
en esta haçienda de varvero para curar / los enfermos. El qual començó a servir
dende /5 quinçe de março, año de 1556 años. Sirvió hasta / quinçe de nobienbre
del dicho año. Ganava a raçón / de çien pesos de minas cada año, que ansí
estava / conçertado. Dévensele ocho meses como pareçerá / el asiento por el
libro de la contaduría.
32

Documentos relacionados