Descargar versión PDF - Posgrado en Ciencias y Tecnologías de la

Transcripción

Descargar versión PDF - Posgrado en Ciencias y Tecnologías de la
Proyecto de investigación para la MCyTI
1. Nombre del proyecto
Construcción de índices semánticos para el intercambio abierto de recursos
basado en contenidos.
2.
Responsable(s)
Dra. Reyna Carolina Medina Ramírez
3. Perfil deseable del alumno
El alumno(a) participante en este proyecto debe tener conocimientos de redes de computadoras.
1
Estar interesado en los elementos de la Web semántica (ontologías , anotaciones, datos abiertos);
así como, mostrar facilidad para la programación y la lectura de artículos en inglés.
4. Presentación del contexto e identificación de la problemática
La información en la web es vasta y heterogénea tanto en contenido como en formato,
metodologías de representación y almacenamiento de la información gestionada, así como
algoritmos y sistemas de búsqueda, han sido propuestos e implementados con éxito. Sin embargo
el enfoque utilizado todavía no ha explotado la naturaleza de los recursos existentes (significado en
función de un contexto, vínculos entre los datos existentes en los documentos). Una memoria
organizacional comparte varias características y problemas similares con la Web en general, la
única diferencia es el volumen de documentos a ser gestionados e interrogados.
Una memoria corporativa, es la representación explíta de los conocimientos de una organización
materializados en lo que se conoce como recursos. Los recursos pueden ser personas y/o
documentos heterogéneos, tanto en contenido como en formato. Entre los diversos enfoques para
gestionar estos recursos, se encuentra el enfoque de la Web semántica [Berners-Lee01] dando
origen a las memorias semánticas corporativas (MSC). El contenido semántico de tales recursos es
un factor importante a considerar para fines de almacenamiento, búsqueda e intercambio
[Alarcón14, Rios09]. Cabe mencionar que los recursos de una MSC pueden estar distribuidos.
Por otro lado, Los “datos vinculados” (linked data) es una propuesta del World Wide Web
Consortium (W3C) para publicar datos estructurados en la Web, permitiendo así, conexiones
(vínculos) entre ellos y ser más útiles para el usuario. Se trata de un enfoque que a diferencia de
la vinculación de páginas que se tiene actualmente en la Web, se va a un nivel fino de la
información, es decir, al nivel de los datos encapsulados en las páginas; estableciendo vínculos.
Este enfoque es relativamente reciente y ha mostrado algunos avances: proponer estándares
para la descripción de recursos (RDF, por sus siglas en inglés), recomendaciones para la
índices semánticos para el intercambio abierto de recursos basado en contenidos
Página 1
1
publicación de datos , por mencionar algunos. Sin embargo, existe todavía investigación al
respecto en la búsqueda de información “vinculada” como:
La identificación de tareas y paradigmas de los sistemas de búsqueda semántica (vinculada),
algoritmos para evitar la ambigüedad de términos, marcos de referencia para la generación
automática de descripciones semánticas (annotations), paradigmas de consulta para sistemas de
búsqueda semántica, aplicaciones del aprendizaje maquinal, el procesamiento del lenguaje natural
y técnicas de extracción de información en el contexto de búsqueda semántica, son sólo algunas.
Por lo anterior, se desea proponer un marco de referencia para la construcción de índices
semánticos que permitan el intercambio abierto (Linked Open Data) de recursos basado en
contenidos. En particular, se trata de generar por un lado, índices semánticos que permitan guiar el
almacenamiento y recuperación de recursos de información al interior de una memoria corporativa,
apegándose al enfoque de datos abiertos enlazados. Por el otro lado, diseñar y construir un
prototipo que permita evaluar la propuesta.
5. Objetivos generales y específicos del proyecto de investigación
Objetivo general
Proponer un marco de referencia para la construcción de índices semánticos que
permitan el intercambio abierto (Linked Open Data) de recursos basado en
contenidos
Objetivos particulares




Caracterizar la naturaleza de la información al interior de la memoria de estudio
(educativa).
Proponer un método para la generación de índices semánticos, apoyado en el
contenido de los recursos almacenados en la memoria educativa.
Establecer un marco general apegado a estándares para la vinculación entre
documentos orientados por el uso de sus contenidos (índices semánticos).
Diseñar y construir un prototipo que permita caracterizar la naturaleza de la
información al interior de una memoria educativa y su vinculación con otros
recursos de información
6. Metodología propuesta
La metodología que seguiremos está descrita en las siguientes etapas:
a. Exploración del estado del conocimiento sobre algoritmos semánticos para la clasificación
de recursos. Recopilación y análisis de los recursos de la memoria corporativa de estudio.
b. Creación del protocolo de investigación.
c. Definición de los requerimientos, modelos y metodología, para un sistema generador de
índices semánticos apoyado en la naturaleza de los contenidos.
d. Validación de la propuesta mediante la construcción de un prototipo para generar los
índices semánticos de un dominio de conocimiento en particular (educación).
1
Linked Open Data.http://www.antidot.net/actualites/evenements/iswc-2012-presentation-linked-enterprisedata/
índices semánticos para el intercambio abierto de recursos basado en contenidos
Página 2
e. Comunicación de resultados.
7. Resultados esperados
Al finalizar el proyecto el alumno habrá construido un prototipo para generar los índices semánticos
de un dominio de conocimiento en particular, acompañado de su documentación completa.
Asimismo, habrá completado un conjunto de pruebas de funcionamiento que le permitirán evaluar
el desempeño de su propuesta.
Al término del primer trimestre el alumno entregará al coordinador el protocolo de investigación
que, al menos, contendrá una descripción del estado del conocimiento, la problemática que se
aborda y la metodología. Este protocolo se presentará en el seminario de avances organizado al
cierre del trimestre.
Al término del segundo trimestre el alumno entregará al coordinador un reporte de avance en forma
de artículo. Éste contendrá la caracterización de los requerimientos de recuperación de
información, así como una propuesta de diseño e implantación. Este reporte se presentará en el
seminario de avances.
Al finalizar el tercer trimestre el alumno entregará al coordinador un primer borrador de su idónea
comunicación de resultados. De igual forma, el alumno presentará por última vez en el seminario
de avances, el resultado de su trabajo.
En el curso del cuarto trimestre el alumno entregará la versión final de su idónea comunicación de
resultados.
8. Referencias a la literatura inicial
[Berners-Lee01] Berners-Lee, T., Hendler, J., Lassila, O. (2001). The semantic web.
Scientific
American, 284(5):35-43
[Alarcón14]
[Rios09]
Alarcón Zamora Erik. “Integración Semántica de Recursos de información en una
Memoria Corporativa”. Tesis de la Maestría en Ciencias y Tecnologías de la
Información, UAMI. Asesores: Reyna Carolina Medina Ramírez y Héctor Pérez
Urbina. 2014.
Rios-Alvarado A.B., Marcelín-Jiménez R. and Medina-Ramírez R.C., “Ana B.
Rios-Alvarado, R. Carolina Medina-Ramírez, Ricardo Marcelín-Jiménez. A
Semantic Web Approach to Represent and Retrieve Information in a Corporate
Memory. In R. Hoekstra and P. F. Patel-Schneider (Eds.). Proceedings of the 5th
International Workshop on OWL: Experiences and Directions (OWLED 2009),
Chantilly, VA, United States, October 23-24, 2009. Disponible en
http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-529/
9. Calendarización de actividades
Actividad
Trimestre 1
Trimestre 2
Trimestre 3
Revisión de la literatura en el tema
índices semánticos para el intercambio abierto de recursos basado en contenidos
Página 3
Recopilar y analizar los recursos de la
memoria corporativa de estudio
Creación del protocolo de investigación
Definición de los requerimientos, modelos
y metodología, para un sistema
generador de índices semánticos abiertos
apoyado en la naturaleza de los
contenidos.
Validación de la propuesta mediante la
construcción de un prototipo para
generar los índices semánticos de un
dominio de conocimiento en particular
Comunicación de resultados (incluye
idónea comunicación de resultados y
artículo de inv.)
10. Infraestructura necesaria y disponible
Un conjunto de computadoras personales conectadas en red, herramientas para programar
aplicaciones en lenguajes JAVA y C++, Mik-TeX ó LaTex.
11. Lugar de realización
Laboratorio: ARTe (T-326 bis).
índices semánticos para el intercambio abierto de recursos basado en contenidos
Página 4

Documentos relacionados