Gestión de recursos en Internet y estrategias para combatir la

Transcripción

Gestión de recursos en Internet y estrategias para combatir la
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Gestión de recursos en Internet y
estrategias para combatir la
sobrecarga de información
Javier Iglesia Aparicio
Javier Iglesia Aparicio, 2014
Página 1
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Contenido
1. La información en la Web actual ............................................................................... 7
1.1 Introducción ........................................................................................................ 7
1.2 Concepto de Web 2.0 .......................................................................................... 7
1.2.1 De la Web 1.0 a la Web 2.0 ........................................................................... 8
1.2.2 Los principios de la Web 2.0 ......................................................................... 9
1.2.3 Las tecnologías de la Web 2.0 ..................................................................... 10
1.2.4 Las herramientas de la Web 2.0 .................................................................. 11
1.3 Características de la información en la Web 2.0 ................................................ 11
1.3.1 Algunos datos enormes ............................................................................. 13
1.3.2 Pero, ¿toda la información es útil? ............................................................. 14
1.4 Sobrecarga de información o intoxicación informacional................................... 14
1.5 ¿Soluciones? ..................................................................................................... 15
1.6 Nuevas formas de organización y representación de la información.................. 15
1.6.1 Folcsonomías .............................................................................................. 16
1.6.2 Nubes de etiquetas .................................................................................... 17
2. Búsqueda de información en Internet ..................................................................... 19
2.1 Introducción ...................................................................................................... 19
2.2 ¿Qué es un buscador? ....................................................................................... 19
2.3 Tipos de buscadores .......................................................................................... 19
2.4 ¿Cómo funciona un motor de búsqueda? .......................................................... 20
2.5 Cómo usar un motor de búsqueda .................................................................... 21
2.6 Google .............................................................................................................. 22
2.6.1 Búsqueda avanzada .................................................................................... 25
2.6.2 Operadores y comandos avanzados del buscador Google ........................... 28
2.6.3 Trucos y otras utilidades del buscador Google ............................................ 30
2.6.4 Más información......................................................................................... 33
2.7 Yahoo! Search ................................................................................................... 34
2.7.1 Búsqueda avanzada en Yahoo! Search ........................................................ 35
2.7.2 Operadores de búsqueda avanzada en Yahoo! Search ................................ 37
2.7.3 Trucos de Yahoo! Search ............................................................................ 37
2.8 Bing .................................................................................................................. 37
2.8.1. Búsqueda avanzada en Bing....................................................................... 40
2.8.2 Operadores de búsqueda avanzada en Bing ............................................... 41
2.8.3 Trucos con Bing .......................................................................................... 43
2.9 Integración de los buscadores en nuestro navegador ........................................ 43
Javier Iglesia Aparicio, 2014
Página 2
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2.9.1 Añadir motores de búsqueda a Mozilla Firefox ........................................... 44
2.9.2 Añadir motores de búsqueda a Internet Explorer 8 .................................... 46
2.9.3 Añadir motores de búsqueda a Internet Explorer 9 y superiores................. 48
2.9.4 Añadir motores de búsqueda a Chrome...................................................... 48
2.10 Buscadores específicos .................................................................................... 50
2.10.1 Por tipo de archivo ................................................................................... 51
2.10.2 Por ámbitos de conocimiento o buscadores verticales .............................. 51
2.11 Multibuscadores y Metabuscadores ................................................................ 51
2.11.1 Metadatos ................................................................................................ 52
2.11.2 Open Archive Initiative (OAI) .................................................................... 55
2.11.3 Ejemplos ................................................................................................... 56
2.12 Buscadores de recursos educativos ................................................................. 57
2.13 Buscadores académicos ................................................................................... 57
2.14 Buscadores para niños ..................................................................................... 58
2.15 Google Custom Search Engine: crea tu propio buscador personalizado ........... 59
2.15.1 Creación de un buscador personalizado .................................................... 60
3. Mecanismos de interoperabilidad e intercambio de información en la Web. .......... 68
3.1 Introducción ...................................................................................................... 68
3.2 Sindicación de contenidos ................................................................................. 68
3.2.1 Breve historia ............................................................................................. 69
3.2.2 Estándares .................................................................................................. 70
3.2.3 RSS 2.0 ........................................................................................................ 70
3.2.4 ¿Por qué usar la sindicación de contenidos? ............................................... 73
3.2.5 Buenas prácticas en el uso de la sindicación de contenidos ........................ 74
3.2.6 Búsqueda de fuentes RSS............................................................................ 75
3.2.7 Suscripción y lectura ................................................................................... 76
3.2.7.1 Con los navegadores ................................................................................ 76
3.2.7.2 Con lectores o agregadores RSS ............................................................... 76
3.2.8 Compartir, exportar e importar conjuntos de fuentes RSS: OPML ............... 77
3.3 Tutorial de Feedly .............................................................................................. 78
3.3.1 Acceso y registro ........................................................................................ 79
3.3.2 Consulta de noticias.................................................................................... 80
3.3.3 Gestión de fuentes RSS ............................................................................... 82
3.3.4 Importación y exportación .......................................................................... 85
3.3.5 Atajos de teclado ........................................................................................ 86
Javier Iglesia Aparicio, 2014
Página 3
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.4 Manipulación de fuentes de sindicación con Yahoo! Pipes ................................ 87
3.4.1 Acceso ........................................................................................................ 87
3.4.2 Editor de Yahoo! Pipes ................................................................................ 87
3.4.2.1 Sources .................................................................................................... 88
3.4.2.2 User inputs .............................................................................................. 89
3.4.2.3 Operators ................................................................................................ 89
3.4.2.4 String ....................................................................................................... 90
3.4.2.5 Url, Date, Location y Number ................................................................... 91
3.4.2.6 Ejemplo sencillo de creación de un pipe................................................... 92
3.4.2.7 Ejemplo avanzado de creación de un pipe ............................................... 93
3.4.3 MyPipes...................................................................................................... 96
4. Los marcadores sociales: cómo almacenar y recuperar información de forma
eficiente ...................................................................................................................... 97
4.1 ¿Cómo almacenamos la información? ............................................................... 97
4.2 Los marcadores sociales .................................................................................... 98
4.2.1 Breve historia del marcado social ............................................................... 98
4.2.2 Ventajas, desventajas y usos....................................................................... 98
4.2.3 Herramientas de marcado social................................................................. 99
4.2.4 Google Bookmarks.................................................................................... 100
4.2.5 Delicious ................................................................................................... 102
4.2.5.1 Ejemplos de uso de Delicious ................................................................. 105
4.2.6 Tutorial de Delicious ................................................................................. 109
4.2.6.1 Acceso y registro.................................................................................... 109
4.2.6.2 Acceso a nuestra cuenta e interfaz general ............................................ 109
4.2.6.3 Añadir nuevos marcadores .................................................................... 111
4.2.6.4 Gestión de marcadores .......................................................................... 112
4.2.6.5 Gestión de etiquetas y agrupamientos de etiquetas .............................. 113
4.2.6.6 Añadir marcadores mientras estamos navegando ................................. 116
4.2.6.7 Importar / Exportar información ............................................................ 116
4.2.7 CiteULike .................................................................................................. 117
4.2.8 Google +1 ................................................................................................. 117
4.3 Web Notetaking .............................................................................................. 117
4.3.1 Evernote ................................................................................................... 118
4.3.2 Diigo ......................................................................................................... 119
4.3.2.1 Breve tutorial de Diigo ........................................................................... 120
4.3.2.2 La barra de herramientas de Diigo ......................................................... 121
Javier Iglesia Aparicio, 2014
Página 4
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4.3.3 Springpad ................................................................................................. 122
4.3.4 Google Keep ............................................................................................. 124
4.4 Agregadores de noticias o Social News ............................................................ 125
4.4.1 Digg .......................................................................................................... 126
4.4.2 Menéame ................................................................................................. 127
4.5 Promoción social ............................................................................................. 128
4.6 Catalogación social .......................................................................................... 129
4.6.1 Herramientas de catalogación social ......................................................... 129
4.6.2 Un ejemplo en profundidad: LibraryThing ................................................ 130
4.7 Herramientas de content curation ................................................................... 133
4.7.1 Google Alerts ............................................................................................ 135
4.7.2 Herramientas de publicación para content curators ................................. 136
5. Cómo organizar nuestras herramientas y fuentes de información: mash-up ......... 139
5.1 Introducción .................................................................................................... 139
5.2 Fundamentos de los mash-up .......................................................................... 140
5.3 Ejemplos de mashup ....................................................................................... 142
5.4 Web widgets ................................................................................................... 142
5.5 Los portales personalizados ............................................................................. 143
5.5.1 Symbaloo .................................................................................................. 144
5.5.1.1 Registro y acceso ................................................................................... 144
5.5.1.2 Página inicial y menú de trabajo ............................................................ 146
5.5.1.3 Crear un webmix ................................................................................... 149
5.5.1.4 Edición de un webmix ............................................................................ 151
5.5.2 Netvibes ................................................................................................... 153
5.5.3 Ejemplos de uso de universos públicos Netvibes ...................................... 153
5.5.4 Breve tutorial de Netvibes ........................................................................ 154
5.5.4.1 Darse de alta.......................................................................................... 154
5.5.4.2 Dashboard privado ................................................................................ 155
5.5.4.3 Trabajando con el dashboard privado .................................................... 156
5.5.4.4 Creando un escritorio público ................................................................ 157
5.6 IFTTT ................................................................................................................... 158
5.6.1 Un ejemplo de creación de una receta en IFTTT ........................................... 159
6. El futuro de la tecnología web: la web semántica .................................................. 163
6.1 ¿Por qué no encuentro lo que busco? ............................................................. 163
6.2 Los pasos hacia la Web semántica ................................................................... 165
Javier Iglesia Aparicio, 2014
Página 5
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
6.2.1 Microformatos.......................................................................................... 166
6.2.2 Metadatos ................................................................................................ 168
6.2.3 Vocabularios estructurados: tesauros en la red ........................................ 169
6.3 ¿Qué es la Web Semántica? ............................................................................ 170
6.3.1 ¿Qué permitirá la Web semántica? ........................................................... 171
6.3.2 Concepto de ontología.............................................................................. 173
6.3.3 Niveles de ontología ................................................................................. 174
6.3.4 Proceso de construcción de una ontología ................................................ 175
6.4 Datos enlazados y datos abiertos .................................................................... 175
6.4.1 Datos enlazados ....................................................................................... 175
6.4.2 Datos abiertos .......................................................................................... 177
6.4.3 Datos enlazados y abiertos ....................................................................... 178
6.5 Estándares de la Web semántica ..................................................................... 179
6.5.1 RDF y RDFS ............................................................................................... 181
6.5.2 OWL ......................................................................................................... 182
6.5.3 Consultas y reglas (SPARQL y RIF) ............................................................. 182
6.5.4 Las capas superiores ................................................................................. 182
6.5.5 Otras tecnologías relacionadas ................................................................. 183
6.6 Buscadores semánticos ................................................................................... 184
6.6.1 Ejemplos de buscadores semánticos ......................................................... 185
6.6.2 ¿Se está convirtiendo Google en un buscador semántico? ........................ 188
6.7 ¿Cuándo llegará la Web semántica? ................................................................ 189
6.7.1 Esfuerzos actuales de semantización ........................................................ 191
6.7.2 Comunidades semánticas ......................................................................... 192
Javier Iglesia Aparicio, 2014
Página 6
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
1. La información en la Web actual
1.1 Introducción
Desde sus inicios, nadie discute que la Web ha revolucionado la capacidad de acceso a
la información sobre cualquier tema. La idea de Tim Berners-Lee, el creador de la Web,
se basaba en el uso inteligente del hiperenlace entre documentos digitales localizados
en distintas máquinas distribuidas en una red, de forma que fuera sencillo encontrar
documentos y relacionarlos entre sí.
La primera pieza del puzle, los documentos digitales almacenados en servidores, ya
existía desde los comienzos de la informática. La segunda, una serie de ordenadores
interconectados, también existía desde la década de 1960. Y el concepto de
hiperenlace o hipervínculo no se diferencia demasiado del concepto referencia
bibliográfica o de una nota a pie de página a las que tan acostumbrados estamos en los
documentos escritos.
Faltaba crear un sistema que permitiera a las máquinas transferir documentos de una
forma eficiente y que éstos se pudieran relacionar entre sí. Entre los años 1989 y 1991,
Tim Berners-Lee ideó un mecanismo de transmisión de información entre máquinas en
red: el protocolo HTTP (Hypertext Transfer Protocol). Su componente principal es una
forma unívoca de nombrar a cada documento disponible en cada una de las
computadoras que pertenecían a la red: el URI (Uniform Resource Identifier). También
elaboró un lenguaje en el que, entre otras cosas, se pudieran definir los hipervínculos,
las relaciones entre documentos: el HTML (Hypertext Markup Language). Esta nueva
tecnología recibió el nombre de World Wide Web (WWW) o Web en su forma
abreviada.
Su origen estuvo en la red de ordenadores de la Organización Europea para la
Investigación Nuclear (CERN), pero pronto inició una difusión imparable por otras
redes aprovechando la expansión de Internet. Y tal ha sido su grado de difusión que,
para la mayoría de los usuarios, Internet y Web son sinónimos, aunque, en realidad, se
trata de conceptos radicalmente distintos: la Web es un sistema de información
distribuido basado en hipermedios enlazados y disponibles en Internet, que es el
conjunto descentralizado de redes de comunicaciones de ámbito mundial que surgió
en 1969. Es decir, la Web es un servicio más de entre otros que proporciona Internet.
En el período que media aproximadamente entre 1989 y 2004, la Web se componía en
su gran mayoría de documentos estáticos, principalmente textuales y en los que el
navegante solía ser principalmente un consumidor de información más que un
productor, pues para poder crear contenidos en la Web se necesitaban medios y
conocimientos que no estaban al alcance de todos.
1.2 Concepto de Web 2.0
Lo que se llama comúnmente Web 2.0 no es un estándar ni una tecnología de reciente
aparición. El concepto de Web 2.0 representa la evolución social de Internet: es un
Javier Iglesia Aparicio, 2014
Página 7
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
modelo de acción, de uso de la Web, sostenida por un conjunto de aplicaciones
tecnológicas orientadas al desarrollo de una inteligencia colectiva.
Aunque el término Web 2.0 es el más difundido, originario de la notación informática
que expresa el desarrollo desde una anterior versión, la Web 1.0, quizás un término de
mejor comprensión para definir Web 2.0 es el de Web Lectura/Escritura. En sus
orígenes la Web (1.0) era predominantemente un servicio de lectura, de consulta y de
acceso a servicios que una minoría dejaba a la disposición de los usuarios, es decir, era
sobre todo una Web Lectura. La introducción de la faceta escritora ha hecho posible la
creación de contenidos por los usuarios, incluso de forma colaborativa, y la
comunicación entre personas. Por eso también se puede definir a la Web 2.0 como la
Web Social.
1.2.1 De la Web 1.0 a la Web 2.0
Cuando Tim Berners-Lee comenzó el desarrollo de la World Wide Web, en 1989, su
idea original era crear un medio colaborativo, un lugar donde todos pudieran
encontrarse, leer y escribir. Debido a las restricciones técnicas, lo primero que se
desarrolló fue la parte de Lectura, de consulta de información. El primer paso fue la
creación de un lenguaje que permitiera crear documentos (HTML) en 1990 y la de un
navegador –en modo texto– que permitiera consultar esos documentos (1990) 1.
Cuando en 1993 aparece el primer navegador visual (Mosaic), podemos decir que
comienza la expansión de la Web 1.0: las personas pueden consultar documentos en
red usando interfaces visuales.
Pero crear contenidos en la Web requería del conocimiento de HTML y de la
posibilidad de actualizar archivos en un servidor. Esto no estaba al alcance de todos los
usuarios. La Web era, por lo tanto, de carácter estático, poco participativa.
Tras la crisis de las empresas puntocom, en los comienzos del siglo XXI, que supuso la
desaparición de muchos portales de Internet, surgió cierto desánimo. Pero también
comenzaron a aparecer con fuerza nuevas aplicaciones que transformaron por
completo el concepto de la Web. El blog se empieza a difundir rápidamente a partir de
1999 (aunque las primeras experiencias son algo anteriores) tras el lanzamiento de
Blogger.com; ese mismo año aparece la primera versión del formato RSS; en el 2001 se
lanza Wikipedia; en 2003 surgen las primeras redes sociales como tribe.net, Friendster
o eConozco.
En este contexto O’Reilly Media, empresa de innovación tecnológica y MediaLive
International, empresa de soluciones de marketing, a mediados de 2004, elaboran una
evaluación sobre el desplome de las empresas de Internet comparando las razones por
las cuales muchas de éstas habían dejado de funcionar y por qué otras, en cambio,
habían subsistido. El resultado de esta evaluación fue publicado por Tim O’Reilly en
2005 en un su artículo “What is Web 2.0? Design Patterns and Business Models for the
Next Generation of Software”2, que sigue siendo una fuente de referencia para
1
puede
http://www.w3.org/People/Berners-Lee/WorldWideWeb.html.
2
Este
navegador
se
llamó
WorldWideWeb.
Se
encontrar
más
información
en:
Se puede consultar en: http://oreilly.com/web2/archive/what-is-web-20.html.
Javier Iglesia Aparicio, 2014
Página 8
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
entender este nuevo estadio de la evolución de la Web. A partir de este momento, el
término Web 2.0 se populariza y, paralelamente, la relación de los usuarios con la Web
cambió radicalmente.
Diferencias entre Web 1.0 y Web 2.0 según O’Reilly (2005)
1.2.2 Los principios de la Web 2.0
Siguiendo el artículo de O’Reilly, podemos decir que los siete principios que
caracterizan la Web 2.0 son:
1. La Web como plataforma. Todo está en la Web. Es posible usar las
herramientas sin que tengan que ser descargadas en el ordenador. La Web es
la plataforma donde se ejecuta el software –en muchas ocasiones gratuito – y
desaparecen restricciones tecnológicas.
2. La inteligencia colectiva. Cada aplicación web propone una forma de hacer, y
cada forma de hacer en la Web deja siempre una información relevante que
puede ser usada por otros. Se generan comunidades virtuales y se generaliza la
creación colaborativa de contenidos.
3. La gestión de las bases de datos. El estudio y la gestión de la información que
los usuarios crean en las aplicaciones web son vitales para que las compañías
dedicadas a ofrecer servicios web subsistan. Es la única forma de cambiar y
mejorar sus servicios de acuerdo a las preferencias de los usuarios.
4. El fin del ciclo de las actualizaciones del software. Uno de los pasos
sustanciales dados por la Web 2.0 ha sido transformar el software como
producto de compra al de servicio abierto que, bajo este modelo, se actualiza
constantemente. El papel del usuario es la de ser colaborador del sistema que,
no sólo aporta información constante para su mejora, sino que además valida
las funcionalidades que deben permanecer o extinguirse. Por tanto, la actividad
común en la Web 2.0 es reinventar sus productos constantemente: las beta
perpetuas.
5. Los modelos de programación ligera. Es una apuesta por construir aplicaciones
sencillas, escalables, que permita al desarrollador web realizar cambios
rápidamente y que mantenga los interfaces de usuarios con una navegación
simple.
Javier Iglesia Aparicio, 2014
Página 9
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
6. El software en más de un dispositivo. La Web 2.0 se amplía a más dispositivos,
no se limita sólo al ordenador, sino a teléfonos móviles, PDA, consolas de
videojuegos, tabletas, etc.
7. La experiencia enriquecedora del usuario. Los interfaces predominantes en las
aplicaciones Web 2.0 apuestan por una interactividad más rica donde el usuario
pueda moverse y operar como en su ordenador: la importancia de la
usabilidad.
En definitiva, la nueva Web es, por fin, la Web que además de permitir la Lectura
permite la Escritura – y, por tanto, la comunicación bidireccional – a la mayoría de los
navegantes de Internet.
1.2.3 Las tecnologías de la Web 2.0
Es indudable que las tecnologías de diseño y desarrollo de las aplicaciones Web han
ido evolucionando y han hecho posible el desarrollo de la filosofía de la Web 2.0. Estas
son algunas características técnicas que, de forma general, cumplen los nuevos sitios
web:
•
•
•
•
Sitios web basados en estándares y accesibles. Para que cualquier sitio web
pueda ser visto en cualquier dispositivo y por cualquier persona, éste debe ser
desarrollado de acuerdo a estándares y, en concreto, a los definidos por el
World Wide Web Consortium (W3C). Los más importantes son XHTML
(eXtended Hypertext Markup Language) y CSS (Cascading Style Sheets), cuya
combinación permite independizar el contenido de la apariencia visual; y las
pautas de accesibilidad (WCAG) que hacen posible que la información se
acceda de forma correcta desde cualquier dispositivo y por parte de usuarios
que incluso tengan discapacidades visuales o auditivas.
Metadatos y microformatos basados en XML. La búsqueda de información en
el caos de Internet es muchas veces una tarea laboriosa. El etiquetado de las
páginas web con metadatos (Dublin Core, Resource Description Framework–
RDF– u otros) y el uso de microformatos – pequeños códigos XML ampliamente
usados – permiten que los buscadores nos entiendan mejor y nos presenten
resultados más fiables.
Sitios Web dinámicos con bases de datos y lenguajes interpretados en
servidor. El sitio web tiene que disponer necesariamente de una base de datos
y la interactividad de los usuarios está basada en lenguajes de programación
interpretados en el servidor como PHP, ASP, Perl o Python.
Web API, servicios web y AJAX. La arquitectura de la información de los sitios
web está basada en servicios que pueden ser consultados e integrados en otros
sitios, bien mediante consultas usando protocolos como SOAP (Simple Object
Access Protocol) para acceder a servicios web, bien facilitando el desarrollo de
widgets a partir de los API (Application Programming Interface) que publican
los sitios web y adaptando los interfaces de usuario mediante la tecnología
AJAX.
Javier Iglesia Aparicio, 2014
Página 10
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
1.2.4 Las herramientas de la Web 2.0
Las características de la Web 2.0 en unión con estas tecnologías han desembocado en
la creación de una serie de herramientas que son las que realmente han
proporcionado la expansión de esta nueva forma de usar la Web. Las aplicaciones son
innumerables pero, tratando de realizar una exposición estructurada, podemos
dividirlas en cuatro grandes grupos:
•
•
•
•
Aplicaciones para compartir recursos. Son las que hacen posible compartir
recursos digitales de cualquier tipo creados por los usuarios a través de
plataformas especializadas: canales de vídeo, álbumes de fotos, etc.
Herramientas para crear recursos. Aquellas que hacen posible a los usuarios
generar contenidos que, posteriormente, pueden ser compartidos y difundidos
apoyando el desarrollo de la inteligencia colectiva. A este grupo pertenecen,
entre otras, las dos más conocidas: las wikis y los blogs.
Servicios para recuperar información. Son herramientas que permiten
organizar recursos a partir de necesidades informativas del usuario que las
elige. Esto permite un acceso selectivo a los contenidos Web así como una
distribución masiva.
Redes sociales. El conjunto de herramientas diseñadas para crear y gestionar
comunidades virtuales, espacios donde sus miembros establecen vínculos,
contactos e intercambian contenidos motivados por una serie de intereses
comunes a todos.
Estas herramientas tienen en general dos formas de ser utilizadas por parte de los
usuarios en función de sus conocimientos técnicos y sus necesidades. La primera es
directamente sobre la Web, donde los usuarios se registran –casi siempre sin pagar
nada – y sólo necesitan aprender las funciones básicas para empezar a usarlas. Basta
con un ordenador, una conexión a Internet de banda ancha y un navegador.
La segunda modalidad, para usuarios más avanzados, consiste en descargarse el código
fuente de la aplicación (de forma gratuita si son de código abierto u open source) e
instalarlo en un servidor de modo que pueda configurarlo y adaptarlo a sus
necesidades. Esta opción tiene las ventajas de poder adaptar y modificar la aplicación
según los requisitos del usuario, pero implica conocimientos técnicos avanzados y la
contratación de un servicio de alojamiento o de la disponibilidad de un servidor.
Por ejemplo, si nos referimos a las wikis, cualquiera puede crear una en
wikispaces.com tras un registro; pero si queremos mayor control sobre la aplicación es
posible descargarse el código fuente de MediaWiki, el software que usa Wikipedia.
1.3 Características de la información en la Web 2.0
Ya hemos dicho que, desde sus inicios, nadie discute que Internet ha revolucionado la
capacidad de acceso a la información sobre cualquier tema. Pero, con el comienzo del
siglo XXI, se producen tres factores que, unidos, han revolucionado las características
de la información:
Javier Iglesia Aparicio, 2014
Página 11
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
•
Aparición de las aplicaciones Web 2.0. Blogs, wikis, redes sociales…
aplicaciones fáciles de usar y que permiten a sus usuarios generan información
desde cualquier lugar y en cualquier momento siempre que estén conectados.
Popularización de dispositivos electrónicos creadores de contenidos.
Ordenadores portátiles, netbooks, teléfonos móviles, cámaras y videocámaras
digitales, tabletas digitales… nos permiten crear información en multitud de
formatos que podemos subir directamente a Internet.
Mejora y expansión de las conexiones a Internet de banda ancha, que ha ido
paralela al consumo de vídeos, audio y fotografía que cada vez es más
importante en Internet.
Estos tres factores unidos han dado forma a la expansión de la información que
contiene la Web actual y cuyas principales características se pueden resumir en:
•
•
•
•
Volumen ingente y en continuo crecimiento.
Multitud de fuentes. Las fuentes de información son cada vez más numerosas
debido, sobre todo, a la facilidad de creación y al mayor número de usuarios
que acceden a Internet.
Multiformato. La información ya no sólo aparece en formato texto sino que el
vídeo, el audio y la imagen van ganando relevancia.
Comportamiento casi orgánico. Muchas fuentes de información o bloques de
información aparecen y desaparecen con gran rapidez, como si fueran
organismos vivos. El ejemplo paradigmático son las herramientas de
microblogging como Twitter donde la información crece cada segundo y los
tweets del día anterior son casi inaccesibles.
Cambio de escenario en la Web
Javier Iglesia Aparicio, 2014
Página 12
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
1.3.1 Algunos datos enormes
Según las estadísticas proporcionadas por Internet World Stats3, en junio del año 2012
el número total de usuarios de Internet en el mundo era de unos 2.405 millones de
personas (algo más del 34 % de la población mundial) mientras que en el año 2000
eran poco más de 360 millones. Este gran volumen de usuarios tiene acceso a la
información, así como la posibilidad de crearla y modificarla. Veamos sus dimensiones.
¿Alguien puede imaginarse 10 filas de libros con una longitud igual a la que hay entre
la Tierra y Plutón? ¿Sabes cuantos bytes son 1.2 zettabytes?
Los últimos estudios sobre la cantidad de información digital que existe en Internet
tienen que usar este tipo de explicaciones para hacernos entender la magnitud de los
contenidos que la Red almacena. La distancia media entre la Tierra y Plutón es de 50,4
unidades astronómicas, es decir, unos 7.529.000.000 kilómetros; y un zettabyte
equivale a 1021 bytes, o más fácil, 1011 discos duros de 100 GB.
Si bien es realmente difícil realizar cuantificaciones pues la información es algo vivo,
cambiante, redundante en muchas ocasiones y no accesible o privado en otras tantas,
la última estimación realizada por IDC 4 sobre la cantidad de información existente en la
Web proporciona el siguiente dato para el año 2010: 1,2 zettabytes (ZB), es decir, 1,2 ·
1021 bytes, o para que quede más claro, 1,2·1011 discos duros de 100 GB. En el año
2006 la cifra era de 161 exabytes (161 · 1018 bytes). Pero las webs actuales se destacan
por actualizarse de forma muy frecuente, con lo que la cantidad sigue creciendo de
forma que se prevé que para el año 2020 se alcancen los 35 ZB.
3
Según Internet World Stats: http://www.internetworldstats.com/stats.htm.
Se puede consultar el informe en: http://www.emc.com/collateral/analyst-reports/expanding-digitalidc-white-paper.pdf.
4
Javier Iglesia Aparicio, 2014
Página 13
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Claramente son cantidades inabordables y por eso es necesario acudir a herramientas
informáticas que nos permitan gestionar la información cuando queremos
almacenarla, recuperarla o distribuirla.
1.3.2 Pero, ¿toda la información es útil?
Por supuesto que, formando parte de ese ingente volumen de datos, hay gran parte de
ellos que realmente no constituyen una información única, útil y realmente relevante.
Nos encontramos con información duplicada bien sea porque se cita, se copia, se
retuitea, se traduce a otro idioma o se transforma en otro tipo de formato.
Además, nos encontramos con información contradictoria, por lo que es necesario
desarrollar el sentido de valoración crítica para discernir cuál es la realmente valiosa y
esto, frecuentemente, nos llevará a tratar de acceder a las fuentes de la información.
Por último, cuando hacemos una búsqueda es también habitual que nos aparezcan
datos que no están relacionados de ninguna manera con lo que realmente estamos
buscando, sino que simplemente se muestran porque existen coincidencias de léxico,
no de significado.
1.4 Sobrecarga de información o intoxicación informacional
“Obtener información de Internet es como intentar beber agua de una boca de
incendios”
Mitchell David Kapor, fundador de Lotus
La situación de sobrecarga de información o de intoxicación informacional, es aquella
en la que se dispone de más información para procesar de la que humanamente se
puede, y, como consecuencia, surge la ansiedad.
La infoxicación es ya un problema de nuestra sociedad. ¿Por qué se produce? Se
pueden identificar los siguientes factores:
•
•
•
•
•
•
El gran volumen de información existente y la rapidez con que se incrementa.
El gran número de canales de información (webs, correos electrónicos, SMS,
etc.) y de fuentes informativas dentro de cada canal.
La facilidad de duplicación y de transmisión de la información digitalizada.
Contradicciones e inexactitudes dentro de la información disponible.
Falta de conexión entre los distintos fragmentos de información que pueden
estar relacionados.
Falta de métodos y de aplicaciones que nos ayuden a almacenar, organizar y
recuperar la información de forma eficaz.
Se produce más información que tiempo tenemos para leerla, no digamos ya para
digerirla. Y esta información se encuentra dispersa en múltiples fuentes dentro de
varios canales de comunicación.
Javier Iglesia Aparicio, 2014
Página 14
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Este problema nos afecta de varias formas:
•
•
•
•
•
Pérdida de la atención.
Disminución de la concentración.
Falta de seguridad en la toma de decisiones.
Incapacidad de realizar una correcta gestión de nuestro tiempo.
Constante sensación de ansiedad.
1.5 ¿Soluciones?
El usuario de Internet típico navega de forma habitual por un conjunto de webs que le
interesan para ver lo último y, frecuentemente, esta labor le lleva un tiempo
considerable.
¿Cómo puedo saber si un sitio web tiene nueva información sin tener que acudir a su
portada? ¿Cómo puedo organizar esta información? ¿Pero es que no puedo ver toda la
información actual y que me interesa de un sólo vistazo?
Hay que diseñar instrumentos para reducir el ruido informacional que recibimos y
aumentar la productividad del tiempo de atención de que disponemos. De hecho, ya
tenemos herramientas para hacerlo, pero no las usamos debidamente. Por ejemplo,
uno puede usar los lectores de feed para recibir automáticamente lo que se va
publicando en las páginas que nos interesan, sin necesidad de acudir a ellas, en una
evolución de gran calado desde los mass media (medios de masas) a los my media (mis
medios). La dificultad estriba en ser selectivo a la hora de suscribirse a las fuentes de
información.
Tres son las piezas angulares para poder organizar el caos: la sindicación de
contenidos, la miniaplicaciones de servicios (widgets o gadgets) y las páginas web
personalizables por el usuario (mash-up). La sindicación de contenidos permite
publicar y acceder a la información más reciente de un sitio web. Los widgets hacen
posible la comunicación con servicios remotos sin tener que ir a la página que
proporciona dicho servicios y los mash-up nos permiten organizar información y
servicios según nuestros intereses.
1.6 Nuevas formas de organización y representación de la información
La aceptación de la Web 2.0, de sus herramientas y de su capacidad para que las
personas se expresen, ha derivado en nuevas formas de clasificación de los contenidos
alejadas de las taxonomías cerradas o de los vocabularios controlados. Cada vez es
más frecuente que, cuando introducimos cualquier tipo de contenido en la web (una
entrada en un blog, una fotografía, un vídeo…), la aplicación nos pida que
introduzcamos unas palabras clave que ayuden a clasificar ese recurso. Esta acción se
denomina etiquetado (tagging) y a cada una de esas palabras clave se le denomina
Javier Iglesia Aparicio, 2014
Página 15
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
etiqueta (tag). Las etiquetas son la base del sistema de clasificación por excelencia de
la Web 2.0: las folcsonomías.
1.6.1 Folcsonomías
Una folcsonomía es la clasificación de un objeto de forma colectiva, mediante
etiquetas simples y sin jerarquías ni relaciones determinadas. A este modo de
clasificación también se le denomina etiquetado colaborativo, clasificación social,
indexación social… Su uso se ha popularizado desde el año 2004 y actualmente forma
parte de una gran mayoría de aplicaciones webs.
Por supuesto, existe un intenso debate sobre si ésta es una forma adecuada de
clasificar las cosas. De partida existen una serie de problemas derivados de la propia
naturaleza del lenguaje:
•
•
•
•
Las máquinas no logran interpretar que una palabra significa un concepto
independientemente de su género y de su número. Tampoco logran relacionar
sinonimias y no pueden diferencias homonimias.
Las distintas lenguas usan distintas palabras para un mismo concepto.
Expresar conceptos complejos, de más de una palabra.
Pero, también puede ocurrir que una persona use etiquetas muy críticas o
excesivamente personales.
Resumiendo, podemos clasificar los problemas derivados del uso de folcsonomías en:
•
•
Problemas lingüísticos
o Existen distintos idiomas: un mismo concepto se escribe de diferentes
formas.
o Género, número y derivaciones de las palabras.
o Tildes y otros símbolos ortográficos.
o Sinónimos.
o Homonimias.
o Polisemias
De los usuarios
o Etiquetas muy personales.
o Etiquetas equivocadas.
De todas formas, existen ya estudios 5 que demuestran que en el etiquetado
colaborativo se acaba llegando a un consenso en torno a un vocabulario, incluso en
ausencia de un vocabulario controlado central.
Las folcsonomías no tienen que sustituir a las taxonomías, a esas clasificaciones que,
con el transcurso del tiempo y el avance de las investigaciones, han sido consensuadas
5
Harry Halpin, Valentin Robu, Hana Shepherd. “The Complex Dynamics of Collaborative Tagging”, En:
Proceedings of the 16th International Conference on the World Wide Web (WWW'07), Banff, Canada, pp.
211-220, ACM Press, 2007.
Javier Iglesia Aparicio, 2014
Página 16
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
dentro de cada ámbito de conocimiento. Pero, sí tienen algunos usos donde son
realmente útiles:
o Organizarnos nosotros mismos o un grupo de personas que colaboran en un
mismo proyecto.
o Tener vistazos de los términos más relevantes en cierto momento.
o SEO (Search Engine Optimization), que es el conjunto de técnicas cuyo objetivo
final es lograr que un determinado sitio web tenga más visitas gracias a la
correcta selección de los términos de búsqueda asociados a dicho sitio web.
Si trabajamos con etiquetas, es de utilidad tener algunas buenas prácticas en mente
que nos facilitarán la clasificación de nuestros recursos:
•
•
•
•
•
•
•
Antes de etiquetar hay que elaborar una mínima planificación.
Utilizar un número reducido de etiquetas.
Usar un lenguaje natural.
Crear etiquetas compuestas, por ejemplo usando el guión bajo (_).
Crear siempre una etiqueta comodín o neutra.
Etiquetar con criterio.
Revisar el etiquetado de forma periódica.
Existen multitud de ejemplos de uso de estas formas de clasificación y algunos de ellos
serán usados durante el transcurso del curso. De todas formas es interesante echar un
vistazo a estas dos curiosas iniciativas:
•
•
43things (http://www.43things.com/). Sitio web en el que las personas
escriben aquellas cosas que desean alcanzar en la vida. Se presenta como
resultado una nube de las 43 cosas más deseadas.
Freesound (http://www.freesound.org/browse/tags/) Sitio web que permite la
clasificación mediante etiquetas de sonidos sin propiedad intelectual.
1.6.2 Nubes de etiquetas
Las folcsonomías son la base de una de las representaciones visuales más difundidas y
típicas de la web 2.0: las nubes de etiquetas (tag clouds). Las nubes de etiquetas
representan las etiquetas más utilizadas para clasificar un determinado objeto. Su
primer uso documentado fue en el sitio para compartir fotografías Flickr.
Su apariencia visual es variada. La más común es aquella que representa la etiqueta
más utilizada con el tamaño de letra más grande; también se puede combinar con un
color que indique si la tendencia de uso es negativa o positiva. Las etiquetas pueden
aparecer en orden alfabético, aleatorio o rodeadas de otros términos que parecen
estar relacionadas. Las opciones de visualización son múltiples y es muy importante
definir bien el estilo de visualización de la nube.
Javier Iglesia Aparicio, 2014
Página 17
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Ejemplos de nubes de etiquetas
Según un estudio de Lohmann et al. 6, acerca de la percepción de las nubes de
etiquetas, se puede concluir que existe una serie de hechos a tener en cuenta a la hora
de elaborar una nube de etiquetas:
•
•
•
•
•
Tamaño de la etiqueta: las etiquetas grandes atraen más la atención del
usuario que las pequeñas.
Escaneado: los usuarios, más que leer la nube de etiquetas la escanean.
Centrado: las etiquetas situadas en el centro de una nube atraen más la
atención del usuario que las que están en los bordes.
Posición: en el mundo occidental, el cuadrante superior izquierdo recibe más
atención que el resto.
Exploración: las nubes de etiquetas no son adecuadas para la búsqueda de
etiquetas específicas, sobre todo si éstas son de pequeño tamaño.
Por último, existen aplicaciones que nos permiten crear de forma muy sencilla
imágenes de nubes de etiquetas a partir de nuestros textos, una página web o aquello
que
consideremos
oportuno.
Las
más
conocidas
son
Wordle
(http://www.wordle.net/), TagCrowd (http://tagcrowd.com/), Tag Cloud Generator
(http://www.tagcloud-generator.com/), ToCloud (http://www.tocloud.com/) y
TagCloudGenerator
(http://www.tagcloudgenerator.com/),
Tagxedo 7
(http://www.tagxedo.com/) y WordItOut (http://worditout.com/).
6
Lohmann, S., Ziegler, J., Tetzlaff, L. Comparison of Tag Cloud Layouts: Task-Related Performance and
Visual Exploration, T. Gross et al. (Eds.): INTERACT 2009, Part I, LNCS 5726, pp. 392–404, 2009.
7
Tagxedo aúna la disposición de nubes de etiquetas con imágenes creando representaciones visuales
muy llamativas. En este enlace:
(https://docs.google.com/present/view?hl=en&id=0AQuLVd7HRkD_ZG4ycmdtOV8zaGRjZG1wZDQ&pli=
1) se pueden consultar algunos modos de uso de dicha herramienta.
Javier Iglesia Aparicio, 2014
Página 18
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2. Búsqueda de información en Internet
2.1 Introducción
La información que aparece en Internet supone, claramente, unas cantidades
inabordables de datos y por eso es necesario acudir a los buscadores para que nos den
un poco de luz en este maremágnum de datos.
El presente capítulo es una exposición sobre el funcionamiento de los buscadores, sus
diferentes tipos y una explicación en detalle de las posibilidades que nos ofrecen los
tres buscadores más usados: Google, Yahoo! Search y Bing. Durante la lectura de esta
última parte es muy recomendable practicar con el navegador.
2.2 ¿Qué es un buscador?
Los buscadores son los servicios que nos permiten buscar los archivos que pueden ser
relevantes para nosotros de acuerdo a la palabra o palabras que hemos introducido. El
primer buscador fue desarrollado en 1993 y se llamaba Aliweb 8. Desde entonces han
surgido numerosos motores de búsqueda cada vez con mayor rapidez de rastreo y
mayor velocidad en la presentación de los resultados. En diciembre de 2013 los
buscadores más usados 9 en todo el mundo eran, por orden, Google (68,1 %), Baidu
(18,84 %), Yahoo! Search (6,40 %), Bing (5,59 %), y AOL (0,28%). En cuanto a los
dispositivos móviles, existe un claro dominio de Google (90,03 %) seguido muy de lejos
por Yahoo! Search (5,68 %), Bing (2,78 %), Ask (0,20 %) y Baidu (0,16 %). En el último
año se ha producido un vertiginoso ascenso del buscador Baidu, centrado en China
aunque con planes de extenderse a otros países como Brasil.
Buscadores de ayer y de hoy
2.3 Tipos de buscadores
Desde el punto de vista de su funcionamiento se pueden distinguir tres tipos de
buscadores:
8
9
Véase más información en: http://en.wikipedia.org/wiki/Aliweb
Datos de NºetMarketShare
Javier Iglesia Aparicio, 2014
Página 19
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
•
Directorios o índices. Son los buscadores que mantienen una organización de
las páginas incluidas en su base de datos por categorías, es decir, tienen un
directorio navegable de temas. Se asemejan a unas páginas amarillas. Dentro
de cada directorio podemos encontrar páginas relacionadas con ese tema. Para
mantener esta organización, los buscadores tienen unos administradores
humanos que se encargan de visitar las páginas y vigilan que todas se
encuentren clasificadas en su lugar correcto. Para que una página quede
registrada en un índice debemos mandarles la dirección a los administradores
humanos de ese índice, generalmente acompañada de una serie de datos que
les ayuden a clasificar la página de una forma correcta, como la descripción,
temática, titulo, lenguaje, etc. Además, si queremos que varias páginas de
nuestro sitio Web estén en el buscador, deberemos registrarlas todas ellas una
a una.
Los ejemplos más conocidos son
Open Directory Project
(http://www.dmoz.org/) y Yahoo! Directory (http://dir.yahoo.com/).
Motores de búsqueda. Son buscadores que basan su recolección de páginas en
un robot, denominado araña web, que recorre constantemente Internet en
busca de páginas nuevas que va introduciendo en su base de datos
automáticamente.
Para clasificar una página, los motores de búsqueda son capaces de leer el
contenido de ésta y encontrar aquellos datos que permitan su catalogación.
Son los buscadores más conocidos como Google, Yahoo! Search y Bing.
Multibuscadores. No tienen una base de datos propia. Lo que hacen es buscar
la página en unos cuantos motores de búsqueda e índices y combinar los
resultados de la búsqueda en esos buscadores. El más destacado es Zoo
(antiguo Metacrawler) (http://www.zoo.com), que busca simultáneamente en
Google, Bing, Yahoo! Search y Ask.
2.4 ¿Cómo funciona un motor de búsqueda?
Un motor de búsqueda es un sistema de rastreo de la información de acceso público
contenida en los servidores Web. La información obtenida se almacena, evalúa y
agrupa de forma que luego pueda ser presentada como resultados de la búsqueda. En
síntesis, un motor de búsqueda se compone de:
o Un robot o araña web (web crawler o spider). Es un programa automático que
recorre la Web, buscando sitios web y analizando las páginas que los
componen. Como resultado de éste análisis obtienen las direcciones de los
archivos y las palabras clave más importantes de esas páginas. Los robots
rastrean la web de una forma aleatoria, cada poco tiempo (para obtener
siempre datos actualizados) y tienen una serie de preferencias establecidas por
cada buscador: cantidad de información, frecuencia de actualización del sitio
web, etc. Cada robot tiene su nombre: el de Google se llama GoogleBot, el de
Yahoo se denomina Slurp, etc.
o Una enorme base de datos que almacena los datos extraídos por los robots
buscadores, es decir, las palabras claves, el lugar de dónde han sido extraídas y
Javier Iglesia Aparicio, 2014
Página 20
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
otros datos como su localización dentro de la página web, su importancia
dentro del texto, etc.
o Un conjunto de algoritmos que determina la relevancia de los resultados para
que luego se presenten en dicho orden. Este elemento suele ser el secreto
mejor guardado de las compañías que mantienen motores de búsqueda y está
en constante evolución. Por ejemplo, en abril de 2012, Google puso en marcha
una nueva versión del algoritmo (Google Penguin) con importantes mejoras
para evitar la existencias de sitios webs basura, es decir, simples contenedores
de enlaces 10. Precisamente tratar de inferir el comportamiento de estos
algoritmos, es el campo de acción de una disciplina bastante joven, el SEO
(Search Engine Optimization), que trata de optimizar los sitios webs para que su
contenido logre puntuaciones altas en los algoritmos y, de esta forma, el sitio
web aparezca en los primeros lugares de los resultados.
2.5 Cómo usar un motor de búsqueda
Saber usar un motor de búsqueda o buscador es actualmente tan imprescindible como
saber buscar una palabra en el diccionario. Posiblemente sea una de las acciones más
repetidas durante el día por los usuarios de Internet. Conocer las opciones de
búsqueda y usarlas convenientemente nos va a ayudar a reducir el tiempo invertido.
En principio, usar un buscador es tan sencillo como introducir la palabra o conjunto de
palabras que queremos rastrear en la Web y pulsar el botón Buscar. Pero, debido a la
gran cantidad de información que hay en Internet, es muy probable que obtengamos
miles de resultados y estemos un buen rato investigándolos hasta encontrar aquél o
aquéllos que realmente son útiles para nosotros.
Para evitar este problema, existen una serie de trucos que suelen valer para los
buscadores más utilizados:
•
•
•
Enriquecer la búsqueda con palabras adicionales, es decir, introducir varias
palabras para que muestren sólo las páginas en las que aparecen todas ellas.
Por ejemplo, si quiero buscar información sobre el planeta Júpiter en Google
obtengo 27.9 millones de resultados con la palabra Júpiter; pero si pongo
planeta Júpiter bajamos hasta 3,01 millones de resultados.
Utilizar comillas. De esta forma los motores de búsqueda buscarán frases
completas y refinaremos más la búsqueda. Siguiendo con el ejemplo anterior, si
buscamos “planeta Júpiter” bajamos hasta 276.000 resultados.
Utilizar el signo menos para excluir palabras. Si por ejemplo queremos obtener
información del dios Júpiter y no sobre el planeta homónimo podemos escribir
Júpiter –planeta.
Cada buscador tiene sus propios atajos y trucos para optimizar el proceso de
búsqueda, pero las tres descritas funcionan en prácticamente todos.
10
http://googlewebmastercentral.blogspot.com.es/2012/04/another-step-to-reward-high-quality.html
Javier Iglesia Aparicio, 2014
Página 21
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Una vez realizada la búsqueda, el buscador nos devolverá un listado de enlaces que él
considera que son pertinentes o relevantes.
2.6 Google
El buscador más utilizado globalmente fue fundado en 1998. Rápidamente superó a los
buscadores más importantes de la época, como Altavista y Lycos, gracias también a la sencillez
de su interfaz de búsqueda.
El formulario de búsqueda de Google no puede ser más sencillo: un campo de texto para
introducir lo que queremos buscar y dos botones. Buscar con Google y Voy a tener suerte. Éste
último nos lleva directamente al primer resultado de la búsqueda (que se supone es el más
relevante).
Formulario de búsqueda de Google
La página de resultados muestra éstos por orden de relevancia, siendo el primero el que se
supone tiene que contener la información que buscamos. En ocasiones, el primer resultado
puede ser un enlace patrocinado y se distingue porque el color de fondo es diferente, como
por ejemplo:
Enlace patrocinado en los resultados de Google
Como podemos ver en la imagen siguiente, la pantalla de resultados nos proporciona una serie
de herramientas de filtrado a la izquierda y los resultados. Debajo del cuadro de texto para
buscar aparece el número aproximado de resultados obtenidos y el tiempo que se ha tardado
en hacer la búsqueda. Desde septiembre del año 2010, Google añadió a este campo de
Javier Iglesia Aparicio, 2014
Página 22
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
búsqueda la función Google Instant que trata de hacer las búsquedas más rápidas
“adivinando” o proponiendo el texto que se quiere buscar. Está disponible en más de 50
idiomas pero siempre que se esté navegando conectado con una cuenta Google. Según la
página oficial de Google, se ahorran entre 2 y 5 segundos por búsqueda 11.
Inmediatamente después están los resultados. Cada uno de ellos se compone del título de la
página (con enlace directo a la misma), una breve descripción, los apartados en que está
dividida (si existen) y su dirección o URL (Uniform Resource Locator). Al lado de la URL aparece
una flecha verde que nos permite acceder a una versión antigua o en caché (útil cuando el sitio
no está disponible), encontrar resultados similares o compartir el enlace.
Página de resultados
Por último, a la derecha nos aparece un cuadro con información de lo que Google
considera los datos más relevantes con respecto a la búsqueda. No aparece siempre,
únicamente cuando la búsqueda coincide con un concepto, un personaje o una cosa
bien definida. En la imagen podemos ver el cuadro que presenta del planeta Júpiter
con imágenes, datos físicos del planeta así como conceptos relacionados como otros
planetas del sistema solar.
11
http://www.google.es/instant/
Javier Iglesia Aparicio, 2014
Página 23
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
En la parte superior tenemos un menú nos proporciona herramientas para filtrar y optimizar la
búsqueda. Veámoslas paso a paso.
El primer lugar nos permite filtrar por el tipo de documento. Por defecto aparece Web, pero
podemos filtrar por Imágenes, Maps, Shopping (artículos en venta disponibles en tiendas en
línea) y Noticias . Si desplegamos el botón Más, podemos elegir entre Vídeos, Libros (de
Google Libros), Places (Lugares),
Blogs, Foros de Debate, Aplicaciones (apps para
teléfonos móviles y tabletas, repositorios de software libre, complementos para los
navegadores...) y Patentes.
El botón más a la derecha nos da acceso a más Herramientas de Búsqueda. Las opciones
disponibles cambian de acuerdo al tipo de resultado seleccionado previamente. Como ejemplo
vemos tres tipos de documentos:
La web, permite filtrar páginas de España, páginas en español y Páginas extranjeras traducidas.
También podemos filtrar por el momento de su creación: última hora, últimas 24 horas, última
semana, último mes, último año o bien definir un intervalos de tiempo a nuestro gusto.
Otra opción es discriminar entre los resultados aquellos sitios que tienen imágenes, o búsquedas
relacionadas, páginas que ya hemos visitado o que no, resultados procedentes de diccionarios o
enciclopedias. Por último, detecta automáticamente desde qué lugar físico navegamos y nos permite
buscar resultados “cercanos” o de otras ubicaciones que definamos.
Con imágenes podemos filtrar por fecha, por tema relacionado (por ejemplo planeta júpiter o dios
júpiter en nuestro ejemplo), por tamaño, por color predominante, por tipo (cara, fotografía, imagen
prediseñada o dibujo lineal).
Con imágenes podemos filtrar por la duración (corta, media, larga), fecha, si es o no de alta calidad, si
tienen subtítulos cerrados o cuál es su procedencia (Youtube, Wikipedia, Antena3, etc.)
Javier Iglesia Aparicio, 2014
Página 24
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Por último, el pie de cada página de resultados presenta la siguiente disposición:
Pie de página de los resultados de las búsquedas
Google nos aconseja una serie de búsquedas relacionadas y el paginador para poder ir
avanzando entre las distintas páginas resultantes. También tenemos acceso a la Búsqueda
avanzada, a la ayuda del buscador o enviar un comentario a Google con sugerencias, críticas o
proponiendo algún sitio web.
2.6.1 Búsqueda avanzada
La búsqueda avanzada de Google se encuentra en: http://www.google.es/advanced_search.
Cuando accedemos nos encontramos con un completo formulario con múltiples opciones para
optimizar nuestras pesquisas en Internet.
Javier Iglesia Aparicio, 2014
Página 25
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Interfaz de búsqueda avanzada de Google
El primer bloque se llama Buscar páginas con… nos permite estas opciones:
●
Todas estas palabras. Es decir, busca páginas web en las que aparecen TODOS los
términos
que introduzcamos aquí.
●
Esta palabra o frase exacta. Es lo mismo que poner la búsqueda entre comillas.
●
Cualquiera de estas palabras. Se trata de buscar páginas en las que AL MENOS
aparece una de las palabras introducidas aquí
●
Ninguna de estas palabras. Realiza la misma acción que si usamos el signo menos.
Javier Iglesia Aparicio, 2014
Página 26
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Números desde… hasta… Muy útil para definir, por ejemplo, resultados sobre
acontecimientos entre dos determinados años.
Lo bueno es que podemos combinar todas las opciones del bloque. Por ejemplo, supongamos
que quiero buscar satélites de Júpiter distintos de Titán descubiertos por Galileo Galilei.
Podemos hacer lo siguiente:
Satélite planeta Júpiter
Con todas las palabras
Galileo Galilei
Con la frase exacta
Titán
Sin las palabras
Esto se traduce en una búsqueda: satélite
Galilei" –Titán
planeta
Júpiter
"Galileo
El siguiente bloque nos invita a limitar los resultados por…
● Idioma, podemos seleccionar en qué idioma queremos que estén las páginas
resultantes. Actualmente existen 46 idiomas para filtrar.
●
Región, de qué país son las páginas resultantes.
●
Cuándo se realizó la última actualización del sitio web.
●
Búsqueda en un sitio o dominio, seleccionar si los resultados tienen que pertenecer o
no a un determinado dominio de Internet. Por ejemplo, si sólo queremos resultados
de fundaciongsr.com.
●
Dónde aparecen las palabras clave, para seleccionar que los criterios de búsqueda del
primer bloque se den en el título, el cuerpo, la dirección URL de la página o en los
enlaces hacia dicha página.
●
SafeSearch, muchos usuarios prefieren no incluir sitios con contenido para adultos en
sus resultados de búsqueda, sobre todo si comparten el equipo informático con sus
hijos. El filtro SafeSearch de Google excluye de los resultados de búsqueda los sitios
con contenido sexual explícito. Ningún filtro es 100% eficaz, pero SafeSearch excluye la
mayor
parte
del
contenido
inadecuado.
Más
información
en:
http://www.google.es/support/websearch/bin/answer.py?answer=510.
Javier Iglesia Aparicio, 2014
Página 27
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Tipo de archivo, podemos decidir si queremos que sólo nos presente un tipo de
formato o que no aparezca un tipo de formato. Los tipos disponibles son PDF, PS,
DWF, KML, KMZ, XLS, PPT, DOC, RTF y SWF.
●
Derechos de uso, seleccionar las páginas resultantes por el tipo de licencia de sus
contenidos.
El último bloque, llamado También puedes, nos permite realizar búsquedas relativas a una
página. Es útil si hemos encontrado una página interesante y queremos obtener resultados
similares o que estén relacionados con ella. Además podemos definir opciones propias de
búsqueda como utilice nuestro Historial Web, bloquear ciertos resultados, etc. Para estas
opciones es preciso estar conectado con la cuenta de Google.
Veamos un ejemplo de uso de esta búsqueda. Supuesto: queremos buscar un archivo Flash
(ficheros con extensión SWF) en español, perteneciente a algún sitio web de España, que hable
sobre Galileo Galieli y su descubrimiento de los satélites de Júpiter.
●
En el primer bloque introducimos en todas las palabras: satélites Júpiter y en
frase exacta: Galileo Galilei.
●
En el segundo bloque determinamos que el idioma sea español, la región España y que
solamente nos muestre resultados en formato de archivo SWF.
El resultado es de sólo 25 documentos y el primero es realmente relevante. Podéis hacer la
prueba, aunque, seguramente, los datos numéricos no sean los mismos.
2.6.2 Operadores y comandos avanzados del buscador Google
En general, la mayoría de los signos de puntuación y de los caracteres especiales se ignoran en
la búsqueda de Google pero algunos tienen un significado especial pues son operadores de
búsqueda:
●
●
●
●
●
●
Las comillas (“”). Google buscará la frase exacta contenida entre las comillas.
El NO lógico (-). Los resultados no presentarán aquellos que contengan la palabra
precedida por el operador -.
El O lógico (OR o |). Para buscar páginas que incluyan al menos uno de los dos
términos. Ejemplo: perro OR can.
El operador de intervalos numéricos (..). Para hacer búsquedas donde un número esté
en ciertos intervalos. Es muy útiles para búsqueda de eventos histórocos o de rangos
de precios. Ej: reproductor Blu-Ray 100..200$.
El operador de inclusión +. Google suele ignorar palabras comunes como las
preposiciones, artículos gramaticales, etc. Si deseamos que se tengan en cuenta será
necesario precederlos del signo +.
El operador sinónimo (~). La búsqueda incluirá el término y sus sinónimos. Por
ejemplo, cielo ~nuboso dará resultados que contienen la palabra sinónima
Javier Iglesia Aparicio, 2014
Página 28
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
nublado.
El operador comodín (*). El asterisco representa una o más palabras. También puede
valer para el fin de una palabra. Ejemplos: atmos* dará resultados con palabras como
atmósfera, atmosférico, etc.
Aparte de los operadores anteriores, otros símbolos ortográficos son aceptados. A
continuación, te mostramos algunos ejemplos de la creciente lista de símbolos populares que
se admiten:
● El signo más (+) se utiliza para buscar información específica (por ejemplo, un grupo
sanguíneo [ AB+ ] o el lenguaje de programación [ C++ ]).
● El signo de la arroba (@) se utiliza para buscar etiquetas sociales (por ejemplo, [
@google ] o [ @ladygaga ]).
● El símbolo del ampersand (&) se utiliza para buscar frases o ideas muy relacionadas
entre sí (por ejemplo, [ Johnson & Johnson ] o [ H&M ]).
● El signo del dólar ($) se utiliza para indicar precios (por ejemplo, [ nikon 400 ] y [ nikon
$400 ] ofrecen resultados diferentes).
● El símbolo de la almohadilla (#) se utiliza para buscar temas de tendencias indicados
mediante etiquetas hash (por ejemplo, [ #lifewithoutgoogle ]).
● El guión (-) se utiliza en ocasiones como un signo que indica que las palabras están
muy relacionadas entre sí (por ejemplo, [ calidad-precio ] y [ franco-alemán ]).
● El guión bajo (_) no se ignora cuando conecta dos palabras (por ejemplo, [ página_web
]).
Aunque Google admite los símbolos indicados anteriormente, el hecho de incluirlos en las
búsquedas no siempre mejora los resultados. En algunos casos, el uso de signos de puntuación
puede provocar que la búsqueda devuelva muy poco contenido o que incluso no aparezca
ningún resultado.
Google dispone de una serie de comandos que se pueden escribir en la propia caja de
búsqueda. Su uso generalmente es comando:término, sin espacio entre ellos, y se pueden
combinar entre ellos. Estos son los comandos del buscador Google:
●
●
●
●
●
●
●
allinanchor: restringe los resultados a aquellos lugares donde los términos de
búsqueda aparecen como enlaces en el contenido.Ej.: allinanchor:museo
impresionismo.
allintext: los términos solo aparecen en el texto de la página.
allintitle: los términos solo aparecen en el título de la página.
allinurl: los términos aparecen solo en la URL del sitio web.
cache: muestra resultados buscados en las versiones históricas o cacheadas de un sitio
web. Ej: cache:www.elmundo.es guerra siria. En los resultados se resaltan
los términos de búsqueda.
define: muestra la definición de un término, generalmente obtenido de páginas de
referencia. Si queremos conocer la definición de estrella deberemos escribir
define:estrella.
filetype: tipo de archivo. Por ejemplo, para obtener resultados en PDF tendremos que
Javier Iglesia Aparicio, 2014
Página 29
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
●
●
●
●
●
●
●
●
escribir filetype:pdf. Aquí se puede consultar la lista actualizada de tipos de
fichero
que
soporta
Google
en
sus
búsquedas:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35287.
id: lo mismo que info:.
inanchor: restringe la búsqueda a aquellos lugares donde el término de búsqueda
aparece en un enlace dentro de la página web.
info: información acerca de un dominio web. Ej: info:elpais.com
intext: restringe la búsqueda a aquellos lugares donde el término de búsqueda
aparece en el texto de la página web
intitle: restringe la búsqueda a aquellos lugares donde el término de búsqueda
aparece en el título de la página web
inurl: restringe la búsqueda a aquellos lugares donde el término de búsqueda aparece
en la URL de la página web.
link: muestran páginas que enlazan a una URL dada. Ej: link:www.aeat.es
mostrará las páginas que enlazan a la web de la Agencia Tributaria.
related: muestra páginas similares o relacionadas con otra dada. Ej.;
related:www.fundaciongsr.com.
site: se utiliza para filtrar resultados de un determinado dominio web. Si quiere buscar
Salamanca en la web del periódico Norte de Castilla escribiré salamanca
site:www.nortecastilla.es.
2.6.3 Trucos y otras utilidades del buscador Google
Google proporciona algunas utilidades directamente desde el cuadro de búsqueda. Estas son
las más interesantes:
● Predicción del tiempo de una determinada localidad: la palabra clave tiempo o clima
y el nombre de la localidad o su código postal. Ej: clima Salamanca
●
Resultados deportivos: con teclear el nombre de un equipo deportivo nos proporciona
los últimos resultados y los próximos partidos.
Javier Iglesia Aparicio, 2014
Página 30
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Función integrada de calculadora. Basta con introducir el cálculo que deseas realizar
en el cuadro de búsqueda. Tiene capacidades de calculadora científica.
●
Conversión de unidades de medida.
●
Búsqueda local. Si tecleamos el tipo de establecimiento y la localidad nos proporciona
los servicios locales y un mapa de referencia.
Javier Iglesia Aparicio, 2014
Página 31
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Cartelera de cine. Usando la palabra clave películas o cine y la localidad. También
funciona con el nombre de la película.
●
Conversión de moneda.
Javier Iglesia Aparicio, 2014
Página 32
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Acceso rápido a Google Mapas. Basta con teclear la palabra clave mapa y un nombre
de localidad.
En
este
enlace
tienes
acceso
al
todos
los
http://www.google.com/intl/es/insidesearch/tipstricks/index.html.
trucos
de
Google:
2.6.4 Más información
Se puede aprender más sobre las búsquedas en Google en estos enlaces:
●
●
●
●
Manual de Google: http://support.google.com/websearch/?hl=es#topic=1221265
Ayuda básica
para
las
búsquedas:
http://www.google.com/support/websearch/bin/answer.py?answer=136861.
Consejos
para
mejorar
las
búsquedas:
http://www.google.com/intl/es/help/features.html
Referencia
de
operadores
para
Google:
http://www.googleguide.com/advanced_operators_reference.html.
Javier Iglesia Aparicio, 2014
Página 33
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2.7 Yahoo! Search
El buscador Yahoo! Search es uno de los más veteranos ya que funciona desde 1994. Al
contrario que Google su inicio es un portal de contenidos que en la parte superior
tiene el siguiente elemento de búsqueda:
Formulario de búsqueda de Yahoo! Search
La página de resultados muestra una organización mediante pestañas un menú situado
a la izquierda:
Página de resultados de Yahoo!
●
●
●
Web.
Imágenes.
Vídeos.
Javier Iglesia Aparicio, 2014
Página 34
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
●
●
●
Noticias.
Compras, proporciona resultados de Yahoo! Compras.
Respuestas, busca en la aplicación Yahoo! Respuestas, un servicio pensado para que
cualquiera haga su pregunta y sea respondido por expertos voluntarios.
omg!, prioriza resultados procedentes de blogs .
Las opciones de filtrado se localizan en dos secciones:
- Debajo del cuadro de búsqueda, permitiendo filtrar entre resultados de toda la
Web, en español o sólo de España. Un poco más abajo Yahoo! propone
términos relacionados que pueden ayudar a refinar la búsqueda.
- En la columna de la izquierda, que se centran en la fecha del contenido:
Cualquier hora, Ayer, La semana pasada y El mes pasado.
En el pie también propone términos relacionados que pueden ayudar a refinar la
búsqueda. En nuestro ejemplo propone júpiter y venus y planeta Júpiter.
2.7.1 Búsqueda avanzada en Yahoo! Search
La búsqueda avanzada de Yahoo! Search sólo aparece cuando ya hemos realizado
alguna búsqueda sencilla. Está un poco menos accesible que en los otros buscadores.
Es preciso pinchar en el icono de Configuración que se encuentra a la derecha a la
misma altura que el cuadro de búsqueda. En la lista que se despliega tenemos la
opción de Búsqueda avanzada.
Acceso a la búsqueda avanzada en Yahoo! Search
También
se
puede
acceder
desde
la
siguiente
dirección:
http://es.search.yahoo.com/web/advanced. Las opciones que nos proporciona son
muy similares a la de la búsqueda avanzada de Google:
●
●
●
●
●
●
●
Mostrar resultados con: todas las palabras, la frase exacta, cualquiera de estas
palabras o ninguna de estas palabras. Además permite definir en qué sección de la
página (en el título o en cualquier otra parte).
Filtrado por sitio/dominio: cualquier dominio, sólo dominios .com, .edu, .gov y .org.
También
permite buscar únicamente en un dominio.
Formato de archivo: todos los formatos, HTML, PDF, XLS, DOC, PPT, XML y TXT.
Usar un filtro para evitar contenidos para adultos.
País.
Idiomas. En este caso permite elegir uno o más idiomas de 52 disponibles.
Número de resultados.
Javier Iglesia Aparicio, 2014
Página 35
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Javier Iglesia Aparicio, 2014
Página 36
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Formulario de búsqueda avanzada de Yahoo! Search
Si experimentamos con el mismo supuesto con el que hemos realizado la búsqueda avanzada
de Google, obtenemos 9.720 resultados, sobre todo como consecuencia de que, al igual que
Bing, no nos permite seleccionar el tipo de archivo que queremos.
2.7.2 Operadores de búsqueda avanzada en Yahoo! Search
Yahoo! acepta los operadores +, -, “” y OR con la misma función que los ya descritos para
Google. Por otro lado tienen los siguientes comandos o Yahoo! Search Meta Words:
●
●
●
site: Al igual que en Google, para filtrar resultados provenientes de un determinado
sitio web.
url: se usa para discernir aún más y dar un dirección más específica que con site:
intitle: para encontrar el término en el título de la página.
2.7.3 Trucos de Yahoo! Search
Yahoo! dispone de multitud de atajos de búsqueda llamados ShortCuts. En general su uso es
sencillo: se teclea la palabra clave y un término de búsquedas. Muchos sólo funcionan para
obtener información en la versión estadounidense del buscador. Estos son los más
interesantes:
●
●
●
●
Calculadora, basta con teclear la operación en la caja de búsqueda.
Definiciones: define palabra.
Tiempo: tiempo salamanca.
Recetas: receta arroz.
Aquí se puede consultar un listado completo:
http://help.yahoo.com/kb/index?locale=en_US&y=PROD_SRCH&page=content&id=SLN2215.
y este el manual de instrucciones de buscador Yahoo! Search :
http://help.yahoo.com/l/es/yahoo/search/basics/;_ylt=AhtJGVcrEeWwOvcqnKDeL4HtvCN4
2.8 Bing
Bing es un buscador, creado por Microsoft, que en el año 2009 sustituyó a Live Search. De
nuevo el formulario de búsqueda es muy sencillo, como vemos en la imagen.
Javier Iglesia Aparicio, 2014
Página 37
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Formulario de búsqueda de Bing
Podemos introducir las palabras de búsqueda y seleccionar si queremos ver todos los
resultados, o los que están en español o los que son de dominios españoles. Bing también
ofrece un servicio similar a Google sugiriendo términos de búsqueda. Como curiosidad, tiene
una imagen de fondo que podemos cambiar con las flechas visibles en la esquina inferior
derecha.
En la parte superior tenemos atajos para hacer búsquedas de imágenes, vídeos,
noticias, mapas… También accesos a herramientas de Microsoft como MSN y Outlook.
Además, existe un apartado de configuración donde podemos ver nuestro historial de
búsqueda, definir los filtros de seguridad y actualizar nuestra localización.
Los resultados son presentados por orden de relevancia y cada uno de ellos contiene el título
de la página, una breve descripción y la dirección URL.
Javier Iglesia Aparicio, 2014
Página 38
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Página de resultados de Bing
A la derecha de algunos de los enlaces en color verde aparece una flecha que nos da la opción
de ver una versión anterior de la página (Página en caché) almacenada en los servidores de
Bing.
Las opciones de filtrado son algo más reducidas que las que ofrece Google. En la parte
superior, en forma de pestañas, podemos buscar noticias, imágenes y, si damos a la opción
Más, también vídeos y artículos de compras. La opción Más nos da también acceso a Bing de
un vistazo.
Javier Iglesia Aparicio, 2014
Página 39
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Contenido del enlace Más de Bing
Justo debajo del cuadro de búsqueda tenemos algunas opciones de filtrado:
● Por idioma, permite especificar si queremos únicamente páginas en español o también
en otros idiomas.
● Por región, permite filtrar únicamente los sitios web registrados en España.
Por último, en la columna derecha, Bing nos ofrece una serie de búsquedas relacionadas.
Y en el pie correspondiente paginador para ir avanzando entre las distintas páginas que
contienen los resultados.
2.8.1. Búsqueda avanzada en Bing
Bing no proporciona una búsqueda avanzada en su página inicial. La única forma de acceder a
ella es comenzando a escribir en el cuadro de búsqueda una vez que hemos realizado una
primera consulta. en ese momento aparece un desplegable con las sugerencias de búsqueda y
dos opciones: Búsqueda avanzada e Historial de Búsqueda. También se puede utilizar este
enlace: http://www.bing.com/search?qb=1&FORM=AXRE.
El formulario es más sencillo que el explicado para Google y tiene la siguiente apariencia:
Javier Iglesia Aparicio, 2014
Página 40
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Interfaz de búsqueda avanzada de Bing
La primera opción es la de Términos de búsqueda que permite añadir condiciones a la
búsqueda ya realizada. Podemos introducir más palabras y seleccionar que se añadan a la
búsqueda con las siguientes condiciones: Todos estos términos, Cualquiera de estos términos,
Esta frase exacta y Ninguno de estos términos. Esta acción se puede repetir cuantas veces
queramos y veremos cómo van disminuyendo los resultados obtenidos.
La segunda opción es la de Sitio/dominio, que permite decidir si queremos que aparezcan o no
resultados de dominios en concreto. La tercera opción, País o región, permite seleccionar el
país y; la cuarta, el Idioma.
Si experimentamos con el mismo supuesto con el que hemos realizado la búsqueda avanzada
de Google, su traducción al lenguaje del buscador Bing es: júpiter satélites
"Galileo Galilei" loc:ES language:es. Obtenemos 9.940 resultados, sobre
todo como consecuencia de que Bing no nos permite seleccionar el tipo de archivo que
queremos.
2.8.2 Operadores de búsqueda avanzada en Bing
En cuanto a lo operadores, este el listado de los aceptados:
Encuentra páginas Web que contengan todos los términos que van precedidos por el +
símbolo +. Además, permite incluir términos que normalmente se omiten.
Encuentra las palabras exactas de una frase.
""
Encuentra o excluye páginas Web que contengan un grupo de palabras.
()
Encuentra páginas Web que contengan todos los términos o frases.
AND o &
Excluye aquellas páginas Web que contengan un término o frase.
NOT o -
Encuentra páginas Web que contengan alguno de los términos o frases.
OR o |
Y este un listado de los comandos que acepta:
Javier Iglesia Aparicio, 2014
Página 41
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Para buscar sitios web con vínculos a archivos Centra los resultados en sitios con contains:
Microsoft Windows Media Audio (.wma), vínculos a los tipos de archivos que se
especifiquen.
escribe música contains:wma.
Para buscar informes creados en formato PDF, Devuelve únicamente páginas web filetype:
escribe el asunto seguido de filetype:pdf.
creadas en el tipo de archivo que se
especifique.
Para buscar páginas web que contengan msn
en el delimitador y los términos spaces y
magog en el cuerpo, escribe inanchor:msn
inbody:spaces inbody:magog.
Estas palabras clave devuelven inanchor:,
páginas web que contienen el término inbody: o
especificado en los metadatos, como intitle:
el delimitador, el cuerpo o el título del
sitio, respectivamente. Especifica sólo
un término por palabra clave. Puedes
utilizar tantas entradas de palabra
clave como necesites.
Escribe IP:207.46.249.252.
Encuentra sitios hospedados en una ip:
dirección IP concreta. La dirección IP
debe contener cuatro bloques de
números separados por puntos.
Escribe la palabra clave ip: seguida de
la dirección IP del sitio web.
Para ver páginas web en inglés sobre Devuelve páginas web de un idioma language:
antigüedades,
escribe
"antigüedades" concreto. Especifica el código de
language:en.
idioma directamente detrás de la
palabra clave language:.
Para ver páginas web sobre escultura de los
Estados Unidos o Gran Bretaña, escribe
escultura (loc:US OR loc:GB). Para ver una
lista de los códigos de idioma que se pueden
usar con Bing, consulta Códigos de país, región
e idioma.
Devuelve páginas web de un país o loc:
o
región concretos. Especifica el código location:
de país o región directamente detrás
de la palabra clave loc:. Para centrarse
en dos o más idiomas, usa un
operador lógico OR a fin de agrupar
los idiomas.
Pata ver las páginas que enlazan con Encuentra qué sitios tienen enlaces a linkfromdo
www.fundaciongsr.com
se
escribe un determinado URL.
main:
linkfromdomain:www.fundaciongsr.com
Para buscar resultados sobre fútbol Agrega énfasis a un término de prefer:
relacionados fundamentalmente con la búsqueda u otro operador a fin de
organización,
escribe
fútbol centrar los resultados de búsqueda.
prefer:organización.
Javier Iglesia Aparicio, 2014
Página 42
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Para ver páginas web acerca de las
cardiopatías en los sitios web de la BBC o la
CNN, escribe "cardiopatías" (site:bbc.co.uk
OR site:cnn.com).
Para encontrar páginas web sobre la versión
para PC de Halo en el sitio web de Microsoft,
escribe site:www.microsoft.com/games/pc
halo.
Devuelve páginas web pertenecientes site:
al sitio que se especifique. Para
centrarse en dos o más dominios, usa
un operador lógico OR a fin de
agrupar dichos dominios. Puedes usar
site: para buscar dominios web,
dominios de nivel superior y
directorios que no tengan más de dos
niveles de profundidad. También
puedes buscar páginas web que
contengan una palabra de búsqueda
específica en un sitio.
Para encontrar fuentes RSS o Atom sobre Encuentra fuentes RSS o Atom sobre feed:
los términos que se buscan en un sitio
fútbol, escribe feed:fútbol.
web.
Para buscar páginas web que contengan Encuentra páginas web que contienen hasfeed:
fuentes RSS o Atom en el sitio web del New fuentes RSS o Atom sobre los términos
York Times, escribe site:www.nytimes.com que se buscan en un sitio web.
hasfeed:fútbol.
Para comprobar que el dominio Microsoft se Comprueba si el dominio o la url:
encuentra
en
el
índice,
escribe dirección web especificados se
url:microsoft.com.
encuentran en el índice de Bing.
2.8.3 Trucos con Bing
De forma similar a Google y yahoo!, Bing también tienen una serie de búsquedas rápidas.
Entre otros, destacan la resolución de ecuaciones sencillas y la consulta del estados de los
vuelos aéreos.
En esta dirección puedes conocer todos los disponibles:
http://onlinehelp.microsoft.com/es-es/bing/ff808522.aspx.
En esta otra dirección puedes acceder al manual
http://onlinehelp.microsoft.com/es-ES/bing/ff808535.aspx
de
uso
de
Bing:
2.9 Integración de los buscadores en nuestro navegador
Las últimas versiones de los navegadores de Internet más utilizados nos permiten
modificarlos para hacer búsquedas de forma más rápida, sin necesidad de conectar
directamente a las páginas de los buscadores.
Javier Iglesia Aparicio, 2014
Página 43
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Tanto Internet Explorer como Mozilla Firefox disponen en la esquina superior derecha
de un cuadro de búsqueda en el que se puede seleccionar el motor de búsqueda a
utilizar. Por defecto, suelen venir pocos motores de búsqueda: Google, Bing… pero,
nosotros podemos añadir más. Tenemos la oportunidad de añadir motores de
búsqueda directos para Wikipedia, o realizar consultas directas en el diccionario de la
RAE, o en el diccionario inglés de Webster, etc.
2.9.1 Añadir motores de búsqueda a Mozilla Firefox
En la esquina superior izquierda tenemos un cuadro de búsqueda donde podemos
seleccionar distintos motores de búsqueda. En la siguiente imagen os pongo un
ejemplo:
Lista de selección de buscadores en Mozilla Firefox
Podéis observar que la última opción es Administrar motores de búsqueda. Pulsando
en él nos aparece una ventana en la que podemos ver qué motores de búsqueda
tenemos:
Javier Iglesia Aparicio, 2014
Página 44
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Cuadro de diálogo de Administrar la lista de buscadores de Mozilla Firefox
Si seleccionamos unos de los motores de búsqueda ya instalados podemos subir o
bajar elementos en la lista o eliminarlos. Pero lo interesante para nosotros está en el
enlace que dice Obtener más motores de búsqueda. Si pinchamos en él nos lleva a una
página con el listado disponible de motores de búsqueda:
Listado de proveedores de búsqueda que ofrece Mozilla Firefox
Una vez que hemos encontrado el que vamos a incorporar, basta con pulsar el botón
Añadir a Firefox. Surgirá una pantalla como esta:
Javier Iglesia Aparicio, 2014
Página 45
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Cuadro de diálogo para confirmar que se quiere agregar un proveedor de búsquedas en Mozilla
Firefox
Si seleccionamos Comenzar a usarlo ahora mismo se posicionará en primer lugar en la
lista de motores de búsqueda. Con pulsar en Añadir ya tenemos un nuevo motor de
búsqueda integrado en nuestro navegador listo para ser utilizado.
2.9.2 Añadir motores de búsqueda a Internet Explorer 8
En la esquina superior izquierda tenemos un cuadro de búsqueda donde podemos
seleccionar distintos motores de búsqueda. En la siguiente imagen os pongo un
ejemplo:
Lista de selección de proveedores de búsqueda en Internet Explorer 8
Con la opción Administrar proveedores de búsqueda podemos gestionar los motores
de búsqueda ya instalados, cambiando su orden o eligiendo el predeterminado.
Javier Iglesia Aparicio, 2014
Página 46
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Cuadro de diálogo de Administrar proveedores de búsqueda de Internet Explorer 8
Y con la opción Buscar más proveedores, accedemos a una página que nos proporciona
más motores de búsqueda para añadir a nuestro navegador:
Listado de proveedores de búsqueda que ofrece Internet Explorer
Basta con pulsar el botón Añadir a Internet Explorer y nos aparecerá una ventana
emergente como esta:
Javier Iglesia Aparicio, 2014
Página 47
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Cuadro de diálogo para confirmar que se quiere agregar un proveedor de búsquedas en Internet
Explorer 8
Ahí podemos decidir si queremos que el nuevo motor sea predeterminado y si
queremos que nos muestre sugerencias de búsqueda, es decir, que a medida que
escribimos aparezca un listado con palabras o frases de búsqueda. Pulsando en
Agregar ya tenemos el nuevo motor de búsquedas listo para usarlo.
2.9.3 Añadir motores de búsqueda a Internet Explorer 9 y superiores
Esta nueva versión realiza algunos cambios. El cuadro de texto donde se escriben las
URL sirve también como cuadro donde se introducen los términos de búsqueda. Al
comenzar a escribir podemos ver los motores de búsqueda ya instalados o se nos
permite Agregar otros. Al pinchar en el botón Agregar nos lleva a este listado de
proveedores donde podremos seleccionar nuevos motores de búsqueda con sólo
seleccionar uno de ellos y hacer clic en Click to install.
2.9.4 Añadir motores de búsqueda a Chrome
En este caso Chrome sólo permite definir un buscador que será el utilizado por defecto
cuando tecleemos una consulta en la barra de navegación.
Javier Iglesia Aparicio, 2014
Página 48
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Configuración de Google Chrome
Por defecto es Google pero en la configuración en el apartado de búsqueda podemos
añadir más motores de búsqueda y definir cuál es el predeterminado.
Javier Iglesia Aparicio, 2014
Página 49
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Administración de motores de búsqueda en Google Chrome
2.10 Buscadores específicos
Hasta ahora hemos estado hablando de motores de búsqueda generales que rastrean
documentos de todo tipo disponibles en la web. En muchas ocasiones sabemos que
queremos buscar un formato determinado de archivo (vídeo, fotografía, audio…) y,
aunque los motores de búsqueda nos dan algunas opciones para filtrar por tipo de
archivo, existen opciones más cómodas y especializadas: los buscadores por tipos de
archivo.
En otras ocasiones no nos importa el formato del resultado pero, sí que éstos se
encuentren dentro de un ámbito determinado del conocimiento o dentro de cierta
localización geográfica. Es decir, si busco pilar mientras estoy con un trabajo de
arquitectura, me gustaría que aparecieran términos de arquitectura en vez de
nombres propios de mujer. Si bien aún queda mucho por hacer en este campo (como
veremos más adelante al hablar de web semántica), existen algunas opciones para
conseguirlo. Son los llamados buscadores verticales.
Javier Iglesia Aparicio, 2014
Página 50
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2.10.1 Por tipo de archivo
Buscadores de imágenes como Google Imágenes (http://www.google.es/imghp),
GoGraph (http://www.gograph.com/), Photopin (http://photopin.com/), Picsearch
(http://www.picsearch.com/)
y
Yahoo!
Picture
Gallery
(http://images.search.yahoo.com). Un buscador específico de elementos de diseño
gráfico es FreePik (http://www.freepik.com/).
Buscadores
de
documentos
PDF
como
PDFSearchEngine
(http://www.pdfsearchengine.org/) y SearchPDF (http://www.searchpdf.com/).
Buscadores de audio
Dentro de esto grupo podemos diferenciar buscadores generalistas, sobre todo
enfocados a la música, como BeeMP3 (http://beemp3.com/) y AudioRaider
(http://www.audioraider.com/); y otros buscadores más especializados en la búsqueda
de efectos sonoros como Soungle (http://www.soungle.com/) y FreeSFX
(http://www.freesfx.co.uk/).
Buscadores de vídeos
Aparte de los conocidos sitios de visión de vídeo como YouTube, Vimeo, Blip.tv…
existen buscadores que rastrean todos estos lugares y nos proporcionan resultados de
archivos de vídeo. Un ejemplo es FilesTube (http://video.filestube.com/).
Múltiples tipos de archivos
Con buscadores de archivos como FilesHut (http://www.fileshut.com/) y FileIndexer
(http://www.fileindexer.com/) podemos buscar varios formatos.
2.10.2 Por ámbitos de conocimiento o buscadores verticales
Es un nicho de mercado cada vez más explotado pues los anunciantes saben que, en
estos buscadores, sí van a encontrar usuarios que están realmente interesados en sus
ofertas.
Los
ejemplos
son
innumerables:
alojamientos
rurales
(http://www.toprural.com/), pisos y casas (Idealista http://www.idealista.com/ y
Nestoria
http://www.nestoria.es/);
ámbito
médico
(MedNar
http://mednar.com/mednar/); podcasts de programas de radio y audiolibros (iVoox
http://www.ivoox.com/); libros (Google Books http://books.google.com/); recursos
educativos (Biblioteca Escolar Digital http://www.bibliotecaescolardigital.es/ y Agrega
http://www.proyectoagrega.es); ciencia y tecnología (World Wide Science
http://worldwidescience.org/), así como los buscadores de viajes, vuelos, empleo,
etcétera.
2.11 Multibuscadores y Metabuscadores
Tradicionalmente, se ha definido un metabuscador como un buscador de buscadores.
A diferencia de los buscadores que recopilan información de las páginas mediante su
indexación, como Google, los metabuscadores no disponen de una base de datos
Javier Iglesia Aparicio, 2014
Página 51
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
propia que mantener, sino que utilizan las de varios buscadores para encontrar la
información solicitada por el usuario. Después muestran una combinación de las
mejores páginas que ha devuelto cada buscador. Así pues, un metabuscador, en una
primera definición, es un buscador de buscadores o multibuscador. Algunos ejemplos
son:
o Zoo (http://www.zoo.com), búsquedas en Google, Yahoo! Search, Bing y Ask.
o Gooyaglehoo
(http://www.gooyaglehoo.com/)
y
Twingine
(http://www.twingine.no/), presentan los resultados de Google y Yahoo!
Search en dos ventanas.
Un caso especial de multibuscadores son aquellos que nos proporcionan un servicio en
el que no se almacena ningún tipo de información acerca de nosotros. Habitualmente
los grandes buscadores almacenan información como nuestra dirección IP (que
pueden asociar con la localización geográfica), el navegador y ordenador que usamos
así como los términos de búsqueda que usamos. Si queremos evitar estas prácticas y
proteger nuestra privacidad, tenemos algunas opciones como los multibuscadores de
búsqueda
privada
Ixquick
(https://ixquick.com/esp/)
y
DuckDuckGo
(http://duckduckgo.com/).
Otros multibuscadores se centran en determinadas audiencias. Un caso típico son los
multibuscadores enfocados en los niños. Suelen hacer uso de los filtros de contenidos
ofrecidos por Google y Yahoo. Algunas opciones son KidRex (http://www.kidrex.org),
Zui (http://zui.com), una herramienta en español llamada Bebeeee
(http://www.bebeeee.com/) así como las versiones para niños de algunos buscadores
como AOL Kids (http://kids.aol.com/).
El concepto de metabuscador ha ido evolucionando a medida que surgían avances
técnicos. Actualmente, se denomina metabuscador a aquella aplicación que es capaz
de buscar en un conjunto de catálogos o colecciones digitales convenientemente
etiquetadas, de acuerdo a estándares, mediante protocolos de comunicación
normalizados. Estas búsquedas se llaman búsquedas federadas y hacen uso de
tecnologías más refinadas que la simple indexación de páginas y contenidos. En
concreto se basan en metadatos normalizados y en protocolos de recolección de
información estandarizados como Open Archive Initiative (OAI). A continuación,
explicamos un poco más en detalle estos conceptos.
2.11.1 Metadatos
Los metadatos son simplemente datos que proporcionan información sobre los datos
que se encuentran almacenados en una colección digital. Es decir, no describen
completamente un ítem pero, sí proporcionan una mínima información del mismo. Y
además, y esto es lo realmente importante, permite uniformizar la información
soslayando el método de catalogación que se haya utilizado originalmente para
incorporar el ítem a la colección digital.
Javier Iglesia Aparicio, 2014
Página 52
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Como señalan Méndez y Senso 12 “De todas las definiciones existentes podemos
extraer varios puntos cruciales (dato sobre el dato, concepto de objeto, recuperación
de información) que nos pueden ser útiles para la realización de una nueva definición
(…): metadato es toda aquella información descriptiva sobre el contexto, calidad,
condición o características de un recurso, dato u objeto que tiene la finalidad de
facilitar su recuperación, autentificación, evaluación, preservación y/o
interoperabilidad”. Así, citan como ejemplos de metadatos: (El encabezamiento de un
fichero multimedia (imagen, vídeo o audio); El resumen de un documento; El catálogo
de una base de datos; Las fichas catalográficas en cualquier formato (ISBD, MARC,
etc.); Las páginas amarillas, etcétera).
Todos los autores que trabajan con metadatos recogen la tabla elaborada por Ann J.
Gilliland-Swetland en la que se señalan los distintos tipos de metadatos, su aplicación
y algunos ejemplos de uso concretos, y que se muestra a continuación.
Tipo
Definición / Aplicación
Administrativo
Usados en la gestión y administración de recursos de
información
Ejemplos
•
•
•
•
•
Adquisición de información
Derechos y reproducción
Requerimientos legales para el acceso
Localización de información
Criterios de selección para la
digitalización
Descriptivo
Utilizados para representar recursos de información
•
Control de la versión
•
•
•
•
•
Registros catalográficos
•
Informar sobre las condiciones de uso
Proporcionar ayuda en la búsqueda
Índices especializados
Hiperenlazar relaciones entre recursos
Anotaciones de los usuarios
de los recursos físicos
Preservación
Para salvaguardar los recursos de información
•
Informar sobre las acciones llevadas a
cabo para preservar versiones físicas y
digitales de recursos
•
•
Documentación de hardware y software
Digitalización de la información
(formato, ratio de compresión...)
Relativos a cómo funcionan los sistemas o el
Técnico
comportamiento de los metadatos
•
Autentificación y datos de seguridad
(encriptación, passwords, etc.)
•
Control de tiempo de respuesta de
sistemas
12
Véase más información en: MÉNDEZ, Eva; SENSO, José A. “Introducción a los metadatos: estándares y
aplicación”.
[ref.
de
04
febrero
2014].
Disponible
en
Web:
http://www.sedic.es/autoformacion/metadatos/tema1.htm.
Javier Iglesia Aparicio, 2014
Página 53
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Relativos al nivel y tipo de uso que se hace con los
Uso
recursos informativos
•
•
Información sobre versiones
Reutilización del contenido del recurso
Ann J. Gilliland-Swetland. Tipos de metadatos
Actualmente existen varias especificaciones de metadatos pero la más extendida es
Dublin Core 13. Dentro de ella existen dos modelos de especificación. La primera, se
denomina comúnmente Simple Dublin Core y está compuesto por 15 elementos
descriptivos. La segunda, se llama Qualified Dublin Core y propone nuevos elementos
descriptivos. Actualmente, la versión simple de Dublin Core es la más usada.
Veamos brevemente cuáles son estos 15 elementos:
1. Title. El nombre o título de un recurso.
2. Creator. La persona u organización que ha creado el contenido intelectual del
recurso, es decir, el escritor de un libro, el fotógrafo de una imagen, el
ilustrador de un dibujo, etc.
3. Subject. La descripción de la temática del recurso mediante frases y palabras
clave.
4. Description. Descripción textual del recurso: un resumen o descripción del
contenido.
5. Publisher. La organización responsable de que un contenido se encuentre
disponible en la red en el formato actual, es decir, el editor.
6. Contributor. Otras personas distintas del autor que hayan colaborado en la
elaboración del contenido intelectual del recurso.
7. Date. La fecha en la que el recurso, en su formato actual, se puso a disposición
del usuario.
8. Type. El tipo de recurso.
9. Format. El formato de digitalización del recurso.
10. Identifier. Identificador único del recurso. Habitualmente es la dirección URL
donde se localiza aunque, también puede ser el ISBN u otro identificador único
reconocido.
11. Source. Identificador de la fuente o fuentes utilizadas para elaborar el
contenido actual.
12. Language. Lengua o lenguas del contenido.
13. Relation. Identificación de otros recursos digitales relacionados con el presente
recurso digital.
14. Coverage. Cobertura espacial y/o temporal del recurso. Por ejemplo, si se
refiere a un país o al siglo XII.
15. Rights. Descripción de los derechos de autor del recurso digital.
13
Su especificación completa se encuentra en http://dublincore.org/.
castellano se puede encontrar en http://www.rediris.es/search/dces/.
Javier Iglesia Aparicio, 2014
Una traducción al
Página 54
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Estos elementos son opcionales y, en general, basta con que sean rellenados con texto
aunque, para algunos, se recomiendan usar vocabularios controlados (Type) y
estándares (Format, Date).
Para aclarar cómo se usa veamos cómo sería la descripción Dublin Core de la
reproducción en HTML de la obra Rinconete y Cortadillo de Miguel de Cervantes
(http://www.cervantesvirtual.com/obra/rinconete-y-cortadillo--0/).
<dc:title>Rinconete y Cortadillo</dc:title>
<dc:creator>Miguel de Cervantes y Saavedra</dc:creator>
<dc:subject>Novela, literatura española, siglo XVII</dc:subject>
<dc:description>Novela del siglo XVII…</dc:description>
<dc:publisher>Biblioteca Miguel de Cervantes</dc:publisher>
<dc:contributor>Florencio Sevilla Arroyo</dc :contributor>
<dc:date>2001</dc:date>
<dc:type>Documento</dc:type>
<dc:format>text/html</dc:format>
<dc:identifier>http://www.cervantesvirtual.com/obra-visor/rinconete-y-cortadillo-0/html/</dc:identifier>
<dc:source>http://www.cervantesvirtual.com/</dc:source>
<dc:language>es</dc:language>
<dc:relation>Otras obras de Miguel de Cervantes</dc:relation>
<dc:coverage>España, siglo XVII</dc:coverage>
<dc:rights></dc:rights>
2.11.2 Open Archive Initiative (OAI)
El Open Archive Forum (http://www.oaforum.org/) ha sido el responsable de impulsar
una iniciativa que permitiera el acceso vía web a los materiales existentes en las
colecciones digitales: Open Archive Initiative (OAI).
Uno de los principales problemas para lograr el acceso libre y estructurado a estas
fuentes era que cada colección digital se basaba en un sistema informático y de
catalogación diferentes. Por esta razón, el principal cometido de esta organización ha
sido desarrollar un protocolo de comunicación que permitiera la interoperabilidad con
los distintos sistemas de gestión de colecciones digitales ya existentes, de forma que se
pudieran recabar datos de cada uno de ellos. Sólo así se pueden realizar búsquedas en
todo el conjunto de las bibliotecas digitales. Su resultado fue el protocolo OAI para la
Recolección de Metadatos (OAI-PMH) que actualmente se encuentra en la versión 2.0.
OAI-PMH necesita que las diferentes colecciones digitales ofrezcan información sobre
su catálogo mediante metadatos (Dublin Core es el formato más extendido aunque
acepta otros). Cada cierto tiempo un servidor llamado recolector (harvester) va
solicitando estos metadatos a cada colección digital y los almacena en una base de
datos. Es decir, no se almacena el fichero digital, sino sus metadatos. Posteriormente,
cuando un usuario realiza una consulta ésta se lleva a cabo sobre esos metadatos
almacenados.
Javier Iglesia Aparicio, 2014
Página 55
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Esquema de funcionamiento de OAI-PMH
Se profundiza más sobre el protocolo en la página oficial del protocolo
(http://www.openarchives.org/pmh/) o en esta explicación en castellano
(http://travesia.mcu.es/portalnb/jspui/html/10421/1823/intro.htm).
2.11.3 Ejemplos
Cada vez están apareciendo más metabuscadores que realizan búsquedas federadas
basadas en los metadatos (Dublin Core y otros) y en los protocolos impulsados por la
Open Archive Initiative. Dentro de ellos nos vamos a centrar en dos ejemplos, uno de
ámbito global y otro enfocado al mundo hispanohablante.
Worldcat (http://www.worldcat.org/?lang=es) es actualmente el metabuscador con
mayor número de fuentes federadas. Contiene OAIster (http://oaister.worldcat.org/),
que fue el primer metabuscador que hizo uso del protocolo OAI-PMH.
Hispana (http://hispana.mcu.es/) es una iniciativa del Ministerio de Cultura español
que, en junio de 2012, cuenta con 172 repositorios digitales españoles y más de 3,6
millones de recursos.
Europeana (http://www.europeana.eu/), impulsado por la Unión europea, es un punto
de acceso a millones de libros, pinturas, vídeos, fotografías, objetos de museos y otros
muchos ítems de multitud de instituciones culturales europeas así como de otros
repositorios como el anteriormente citado Hispana.
Usando este tipo de herramientas de búsquedas nos aseguramos un alto grado de
relevancia y de calidad de los resultados obtenidos pues han pasado previamente
filtros humanos, los catalogadores, que se han asegurado de clasificarlos
adecuadamente.
Javier Iglesia Aparicio, 2014
Página 56
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2.12 Buscadores de recursos educativos
Aunque existen muchos repositorios impulsados por administraciones públicas autonómicas y
por editoriales, en este apartado nos vamos a centrar en iniciativas de más amplio alcance.
Comenzamos por dos basados en el estándar de catalogación LOM (Learning Object
Metadata), definido para clasificar los recursos educativos según parámetros como nivel
educativo, tipo de actividad, dificultad, etc:
●
Biblioteca Escolar Digital (http://www.bibliotecaescolardigital.es/ ). Impulsada por la
Fundación Germán Sánchez Ruipérez, dispone de más de 8.000 recursos educativos
catalogados. La búsqueda se basa en un tesauro educativo, accesible también de
forma visual, que permite recuperar resultados muy relevantes. Además utilizada
tecnología de web semántica para facilitar la búsqueda.
●
Agrega (http://www.proyectoagrega.es). Similar al anterior, iniciativa de Red.es
●
Didactalia (http://didactalia.net). Buscador basado en tecnología de web semántica
que incorpora un buscador facetado. Además dispone de una comunidad asociada
para compartir y comentar los recursos.
Tiching (http://es.tiching.com/ ) que permite buscar por niveles educativos,
competencias e idioma. también tiene funciones de comunidad.
Proyecta (http://www.plataformaproyecta.org ), que incluyen también los ciclos
formativos y un apartado de metodologías.
●
●
2.13 Buscadores académicos
Llamamos aquí buscadores académicos a aquellos que nos permiten buscar dentro de las
publicaciones científicas. Dentro de los distintos servicios existentes nos enfocaremos en
aquellos de carácter gratuito. Comencemos con las propuestas de los grandes buscadores:
●
●
Google Académico (http://scholar.google.es/ ). Permite localizar libros, artículos y
citas. Podemos filtrar por intervalos cronológicos y además permite conocer el número
de citas de un cierto artículo así como buscar artículos relacionados.
Si estamos conectados con una cuenta Google podemos crear alertas sobre los temas
de nuestro interés así como hacer un seguimiento de las citas que se hagan de
nuestros propios documentos.
Los datos son obtenidos de buscadores y catálogos universitarios como Dialnet
(http://dialnet.unirioja.es/) o Rebiun (http://rebiun.crue.org).
Microsoft Academic Search (http://academic.research.microsoft.com/ ). Una de sus
particularidades es que tiene indexados a los autores y podemos acceder fácilmente a
todos sus trabajos. También tiene servicios de visualización avanzados para ver las
citas sobre un documento, las instituciones académicas, etc.
Existen otros tantos buscadores dedicados a la búsqueda académica:
Javier Iglesia Aparicio, 2014
Página 57
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
●
World Wide Science (http://worldwidescience.org/). Organiza los resultados en
documentos y archivos multimedia. Además se puede suscribir a una búsqueda para
no perder el listado de resultados.
RefSeek (http://www.refseek.com/ ).
2.14 Buscadores para niños
En la Web se pueden encontrar contenidos de cualquier tema. Lo que en un principio es una
gran ventaja, en algunos momentos, y con ciertos usuarios, se puede convertir en un
problema. Todos los que trabajan con niños o los que son padres están preocupados por la
información, por las páginas webs a las que acceden los niños. Si bien es siempre
recomendable que una persona adulta esté junto al niño mientras usa Internet, todos sabemos
que en ocasiones esto no es posible.
Una solución son los filtros de contenido que se instalan en el ordenador. Pero existe una
solución aún más práctica. Se trata de utilizar herramientas de búsqueda específicamente
pensadas para su uso por menores. Son buscadores y multibuscadores que utilizan los filtros
de búsqueda segura (SafeSearch) de los grandes motores de búsqueda como Google y Yahoo.
Y, además, realizan búsquedas relacionadas con lo que suelen ser sus necesidades y proponen
resultados de enciclopedias, música, vídeos educativos, etc.
De entre los motores de búsqueda, sólo AOL tiene versión para niños: AOL Kids
(http://kids.aol.com/). Además del buscador con resultados filtrados, ofrece apartados como
juegos, música, películas, deportes e incluso una con materiales de estudio.
Google no ofrece un servicio similar pero existen iniciativas que, haciendo uso de las opciones
de creación de buscadores y del filtro SafeSearch, han creado servicios para menores. Esto es
Javier Iglesia Aparicio, 2014
Página 58
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
lo que hacen buscadores como KidRex y GoGooligans.
Si pasamos a los multibuscadores, la opciones se amplían. La gran mayoría se apoyan en los
buscadores Google y Yahoo pero obtienen información de otros sitios considerados seguros.
Entre los más conocidos se encuentran Famhoo?, SweetSearch, Infotopia, y Zui.
Pero, hasta el momento todas las opciones comentadas se encuentran en inglés y las
búsquedas se pueden ver afectadas por este hecho. Existe una alternativa en español de gran
calidad. Se trata del multibuscador BeBeeee. BeBeeee usa como motor de búsqueda Google y
permite realizar búsquedas específicas por webs, imágenes, vídeos, juegos, preguntas,
noticias, mapas y recetas entre otros temas. Además, nos propone enlaces para encontrar
software útil, diccionarios, calculadoras, traductores y muchas otras direcciones útiles para los
estudiantes.
En conclusión, tenemos la oportunidad de enseñar a los menores a buscar sin preocuparnos
demasiado por obtener resultados inadecuados para su edad. Basta con enseñarle a manejar
uno de estos buscadores para acceder a la Web.
Para ver más opciones consulta este listado de buscadores para niños.
2.15 Google Custom Search Engine: crea tu propio buscador
personalizado
En muchas ocasiones es útil crear un buscador que esté focalizado en un tema y que nos
asegure de que los resultados son muy relevantes pues sabemos qué fuentes son las que
tenemos que rastrear. Con un buscador de este tipo, podemos crear una herramienta de
búsqueda segura y relevante, por ejemplo, para nuestros alumnos, o para los visitantes a un
blog.
El servicio Google Custom Search Engine (http://www.google.com/cse) nos permite crear y
personalizar un buscador. Este buscador luego puede ser integrado en cualquier sitio web o
bien se le puede dar una dirección pública.
Un buscador creado con Google CSE se aprovecha de toda la tecnología de indexación de
Google. pero es en la recuperación de la información y en su presentación donde podemos
personalizar:
●
●
Autocompletado. Podemos habilitar esta característica que hace que se sugieran
términos de búsqueda en base al contenido de los sitios incluidos en el CSE.
Términos sinónimos. Podemos definir palabras sinónimas dentro del CSE para
Javier Iglesia Aparicio, 2014
Página 59
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
expandir la búsqueda.
Website ranking. Podemos decidir los resultados de que sitios queremos presentar en
primer lugar.
2.15.1 Creación de un buscador personalizado
Basta con acceder a Google Custom Search Engine (http://www.google.com/cse) para lo que
es indispensable disponer de una cuenta Google.
Interfaz inicial de la Búsqueda personalizada de Google
Si nunca hemos creado un motor nos aparecerá la opción de crear uno nuevo. Si ya
hubiéramos creado alguno, en esta primera pantalla aparecerá el listado de los mismos.
¿Cómo creamos el motor de búsqueda?
1. En la página principal de la Búsqueda personalizada de Google, haz clic en Nuevo
motor de búsqueda.
Javier Iglesia Aparicio, 2014
Página 60
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2. En la sección Sitios en los que buscar, escribimos el listado de direcciones de sitios web en
las que nuestro motor de búsqueda va a buscar información. Vamos introduciendo una URl en
cada línea teniendo en cuenta estas indicaciones:
● Páginas individuales: si especificas www.misitio.es/mipagina.html, solo se incluirá la
página mipagina.html en www.misitio.es.
● Sitios completos: al especificar www.misitio.es, se incluirán todas las páginas en
www.misitio.es.
● Partes de sitios: puedes utilizar patrones comodín para incluir únicamente ciertas
partes de un sitio. Por ejemplo, si especificas www.misitio.es/*acerca de*, solo se
incluirán archivos de www.misitio.es cuyo nombre contenga acerca de. Puedes incluir
URL de sitios o de páginas, y también puedes utilizar un sistema más sofisticado, como
los patrones de URL.
● Dominios enteros: también puedes especificar un dominio entero con *.midominio.es.
Si especificas midominio.es, se convertirá automáticamente en *.midominio.es/*. Si no
es lo que quieres, puedes realizar los cambios necesarios en el panel de control.
3. El nombre del motor de búsqueda se generará automáticamente en función de las URL que
selecciones. Puedes cambiar este nombre en cualquier momento.
4. Selecciona el idioma del motor de búsqueda. Esto permite definir el idioma de los botones y
de otros elementos de diseño del motor de búsqueda, pero no afecta a los resultados de la
búsqueda.
5. Haz clic en Crear.
Javier Iglesia Aparicio, 2014
Página 61
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Para añadir el motor de búsqueda a tu sitio, haz clic en Obtener código en la página siguiente.
Obtendrás algo como esto:
<script>
(function() {
var cx = '001113816583243875246:b0y0qiiytpo';
var gcse = document.createElement('script'); gcse.type =
'text/javascript'; gcse.async = true;
gcse.src = (document.location.protocol == 'https:' ? 'https:' : 'http:')
+
'//www.google.com/cse/cse.js?cx=' + cx;
var s = document.getElementsByTagName('script')[0];
s.parentNode.insertBefore(gcse, s);
})();
</script>
<!-- Place this tag where you want both of the search box and the search
results to render -->
<gcse:search></gcse:search>
Copia el código y pégalo en el sitio donde quieres que aparezca el motor de búsqueda
personalizado. También puedes obtener un simple enlace si pinchas en URL pública.
Javier Iglesia Aparicio, 2014
Página 62
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2.15.2 Modificación y refinamiento de un buscador personalizado
Si volvemos a acceder a Google CSE podemos ver en la página inicial el listado de motores de
búsqueda que hemos creado. A cada uno de ellos le podemos modificar su configuración
(Panel de control), ver las estadísticas de uso o suprimir.
Si pulsamos en panel de control, el menú de la izquierda Editar motor de búsqueda nos da un
gran número de opciones que no aparecen en el momento de la creación de los motores de
búsqueda.
En todo momento tendremos nuestro motor de búsqueda a la derecha para probar nuestros
cambios.A la izquierda tenemos varias opciones
● Configuración. La que aparece por defecto. Se divide en cuatro apartados:
○ Aspectos básicos. Podemos cambiar el nombre del buscador, introducir
palabras clave para describir nuestro buscador, determinar si es un buscador
gratuito o de pago (es una opción para que no aparezcan anuncios), obtener el
código o la URL pública, activar o desactivar la búsqueda de imágenes, cambiar
el idioma y editar la lista de sitios en los que busca. En el pie, en Opciones
avanzadas, también podemos excluir sitios web.
○ Obtener ingresos. Podemos asociar un buscador a una cuenta de Google
AdSense para obtener ingresos de anuncios que aparecen dentro de los
resultados del buscador.
○ Administración. podemos añadir a otros usuarios que administren un
buscador personalizado.
○ Indexación. Se puede solicitar a Google la indexación de ciertas páginas para
que aparezcan en los resultados de tu buscador.
Javier Iglesia Aparicio, 2014
Página 63
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Apariencia. Podemos determinar la configuración estética de nuestro buscador. Tiene
cuatro apartados:
○ Diseño. Definimos la apariencia principal del buscador: si aparece superpuesto
a una página, en ancho completo, en dos columnas, etc. Cada vez que lo
cambiemos debemos de obtener el nuevo código generado y sustituirlo allá
donde queramos integrar el buscador.
○
○
Temas. podemos elegir una gama de colores para nuestro buscador.
Personalizar. Podemos modificar cualquier detalle de tipo de fuente, color de
fuente y color de fondo de cada apartado del buscador.
Javier Iglesia Aparicio, 2014
Página 64
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Miniaturas. Podemos habilitar o no la presentación de miniaturas en las
búsquedas de imágenes.
Funciones de búsqueda. Con cinco apartados:
○ Resultados promocionados. Podemos crear resultados promocionados que se
presenten en la parte superior de los resultados de búsqueda.
○ Búsquedas restringidas. Permite a los usuarios filtrar los resultados según las
categorías proporcionadas. Nos permite crear búsquedas restringidas dentro
de nuestro buscador. Las búsquedas restringidas son una serie de etiquetas
(16 como máximo) que se pueden aplicar a los sitios web del índice de un
motor de búsqueda para ayudar a los usuarios a encontrar más fácilmente la
información que buscan. Cuando un usuario hace clic en una etiqueta de
búsqueda restringida, se busca exclusivamente en los sitios que tienen esa
etiqueta o se da prioridad a esos sitios en los resultados (según la opción que
hayas elegido).
○
●
Por ejemplo, supongamos que hemos creado un motor de búsqueda sobre
primates y que hemos añadido unos sitios que tratan específicamente sobre
chimpancés y otros que se refieren exclusivamente a gorilas. Las etiquetas te
permiten organizar el contenido de tu sitio por categorías para que los
usuarios puedan filtrar los resultados de búsqueda. Por ejemplo, si tu motor
de búsqueda sobre monos incluye contenido sobre gorilas y chimpancés,
puedes utilizar etiquetas para:
Javier Iglesia Aparicio, 2014
Página 65
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
anotar resultados de búsqueda etiquetando un resultado, por
ejemplo, como "Chimpancés" o "Gorilas" (otras etiquetas útiles
podrían ser "blogs" y "sitios web oficiales"),
● permitir que los usuarios prioricen o filtren los resultados de búsqueda
de acuerdo con la etiqueta.
Para habilitar las búsquedas restringidas en tu motor de búsqueda, primero
debes crear un conjunto de etiquetas y, a continuación, debes aplicar esas
etiquetas a los sitios que hayas incluido en tu motor de búsqueda.
●
Autocompletar. Podemos sugerir términos de búsqueda mientras se escribe
en nuestro buscador. Asimismo podemos incluir o excluir términos. Si habilitas
las opciones de Autocompletar en tu motor de búsqueda, los usuarios podrán
ver listas de consultas útiles cuando empiecen a escribir en el cuadro de
búsqueda. Por ejemplo, si tu motor de búsqueda personalizado contiene sitios
sobre compositores clásicos, cuando un usuario escriba "ta" en el cuadro de
búsqueda, podrán aparecer automáticamente consultas como "tallis" o
"taverner". ¿De dónde proceden las consultas autocompletadas?
Google genera automáticamente estas consultas analizando diversas
características del motor de búsqueda personalizado, entre las que se incluye
el contenido de las páginas incluidas en el motor.
●
Una vez que hayas habilitado las opciones de Autocompletar, los usuarios
empezarán a ver consultas autocompletadas al cabo de unas horas.
○ Sinónimos. Puedes ampliar las consultas de búsqueda de tus usuarios
mediante sinónimos (variantes de un término de búsqueda). Cuando defines
los sinónimos para un término de búsqueda, al buscar ese término, se activan
automáticamente las búsquedas de sus sinónimos. Por ejemplo, si has definido
el término de búsqueda "ninja" utilizando como sinónimo "asesino", al realizar
cualquier búsqueda que incluya la palabra "ninja", se mostrarán resultados
tanto del término "ninja" como de su sinónimo "asesino" (como si el usuario
hubiera buscado "ninja OR asesino").
○ Opciones avanzadas. Podemos clasificar resultados, , configurar la búsqueda
web, hacer restricciones de las búsquedas web y configurar la búsqueda de
imágenes.
Estadísticas y registros. Con tres apartados:
○ Stats. Estadísticas de uso del buscador
○ Google Analytics. Permite asociar el buscador con un perfil del software de
analítica web Google Analytics.
○ Audit log. Registro de cambios realizados en la configuración del buscador.
Javier Iglesia Aparicio, 2014
Página 66
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
●
Empresa. Permite cambiar la configuración entre un buscador gratuito o de empresa.
El último paso de la configuración es seleccionar el tipo de edición del buscador
personalizado. se ofrecen dos opciones:
● La edición estándar te permite realizar búsquedas personalizadas utilizando la
tecnología de Google. También te permite personalizar el aspecto de tu motor
de búsqueda e integrarlo en tu sitio. Debes incluir anuncios junto a los
resultados de búsqueda, a menos que hayas creado el motor de búsqueda
para una organización sin ánimo de lucro, para una universidad o para una
agencia gubernamental, en cuyo caso puedes inhabilitar los anuncios.
● Google Site Search tiene un precio inicial de 100 dólares al año e incluye
opciones adicionales. Obtendrás asistencia garantizada y un mayor número de
opciones de personalización de los resultados a través de un API XML. No
aparecerá ningún anuncio junto a los resultados de búsqueda.
El servicio tiene muchas más opciones para desarrolladores y programadores. Se puede
consultar la ayuda en http://support.google.com/customsearch/?hl=es y la documentación
completa para desarrolladores en https://developers.google.com/custom-search/.
Javier Iglesia Aparicio, 2014
Página 67
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3. Mecanismos de interoperabilidad e intercambio de
información en la Web.
3.1 Introducción
Los fundamentos de la web fueron muy sencillos: un servidor de páginas web que
presentaba documentos escritos en un lenguaje llamado HTML que permitía formatear
el texto; y una aplicación de navegación que interpretaba ese lenguaje y visualizaba la
página web.
Con el tiempo las aplicaciones web se fueron haciendo dinámicas y, cada vez más,
basadas en la consulta a bases de datos. Sin embargo, el resultado final es siempre una
página HTML.
Pero, una página HTML está pensada desde el punto de vista humano: se distingue
entre cabecera y cuerpo y se ponen etiquetas sobre el tipo de fuente, enlaces e
imágenes. Este tipo de estructura no puede ser manejada correctamente por los
ordenadores si queremos comunicar los datos de una página web con otra.
Para solucionar este problema han surgido una serie de tecnologías que permiten la
interoperabilidad entre servidores para intercambiar información. La más usada
actualmente es la sindicación de contenidos, sobre todo con el objeto de intercambiar
las últimas publicaciones de los sitios webs. Por otro lado, se pueden realizar consultas
a bases de datos o a diversos servicios mediante pequeñas aplicaciones embebidas
dentro de las páginas web llamadas widgets, aspecto que profundizaremos en el
capítulo 5.
Incluso, como ya hemos visto, existen aplicaciones más avanzadas basadas en
estándares como Open Archive Initiative (OAI) que permiten compartir bibliotecas
completas de recursos digitales haciendo posible la creación de metabuscadores, es
decir, de buscadores que recopilan información de entre una gran cantidad de bases
de datos distribuidas por todo el mundo.
3.2 Sindicación de contenidos
La sindicación de contenidos es una de las piezas clave de la Web 2.0. La idea básica
consiste en la redifusión de contenidos web utilizando lenguajes estandarizados y unas
herramientas lectoras de esos contenidos o aplicaciones de servidor capaces de
traducirlas. Los lenguajes de sindicación son una serie de especificaciones XML que
permiten crear un canal o feed donde se recogen las novedades de un sitio web. Esa
información aparece estructurada según estos estándares del lenguaje de sindicación y
puede ser interpretada por un lector de RSS o redifundida por una página web en un
proceso transparente para el usuario.
Su popularización ha venido de la mano de los blogs: al leer más blogs los lectores de
RSS evitan al usuario el trabajo de visitar los blogs habituales en busca de novedades,
Javier Iglesia Aparicio, 2014
Página 68
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
las trae cuando el usuario las solicita, ahorrando así mucho tiempo de navegación. La
mayoría de sitios considerados típicos de la Web 2.0 disponen de canales RSS con
mayor o menor grado de personalización. En la actualidad, casi cualquier gestor de
contenidos genera automáticamente los canales RSS, por lo que cada vez su
implantación está más generalizada.
La sindicación de contenidos permite que toda o parte de la información que contiene
un sitio web esté disponible para ser utilizada por otros servicios. El contenido
sindicado o fuente (feed) contiene tanto la información en sí como un conjunto de
metadatos, de información sobre el contenido.
3.2.1 Breve historia
Los primeros balbuceos de la sindicación de contenidos se remontan al año 1995 con
la aparición de un sistema llamado Meta Content Framework (MCF), desarrollado por
la empresa Apple, que permitía describir objetos, sus atributos y las relaciones con
otros objetos. Dicha información podía ser leída en Internet usando la aplicación
HotSauce. En 1997 Apple abandonó esta línea de investigación y el proyecto pasó a
Netscape.
En esta nueva etapa comienza la redefinición de MCF de acuerdo al estándar XML y de
esta unión nace en 1999 el estándar Resource Definition Framework (RDF), la base de
la Web Semántica.
Mientras tanto, Microsoft, empresa para lo que no había pasado inadvertida la
experiencia de Apple, comenzó a desarrollar su propio sistema de descripción de sitios
web y como resultado desarrolló el Channel Definition Format (CDF), basado también
en XML. El navegador Internet Explorer 4.0 tenía ya la capacidad de leer e interpretar
este tipo de información.
Netscape era en ese momento la competencia directa de Microsoft en el mercado de
los navegadores de Internet y lanzó un portal de servicios, llamado My Netscape
Network, basado en una simplificación de RDF, RDF Site Summary (RSS), que permitía
ver titulares de noticias e información de otros sitios web y proporcionaba al usuario la
capacidad de buscar y almacenar sus propias fuentes de información. Era la evolución
de HotSauce hacia la Web.
Poco después se creó la versión RSS 0.91 que eliminaba cualquier referencia al
lenguaje RDF y lo simplificaba. En este momento el desarrollo del estándar se bifurcó:
una rama, la más purista, continuó basándose en RDF y creó la versión RSS 1.0 en el
año 2000; la otra rama, la que optaba por la simplificación, y tras varias versiones
(0.92, 0.93 y 0.94) acabó dando lugar a RSS 2.0 en el año 2002. Estas dos ramas de
estándares no eran compatibles entre sí.
Ante el panorama complejo, en cuanto a estándares, de la sindicación, otro grupo de
desarrolladores optó en el año 2003 por crear otro nuevo estándar, Atom, que
superará las dificultades de entendimiento entre las distintas versiones de RSS. Su
Javier Iglesia Aparicio, 2014
Página 69
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
formalización concluyó en el año 2005. Sin embargo, en la pugna de estándares parece
que finalmente ha sido RSS 2.0 el triunfador.
3.2.2 Estándares
Actualmente existen dos estándares para la creación de fuentes RSS, ambos basados
en el lenguaje XML:
•
•
RSS (RDF Site Summary, Rich Site Summary o Really Simple Syndication). Es el
estándar de sindicación de contenidos más ampliamente usado. Su primera
versión (0.90) data de 1999 y la más actual es la 2.0.
Atom. Surge en el año 2003, momento en el que convivían diferentes versiones
de RSS que eran incompatibles entre sí. Algunas de sus ventajas frente a RSS es
que permite señalar si el contenido es texto plano o HTML, normaliza la
indicación temporal y está preparado para la internacionalización. Sin embargo,
su adopción ha sido de baja intensidad sobre todo por la expansión previa que
ya tenía RSS.
3.2.3 RSS 2.0
Como ya hemos dicho, RSS 2.0 es el estándar de sindicación de contenidos más
extendido. Su estructura es muy sencilla y se compone de pocos elementos. Su
especificación se puede consultar en http://cyber.law.harvard.edu/rss/rss.html. La
imagen siguiente presenta los posibles elementos:
Javier Iglesia Aparicio, 2014
Página 70
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Especificación del estándar RSS 2.0
Un canal RSS se define en lenguaje XML tal y como podemos ver en este ejemplo:
<?xml version="1.0" encoding="iso-8859-1" ?>
<rss version="2.0">
<channel>
<title>Noticias CITA</title>
<link>http://www.fundaciongsr.es/cita</link>
<language>es</language>
<category>News</category>
<description>Noticias del Centro Internacional de
Tecnologías Avanzadas en el medio Rural de la Fundación Germán
Sánchez Ruipérez</description>
<copyright>(c) 2011, CITA - Fundación Germán Sánchez
Ruipérez</copyright>
Javier Iglesia Aparicio, 2014
Página 71
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
<webMaster>[email protected]</webMaster>
<managingEditor>[email protected]
</managingEditor>
<lastBuildDate>Mon, 24 Jan 2011 00:00:00</lastBuildDate>
<item>
<pubDate>Mon, 24 Jan 2011 00:00:00</pubDate>
<title><![CDATA[ Nuevo curso presencial CITA:
Redes sociales, podcast y otros recursos para la
enseñanza]]></title>
<link>http://62.81.205.118/cita/src/public_noticia_completa.php?
c_noticia_id=2011</link>
<guid
isPermaLink='true'>http://62.81.205.118/cita/src/public_noticia_
completa.php?c_noticia_id=2011</guid>
<description> Texto de la noticia</description>
<author>Carlos Vicente</author>
</item>
<item>…</item>
</channel>
</rss>
RSS tiene dos elementos fundamentales:
o La definición del canal mediante el elemento <channel>. En el caso anterior el
canal tiene las siguientes propiedades:
o <title>, el nombre del canal.
o <link>, es la dirección URL del sitio web que contiene el canal RSS.
o <language>, idioma del canal siguiendo alguna norma como por
ejemplo la ISO 639 (http://xml.coverpages.org/iso639a.html).
o <category>, indica la categoría del canal: noticias, blog, etc.
o <description>, breve descripción del canal y su contenido.
o <copyright>, indica los derechos de autor sobre el contenido.
o <webMaster>, correo electrónico del responsable técnico del canal.
o <managingEditor>, correo electrónico del responsable editorial del
contenido.
o <lastBuildUpdate>, última vez que se ha actualizado el canal.
o La definición de las diferentes noticias o elementos del canal mediante la
etiqueta <item>. Cada ítem se describe a su vez por estos elementos:
o <pubDate>, fecha de publicación del ítem.
o <title>, título de la noticia.
o <link>, la dirección URL de la noticia.
o <guid>, una cadena que identifica de forma unívoca al ítem. Suele ser
igual que el link.
o <description>, el contenido de la noticia.
o <author>, autor de la noticia.
Únicamente los campos indicados en negrita son obligatorios. Todos los demás son
opcionales.
Javier Iglesia Aparicio, 2014
Página 72
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.2.4 ¿Por qué usar la sindicación de contenidos?
He escrito información en un sitio web ¿Qué puedo hacer para duplicarla en otros
sitios? Esto no es tan fácil. Cada herramienta que nos deja insertar contenido en la
web tienen sus normas y métodos y la información se almacena según éstas. En la
Web actual tenemos tres problemas de base que dificultan la compartición de
contenido:
o Las páginas web no están pensadas para que su contenido sea entendido por
las máquinas.
o Las páginas dinámicas actuales usan cada una su base de datos.
o Estándares de seguridad informática.
La sindicación de contenidos es precisamente la herramienta que supera esos
obstáculos, pues, tenemos un formato de intercambio estándar y eso para el usuario
supone dos grandes ventajas:
• Ahorra tiempo de consulta. En vez de ir consultando cada uno de los sitios web
para ver si hay novedades basta con consultar la fuente RSS para ver lo último
que se ha publicado en él.
• Nos permite organizar y clasificar las fuentes a nuestro gusto.
• Disminución del uso del correo electrónico, ya que puede sustituir a la
suscripción del boletín de noticias que se recibe de forma periódica.
Por otro lado, para quien publica contenidos en la web:
•
•
Es una forma sencilla de proveer a otros sitios web de lo más actual de nuestra
página sin tener que elaborar programas de consulta a bases de datos.
Puede eliminar los mecanismos de mantenimiento de una lista de distribución.
Javier Iglesia Aparicio, 2014
Página 73
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Comparación del acceso a la información sin usar y usando sindicación de contenidos
3.2.5 Buenas prácticas en el uso de la sindicación de contenidos
o Si ofreces mucha información, es muy recomendable elaborar una fuente RSS
para cada categoría o conjunto de información. De esta forma, se puede crear
una página con las distintas fuentes RSS para que el usuario elija a cuáles quiere
suscribirse.
o Es necesario que las fuentes RSS estén lo más actualizadas posibles. Para ello es
indispensable que el gestor de contenidos, la herramienta de blogs o aquél
software que se use para introducir la información componga de forma
automática la fuente RSS cada vez que se publica un nuevo contenido.
o Cada ítem de la fuente RSS debe de tener un enlace directo al lugar del sitio
web donde está localizado.
Javier Iglesia Aparicio, 2014
Página 74
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.2.6 Búsqueda de fuentes RSS
La gran mayoría de sitios web ya dispone de enlaces para que los usuarios puedan
suscribirse a las fuentes de sindicación de contenidos. No existe un icono estándar
para indicarlo, tal y como puede verse en la imagen inferior, que presenta diversos
iconos que indican la presencia de un feed.
Distintos iconos que señalan la existencia de fuentes de sindicación de contenidos
La tarea primaria de búsqueda de fuentes RSS es la de investigar si en los sitios web
que consultamos habitualmente, o que son de nuestro interés, existe esta tecnología.
En ese caso, basta con acceder al enlace adecuado y suscribirse pinchando en él.
Algunos navegadores nos ayudan en esta tarea indicando de alguna forma que existe
alguna fuente de sindicación. Mozilla Firefox lo indica en la barra de navegación
presentando un icono RSS. Si se hace clic sobre el icono podremos acceder
directamente a la fuente RSS.
Mozilla Firefox nos indica que existe una fuente RSS
Internet Explorer nos presenta un icono RSS en la barra de herramientas y despliega
las distintas fuentes RSS que ha obtenido.
Internet Explorer nos indica que existe una fuente RSS
Javier Iglesia Aparicio, 2014
Página 75
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Por otro lado, también podemos buscar fuentes RSS por palabras clave en aplicaciones
como RSSMicro (http://www.rssmicro.com/) y FeedPlex (http://www.feedplex.com/).
Como ya hemos indicado, la existencia y el contenido de las fuentes RSS depende única
y exclusivamente de los gestores de contenidos de los sitios webs. Estos también
deciden el tipo de fuente RSS que quieren mostrar y que a grandes rasgos puede ser:
•
•
General, proporciona los últimos cambios.
Estructurado en categorías o secciones, como por ejemplo estos dos recursos:
http://servicios.elpais.com/rss/ y http://rss.elmundo.es/rss/.
3.2.7 Suscripción y lectura
El siguiente paso es suscribirse al feed y almacenarlo en alguna aplicación que nos
permita consultarlo cada vez que queramos. Tenemos varias opciones para realizar
esta tarea: podemos usar las funciones que a tal efecto ya incorporan los navegadores
de Internet; usar herramientas web específicas llamadas lectores o agregadores RSS o
podemos incorporar las fuentes en las herramientas de mashup, como veremos
posteriormente.
3.2.7.1 Con los navegadores
Actualmente todos los navegadores, en sus versiones más modernas, ya proporcionan
funciones para manejar feeds RSS. Basta con pinchar sobre el enlace de la fuente RSS y
el navegador se encarga de ayudarnos a suscribirnos.
Mozilla Firefox
Firefox incorpora esta función dentro del menú Marcadores, en una sección
llamada Barra de herramientas de Marcadores. También nos suele avisar en la
barra de direcciones de si existe alguna fuente RSS disponible.
Internet Explorer
Este navegador los almacena dentro del menú Favoritos y, concretamente, en
una sección llamada Fuentes. Además nos informa de si existe alguna fuente
RSS disponible en la página que estamos visitando, aunque no suele funcionar
correctamente.
Google Chrome
Este navegador no permite almacenar las RSS, obligando a guardarlas en
Google Reader o en otras aplicaciones en red. Adicionalmente se pueden
instalar extensiones.
3.2.7.2 Con lectores o agregadores RSS
Otra opción, que es realmente útil si utilizamos distintos ordenadores, es usar
aplicaciones web que nos permitan almacenar, organizar y consultar fuentes RSS. Son
los lectores o agregadores RSS en línea. Google Reader ha sido, hasta su cierre el 1 de
Javier Iglesia Aparicio, 2014
Página 76
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
julio de 2013, el servicio de referencia. Pero afortunadamente tenemos varias
alternativas.
•
•
•
•
•
•
•
•
•
•
Digg Reader (https://digg.com/reader). Creado por los responsables del portal
Digg. Muy similar al finado Google Reader, y a su vez a Feedly, ofrece
importación de suscripciones previas, organización por carpetas, vista en
forma de lista y expandida, atajos y en el futuro aplicaciones móviles.
Feedly (http://www.feedly.com). Se trata un lector muy práctico, de diseño
minimalista y que recomienda contenidos propios. Accesible desde cualquier
navegador, cuenta con aplicaciones móviles oficiales (iOS, Android) y otras que
sirven de cliente no oficial.
Informando.me (http://www.informando.me). Minimalista. Clasificación por
categorías de nuestras fuentes de información.
AOL Reader (http://reader.aol.com/), con cuatro vistas distintas, lista de
carpetas y fuentes y atajos.
NewsBlur (http://www.newsblur.com/) Desde la web o desde sus apps para
iOS y Android, este lector de noticias permite acceder al artículo en su página
original sin salir del lector, compartir noticias y comentarlas y filtrar contenido
con etiquetas.
The Old Reader (http://theoldreader.com) Un fiel reflejo del lector de Google.
A pesar del nombre, su diseño es muy actual, con lista de suscripciones,
buscador integrado e importación de suscripciones por archivo OPML, entre
otros detalles.
NewsVibe (https://newsvi.be/) Este lector RSS también es muy parecido a
Google Reader, incluso en el diseño de la interfaz. Te permite importar fuentes,
organizarlas y marcarlas para su posterior lectura, todo con un estilo
minimalista.
BazQux Reader (https://bazqux.com/). Se autodenomina lector RSS con
comentarios, y es que, a diferencia de las demás alternativas a Google Reader,
ésta da mucha importancia a los comentarios que los usuarios hacen de las
noticias y artículos leídos. De pago tras 30 días de prueba.
LinkedIn Pulse (https://www.pulse.me). Pulse tiene cliente web, además de
móvil (iOS y Android). Es una de las opciones más elegantes y visuales de
acceder a tus fuentes de información y noticias. Es muy sencillo añadir URLs
individuales.
Inoreader (https://inoreader.com/).
3.2.8 Compartir, exportar e importar conjuntos de fuentes RSS: OPML
También es posible compartir, exportar e importar un conjunto de fuentes RSS
mediante un lenguaje XML llamado OPML (Outline Processor Markup Language).
OPML es un formato XML para esquemas en forma de árbol pero que, actualmente, se
utiliza para agrupar fuentes de sindicación de contenidos con el objeto de moverlos de
un sitio a otro. OPML define árboles jerárquicos de listas ordenadas y su especificación
competa se puede consultar en: http://dev.opml.org/spec2.html.
Javier Iglesia Aparicio, 2014
Página 77
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Icono de OPML
Supongamos que en nuestra herramienta de agregación RSS tenemos dos fuentes y
queremos exportarlas mediante OPML. EL archivo tendrá la siguiente forma:
<?xml version="1.0" encoding="UTF-8"?>
<opml version="1.0">
<head>
<title>Suscripciones de Javier en Google Reader</title>
</head>
<body>
<outline text="ELPAIS.com - Sección Tecnología"
title="ELPAIS.com - Sección Tecnología" type="rss"
xmlUrl="http://www.elpais.com/rss/feed.html?feedId=1005"
htmlUrl="http://www.elpais.com/tecnologia/"/>
<outline text="Historia en Sobre Historia"
title="Historia en Sobre Historia" type="rss"
xmlUrl="http://sobrehistoria.com/feed/"
htmlUrl="http://sobrehistoria.com"/>
</body>
</opml>
Como vemos es algo tan simple como un listado de cada fuente de sindicación de
contenidos con su título, el tipo de estándar (rss, atom) y la dirección URL.
Esta opción está disponible en Internet Explorer, The Old Reader y en la mayoría de las
aplicaciones de mashups. Su mayor utilidad es guardar el conjunto de fuentes que
hemos ido recopilando para poder exportarlo a otra aplicación o a otro ordenador, o
bien, para compartir dicha recopilación con otros usuarios.
3.3 Tutorial de Feedly
Feedly (http://feedly.com) es un excelente agregador de fuentes RSS que, además de
permitir clasificar y añadir cualquier tipo de fuentes, tiene la opción de importar y
exportar toda esa información mediante archivos OPML. Por eso hemos elegido esta
herramienta para explicar el funcionamiento de los agregadores RSS, porque es posible
salvar en cualquier momento la información guardada y llevarla a otro sitio en el caso
de que, como ya ocurrió con Google Reader, cierre. Por otro lado, tienen la interfaz
completamente en idioma castellano.
Javier Iglesia Aparicio, 2014
Página 78
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.3.1 Acceso y registro
Podemos acceder a Feedly por cuatro medios: por nuestra cuenta Facebook, nuestra
cuenta Google, la cuenta Twitter o la cuenta Microsoft (Hotmail, Outlook).
Tras seleccionar el método apropiado nos situamos en la página inicial:
Veremos a la izquierda una columna con las distintas fuentes de información que
hemos ido almacenando clasificadas según las categorías que hayamos creado.
Javier Iglesia Aparicio, 2014
Página 79
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.3.2 Consulta de noticias
En la columna izquierda tenemos todo lo necesario para gestionar nuestras fuentes. En
primer lugar tenemos cuatro opciones generales:
•
•
•
Home: acceso a la página inicial. La página inicial muestra las últimas
novedades de las fuentes a las que estamos suscritos. Tiene tres formas de
presentación: sólo títulos (por defecto), a modo de revista y a modo de cartas.
Saved For Later. Aquellos enlaces que hemos guaraddo para ller
posteriroemnete y que no hemos organizados. Generalmente se almacenan al
utilizar la extensión del navegador (Firefox. Chrome)s que hemos marcado con
el botón Me gusta.
Add Content. Para añadir nuevas suscripciones y fuentes de información
A continuación aparecen nuestras fuentes ordenadas por carpetas. Siempre existe una
por defecto llamada Ucategorized. Pero podemos crear tantas como queramos. Al lado
de cada carpeta se nos indica cuántas noticias nos faltan por leer. Cada carpeta se
puede plegar o desplegar dando a la flecha. Al desplegarse vemos cada uno de los
canales RSS con su icono, nombre y el número de noticias no leídas.
Si pinchamos en una carpeta la página principal se actualiza con las noticias de esa
categoría. Si pinchamos en un canal se filtra sólo por él.
Javier Iglesia Aparicio, 2014
Página 80
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Para cada canal RSS vemos su título, el número de usuarios de feedly que también lo
tienen como fuente y las etiquetas bajo las que ha sido clasificado. Además podemos
actualizar, marcar como leído o cambiar la forma de presentación. Debajo podemos
ver el listado de noticias.
Al pinchar en la noticia veremos su contenido y las siguientes opciones al inicio y final
del texto.
Podemos:
- Save for later: almacenarla en la sección saved for later para leer más adelnate.
- Enviar a otras aplicaciones web como Evernote, Readability, OneNote,
Instapaper, Pocket
- Clasificarla con etiquetas. Las etiquetas aparecerán en la columna izquierda
debajo de las fuentes de suscripción.
- Compartirla por email, Google+, Twitter, Facebook, Linkedin, Hootsuite, Buffer
Cuando estamos viendo una fuente de información podemos hacer una serie de
acciones sobre ella a las que se accede desde el botón (1)
Javier Iglesia Aparicio, 2014
Página 81
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Podemos elegir la forma de presentación, marcar como leídos todos los mensajes o
solo algunos según su antigüedad, editar la suscripción u quitarla.
3.3.3 Gestión de fuentes RSS
Añadir una nueva fuente RSS.
Tenemos varias formas de añadir fuentes a Feedly:
1. La más sencilla es que, mientras navegamos, si descubrimos una fuente RSS,
esta disponga de un botón que nos permite añadirla a Feedly. Esto suele ser
común en aquellas fuentes RSS creadas con la herramienta FeedBurner de
Google.
Javier Iglesia Aparicio, 2014
Página 82
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
2. La segunda opción es buscar en el propio Feedly fuentes RSS de cierta temática. Para
eso tenemos que dar en la opción Add Content de la columna izquierda. Iremos a
una página con varias opciones:
-
un buscador, busca entre aquellas fuentes ya almacenadas por otros usuarios
en Feedly. Una vez que hemos encontrado alguna de nuestro interés se agrega
fácilmente dando al botón feedly.
-
una serie de fuentes clasificadas en categorías:
-
la opción de importar OPML, que vermeos más adelante
3. La tercera opción es que nosotros hayamos localizado una fuente RSS y que la
queramos añadir. Tenemos que copiar la URL de la fuente RSS e introducirla en el
buscador dentro de la sección Add Content. Una vez que Feedly la localiza nos
dará la opción de añadirla.
Editar fuentes RSS. En cualquier momento podemos cambiar la categoría y a la que
pertenece una fuente. Basta con seleccionar una fuente y dar en el botón de
opciones. Al dar en la opción Edit Subscription podemos cambiar la categoría o
incluir en otras categorías, e incluso crear una nueva categoría.
Javier Iglesia Aparicio, 2014
Página 83
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Si señalamos la opción Must Read, todo el nuevo contenido aparecerá en una nueva
sección de la columna izquierda indicando que se tienen que leer o que es importante.
Eliminar fuentes RSS. Basta con pincharla y dar al botón Remove en las opciones.
Organizar
Feedly proporciona una herramienta de gestión de categorías y fuentes muy visual y
útil en el caso de tener muchas suscripciones. Se encuentra en el menú de
configuración, en Organize.
Javier Iglesia Aparicio, 2014
Página 84
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Nos muestra una pantalla como la siguiente
En ella podemos eliminar categorías completas, eliminar fuentes, cambiar fuentes de
categoría simplemente arrastrando de un sitio a otro, etc.
3.3.4 Importación y exportación
Importar. En la sección Add Content existe una opción de importación de fuentes.
Permite subir un archivo OPML y así añadir esas fuentes a Feedly.
Javier Iglesia Aparicio, 2014
Página 85
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Exportar. En esta opción está escondida y sólo se accede desde esta dirección:
http://feedly.com/index.html#opml . Podremos exportar todas nuestras fuentes
en un archivo OPML.
3.3.5 Atajos de teclado
Javier Iglesia Aparicio, 2014
Página 86
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.4 Manipulación de fuentes de sindicación con Yahoo! Pipes
Durante este módulo hemos visto la importancia y la utilidad de que los últimos
cambios de los sitios web se proporcionen mediante un formato estructurado
entendible por las máquinas. Más allá de poder subscribirnos a las fuentes de
información y de consultar lo último, la tecnología de sindicación de contenidos
permite realizar modificaciones y cambios sobre estos datos estructurados, siendo
posible, por ejemplo, crear nuevos feeds a partir de la combinación de la información
que nos proporcionan otros feeds.
Por supuesto que este tipo de operaciones no es trivial. Es necesario disponer de
herramientas informáticas que nos permitan hacer este tipo de tareas. En este punto
es donde el servicio Yahoo! Pipes nos servirá de gran ayuda para crear fuentes a partir
de otras ya existentes de un modo sencillo.
Yahoo! Pipes (http://pipes.yahoo.com/pipes/) es una herramienta que permite
agregar, manipular y mezclar contenido existente en la Web. Mediante un interfaz
visual agradable y sencillo, esta herramienta nos permitirá:
•
•
•
•
Combinar varias fuentes de sindicación en una sola. Sobre ella podremos
además realizar operaciones de filtrado, ordenación y traducción.
Geolocalizar nuestras feeds favoritas y realizar búsquedas en mapas
interactivos.
Elaborar sencillos widgets que podremos colocar en los sitios web que
gestionemos.
Crear nuevas fuentes en varios formatos: RSS, JSON, KML, etc.
3.4.1 Acceso
Yahoo! Pipes es un servicio gratuito pero para acceder a él es necesario registrarse. Se
puede acceder con una cuenta Yahoo! ID, Google o Facebook desde la parte superior
derecha de la página (Sign In) o bien crearse una cuenta, si no se dispone de ninguna
de las anteriores, en la opción Join Now.
3.4.2 Editor de Yahoo! Pipes
Una vez que hemos accedido basta con pinchar en el botón Create a pipe y se nos abre
el editor de Yahoo!Pipes.
Javier Iglesia Aparicio, 2014
Página 87
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Escritorio de trabajo de Yahoo! Pipes
El editor presenta una zona central de trabajo donde vamos a ir arrastrando elementos
desde la columna de la izquierda con el objeto de formar un esquema de tubería
compuesto por una o varias entradas, un conjunto de operaciones y una salida.
Los elementos disponibles se agrupan en las siguientes categorías:
•
•
•
•
•
•
•
•
•
•
•
Sources. La mayoría de los pipes comienzan con una fuente de datos. Con los
módulos de esta sección podemos extraer datos desde Internet e introducirlos
en el procesamiento del pipe.
User inputs. Nos permite definir otros parámetros de entrada al pipe.
Operators. Realizar transformaciones y filtrados en el flujo de datos.
Url. Manipulación de URL.
String. Opciones de manipulación y combinación de cadenas de texto.
Date. Para definir y dar formato a fechas.
Location. Permiten convertir textos en localizaciones geográficas
Number. Funciones para realizar operaciones aritméticas.
Favorites. Aquí podemos agrupar módulos de las secciones anteriores que
usamos más frecuentemente.
My pipes. Consultar otros pipes que hemos creado anteriormente
Deprecated. Módulos que aún funcionan pero que ya no se recomienda usar.
Podéis consultar la información más actualizada en:
http://pipes.yahoo.com/pipes/docs?doc=modules.
3.4.2.1 Sources
Esta sección es el punto de partida de un pipe. Nos permite seleccionar uno o más
tipos de orígenes de datos. Estos son los módulos disponibles en esta sección:
Javier Iglesia Aparicio, 2014
Página 88
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
•
•
•
•
•
•
•
•
•
Find First Site Feed. Este módulo extraerá la primera fuente Atom, RDF o RSS
de un sitio web dado rastreando los enlaces que existen en su página inicial.
Este módulo solo devuelve el contenido de la primera URL que detecta.
Yahoo! Local. Sirve para buscar en Yahoo! Local con los parámetros que se
proporcionen. El usuario puede refinar la búsqueda proporcionando palabras
clave o restringiendo el ámbito geográfico, por ejemplo.
XPath Fetch Page. Extrae de una página web la información del estándar DOM
o bien algunos fragmentos mediante el uso del estándar XPath.
Fetch Feed. Este módulo extrae una o más fuentes RSS, Atom, RDF o iCal de la
URL que se haya introducido.
YQL. Permite realizar peticiones en Yahoo! Query Language, un lenguaje de
consulta similar a SQL para obtener datos de servicios Web. Si quieres conocer
YQL esta es la referencia: http://developer.yahoo.com/yql/
Item Builder. Permite crear un elemento definiendo una serie de atributos.
Flickr. Busca imágenes en Flickr usando los parámetros proporcionados.
Fetch CSV. Permite accede a Fuentes formateadas en CSV (valores separados
por comas).
Fetch Data. Devuelve una lista de elementos de cualquier fuente XML, JSON,
iCal o KML que se introduzca.
RSS Item Builder. Permite crear un elemento RSS (<ítem>) definiendo una serie
de atributos.
Feed Auto-Discovery Module. Detecta y devuelve las URL de cualquier fuente
que esté embebida dentro del código HTML de una página web.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=sources.
3.4.2.2 User inputs
Un pipe puede obtener otros datos por parte del usuario con el objetivo de procesar la
información proporcionada por las fuentes y crear información filtrada. Este apartado
nos permite definir ese tipo de entradas de información:
Private Text Input. Acepta cadenas definidas por el usuario pero que sólo pueden ser
vistas por el creador del pipe.
Date Input. Acepta un dato de tipo fecha.
URL Input. Acepta datos de tipo URL.
Number Input. Acepta cadenas de texto numéricas.
Location Input. Acepta cadenas con información de localización.
Text Input. Acepta un dato de tipo cadena de texto genérico.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=user_inputs#Text.
3.4.2.3 Operators
Cada fuente estará compuesta por uno o varios elementos de información o ítems. Las
funciones de esta sección nos permiten trabajar con ellos:
Javier Iglesia Aparicio, 2014
Página 89
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Count. Cuenta el número de ítems de una fuente.
Rename. Sirve para renombrar o copiar atributos de un ítem.
Create RSS. Sirve para mapear ítems a elementos del estándar RSS para crear una
nueva fuente RSS.
Regex. Procesamiento avanzado de cadenas de texto para los atributos de un ítem.
Tail. Este módulo devuelve los últimos n ítems de la fuente de entrada, donde n es un
valor configurable.
Sub-element. Este módulo extraerá el atributo especificado por el usuario de cada
ítem de la fuente de entrada.
Truncate. Este módulo limita el número de ítems que pasan a través de él.
Split. Este módulo divide una fuente en dos copias idénticas.
Filter. Este módulo filtra la fuente de entrada incluyendo o excluyendo campos de
acuerdo a unas reglas definidas por el usuario.
Sort. Este módulo permite ordenar los ítems de una fuente de acuerdo a uno o más
atributos de un ítem.
Union. Sirve para unir hasta cinco fuentes distintas en una única.
Loop. Permite realizar bucles de procesamiento donde se comprueba una condición
por cada ítem de una fuente.
Location Extractor. Analiza el texto y trata de extraer de cada ítem direcciones, lugares
geográficos, etc.
Reverse. Sirve para dar la vuelta al orden de los ítems de una fuente.
Unique. Este módulo combina ítems que contienen cadenas de texto idénticas.
Web service. Este módulo permite publicar los elementos resultantes de un pipe en
formato JSON, creando un servicio web.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=operators.
3.4.2.4 String
El manejo de cadenas de texto (strings) es básico cuando estamos tratando con
fuentes de datos. Esta son las funciones que nos permiten crear y transformas cadenas
de texto en Yahoo! Pipes:
Yahoo! Shortcuts. Permite usar atajos propios de Yahoo para obtener listados de ítems
que contienen cierto tipo de información. Para saber más sobre Yahoo! Shortcuts:
http://search.yahoo.com/shortcuts y http://hk.search.yahoo.com/osc/help.
String replace. Permite buscar y reemplazar la primera, la última o todas las
ocurrencias de una cadena de texto.
Translate. Traduce automáticamente una cadena de texto de un idioma a otro.
String Builder. Sirve para crear una nueva cadena de texto así como unir varias
cadenas en una sola.
String Tokenizer. Permite fragmentar una cadena de texto de acuerdo a la aparición de
un carácter delimitador.
Sub String. Corta un rango de n caracteres de una cadena.
Javier Iglesia Aparicio, 2014
Página 90
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Term Extractor. Analiza el texto dentro de cada ítem de una fuente para tratar de
encontrar palabras o frases significativas. Si se encuentra algo, añadirá un
subelemento que contiene los resultados del análisis.
String Regex. Formateo avanzado de cadenas de texto siguiendo expresiones regulares
de Perl.
Private String. Sirve para que los desarrolladores de pipes puedan añadir datos
privados como ID, nombres de usuarios o claves a pipes que no van a ser
compartidos con los demás. No será mostrada a nadie salvo el propietario del pipe
y no será copiada cuando el pipe sea clonado.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=string.
3.4.2.5 Url, Date, Location y Number
La sección Url se compone únicamente del módulo URL Builder. Este módulo
construye URL bien al modo tradicional bien al estilo Web 2.0 (serie de valores
petición-valor).
Más información en: http://pipes.yahoo.com/pipes/docs?doc=url.
Para definir y modificar objetos con información de fechas tenemos dos módulos:
Date Builder. Crea un objeto de tipo fecha a partir de un valor textual. Entiende la
mayoría de los formatos existentes así como datos relativos como yesterday o 2
days ago.
Date Formatter. Permite formatear un dato de tipo fecha en una cadena de
caracteres. Acepta los siguientes parámetros: http://es.php.net/strftime.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=date.
Existe otro módulo que nos ayuda a crear información de geolocalización. Es Location
Builder. Permite crear un objeto de localización a partir de un valor textual. Entiende la
mayoría de los formatos como códigos postales o códigos de aeropuertos.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=location.
Por último, el módulo Simple Math permite realizar operaciones aritméticas básicas
como suma, resta, multiplicación y división.
Más información en: http://pipes.yahoo.com/pipes/docs?doc=number.
Javier Iglesia Aparicio, 2014
Página 91
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.4.2.6 Ejemplo sencillo de creación de un pipe
El primer ejemplo va a consistir en crear un pipe de noticias económicas. Se trata de
consultar las fuentes RSS de tres periódicos económicos y obtener las 10 últimas
noticias.
En primer lugar definimos el origen de los datos. Cada uno de los tres periódicos que
se han seleccionado tiene una página con distintas fuentes de sindicación. Como
tampoco queremos seleccionar una fuente en particular, vamos a ser un poco
cómodos y usamos la función Find First Site Feed para que nos devuelva el contenido
de la primera fuente de sindicación que encuentre en cada periódico. Las URL son:
http://www.eleconomista.es,
http://www.expansion.com
y
http://www.cincodias.com/.
El siguiente paso es crear una única fuente de datos mediante el operador Union. Su
salida es una fuente de datos que mezcla elementos de las tres fuentes originales. A
continuación vamos a ordenar sus elementos de acuerdo a dos atributos. Usamos el
operador Sort. El primer atributo es la fecha de publicación (item.pubDate) en orden
ascendente; el segundo es el título del ítem (item.title) también en orden ascendente.
El resultado será la unión de las fuentes ordenada de tal forma que el primer ítem será
el más antiguo. Y si algún ítem coincide en la fecha de publicación, serán ordenados
por orden alfabético de título.
El último paso va a ser extraer las 10 noticias más actuales. Para ello usamos el
operador Tail y le damos el valor 10. Así la salida del pipe (Pipe Output) será sólo de
los 10 ítems más actuales.
Gráfico del pipe
Javier Iglesia Aparicio, 2014
Página 92
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Debajo del gráfico podréis ir comprobando el resultado de cada herramienta. Cada
ítem o noticia aparecerá con su título. Si se hace clic en la flecha de la izquierda se
desplegará más información de cada ítem como el título, el enlace, la descripción, etc.
Para que podáis comprobar su funcionamiento he hecho público este pipe en esta
dirección:
http://pipes.yahoo.com/pipes/pipe.info?_id=5237282965763500eb60e1526d7a5ba1
3.4.2.7 Ejemplo avanzado de creación de un pipe
En este ejemplo vamos a ver el uso de las entradas de usuario y de operadores
avanzados. El objetivo es consultar varias fuentes RSS –en este caso de tecnología-,
analizarlas y extraer las palabras clave de las noticias. Para no cargar mucho el proceso
podemos delimitar de cuántas noticias hacemos el análisis mediante un campo que va
a introducir el usuario que utiliza el pipe.
El primer paso es indicar las fuentes RSS. De la sección Sources usamos el módulo
Fetch Feed al cual se le pueden indicar una o más fuentes RSS para que extraiga las
noticias.
Nuestro
pipe
consulta
en:
http://www.elpais.com/rss/feed.html?feedId=1005,
http://elmundo.feedsportal.com/blogs/elmundo/el-gadgetoblog/index.xml,
http://feeds.weblogssl.com/xataka2
y
http://feeds.technologyreview.com/technology_review_spanish_top_stories.
Por otro lado, añadimos un módulo de User inputs, en este caso un Number input,
pues, el usuario será capaz de introducir el número de noticias que se desean analizar.
EL campo Prompt será el texto que aparecerá al pedir la información al usuario.
También se puede poner un valor por defecto (Default) que en este caso será 10.
A continuación, hacemos efectiva la limitación del número de noticias. Usamos un
operador llamado Truncate. Por un lado, le pasamos las noticias obtenidas por el Fetch
Feed, uniéndolo en la parte superior; por otro lado, pasamos el valor del número de
entradas del Number input uniéndolo a Truncate feed after.
Javier Iglesia Aparicio, 2014
Página 93
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
El siguiente paso es analizar el contenido de esas noticias seleccionadas. Para ello será
necesario analizar cada uno de los ítems y extraer los términos más relevantes. Para
construirlo vamos a combinar un operador de bucle (Loop) de forma que para cada
descripción de una noticia (item.description) realice una operación de la sección String
llamada Term Extractor. Este módulo trata de encontrar las palabras o frases más
significativas dentro de un texto. Basta con arrastrar el Term Extractor dentro del
módulo Loop para hacerlo funcionar. Asignamos el resultado al item.description de
cada noticia.
El paso final será crear un fuente RSS donde se mantenga el título original de la noticia
pero, la descripción sea sustituida por el resultado de la función Term Extractor, es
decir, por una nube de etiquetas de las palabras más importantes del contenido de la
noticia. Usamos para ello el módulo Create RSS de la sección Operators.
Javier Iglesia Aparicio, 2014
Página 94
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Gráfico del pipe
Para que podáis comprobar su funcionamiento he hecho público este pipe en esta
dirección:
http://pipes.yahoo.com/pipes/pipe.info?_id=0ddc21efff26ce3f47c9a55538ed7aae
Podréis ver que, en la parte superior, antes de los resultados, existe un campo editable
llamado Número de entradas donde el usuario puede cambiar el número de noticias a
analizar.
Javier Iglesia Aparicio, 2014
Página 95
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
3.4.3 MyPipes
Esta sección nos permite consultar los pipes que hemos creado y aquellos creados por
otros, pero que hemos señalados como favoritos.
Dentro de los pipes desarrollados por nosotros mismos, tenemos las opciones de Ver
los resultados, editar, borrar, publicar/despublicar y clonar.
Pinchando en el nombre del pipe accederemos a una página donde se detalla
información: quién lo ha creado, qué fuentes usa, qué módulos utiliza... A la derecha
vemos su nombre, su dirección pública (si la tiene), los resultados de su ejecución así
como un enorme conjunto de posibilidades para compartirlo: en Yahoo!, en Google,
como RSS, JSON, en Netvibes, etc.
Javier Iglesia Aparicio, 2014
Página 96
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4. Los marcadores sociales: cómo almacenar y recuperar
información de forma eficiente
4.1 ¿Cómo almacenamos la información?
Ya hemos visto que para buscar, por el ingente volumen de información existente, nos
valemos de unas aplicaciones llamadas motores de búsqueda o buscadores. Suelen ser
nuestra puerta de entrada a Internet y sus resultados, más o menos cercanos a
nuestros requerimientos, serán la base de consultas posteriores.
Como norma general, cuando encontramos un sitio web interesante queremos
anotarlo en algún sitio para poder volver más adelante a consultarlo. Todos los
navegadores web actuales tienen la opción de guardar estos marcadores o favoritos
(bookmarks) en nuestro ordenador y podemos organizarlos en carpetas que nos
facilitan su búsqueda y recuperación posterior.
Pero, ¿qué ocurre si no estoy usando mi ordenador? O, ¿si me falla y pierdo todos los
datos del disco duro? Y, por otro lado, ¿cómo puedo compartir ese trabajo de
recopilación con otras personas?
En el curso de este capítulo conoceremos una serie de herramientas que nos
permitirán realizar estas tareas independientemente del ordenador que estemos
usando.
Javier Iglesia Aparicio, 2014
Página 97
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4.2 Los marcadores sociales
Los marcadores sociales (social bookmarking) permiten organizar, almacenar,
gestionar y buscar enlaces de recursos en línea. Cada registro suele ir acompañado de
información adicional aportada por el usuario como descripciones, anotaciones y
folcsonomías. Estos registros se pueden hacer: públicos, creando listas de recursos
temáticos seleccionados accesibles a todos los usuarios; privados, de forma que sólo el
usuario que los ha guardado puede consultarlos; y también se pueden compartir con
un grupo de usuarios, práctica recomendable para trabajo en colaboración.
Muchas de las herramientas de marcado social proporcionan fuentes RSS de estas
listas de marcadores (lo más recientes, por etiqueta, etc.) de forma que también se
pueden difundir y compartir por medio de la sindicación de contenidos.
Una de las principales ventajas de estas herramientas es la calidad de los resultados
almacenados y, por lo tanto, una mayor relevancia de los resultados de las búsquedas
que se realizan dentro de ellos. Son los propios usuarios quienes clasifican los enlaces y
cuántos más usuarios hayan guardado un enlace con una determinada etiqueta es más
probable que sea un sitio realmente relevante y relacionado con el término de
búsqueda.
4.2.1 Breve historia del marcado social
Surgen en 1996 con el lanzamiento de itList, que permitía listas públicas y privadas de
enlaces. Entre 1996 y 1999 surgieron multitud de sitios web de marcado social como
Blink, Backflip, Clip2, Hot Links,... que organizaban los enlaces en carpetas. Pero, ante
la falta de un modelo de negocio, cayeron con la burbuja de las puntocom en el año
2000.
Pero la herramienta que popularizaría el término de marcado social nació en el año
2003 y se llama Delicious. Fue la primera en incorporar las folcsonomías, el etiquetado,
para organizar los marcadores, así como funciones de comunicación social. En el 2004
aparecieron otros servicios como Furl y Simpy, servicios de referencias bibliográficas
como Connotea y CiteULike. Y en 2006 aparecen Ma.gnolia, Faves y Diigo, éste último
el primer intento de web notetaking. A lo largo de este tiempo han surgido muchas
más alternativas y también muchas de ellas han desaparecido: Furl fue adquirido por
Diigo en 2009; Ma.gnolia cerró ese mismo año y Simpy en 2010.
4.2.2 Ventajas, desventajas y usos
Las principales ventajas de los marcadores sociales son:
•
Mantener organizado un conjunto de marcadores independientemente del
ordenador que se esté usando.
Javier Iglesia Aparicio, 2014
Página 98
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
•
Clasificación social basada en el conocimiento humano. Los usuarios leen el
enlace y deciden las etiquetas de clasificación, lo cual es un grado superior a la
simple indexación de las arañas web o robots rastreadores.
Se obtiene una clasificación de la utilidad de los enlaces basada en la
experiencia humana y no en variables más técnicas como el número de enlaces
o la frecuencia de aparición de una palabra clave.
Creación de vocabularios y de clasificaciones por parte de la comunidad.
Y también se pueden señalar algunas desventajas:
• Como ya se ha señalado al hablar de las folcsonomías, el uso de vocabularios
informales provoca errores de clasificación: palabras mal escritas, variaciones
de género y número, palabras con tilde o sin ella, etc. Sin embargo, a medida
que aumente el número de usuarios, estos errores, cometidos por un mínimo
porcentaje de ellos, se diluyen.
• Posible mal uso (spam) por su utilización por sistemas de optimización de los
motores de búsqueda.
• No existe relación entre el etiquetado elaborado en diferentes idiomas. Es
decir, las herramientas no saben que aquello etiquetado como education y
educación pertenecen al mismo concepto.
Los principales usos de los marcadores sociales son los siguientes:
•
•
•
•
•
Organizar las fuentes consultadas en la Web.
Agilizar las búsquedas a través del etiquetado.
Crear selecciones de fuentes individual/colectiva o privada/pública.
Beneficiarse de la inteligencia colectiva en la red e incentivar la participación.
Crear rankings de sitios web destacados dentro de una etiqueta o temática.
4.2.3 Herramientas de marcado social
Actualmente existen multitud de alternativas para practicar el marcado social. Dejando
a un lado las específicas de web notetaking o de social news, que veremos más
adelante, podemos diferenciar dos tipos de herramientas: las de carácter general y los
enfocados al ámbito universitario o de investigación.
•
De carácter general
Delicious (http://delicious.com)
Google Bookmarks (http://www.google.com/bookmarks)
Folkd (http://www.folkd.com/)
Mister Wong (www.mister-wong.es)
StumbleUpon (http://www.stumbleupon.com)
Bundlr (http://www.bundlr.com)
•
Para investigadores
CiteULike (www.citeulike.org)
Bibsonomy (www.bibsonomy.org)
Javier Iglesia Aparicio, 2014
Página 99
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4.2.4 Google Bookmarks
Es una sencilla herramienta de Google que permite almacenar marcadores
(bookmarks),
es
decir,
enlaces
de
interés.
Se
encuentra
en
http://www.google.com/bookmarks.
Interfaz de Google Bookmarks
De cada marcador se almacena un título, una dirección URL, la fecha en la que se
guardó y una serie de etiquetas personales así como, opcionalmente, notas
personales.
Detalle de un marcador en Google Bookmarks
En la columna izquierda, bajo la etiqueta Marcadores, tenemos una serie de opciones
de trabajo:
• Un listado de las etiquetas que hemos utilizado y, entre paréntesis, el número
de marcadores que contienen esos términos. Pinchando en ellos se filtra el
listado.
• Opciones de trabajo:
• Añadir un marcador.
• Administrar etiquetas, donde podemos modificar el nombre de las
mismas, añadir y eliminar.
• Exportar marcadores a una página HTML.
• Eliminar todo.
Javier Iglesia Aparicio, 2014
Página 100
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
De todas formas, Google Bookmarks no llega a ser un marcador social pues no
permite, de momento, compartir estos enlaces con otras personas o ver cuántas han
almacenado el mismo marcador y cómo lo han clasificado.
Desde este mismo lugar, y siempre que hayamos activado la opción de que Google
registre nuestra actividad web mientras estemos conectados con una cuenta Google,
podemos acceder a otros dos menús de información.
En primer lugar tenemos el Historial de búsquedas en la web, muy útil en esas
ocasiones en las que hemos accedido a un determinado sitio pero luego no nos
acordamos de cuál era su dirección.
Menú del historial de búsquedas en la web
Si pinchamos, por ejemplo, en la categoría Web tenemos un listado cronológico de las
webs que hemos visitado así como de las búsquedas realizadas.
Detalle del Historial de búsquedas en la Web
Javier Iglesia Aparicio, 2014
Página 101
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
La herramienta nos permite activar o desactivar el historial web así como eliminar
algunos o todos los registros.
Por otro lado, existe otro apartado llamado Tendencias, que nos muestra información
estadística sobre nuestra actividad en la web, listando los términos de las búsquedas
que más hacemos y los sitios que más visitamos además de una serie de gráficos
temporales por mes, por día y por hora.
Información de Tendencias
4.2.5 Delicious
Delicious es una aplicación de marcado social lanzada en el año 2003; en 2005 fue
adquirida por Yahoo, empresa que no supo integrar las funciones en el conjunto de
servicios web que ofrece, y se desprendió de ella en el año. La nueva etapa vino
acompañada de una renovación funcional y de un nuevo estilo gráfico que ha tenido
numerosas críticas sobre todo entre los usuarios más veteranos.
De entre las novedades aportadas destacan: el uso de stacks o agrupamientos de
enlaces acerca de un tema y la posibilidad de usar etiquetas de varias palabras. Sin
embargo, se han eliminado algunas opciones de gestión de etiquetas y de
configuración realmente útiles.
Delicious ha sido la aplicación marcado social pionera y la más utilizada hasta el
momento gracias a su interfaz simple, su esquema de URL legibles para los humanos y
una serie de widgets y enlaces RSS que hacen posible la reutilización de sus
Javier Iglesia Aparicio, 2014
Página 102
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
contenidos. Todos los marcadores que se introducen en Delicious son, por defecto,
visibles para el público, aunque los usuarios pueden marcarlos como privados para que
esto no ocurra.
Delicious otorga gran importancia a los listados públicos de marcadores de forma que
podemos consultarlos de la siguiente forma:
•
•
•
•
http://delicious.com/usuario, podemos consultar todos los
marcadores públicos de usuario.
http://delicious.com/usuario/tag1, podemos consultar todos los
marcadores de un usuario etiquetados con tag1.
http://delicious.com/tag/tag1, podemos ver el conjunto de
marcadores públicos que fueron clasificados con la etiqueta tag1. Realmente
es otra forma de hacer búsquedas.
http://delicious.com/tag/tag1,tag2,
podemos
ver
los
marcadores públicos que contienen en su clasificación las etiquetas tag1 y
tag2.
Estos tipos de búsqueda se pueden realizar sin estar registrado en delicious.com.
Logotipo de Delicious
Por otro lado, el listado de marcadores proporcionado por Delicious nos proporciona
otro tipo de información también muy interesante. Vamos a verlo con un ejemplo:
http://delicious.com/tag/astronomy.
Javier Iglesia Aparicio, 2014
Página 103
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Resultados de http://delicious.com/tag/astronomy
En primer lugar tenemos información del canal de enlaces filtrado por una etiqueta, en
este caso indicado como #astronomy. Nos informa de cuántos enlaces con esa
etiqueta se han guardado en la última semana y a la derecha hay un botón verde con
la etiqueta Suscribe. Si lo pulsamos nos suscribimos a esta etiqueta y tendremos
información de los últimos enlaces que se han añadido con ella. Estas suscripciones se
gestionan, como veremos, en el aparatado Discover.
Información del canal #astronomy
En la parte central de la página, tenemos el conjunto de enlaces relacionados con la
etiqueta de búsqueda en orden cronológico, de más reciente a más antiguo. Cada
registro contiene la siguiente información:
Detalle de registros de Delicious
•
•
•
El nombre del enlace y a su derecha el dominio donde se encuentra
Debajo tenemos un número que indica el número de personas que han
almacenado este enlace en Delicious y a su lado, si no ponemos encima con el
ratón, podemos ver los nombres de los usuarios que lo han añadido.
A continuación, las etiquetas con las que se ha clasificado el enlace.
Si nos posicionamos con el ratón encima del registro aparecen dos opciones al lado de
la fecha:
Javier Iglesia Aparicio, 2014
Página 104
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
Add link: para añadir ese enlace a nuestro catálogo de enlaces o para editarlo
si es que el enlace es nuestro.
Share, para compartir el enlace en Twitter, Facebook, Google+, etc.
4.2.5.1 Ejemplos de uso de Delicious
En Internet tenemos cada vez acceso a más información, que venimos viendo a lo largo
del curso, por lo que nos surge el problema de cómo organizar y guardar todo lo que
nos interesa. Se han visto ya las ventajas de los marcadores sociales. Y también, que de
momento, Delicious es el más utilizado gracias a su interfaz simple.
1/ Bibliotecas
Esta aplicación de la Web se ha utilizado en algunas bibliotecas para mostrar los
recursos de información seleccionados por ellas, y que se han considerado de interés
para los usuarios.
A continuación indicamos algunas bibliotecas que utilizan Delicious 14. Por ejemplo:
o La Grange Park Library (https://delicious.com/LaGrangeParkLibrary)
o La Red de Bibliotecas del Instituto Cervantes (RBIC) también está presente en
las redes sociales 15 (http://delicious.com/rbic)
Información extraída de: SEOANE GARCÍA, Catuxa. Bibliotecas que usan Del.icio.us. [ref. de 5 de
febrero de 2014]. Disponible en Web: http://www.deakialli.com/2007/09/24/bibliotecas-que-usandelicious/
15
Puede verse más información en:
http://www.cervantes.es/bibliotecas_documentacion_espanol/web_social_bibliotecas.htm
14
Javier Iglesia Aparicio, 2014
Página 105
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Delicious de la Red de bibliotecas del Instituto Cervantes
Y
dentro
de
sus
bibliotecas
(http://www.delicious.com/bibdublin)
destacamos
la
de
Dublín
Delicious de la Biblioteca de Dublín (RBIC)
Son muchas las bibliotecas universitarias que lo utilizan, señalar:
•
16
Biblioteca Universitaria de Sabadell (UAB) (http://www.delicious.com/busuab)
La Biblioteca Universitaria de Sabadell UAB 16 abrió una cuenta en Delicious en
2006. La biblioteca es una de las ocho que conforman el Servicio de Bibliotecas
de la Universidad Autónoma de Barcelona y da servicio a los centros docentes
ubicados en el campus de Sabadell. El hecho de hallarse en un campus distinto
al principal les ha llevado a valorar especialmente las muchas oportunidades
que se abren en un entorno tecnológico interconectado donde las distancias
físicas pierden su significado (o al menos lo reducen). Es por ello que en la
busuab se ha optado por sacar el máximo provecho a la biblioteca digital y a las
herramientas de biblioteca 2.0. Se les puede hallar en Twitter, Facebook,
Netvibes, SlideShare, Flickr y diversas utilidades de Google.
Véase más información en: http://comunidad20.sedic.es/?p=278
Javier Iglesia Aparicio, 2014
Página 106
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Delicious de la Biblioteca Universitaria de Sabadell
Existen otras bibliotecas universitarias con cuenta en Delicious como: Delicious Biblioteca
Campus de Gancia Universidad Politécnica de Valencia (http://delicious.com/bib.epsg);
Delicious Biblioteca Escuela Internacional del Hábitat y el Desarrollo Local Universidad Nacional
de Colombia (http://delicious.com/unicehap); Delicious Biblioteca de la Facultad de
Arquitectura
Universidad
Nacional
de
La
Plata
(Argentina)
(http://delicious.com/bibliofaunlp); Delicious Biblioteca Ciencias Políticas y Sociología
UCM (http://delicious.com/bibliotecacps); Delicious Biblioteca de Telecomunición e
Informática de la Universidad de Valladolid (http://delicious.com/tematica); Delicious
Biblioteca de Farmacia Universidad de Barcelona (http://delicious.com/CRAIUBFarmacia);
Delicious
Biblioteca
Escuela
de
Ingenierías
Industriales
UPM
(http://delicious.com/bibliotecaetsit) o Delicious Biblioteca Campus de Gancia
Universidad Politécnica de Valencia (http://delicious.com/bib.epsg), entre otros
ejemplos.
2/ Educación
También ha tenido un importante uso en el proceso de enseñanza y aprendizaje, y se
ha empleado, en la enseñanza reglada y en algunos cursos de formación, para
recopilar recursos informativos específicos. Se ha enseñado a los estudiantes cómo
pueden hacer uso de los marcadores sociales para organizar dicha información y
compartirla con los compañeros.
Algunos ejemplos son:
8. Javier Prieto P., profesor de Enseñanza Secundaria interesado en Comunidades
de Aprendizaje, Aprendizaje Colaborativo Apoyado por Computador (CSCL) y
Javier Iglesia Aparicio, 2014
Página 107
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
aprendizaje cooperativo, ha creado, entre otras aplicaciones de la web social,
una página en Delicious para las bibliotecas escolares de primaria.
(http://www.delicious.com/javitecnotic/bibliotecas_escolares_primaria)
9. Fernando Tricas García, por su parte, realiza otro Delicious sobre enseñanza
(http://delicious.com/fernand0/rei+educación)
http://delicious.com/fernand0/rei+educación
•
Por ejemplo: “Curso de Nuevas Tecnologías para profesorado de Ciencias
Sociales”.
Por
Fulgencio
Murcia
Belmonte
El ejemplo del uso de Delicious se presenta en un curso destinado a profesores
de Ciencias Sociales, en el cual se les instruye sobre la importancia del uso de la
Web en el ámbito educativo. Este tutorial se encuentra en la red, a través de la
página http://www.edukatic.com/curso/.
3/ Otros centros
Otros centros también han reunido sus páginas de interés en Delicious:
o Centro Oceanográfico de Vigo (http://www.delicious.com/bibcovigo)
Javier Iglesia Aparicio, 2014
Página 108
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Delicious del Centro Oceanográfico de Vigo
4.2.6 Tutorial de Delicious
De aquí en adelante vamos a explicar paso a paso el funcionamiento de Delicious.
Veremos que es sencillo de aprender pero, no existe mejor forma que experimentar
una herramienta para conocerla. Lo ideal para seguir este apartado es que te registres
y vayas realizando paso a paso los distintos procesos que se van detallando. Además,
te servirá para poder realizar la práctica propuesta para este módulo.
4.2.6.1 Acceso y registro
Delicious se encuentra disponible en http://www.delicious.com/. Si no se tiene una
cuenta
es
preciso
crearla
accediendo
al
enlace
Join
Delicious
(https://delicious.com/join) en la parte superior derecha.
Nos pide únicamente un nombre público, un nombre de usuario, una contraseña y un
correo electrónico. También es posible acceder mediante nuestro usuario Twitter o
Facebook.
4.2.6.2 Acceso a nuestra cuenta e interfaz general
Una vez que nos hemos registrado podemos ya acceder a nuestra cuenta en Delicious.
Veremos que el enlace cambiará a www.delicious.com/nombre_usuario y veremos la
siguiente página.
Javier Iglesia Aparicio, 2014
Página 109
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Interfaz inicial de Delicious: MyLinks, viendo los enlaces
En la parte superior vemos un resumen general de nuestro perfil
Indicando el número de enlaces guardados, a cuánta gente sigo, cuánta gente me sigue
y cuántas suscripciones tengo.
En la columna derecha tenemos los siguientes elementos:
Javier Iglesia Aparicio, 2014
Página 110
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
Nuestro nombre, clicando sobre él volveremos en cualquier momento a nuestra
página inicial de Delicious, a la opción de menú por defecto, My Links, que
muestra nuestra biblioteca de enlaces.
• Un buscador. Además de poder buscar de forma normal utilizando palabras
clave, algunos consejos de búsqueda para conseguir buenos resultados en
Delicious son
o #nombreetiqueta, buscamos por etiquetas de clasificación.
o @usuario, los enlaces añadidos por un determinado usuario.
o http://enlacedepaginaweb, buscamos los enlaces de ese dominio que
estén almacenados.
o Se pueden hacer combinaciones: buscar etiquetas de un determinado
usuario se puede hacer escribiendo #etiqueta @usuario.
• Network. Nos muestra los enlaces añadidos por usuarios que seguimos. En un
enlace superior llamado Follow your friends, podemos buscar y seguir a otros
usuarios.
• Discover, nos propone enlaces que pueden ser de nuestro interés de acuerdo a
los enlaces que hemos ido almacenando. Además, en la parte superior existe
un enlace llamado Manage your subscriptions que nos permite gestionar las
suscripciones a etiquetas.
• Add Link, nos permite añadir nuevos enlaces.
• Settings, la configuración de nuestro perfil.
4.2.6.3 Añadir nuevos marcadores
Si pulsamos en Add Link nos aparecerá el siguiente cuadro de diálogo:
Cuadro de diálogo para guardar un marcador en Delicious
Introducimos la dirección URL de la página web que queremos guardar. Una vez escrito
el enlace pulsamos en Add Link. Nos aparecerá otro cuadro de diálogo como este:
Javier Iglesia Aparicio, 2014
Página 111
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Información adicional para guardar un marcador en Delicious
Delicious ha recabado de forma automática el título y la URL de la página que
queremos guardar (aunque podemos editarlo) y ahora nos pide que:
o Introduzcamos las etiquetas de clasificación (tags). A medida que escribimos
Delicious nos propone etiquetas ya utilizadas por nosotros previamente.
Delicious nos propone ciertas normas para utilizar bien las etiquetas:
1. Utilizar minúsculas.
2. Es recomendable no utilizar espacios aunque están permitidos. Es mejor
escribir web-semántica que web semántica.
3. Reutiliza tus etiquetas. Si ya has clasificado un enlace con una determinada
etiqueta utiliza la misma y no otras variantes.
4. Utiliza una exclamación delante de la etiqueta para indicar que se trata de
una etiqueta no clasificatoria. Por ejemplo, para indicar que no lo he leído
puedo poner ¡sin-leer.
o Escribir un comentario o descripción sobre el enlace.
o Por último, debemos indicar si queremos que este marcador sea privado, es
decir, si sólo es para nosotros y no queremos que los demás lo vean. También
podemos compartirlo en Twitter y Facebook.
Una vez demos a al botón Save link tendremos ya un nuevo marcador en nuestra lista.
4.2.6.4 Gestión de marcadores
Cuando nos situamos con el ratón encima de uno de nuestros marcadores, a la
derecha de cada marcador aparecen opciones para poder gestionarlos: share, para
compartir en redes sociales el enlace; edit, para modificar su información; y
delete, para borrar.
Javier Iglesia Aparicio, 2014
Página 112
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Si decidimos editar nos aparece esta ventana:
Detalle de un marcador seleccionado con las opciones de gestión
Podemos editar la información previamente introducida. Añadir o eliminar etiquetas.
Hacerlo o no privado. O bien eliminarlo.
4.2.6.5 Gestión de etiquetas y agrupamientos de etiquetas
En el menú My Links, justo debajo de la información de nuestro perfil tenemos una
serie de opciones para gestionar las etiquetas y las agrupaciones de etiquetas (tag
bundles).
Javier Iglesia Aparicio, 2014
Página 113
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Gestión de etiquetas y agrupaciones de etiquetas
Para gestionar las etiquetas tenemos que pinchar en la opción Tags. Nos aparece la
siguiente interfaz: una nube de etiquetas para buscar rápidamente enlaces por
nuestras etiquetas.
Si queremos editarlas tendremos que pulsar en el icono azul que aparece a la derecha
de Tags:
Además de poder ordenarlas por nombre o por frecuencia de uso, podemos utilizar la
opción Edit tags para gestionar las etiquetas. Nos aparecerá esta pantalla:
Javier Iglesia Aparicio, 2014
Página 114
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Podemos renombrar una etiqueta, muy útil si nos hemos equivocado o bien si hemos
detectado que hemos escrito de forma diferente un mismo concepto. Además
podemos borrarla.
Una opción muy interesante es la de crear agrupaciones de etiquetas (tag bundles),
un conjunto que agrupe a unas etiquetas que para nosotros tienen cierta relación.
Para gestionarlo pinchamos en el enlace Tag Bundles y nos aparece una ventana
emergente como esta:
Nos indica los agrupamientos ya creados (que podemos editar haciendo clic sobre
ellos). También podemos crear uno nuevo:
Basta con dar un nombre al agrupamiento y decir qué etiquetas incorporamos. Cuando
vayamos escribiendo etiquetas veremos las que ya tenemos almacenadas en Delicious,
para poder seleccionarlas.
Javier Iglesia Aparicio, 2014
Página 115
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4.2.6.6 Añadir marcadores mientras estamos navegando
Como hemos visto, si estamos navegando y queremos añadir un enlace a Delicious,
tenemos que tener siempre una página Delicious abierta para pegar ahí el enlace y
etiquetarlo. Esto puede resultar en muchas ocasiones incómodo. Por esta razón es
muy recomendable instalarse una ayuda, en nuestro navegador, una pequeña
herramienta o plug-in que nos va a facilitar la labor de guardar nuestros marcadores.
En esta página (https://delicious.com/tools) tenemos acceso a lo que Delicious llama
Bookmarklet.
Basta con arrastrar la imagen hasta la barra de herramientas del navegador para tener
siempre disponible la opción de almacenar un enlace en Delicious mientras
navegamos.
Delicious también ofrece plugins para Mozilla Firefox y Google Chrome
4.2.6.7 Importar / Exportar información
Delicious permite importar todos aquellos marcadores que estén almacenados en
nuestro navegador. El método está disponible en esta dirección:
http://export.delicious.com/settings/bookmarks/import
También Podemos realizar una copia de seguridad de nuestros enlaces de Delicious en
un formato HTML a partir de las opciones existentes en:
http://export.delicious.com/settings/bookmarks/export
Javier Iglesia Aparicio, 2014
Página 116
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
4.2.7 CiteULike
CiteULike (www.citeulike.org) fue el primer servicio de marcado social diseñado para
investigadores y científicos. Está enfocado, sobre todo, al marcado social de artículos
científicos.
Logotipo de CiteULike
Tiene la posibilidad de importar/exportar a varios formatos de referencia (RIS, BibTex,
EndNote…). Es capaz de obtener los datos directamente de numerosos sitios.
4.2.8 Google +1
Merece la pena detenernos brevemente en un caso especial y novedoso, en uno de los
últimos servicios que ha puesto en marcha Google: el botón +1. Cada vez que un
usuario que está navegando conectado a una cuenta Google pulsa este botón, indica
que esa página web le gusta y queda almacenado en su información de cuenta. En
concreto, el listado de +1 puede ser consultado en la sección +1s de su perfil de la red
social Google+ y éste se puede hacer o no público según quiera el usuario.
Asimismo puede compartir este hecho con otros usuarios de la dicha red social. Se
trata de un servicio eminentemente social de almacenamiento de URL pero, sin las
capacidades de organización por etiquetas u otros términos que ya hemos visto en
otros servicios de marcado social.
Más información en http://www.google.com/+1/button/.
4.3 Web Notetaking
Imaginemos que estamos en una reunión. Generalmente disponemos de información
escrita sobre la cual se toman notas o sobre la que se subraya lo más importante y
acerca de la cual se discute. En el transcurso de esa reunión podemos además generar
abundante información: diagramas, mapas mentales, discursos o intervenciones que
Javier Iglesia Aparicio, 2014
Página 117
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
merecen ser grabadas, etc. Esto es lo que en inglés se llama notetaking y que se podría
traducir como toma de notas.
Guardar este tipo de información va más allá de almacenar meros enlaces clasificados
y comentados. Tenemos que encontrar aplicaciones que permitan, por ejemplo:
o Realizar anotaciones directamente en la web que hemos almacenado
(subrayados, notas escritas, dibujos). Es lo que se llama web annotation.
o Almacenar archivos multimedia que creamos nosotros como pequeñas
grabaciones de voz, vídeos o fotografías.
o Crear áreas o proyectos donde organicemos todo lo que recopilamos.
Cuando estamos recopilando información sobre algún tema e iniciamos una búsqueda
por Internet lo más común es que almacenemos enlaces a sitios o artículos de interés.
Pero en muchas ocasiones también es de utilidad almacenar en el mismo sitio otro tipo
de información distinta de un enlace: una nota escrita, un gráfico resultante de una
tormenta de ideas, una grabación de audio de una entrevista o de un pensamiento
personal, una fotografía o un vídeo, la descripción de un producto, la información
geográfica de un lugar... Mucha de esta información la vamos generando de forma casi
espontánea, algo que hoy en día es cada vez más fácil gracias a la expansión de los
teléfonos inteligentes (smartphones) y de tabletas (pads).
Para evitar que esta información quede desperdigada y la podamos organizar en
carpetas de proyecto accesibles desde cualquier lugar, surgen las aplicaciones de web
notetaking. De entre el conjunto de opciones podemos destacar tres opciones:
Evernote (http://www.evernote.com/), Diigo (http://www.diigo.com/) y Springpad
(http://springpadit.com/). Existe también una sencilla herramienta de Google: Google
Keep (https://drive.google.com/keep/), integrada dentro de las herramientas
ofimáticas de Google Drive.
Las tres ofrecen dos opciones para ser utilizadas: la versión web y la aplicación (app)
para teléfonos móviles de última generación y tabletas. Esta última opción es
especialmente interesante pues nos permite generar información (audio, vídeo,
fotografías…) en movimiento.
4.3.1 Evernote
Permite almacenar notas y cualquier otro tipo de archivos en un servidor centralizado.
Dispone de dos formas de uso: una vía web, más limitada, y otra mediante una
pequeña aplicación que se instalada en el ordenador y que podemos sincronizar con el
servidor central.
En la versión gratuita, Evernote permite almacenar 60 MB mensuales de información y
los tipos de archivo permitidos son notas de texto, imágenes, audio y PDF. En la
versión premium (de pago) el límite sube a 1 GB mensual, se puede subir cualquier tipo
de archivo y además permite otras funciones como reconocimiento de caracteres en
imágenes.
Javier Iglesia Aparicio, 2014
Página 118
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Logotipo de Evernote
Evernote ha creado además un pequeño ecosistema de aplicaciones que enriquecen
aún más su uso. Destacamos:
•
•
•
•
•
•
•
Skitch (http://evernote.com/intl/es/skitch/) permite editar capturas de
pantalla, hacer notas manuscritas, personalizar mapas, dibujar en fotografías
recién tomadas, etc. Ideal para ser utilizada en el momento con nuestro
teléfono móvil. Disponible para smartphones, Windows y Mac.
Penultimate (http://evernote.com/intl/es/penultimate/), exclusiva para iPad,
enfocada a la toma de notas manuscritas.
Web Clipper (http://evernote.com/intl/es/webclipper/). Para el navegador
Google Chrome, permite tomar capturas de fragmentos de páginas web y
almacenarlas en Evernote.
Evernote Hello (http://evernote.com/intl/es/hello/). Sólo para móviles.
Permite introducir rápidamente los datos de las personas que acabamos de
conocer y agruparlas por reuniones.
Evernote Food (http://evernote.com/intl/es/food/). Enfocada en la captura de
platos de comida de los que estamos disfrutando en un restaurante o en casa,
y permite su compartición, recomendación y valoración.
Evernote Clearly (http://evernote.com/intl/es/clearly/). Solo para Google
Chrome. Permite guardar páginas de blogs y otros sitios web en formato
textual para una mejor lectura.
Evernote Peek (http://evernote.com/intl/es/peek/). Permite generar
materiales de estudio a partir de tus notas, audio e imágenes.
4.3.2 Diigo
Diigo es una aplicación que ha ido evolucionando de una forma sorprendente con el
tiempo. Surgió con un simple aplicación de marcado social, al estilo de Delicious, en el
año 2006. La versión 2.0 aportó la función de anotación web, es decir, nos permite
subrayar fragmentos de páginas web así como añadir notas. Versiones sucesivas han
ido profundizando en las características de trabajo colaborativo, permitiendo la
creación de grupos y compartir contenidos.
En su última versión Diigo se ha convertido también en una aplicación que permite
almacenar capturas de pantalla, imágenes, documentos, audio, etc.
Logotipo de Diigo
Además proporciona también una potentísima barra de herramientas que se puede
instalar en el navegador para facilitar su uso. Podemos añadir directamente
Javier Iglesia Aparicio, 2014
Página 119
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
marcadores, resaltar un texto en la web y guardarlo, capturar una pantalla, realizar un
comentario, compartir el enlace, etc.
Barra de herramientas de Diigo en un navegador
También dispone de aplicaciones para teléfonos móviles y tabletas con lo que
podemos usar estos dispositivos de forma sincronizada.
4.3.2.1 Breve tutorial de Diigo
Registro
Para utilizar Diigo es preciso registrarse en https://www.diigo.com/sign-in Se puede
crear una nueva cuenta o acceder con nuestro usuario de Facebook, Twitter, Google,
Yahoo! U OpenID.
Interfaz inicial
Una vez que hemos accedido veremos el listado de aquellos marcadores previamente
almacenados. Cada marcador viene identificado por la fecha de introducción, un icono
que indica con un candado si es un marcador privado o no, el título, el dominio del cual
procede y las etiquetas. Si nos posicionamos con el ratón encima de cada enlace,
aparecerán las opciones para previsualizar, editar, borrar y compartir el marcador.
Las opciones de trabajo se encuentran en la parte superior: My Library (mi listado de
enlaces), My Network (otros usuarios de Diigo a los que sigo), My Groups (en Diigo
Javier Iglesia Aparicio, 2014
Página 120
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
podemos crear o unirnos a grupos de temáticas para almacenar de forma colaborativa
información) y Community (para explorar toda la comunidad Diigo).
En la columna izquierda podremos filtrar los marcadores por etiquetas, crear listas o
bien por tipo de marcador (marcador de enlace, fotografía, notas o marcadores
señalados para ser leídos posteriormente).
Añadir un nuevo enlace
Basta con pulsar el botón Add+ y podemos añadir un nuevo enlace, imagen o nota. Los
datos a añadir son prácticamente los mismos que los ya explicados en Delicious.
4.3.2.2 La barra de herramientas de Diigo
Diigo dispone de multitud de herramientas para facilitar la introducción, la gestión y la
recuperación de la información. Tiene además versiones tanto para ordenador como
para móviles y tabletas. En esta dirección https://www.diigo.com/tools se puede
consultar el catálogo actualizado.
En este apartado nos vamos a centrar en la barra de herramientas para los
navegadores. Se denomina Diigo Toolbar para los navegadores Internet Explorer y
Mozilla Firefox, y Diigo Web Collector en el navegador Chrome. En este apartado
centraremos la explicación en Diigo Toolbar instalado sobre Mozilla Firefox.
Esta barra de herramientas aumenta muchísimo la capacidad inicial de Diigo y lo
convierte en una utilísima herramienta de trabajo mientras buscamos información en
la Web.
Su apariencia, una vez conectados con nuestro usuario Diigo es la siguiente:
•
. Activación de Sidebar. Si lo pulsamos nos aparecerán a la izquierda nuestros
marcadores de Diigo en cualquier momento y podremos filtrarlos por etiqueta o
listas.
Javier Iglesia Aparicio, 2014
Página 121
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
. Accedemos al menú completo de herramientas donde además de
controlar nuestra cuenta Diigo podemos decidir qué opciones aparecen o no en la
arra de herramientas.
•
visualizando.
, el atajo rápido para añadir a nuestro Diigo la páginas que estamos
•
. Permite subrayar con un color de fondo aquella parte de la página
que nos interesa. Si añadimos dicha página a nuestro Diigo, se almacena también
esa información resaltada.
•
. Permite capturar toda la página o un fragmento y almacenarlo
como imagen en Diigo.
•
. Podemos añadir un comentario para el total de la página o bien
un post-it en una zona particular DE la misma. Cada vez que accedamos a esa
página con la barra de herramientas activada y conectados a Diigo podremos ver
nuestros comentarios y también los que otras personas han hecho público.
•
. Para compartir una página con Facebook, Twitter, por correo
electrónico, etc.
•
. Consultar si hemos recibido algún mensaje de nuestra red en Diigo
•
•
•
, marcar una página para ser leída posteriormente.
. Filtros para acceder directamente a
marcadores pendientes de leer, recientemente consultados o para generar otros
filtros de búsqueda.
. Configuración de la barra de Diigo.
4.3.3 Springpad
Springpad es una aplicación que va un poco más allá que las anteriores en cuanto al
tipo de recurso que permite almacenar. Además incorpora una mínima gestión de
tareas y alarmas. Veamos un poco en detalle el interfaz de esta aplicación.
Una vez que hemos accedido, la pantalla inicial es así:
Interfaz inicial de Springpad
Tenemos un apartado en el que podemos ver todos los recursos que hemos
almacenado (All My Stuff). El apartado Notebooks nos permite acceder a los distintos
proyectos que vamos creando. Por último, el menú Search&Do permite buscar en el
Javier Iglesia Aparicio, 2014
Página 122
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
conjunto de SpringPad. La base de la aplicación son los Notebooks, los contenedores
donde organizamos la información que vamos sacando de la web:
Si hacemos clic en uno de esos proyectos o notebooks veremos su contenido:
Interior de una carpeta de Springpad con archivos asociados
Podemos añadir casi cualquier tipo de recursos a nuestro proyecto: recetas, lugares,
vídeos, libros, audios…
Javier Iglesia Aparicio, 2014
Página 123
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Tipos de archivos que podemos añadir a una carpeta Springpad
Springpad también tiene un plug-in, similar al que hemos visto con Delicious o con
Diigo, que aparece en el menú del navegador pero, de momento, sólo está disponible
para el navegador Chrome.
4.3.4 Google Keep
Esta herramienta, disponible tanto para web como para dispositivos móviles Android,
es de muy sencillo uso, aunque sus capacidades son más limitadas que las de las tres
herramientas anteriores.
El interfaz presenta el listado de notas, un buscador y la opción de añadir una nueva
nota.
Javier Iglesia Aparicio, 2014
Página 124
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Para añadir una nueva nota basta con empezar a escribir en la nota superior que está
vacía.
Podemos incluir imágenes o bien hacer una lista en vez de una simple nota.
Formato de una lista
Cualquier nota creada se puede editar (basta con pinchar encima de ella), archivar o
eliminar.
4.4 Agregadores de noticias o Social News
Un caso especial de marcado social es el de aplicaciones donde los usuarios introducen
noticias (generalmente publicadas en medios de comunicación en línea), las clasifican
mediante etiquetas y las votan. Se denominan agregadores de noticias o social news y
permiten obtener una buena selección de la información aparecida en los diferentes
medios ordenada de acuerdo a las preferencias de los usuarios.
La primera aplicación de este tipo, enfocada al mundo de la tecnología, fue Slashdot
(http://slashdot.org/), que aún permanece activa. Podemos mencionar como las más
importantes a Digg (http://digg.com/), Reddit (http://www.reddit.com/) y Newsvine
(http://www.newsvine.com/); y dentro del ámbito hispano destacan Menéame
(http://www.meneame.net/) y Fresqui (http://fresqui.com/).
En este tipo de sitios la labor del usuario es fundamental. Por un lado, es él quien, tras
leer la noticia en un sitio web, decide introducirla en el agregador de noticias tras
comprobar que no está duplicada. Posteriormente, la comunidad otorga votos
Javier Iglesia Aparicio, 2014
Página 125
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
positivos o negativos a la noticia de forma que se va conformando un ranking de
aquello que es más interesante.
La labor se ha ido facilitando a medida que los propios medios de comunicación en
línea, blogs y otros sitios webs han ido incorporando botones para facilitar esta labor
de promoción social. E incluso se han creado pequeñas aplicaciones que cualquier
persona puede incorporar a su blog o página web.
4.4.1 Digg
Digg es un sitio web lanzado en el año 2004 que permite que los usuarios almacenen
noticias de distinta temática, así como votar aquellas que parezcan más interesantes
de forma que aparezcan en portada aquellas más votadas.
Cuando un usuario introduce un nuevo elemento puede introducir una pequeña
descripción, así como clasificarlo de acuerdo a una lista cerrada. Posteriormente, el
resto de usuarios pueden votar las noticias, guardarlas en su propio listado de noticias
y comentarlas, además de enviarlas por correo electrónico o a las redes sociales.
Logotipo de Digg
Estudiemos brevemente el interfaz visual de Digg. La siguiente imagen muestra el
interfaz de la página inicial de Digg.
Página inicial de Digg
Javier Iglesia Aparicio, 2014
Página 126
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Tenemos en la barra superior la capacidad de ver las noticias que hemos almacenado
(My News), las más votadas (Top Stories) y las más actuales (Upcoming). Desde 2013
dispone también de la sección Reader, que actúa, como hemos visto, como agregador
de RSS.
Sobre cada noticia podemos ver el número de votos recibidos y tenemos la posibilidad
de votar, guardar o compartir la noticia.
Si estamos conectados con un usuario podremos clasificar las noticias. Cada una de
ellas tiene un título (con enlace directo), la fuente de donde se ha obtenido, las
primera palabras de la noticia, el usuario que lo ha introducido en Digg, el número de
comentarios que tiene y, a la izquierda, un botón Digg con un número que indica la
cantidad de votaciones que ha recibido esa noticia.
4.4.2 Menéame
Menéame es un agregador de noticias enfocado al mundo hispanohablante. Fue
lanzado en el año 2005 y su funcionamiento es muy similar al de Digg aunque, es de
destacar, que permite indicar alguna característica interesante como añadir etiquetas
y dar información extra: si es irrelevante, cansina, sensacionalista, etc.
Logotipo de Menéame
Como curiosidad incluye un valor denominado karma del usuario, calculado según los
votos recibidos en las noticias enviadas y los votos que dicho usuario ha realizado
sobre otras noticias. A medida que aumenta el karma el usuario podrá realizar más
acciones.
Javier Iglesia Aparicio, 2014
Página 127
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Página inicial de Menéame
4.5 Promoción social
Es cada vez más habitual que, junto a la noticia o al artículo que estamos leyendo en
una web, veamos una serie de iconos que nos permiten enviar, recomendar o
compartir dicho contenido con otras personas, herramientas web o con las redes
sociales que manejamos. A este conjunto de posibilidades es a lo que se llama en el
medio web promoción social.
Incluso existen pequeños widgets que, incorporados en nuestro blog o gestor de
contenidos, nos facilitan la incorporación de la promoción social en cualquier sitio
web. Son las soluciones de AddThis (http://www.addthis.com/) y ShareThis
(http://sharethis.com/).
Logotipos de AddThis y ShareThis
Gracias a estas herramientas podemos añadir estas opciones de forma muy sencilla en
nuestros propios sitios web, sin realizar ninguna programación. Además, podemos
recibir estadísticas de uso de dicho botón para estudiar cuál de los contenidos ha sido
más veces compartido o mencionado.
Veamos cómo se crea el botón en AddThis. En su página de inicio tenemos las
siguientes opciones:
Javier Iglesia Aparicio, 2014
Página 128
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Proceso de creación de un botón AddThis
En primer lugar, se nos pide elegir el diseño gráfico del botón. A continuación, se nos
pregunta si queremos o no recibir estadísticas de uso (para esto es necesario
registrarse) y por último, pinchando en Get your button, obtenemos un código que
bastará con incluir en nuestro sitio web.
Cada vez que un usuario presiones el botón podrá compartir la URL de nuestra página
mediante multitud de herramientas, tal y como se puede ver en la imagen:
Posibilidades de compartir con un botón AddThis
4.6 Catalogación social
Una herramienta web de catalogación social permite a los usuarios catalogar cosas que
posee o que le interesan. Estos entornos de catalogación multiusuario poseen estas
características principales:
o Permiten crear catálogos y compartirlos.
o La descripción de la catalogación se enriquece con la colaboración de todos los
usuarios.
o Aparte de información incorpora opinión: comentarios y reseñas de aquellas
personas que poseen o han usado el objeto de la catalogación.
Como podemos ver, las herramientas de catalogación social son un caso especial de las
de marcado social pero, en este caso, focalizadas en recursos especializados y muy
distintos de los enlaces.
4.6.1 Herramientas de catalogación social
Actualmente, son muy variadas las redes de catalogación existentes y sobre los objetos
más dispares. A continuación, presentamos un breve listado de aplicaciones de
catalogación social según su objeto de catalogación:
Javier Iglesia Aparicio, 2014
Página 129
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Libros
Anobii (http://www.anobii.com/), WeRead (http://weread.com/),
GoodReads
(http://www.goodreads.com/),
LibraryThing
(http://www.librarything.com o http://www.librarything.es), Shelfari
(http://www.shelfari.com/),
quelibroleo
(http://www.quelibroleo.com),
Librodearena
(http://www.librodearena.com/) y la sección My Library de Google Books
(http://books.google.com/googlebooks/mylibrary/)
Películas
Flickchart
(http://www.flickchart.com),
Flixster
(http://www.flixster.com/) y Criticker (http://www.criticker.com/)
Música
Discogs
(http://www.discogs.com/),
Rate
Your
Music
(http://rateyourmusic.com/), Last.fm (http://www.last.fm/) y Libre.fm
(http://libre.fm/)
Dispositivos
electrónicos
consumo
Engadget (http://www.engadget.com/)
de
Juegos de mesa
BoardGameGeek (http://boardgamegeek.com/)
4.6.2 Un ejemplo en profundidad: LibraryThing
LibraryThing es una herramienta de catalogación social enfocada en los libros. Fue
lanzada en el año 2005 y está disponible en varios idiomas, entre ellos el español
(http://www.librarything.es/).
Javier Iglesia Aparicio, 2014
Página 130
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
LibraryThing en español
Actualmente, cuenta con más de 1,7 millones de usuarios y con cerca de 88 millones
de libros catalogados, como puede verse en la siguiente información 17.
“Estadísticas Vitales”
Miembros: 1.780.643
Libros catalogados: 87.871.987
Etiquetas añadidas: 105.119.173
Obras únicas: 8.057.418
Reseñas: 2.079.741
Obras reseñadas: 770.799
Calificaciones: 13.323.860
Cubiertas aportadas por los usuarios: 3.795.668
Fotos de los Autores: 76.347
Imágenes del lugar: 11.009
Grupos: 9.906
Temas de conversación: 158.750
Mensajes de conversación: 4.491.314
Piedras de toque de discusión: 3.182.545
Estadísticas de LibraryThing
17
Más información en: http://www.librarything.es/zeitgeist [Consultado: 5 de febrero de 2014].
Javier Iglesia Aparicio, 2014
Página 131
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
LibraryThing permite crear una biblioteca con los libros que posees, los libros que has
leído, los que te gustaría leer, los que has prestado... y cualquier otra catalogación que
quieras.
La principal característica de esta herramienta es que obtiene los datos de
catalogación de los libros desde las propias bibliotecas, tiendas de libros en línea y
otras bases de datos mediante metadatos (Dublin Core) u otros registros (MARC).
Además, si un libro en particular no se ha podido obtener de estas fuentes, se permite
al usuario crear una nueva ficha.
Permite catalogar de forma conjunta, pudiendo contribuir en cada registro con
etiquetas, valoraciones y reseñas sobre un libro, así como con información general
sobre libros, autores, nombres de personajes, premios, etc. Una obra reunirá todas las
copias diferentes de un libro, independientemente de la edición, la variación del título,
o el idioma. También se pueden introducir folcsonomías para que las búsquedas en
nuestra biblioteca sean más rápidas.
Una vez que nos hemos registrado como usuarios de esta aplicación, podemos buscar
entre su amplia base de datos aquellos libros que poseemos o que hemos leído. Basta
con introducir su ISBN, o buscar el título o el autor y con un simple clic iremos
agregando uno a uno cada uno de nuestros libros, creándonos nuestra biblioteca en
línea. Todos se benefician del trabajo común de los integrantes.
Por otra parte, se puede participar en los foros y/o unirse al programa de Primeros
Reseñadores. LibraryThing conecta a la gente basándose en los libros que comparten.
Detalle de un libro, Los juegos del hambre, en LibraryThing
18
18 El libro más reseñado en el momento de la revisión del curso, febrero de 2014.
Javier Iglesia Aparicio, 2014
Página 132
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Podéis acceder a un tutorial de LibraryThing, en inglés, en la siguiente dirección:
http://www.youtube.com/watch?v=8d5gHiCzN8k
4.7 Herramientas de content curation
De un tiempo a esta parte es frecuente escuchar y leer el término content curator o
curador de contenidos. Es un nuevo perfil de usuario (o una nueva profesión) que
según Dolors Reig 19 son “profesionales, internos o externos, especialmente implicados
con el conocimiento y que asesorarán sobre la información más relevante en el sector”
y se refiere a ellos como “intermediarios críticos del conocimiento”.
Por su parte, Eva Sanagustín 20 dice que el content curator “es alguien que conoce los
contenidos más relevantes sobre un tema concreto y que los comparte ejerciendo de
filtro”. Y propone una reflexión: “Dicho así, ¿periodistas, bloggers o tuiteros podrían
encajar en esta nueva profesión (si es que ya podemos considerarla como tal)?”.
Responde que “quizá algunos” y aclara que “la labor de un content curator consiste en
algo más que recopilar enlaces o retuitear a otras personas. Es alguien que investiga y
se documenta para conseguir el mejor contenido, que organiza la información para
distribuirla… Hace unos años podríamos llamarle editor, pero ahora que los
consumidores están rodeados por un exceso de información y que la atención ya no es
lo que era, la labor de un content curator es muy apreciada por las personas que le
siguen… y por las empresas.”
Santiago Villegas Ceballos en su blog 21 se cuestiona ¿Cómo satisfacer las necesidades
de información en este contexto de tanta información circulando por Internet?
¿Podrían ayudar los profesionales de la información (“Archivistas”, Bibliotecarios,
Documentalistas)? Y nos recuerda que es en este marco en el que aparece la figura del
Curador de Contenido (traducción más usual de Content Curator o Responsable de
Contenidos, como recomienda llamarlo Fundéu), como el responsable de buscar,
agrupar, organizar y compartir el mejor y más relevante contenido sobre una temática
particular. Define las funciones del Content Curator que no son lejanas ni ajenas a la
biblioteca y sus profesionales, más bien al contrario ¿no son las principales tareas de la
biblioteca el recolectar, preservar, organizar y difundir la información que su público
requiera?
19 Véase: http://www.dreig.eu/caparazon/2010/01/09/content-curator-web-3/
20 Véase: http://cristinaaced.com/blog/2012/05/18/content-curator-curador-de-contenidos-y-otras%E2%80%9Cenfermedades%E2%80%9D/
21 Véase: http://www.infotecarios.com/santiagovillegasceballos/el-profesional-de-lainformacion-como-content-curator-sobreviviendo-la-info [Consultado: 5 de septiembre de
2013]
Javier Iglesia Aparicio, 2014
Página 133
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Insiste en que los bibliotecarios, y en general los profesionales de la Ciencia de la
Información, hemos fundamentado nuestro quehacer en la capacidad de organizar
formalmente las colecciones de nuestras unidades de información con el propósito de
garantizar que el usuario pueda acceder y hacer uso de ella. Llevamos siglos usando
esquemas de catalogación y clasificación, diseñando sistemas de análisis documental y
abusando de Dewey y Otlet con sus lenguajes normalizados pero no somos conscientes
aún del papel fundamental que debemos asumir en la sociedad de la información.
Plantea que los sitios Web, las redes sociales y hasta las bases de datos académicas
utilizan (o están migrando) a la clasificación por lenguajes naturales, al etiquetado
social, a la representación gráfica del conocimiento (o el transmedia) y, en general, a
esquemas en los que la visión tradicional del bibliotecario ha de ser replanteada y se
pregunta ¿estamos listos?
Un content curator es alguien que conoce los contenidos más relevantes sobre un
tema concreto y que los comparte ejerciendo de filtro. Por lo tanto, la labor de un
content curator consiste en algo más que recopilar enlaces o retuitear a otras
personas. Es alguien que investiga y se documenta para conseguir el mejor contenido,
que organiza la información para distribuirla e incluso que aporta una pequeña crítica
o valoración sobre el contenido que ha seleccionado gracias a que posee unos buenos
conocimientos en la materia.
En un medio marcado por la infoxicación y donde todos deseamos que nuestros sitios
web, nuestra actividad, sea conocida por cuanta más gente mejor, la labor de selección
crítica y fundamentada de contenidos cobra una relevancia cada vez más importante.
Desde el punto de vista de quién está interesado en un tema, no hay nada más
agradable que alguien con cierta reputación seleccione los contenidos por ti: ahorro de
tiempo. Pero desde el punto de vista de la visibilidad, los robots de los buscadores
cada vez se fijan más en el verdadero valor del contenido –y así será cada vez más a
medida que la mentalidad semántica se traslade a la web-. Un contenido relevante y
bien construido es más importante que muchas de las técnicas de optimización de
páginas web (SEO).
El content curator deberá de conocer una serie de herramientas que le ayuden a
seleccionar y a publicar la información. Distinguimos tres momentos:
• El acceso a la información: múltiples canales pueden servir para esto, pero
los fundamentales hoy en día son la sindicación de contenidos, las redes
sociales (especialmente Twitter y el uso de sus listas) y las alertas y
suscripciones recibidas por correo electrónico. Dentro de este último canal
destaca el servicio de Google Alerts.
• La organización y catalogación de la información: imprescindibles las
herramientas de marcado social vistas en el presente tema.
• La publicación del contenido. En ocasiones las funciones y la visualización
que nos ofrecen las herramientas de marcado social pueden ser un poco
restringidas. Existen content curators que utilizan blogs para publicar su
selección de contenidos pero existen otras herramientas a medio camino
Javier Iglesia Aparicio, 2014
Página 134
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
entre el marcador social y el blog que cada vez se están utilizando más.
Ejemplos de este tipo de herramientas: Scoop.it y Paper.li.
4.7.1 Google Alerts
Las alertas de Google son mensajes de correo electrónico que recibes cuando Google
encuentra nuevos resultados (por ejemplo, páginas web, noticias, etc.) que coinciden
con consultas que previamente has preparado.
Introduce la consulta de búsqueda que quieras supervisar. Se mostrará una vista previa
del tipo de resultados que recibirás. Algunas aplicaciones prácticas de las alertas de
Google incluyen:
• seguir una noticia en desarrollo,
• mantenerse informado acerca de la competencia o de un sector en concreto,
• obtener las noticias más recientes sobre una persona famosa o un
acontecimiento,
• conocer las noticias más recientes acerca de sus equipos deportivos favoritos.
La herramienta se encuentra en la dirección www.google.com/alerts. La creación de
una alerta es un proceso muy sencillo que sólo requiere:
• Introducir las palabras o términos de búsqueda en los que estamos
interesados.
• Tipo de resultado: todo, noticias, blogs, vídeo, foros de debate y libros.
• Frecuencia con la que se quieren recibir las alertas: una vez al día, cuando se
produzca o una vez a la semana.
• Cantidad, es decir, cuántos resultados habrá en cada alerta. Se puede elegir
entre todos los resultados o sólo los mejores resultados (según el criterio de
Google)
• Enviar a: se puede elegir qué las alertas se reciban en un correo electrónico o
bien que se reciban en una fuente de sindicación de contenidos
Interfaz de creación de una alerta
Es posible administrar a posteriori las alertas creadas para cambiar cualquier de esos
parámetros o simplemente para eliminarlas.
Javier Iglesia Aparicio, 2014
Página 135
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Interfaz de gestión de las alertas
4.7.2 Herramientas de publicación para content curators
El conjunto de herramientas disponibles en la web que permiten seleccionar fuentes
de muy diverso origen está actualmente es plena evolución. Lo componen multitud de
servicios que, además, de forma continua, están cambiando sus funcionalidades. En
este apartado citamos brevemente las que actualmente son más utilizadas con el
objeto de que las conozcáis. Todas son muy sencillas de usar y rápidamente se puede
crear un lugar donde almacenar aquellos que vamos encontrando bien sea en un
enlace, en un tuit o en un vídeo.
Dentro de las aplicaciones gratuitas podemos citar:
• Scoop.it (http://www.scoop.it), puede que actualmente sea la aplicación más
de moda en este sector. Permite crear revistas, con un formato visual bastante
atractivo y modificable, de multitud de fuentes. Además se pueden crear
equipos de curators que trabajen en el mismo lugar, cada uno con una serie de
derechos de edición. También existe versión para móviles.
Javier Iglesia Aparicio, 2014
Página 136
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Ejemplo de selección de contenidos creada con Scoop.it
•
•
Storify.com (http://storify.com), permite crear historias con contenidos
seleccionados de distintas fuentes.
Paper.li (http://paper.li/). Organiza los enlaces compartidos en Twitter,
Facebook y fuentes RSS y los presenta en forma de periódico. Aparte de crear
nuestro periódico, a partir de nuestras listas de Twitter, podemos ver los
periódicos creados por otras personas clasificados por temáticas. Por ejemplo,
Diario de bibliotecas (http://paper.li/bibliofaunlp/bibliotecas) de la Biblioteca
FAU-UNLP.
Javier Iglesia Aparicio, 2014
Página 137
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Periódico creado con Paper.li
•
•
Tumblr (https://www.tumblr.com/), especie de blog minimalista que permite
introducir contendido de tipología muy variada: textos, enlaces, fotografías,
audios, vídeos, etc. Actualmente tiene un fuerte crecimiento, con unos 175
millones de usuarios, sobre todo en los Estados Unidos y ha logrado superar a
Wordpress en número de blogs creados.
PearlTrees.com (http://www.pearltrees.com), permite seleccionar contenido y
organizarlo en forma de árboles de perlas.
Ejemplo de PearlTree.com
Javier Iglesia Aparicio, 2014
Página 138
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
Bagtheweb (http://bagtheweb.com), en este caso, atendiendo al mundo
educativo, la información se almacena en mochilas (bags).
Faveous (http://www.faveous.com/), recopila los mensajes o contenidos que
has marcado como favoritos en Twitter, Google Reader, Youtube y Facebook,
aunque tienen previsto aumentar este listado a otras aplicaciones como
Delicious, Tumblr o Vimeo.
Existen también opciones más profesionales y de pago, enfocadas a conseguir
maximizar las visitas a los contenidos y a estudiar las reacciones de los usuarios, al
marketing y con funciones estadísticas y de análisis web avanzadas. Por ejemplo:
Curata (http://www.curata.com/), Eqentia (http://www.eqentia.com/) y Wildfire
(http://www.wildfireapp.com/).
Por último, y como un caso especial debido a su alta velocidad de actualización, existen
herramientas enfocadas en curar contenidos únicamente de Twitter. Por ejemplo
Cadmus (http://thecadmus.com/).
5. Cómo organizar nuestras herramientas y fuentes de información:
mash-up
5.1 Introducción
A lo largo del curso hemos ido viendo qué era la Web 2.0 y sus fundamentos en
tecnologías sencillas que incidieran en la interoperabilidad entre aplicaciones web
mediante mecanismos como la sindicación de contenidos. Por otro lado, hemos
conocido las herramientas más importantes: los buscadores y otras que nos ayudan a
almacenar y organizar la información que hemos obtenido como resultado de esas
búsquedas: las herramientas de marcado social.
Seguro que, además, todos usamos cuentas de correo web, leemos periódicos o
publicaciones en línea de las cuales podemos obtener sus enlaces RSS, accedemos a
diferentes redes sociales, consultamos el tiempo, etc., es decir, realizamos multitud de
tareas en la Web. Pero cada una de estas acciones nos sigue obligando a ir a la URL
adecuada y consultar allí la información en la que estamos interesados.
Gracias a los mecanismos de interoperabilidad, ha sido posible integrar servicios
otorgados por distintas aplicaciones para dar lugar a nuevos servicios más útiles. Son
los llamados mash-up, siendo una de sus aplicaciones los portales personalizables, que
nos permitirán la creación de nuestras propias páginas de acceso a la web donde
tengamos todo aquello que realmente nos interesa.
Javier Iglesia Aparicio, 2014
Página 139
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
5.2 Fundamentos de los mash-up
El concepto de mash-up es inherente al concepto de Web 2.0. Mash-up es una
aplicación Web que usa contenidos y servicios de otras aplicaciones Web para crear
otros servicios.
Mash-up, una suma de servicios
La creación de mash-up ha sido posible gracias a la aparición de una serie de
tecnologías web que han facilitado la programación y han mejorado la experiencia del
usuario.
La primera tecnología son los servicios web y sus API. Un servicio web desde el punto
de vista de la programación es un proceso que al recibir una petición de datos
devuelve éstos en un formato entendible por cualquiera otra aplicación web.
Generalmente, todo servicio web cuenta con una serie de métodos de llamada
documentados que pueden ser usados por los desarrolladores: el API o Interfaz de
programación de aplicaciones. Con esto se consigue un acceso seguro a los datos
almacenados en las bases de datos. Además, el número de nuevas aplicaciones web ha
crecido enormemente. Ya no hace falta que un grupo de desarrolladores lo programen
todo desde cero; pueden utilizar servicios ya desarrollados por otros e integrarlos en
sus nuevas aplicaciones.
La segunda tecnología es AJAX (Asynchronous JavaScript and XML), una serie de
métodos de programación de interfaces visuales web, que permite crear aplicaciones
interactivas logrando obtener datos de los servidores de forma asíncrona y sin
interferir en la visualización de la página web. Sencillamente, antes, cuando había que
realizar cualquier consulta a un servidor era preciso volver a cargar toda la página web
que estábamos viendo para obtener la respuesta de dicho servidor. Ahora, con AJAX,
sólo se actualiza una pequeña porción de esa página por lo que la navegación no se
interrumpe.
Javier Iglesia Aparicio, 2014
Página 140
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Un resultado es una nueva arquitectura de aplicaciones web tal y como se puede ver
en la siguiente imagen:
Arquitectura mash-up
El usuario accede al mash-up (1) realizando una consulta. El servidor donde se aloja la
aplicación mash-up se conecta con distintos proveedores de datos y servicios (2). Cada
Javier Iglesia Aparicio, 2014
Página 141
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
uno de estos proveedores contesta directamente al usuario (3). Es decir, ya no es el
servidor de la aplicación el que lleva todo el peso de responder a la solicitud del
navegante. Esta responsabilidad se reparte entre distintos servidores especializados y
la respuesta integrada se verá en el navegador del ordenador del usuario. Reutilizar y
compartir información. Web 2.0 en esencia.
5.3 Ejemplos de mashup
Actualmente las aplicaciones tipo mash-up se han expandido de forma imparable. Son
muchos los sitios web construidos mediante retazos de otros.
Como ejemplo y para aclarar el concepto veamos algunos de ellos:
• Wikiloc (http://es.wikiloc.com). Wikiloc es un lugar donde los aficionados al
senderismo, la bicicleta y otros medios pueden colgar sus rutas una vez que
han sido localizadas con dispositivos GPS. Éstas se muestran sobre la
cartografía proporcionada por Google Maps. Es el ejemplo más básico de mashup. Wikiloc sólo se ocupa de lo suyo: las rutas y no de la cartografía.
• Friends and Music (http://www.myfriendsandmusic.com). En este caso es una
aplicación que hace uso de la red social Facebook. Si nos conectamos con
nuestro usuario Facebook podemos añadir música a una lista de reproducción y
compartirla con nuestros amigos de Facebook.
• 1click2destiny (http://1click2destiny.com/). Hace uso de la información
contenida en Digg para presentar “qué tiene hoy la gente en mente”.
Existe un directorio de aplicaciones de mash-up que se actualiza día a día. Se trata de
Programmable Web (http://www.programmableweb.com/) que ya dispone de más de
7.300 aplicaciones recopiladas.
5.4 Web widgets
El concepto de mash-up no sólo se ha llevado al desarrollo de aplicaciones o portales
web completos. También se ha extendido el desarrollo de pequeñas aplicaciones que,
por sí mismas, no constituyen ningún sitio web pero, que pueden ser utilizadas en
grandes desarrollos para prestar algunos servicios. Estamos hablando de los web
widgets o web gadgets. Son aplicaciones que tienden puentes entre sitios web. Los
más sencillos simplemente leen una fuente RSS y presentan con formato las
novedades; las más complejas consultan uno o varios servicios web. Resumiendo, un
web widget es un pequeño programa que usa el API para acceder a servicios
proporcionados por distintos proveedores web y que puede ser colocado en cualquier
sitio web.
Su popularidad actual es consecuencia de la extensión de las tecnologías citadas en el
apartado 5.1 y en que son extremadamente fáciles de programar. Su número aumenta
incesantemente e, incluso, ya hay muchos portales Web que proporcionan widget para
que sean reutilizados por otros usuarios o sitios web.
Javier Iglesia Aparicio, 2014
Página 142
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Si estamos interesados en conocer qué widget existen, o en buscar alguno que pueda
ser de interés para un sitio web en el que colaboramos, podemos consultar directorios
de widgets. Los dos más completos son Widgipedia (http://www.widgipedia.com/) y
WidgetBox (http://www.widgetbox.com/). WidgetBox anuncia que el 28 de marzo de
2014 cerrará y finalizarán todos los servicios prestados por él, agradeciendo a todos los
usuarios, suscriptores y desarrolladores el apoyo prestado a lo largo del camino.
Directorios de widgets
5.5 Los portales personalizados
Ya hemos indicado que dentro de la Web 2.0 el usuario es el actor más importante.
Que se sienta cómodo en un portal web, que navegue fácilmente, que pueda
interactuar, compartir, crear contenido es una de las señas de toda aplicación Web 2.0.
Sin embargo, sigue existiendo una restricción muy importante: ¿cómo puedo acceder
fácilmente a todos aquellos lugares que son de mi interés? Pensemos en un momento
en nuestro ordenador. En el Escritorio tenemos una serie de accesos directos a las
aplicaciones que más usamos. ¿Y si pudiéramos hacer esto también en una página
web? O más aún, ¿y si podemos consultar todas las novedades en una única página
web sin tener que acceder de forma secuencial a cada una de ellas?
Pues bien. Ya existen herramientas que nos permiten crear nuestras propias páginas
de acceso o de inicio en la Web. Son los portales personalizables y hacen uso de las
tecnologías de mash-up, de los canales de RSS y de los widgets. Nos permiten elaborar
páginas mediante módulos configurables cada uno con funciones diferentes y bien
definidas.
Este tipo de servicios nos va a dejar crear una página de forma que veamos los últimos
correos que hemos recibido en Gmail, ver la previsión del tiempo en nuestra ciudad,
leer los últimos mensajes en nuestro muro del Facebook, buscar en nuestros
marcadores de Delicious, ver las fotos que hemos subido a Flickr... todo desde la
misma página web.
Los portales personalizables nos permiten organizar el acceso a la información que nos
interesa mediante una gestión realmente simple. Vamos a tener casi todo al alcance
de un clic, con el consiguiente ahorro de tiempo. Incluso nos pueden resultar útiles
para agrupar la información que, por distintos canales, genera una institución usando
herramientas que permiten crear portales personalizados públicos.
Javier Iglesia Aparicio, 2014
Página 143
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
De entre las herramientas que nos permiten crear estos mash-up, podemos diferenciar
aquéllas que sólo dejan crear páginas personales, de acceso únicamente privado como
MyYahoo (http://my.yahoo.com/) y Symbaloo (http://www.symbaloo.com/); y otras
que, además de ese perfil privado, también nos permiten crear páginas públicas como
Netvibes (http://www.netvibes.com) y WebWag (http://www.webwag.com/).
Portales personalizados
5.5.1 Symbaloo
Symbaloo (www.symbaloo.com) es un mash-up que nos permite crear nuestro propio
portal de información (webmix) que contenga nuestras webs más visitadas, fuentes
RSS y otra información de interés.
Veamos paso a paso cómo se utiliza.
5.5.1.1 Registro y acceso
Si es la primera vez que entramos tendremos que hacernos una cuenta.
Damos
al
botón
Registrarse
en
la
(http://www.symbaloo.com/registerUser.form).
Javier Iglesia Aparicio, 2014
parte
superior
derecha
Página 144
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Si ya estás registrado o prefieres acceder con tu cuenta de Facebook, puedes ir
directamente al botón Entrar.
Javier Iglesia Aparicio, 2014
Página 145
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
5.5.1.2 Página inicial y menú de trabajo
Una vez que hemos accedido nos encontramos con el interfaz de trabajo y un webmix
vacío como este:
La página se compone de varias pestañas por defecto: home (con el icono de una
casa), noticias, escritorio, feeds…)
En la parte superior tenemos:
Javier Iglesia Aparicio, 2014
Página 146
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
Opciones. Actúa sobre la pestaña que tengamos activa y permite realizar las
siguientes operaciones:
•
•
Borrar. Borramos el webmix de la pestana que está seleccionada.
Compartir. Permite compartir un webmix y definir sus características de
privacidad (hacerlo público o privado).
•
Buscador. Podemos buscar dentro de Symbaloo tres tipos de contenido:
o Bloques. Un bloque es cada uno de los cuadrados de información que
compone un webmix. Podemos buscar, por ejemplo, el nombre de un
periódico para obtener su fuente RSS si es que algún otro usuario de
Javier Iglesia Aparicio, 2014
Página 147
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Symbaloo lo ha utilizado. O buscar “tiempo” para encontrar bloques de
información meteorológica.
o Webmixes. Puede haber usuarios que hagan público un webmix
concreto porque consideren que su temática es de interés para otras
personas. Si existe podemos añadirlo a nuestros webmixes.
Si damos al botón Añade este webmix pasamos a la siguiente pantalla:
Si pinchamos en Añadir esta página ya lo tendremos dentro de nuestro apartado
personal.
o Perfiles. Podemos buscar a otros usuarios registrados de Symbaloo.
•
Acceso a configuración de la cuenta. Tenemos estas opciones:
Javier Iglesia Aparicio, 2014
Página 148
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
5.5.1.3 Crear un webmix
Damos en el botón + de las pestañas para crear un nuevo webmix.
A continuación aparece el siguiente menú:
Podemos crear uno vacío o buscar algún webmix ya creado que nos interese. En esta
ocasión vamos a crear uno vacío. Proporcionamos un nombre y elegimos si es un
webmix de:
• Bloques. Como se puede ver en la imagen inferior, se trata de un webmix
dividido en cuadrado y cada cuadrado realiza una función que se ejecuta en la
parte central del webmix.
Javier Iglesia Aparicio, 2014
Página 149
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
RSS. Listado de las últimas novedades de un conjunto de RSS que hemos
seleccionado.
Veamos primero el caso de un webmix de bloques. Para añadir un nuevo bloque basta
con hacer clic sobre un bloque vacío. Nos saldrá un menú que permite crear o buscar
dicho bloque. Si decidimos crearlo tendremos estas opciones:
Javier Iglesia Aparicio, 2014
Página 150
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
El boque puede ser:
• Un sitio web
• Noticias sindicadas RSS
• Emisoras de radio
• Embedded, esto quiere decir que se abre directamente dentro del webmix de
Symbaloo.
Una vez completada la información y personalizada la apariencia lo guardamos y ya
nos aparece en el webmix.
Para el caso de un webmix de fuentes RSS el funcionamiento es igual salvo que sólo
podemos incluir bloques de noticias sindicadas y su apariencia prima los enlaces a
dichas noticias.
5.5.1.4 Edición de un webmix
En el botón situado en la parte superior izquierda podemos editar, modificar o borrar
nuestros webmixes.
Javier Iglesia Aparicio, 2014
Página 151
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Sin hacemos clic en él tendremos acceso al listado de nuestros webmixes y podemos
editarlos.
Si estamos dentro de un webmix también podemos editar cualquiera de sus bloques.
Basta con situarnos encima de aquel que queremos cambiar y pulsar botón derecho.
Javier Iglesia Aparicio, 2014
Página 152
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
5.5.2 Netvibes
Netvibes es un servicio de generación de páginas personalizadas basado en las técnicas
de mash-up. Fue lanzado en el año 2005 y, actualmente, cuenta con millones de
usuarios, traducción a 76 idiomas y más de 190.000 widgets disponibles.
Logotipo de Netvibes
Lo realmente interesante son los universos públicos. Pueden ser usados como un
nuevo medio de difundir contenidos. Por ejemplo, una institución que gestiona
diversos dominios de Internet puede componer aquí un mosaico con las novedades de
cada uno de sus sitios web; o un educador o un bibliotecario pueden recomendar
enlaces o presentar sus listados de marcadores de Delicious por temáticas.
Netvibes proporciona medios muy sencillos de aprender y de utilizar para agrupar las
fuentes de información, bien sean para difundirlas por aquellos que las generan, o bien
sea para consumirlas por parte de los usuarios interesados en ellas.
5.5.3 Ejemplos de uso de universos públicos Netvibes
Veamos brevemente una selección de ejemplos de uso de los universos públicos de
Netvibes.
Una profesora de inglés ha creado el universo My English Factory 1
(http://www.netvibes.com/monicatstocker) y en él pone a disposición de sus alumnos
enlaces donde conseguir audios y vídeo en inglés; ejercicios de pronunciación;
referencias de vocabularios y diccionarios; ejercicios y consejos… Todo ello
seleccionado por la propia profesora que antes ha determinado la calidad de los
enlaces.
La Universidad de Navarra utiliza el universo público de Netvibes
(http://www.netvibes.com/unav) con un carácter más informativo. Ofrecer sus últimas
noticias; vídeos, fotografías y podcasts; acceso a sus blogs y a sus cuentas en redes
sociales; y las últimas adquisiciones de sus bibliotecas.
Javier Iglesia Aparicio, 2014
Página 153
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Las bibliotecas, sobre todo universitarias, fueron de las primeras instituciones en usar
Netvibes. En ellos publicitan las últimas adquisiciones en su colección, permiten la
búsqueda en su catálogo virtual, proporcionan direcciones de interés, informan de
horarios o de la disponibilidad de uso de dependencias o salas de de trabajo,
incorporan su cuenta de Delicious o crean pestañas temáticas. Algunos ejemplos:
Biblioteca
de
Muskiz
(http://www.netvibes.com/muskizkoliburutegia#Liburutegia_%2F_La_Biblioteca),
Biblioteca de Andorra (Teruel) (http://www.netvibes.com/biblioteca62) y en la
Universitat Politècnica de Catalunya (http://www.ub.edu/bid/23/carnerero2.htm).
Por último, el Centro Internacional de Tecnologías Avanzadas en el medio Rural de la
Fundación Germán Sánchez Ruipérez, utiliza un universo público en Netvibes
(http://www.netvibes.com/citafgsr) para agrupar toda la información actual que
genera a partir de sus múltiples proyectos web. Se consigue, en un único lugar, estar al
día de toda la actividad de la institución.
5.5.4 Breve tutorial de Netvibes
De nuevo es recomendable seguir esta sección estando conectados a Netvibes para
poder practicarlo mientras se lee.
5.5.4.1 Darse de alta
Para darse de alta en Netvibes, debe procederse de la siguiente manera:
1. Entramos en http://www.netvibes.com/signin?from=home.
2. Podemos conectarnos directamente con nuestra cuenta de Facebook. Si no
disponemos de ella debemos de introducir los datos que nos piden para crear
una cuenta: nombre de usuario, email, contraseña (dos veces) y aceptación de
las condiciones del servicio. Luego pulsamos en Registrarse.
Javier Iglesia Aparicio, 2014
Página 154
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Acceso a Netvibes
3. Una vez completo el registro ya podemos acceder con nuestro usuario y
contraseña desde http://www.netvibes.com/. En la esquina superior derecha
existe un enlace Conectar y nos pedirán el email y la contraseña. ¡Ya estamos
dentro!
5.5.4.2 Dashboard privado
La primera pantalla que nos aparece es un dashboard (zona de trabajo) privada, es
decir, una página que sólo podemos ver nosotros. La estructura de un dashboard es la
siguiente. En la parte superior siempre tendremos la barra de herramientas,
compuesta por los siguientes elementos:
o Añadir, desde donde podremos añadir nuevas cajas de contenido
(widgets) a la página.
Javier Iglesia Aparicio, 2014
Página 155
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
o Analizar, para consultar las estadísticas de visitas. Sólo disponible en la
opción de pago.
o Por defecto estará activado el botón apps view, que es la mejor forma
de trabajar.
, Ajustes, se pueden cambiar algunos parámetros de
configuración como el idioma o el diseño de gráfico de la página.
o Escritorios, que permite crear nuevas páginas, gestionarlas o hacer
públicas las que nos interesen.
o Nuestro nombre de usuario, donde podremos gestionar nuestro perfil,
consultar la ayuda y Cerrar sesión.
o
Escritorio privado inicial en Netvibes
La parte inferior de la página es donde se encuentra el contenido. Se compone de
Pestañas y dentro de cada Pestaña hay cuadros de contenido. Cada cuadro de
contenido podemos moverlo con libertad dentro de la página y tiene también una
serie de controles que se activan cuando pasamos el ratón por encima. Esos controles
son Opciones (para mover, cambiar el color del cuadro), Actualizar, Compartir, Editar y
una cruz (si queremos eliminarlo del dashboard). Tratad de mover los cuadros y de
editarlos para que veáis qué se puede hacer con ellos.
5.5.4.3 Trabajando con el dashboard privado
El siguiente paso es añadir contenidos. Para eso pinchamos en el botón verde en la
parte superior izquierda que dice Añadir. Se nos desplegará una capa como esta:
Javier Iglesia Aparicio, 2014
Página 156
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Widgets esenciales de Netvibes
En la columna izquierda tenemos varias formas de buscar widgets: un buscador por
palabras, los widgets esenciales, ordenados por categorías y Canales para añadir una
suscripción RSS. Os recomiendo seleccionar widgets esenciales y empezar a probar con
ellos.
Podéis arrastrar el widget hasta vuestro escritorio y colocar en la posición que queráis.
Generalmente aparecerá un área marcada por una línea roja discontinua en donde
podéis soltar el widget.
Para añadir fuentes RSS de periódicos, blogs u otros sitios web que sean de vuestro
interés tenemos que hacer lo siguiente:
•
•
•
Pinchar en Añadir.
Seleccionar la opción Canales. Lo único que tenemos que hacer es pegar
una dirección que apunte a un RSS y al dar a la flecha de la derecha aparece
un nuevo widget titulado FEED que podemos arrastrar hasta nuestro
escritorio.
Una vez que lo hemos arrastrado se actualizará y presentará las últimas
noticias de esa fuente.
Añadir una fuente RSS en Netvibes
Este proceso habrá que repetirlo por cada fuente que queramos añadir.
5.5.4.4 Creando un escritorio público
Para crear un escritorio público tenemos que hacer lo siguiente: en la parte superior
derecha ir a Escritorios y pinchar en Activar mi página pública o en Escritorio público si
ya está activado.
Javier Iglesia Aparicio, 2014
Página 157
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
A continuación, hay que seguir estos pasos, tal y como se indica en la siguiente
imagen:
Habilitar el escritorio (2), definir si es personal o de una organización (3), escribir una
descripción (4), seleccionar una categoría de temática (5), establecer unas palabaras
clave para los buscadores (6) y guardar (7).
Tendremos ya creada nuestra página pública y podemos trabajar en ella igual que en el
escritorio
privado.
La
dirección
pública
será
http://www.netvibes.com/nombre_de_usuario.
Cambiar entre el escritorio público y el o los privados es tan sencillo como
seleccionarlos en el botón Escritorios.
Es posible publicar un widget desde un escritorio privado a uno público utilizando la
opción Compartir que existe en la parte superior derecha de cada uno de ellos.
5.6 IFTTT
IFTTT es un poderoso servicio que sirve para interactuar con diversos servicios de la
Web. Su nombre significa If This Then That (si esto, entonces eso).
IFTTT (https://ifttt.com) nos permite crear secuencias de acción o recetas (recipes) en
su terminología. Básicamente se trata de acciones simples que involucran a distintos
Javier Iglesia Aparicio, 2014
Página 158
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
servicios web. Por ejemplo: si recibo un mensaje directo en Twitter, entonces envío
otro de agradecimiento; o si estoy etiquetado en una foto de Facebook, envíame un
correo electrónico.
Se compone de:
• canales (channels), simples bloques que se corresponden con las aplicaciones
más utilizadas de Internet.
• disparadores (triggers), el hecho que desencadena una acción.
• acciones (actions), la acción que se deriva del hecho anterior.
La recetas pueden ser propias, creadas por nosotros o bien podemos buscar de entre
las creadas por sus miles de usuarios.
Cada receta almacenada se ejecuta por regla general cada 15 minutos y podemos
activarla o desactivarla en cualquier momento. En el menú principal tenemos la opción
de crear o de buscar recetas.
5.6.1 Un ejemplo de creación de una receta en IFTTT
El ejemplo es sencillo. Quiero recibir un correo en mi GMail cada vez que exista un
nuevo elemento en una fuente RSS que sigo.
Paso 1. Una vez registrado en IFTTT, pincho en la opción Create y luego en this.
Paso 2. Seleccionar el canal que actúa de disparador. En mi caso, el disparador es la
fuente RSS en la que espero que aparezca una nueva noticia. Por lo tanto haré clic en
el símbolo de RSS
Javier Iglesia Aparicio, 2014
Página 159
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Paso 3. Configurar el disparador. Cada caso será distinto. En el caso del RSS se nos pide
introducir una fuente RSS o bien introducir una nueva fuente RSS e indicar un término
de búsqueda dentro de él.
Seleccionamos New feed ítem y así podremos introducir su URL.
Javier Iglesia Aparicio, 2014
Página 160
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
En este caso introduzco el feed de la sección de noticias de Ciencia de un periódico. Ya
estamos a mitad de camino. Ahora toca definir la acción. Pinchamos en that.
Paso 4. Seleccionamos el canal donde se va a producir la acción. En nuestro caso es
GMail. Como es la primera vez que lo uso es preciso que lo active.
Tendré que otorgar acceso a IFTTT a este canal y a aquellos que quiera enlazar en otras
recetas. Este acceso no significa dar contraseñas ni nada parecido. Una vez concedido
el acceso, continuamos.
Javier Iglesia Aparicio, 2014
Página 161
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
En este caso tenemos una única acción posible: enviar un correo a un usuario de
GMail.
Paso 5. Configurar la acción. Definimos a quién se envía el correo, el título y el texto.
Los dos últimos son configurables y podemos decidir qué información del RSS se envía.
Paso 6. Guardar la receta.
Javier Iglesia Aparicio, 2014
Página 162
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Una vez que demos al botón Create Recipe, ya estará disponible en nuestro menú de
My récipes y se comenzará a ejecutar. En cualquier momento podemos parar su
ejecución, eliminarla, hacer público el método o editarla.
6. El futuro de la tecnología web: la web semántica
6.1 ¿Por qué no encuentro lo que busco?
A pesar de la mejora continua de los motores de búsqueda, de la aparición de
herramientas que nos permiten acceder a información etiquetada de forma colectiva
por personas y de otras muchas posibilidades, la búsqueda, sobre todo cuando es muy
específica, sigue sin darnos, en muchas ocasiones, los resultados que esperamos. El
problema es complejo y tiene varias causas, todas ellas de índole tecnológica.
Javier Iglesia Aparicio, 2014
Página 163
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
“Hay algunas preguntas que no pueden ser contestadas por Google”
La primera, y que ya hemos apuntado anteriormente, es el modo de funcionamiento
de los motores de búsqueda actuales. Recordemos que los buscadores usan unos
programas llamados robots o arañas web que rastrean los servidores que alojan
páginas web extrayendo palabras del texto que éstas contienen. Esas palabras, la
información de dónde han sido extraídas y con qué otras páginas enlazan se indexan,
almacenan y procesan en enormes bases de datos para determinar, mediante
complejos algoritmos, la relevancia de un sitio con respecto a un término de búsqueda.
Finalmente, esa relevancia determina el orden en que el resultado de una búsqueda
nos presenta los distintos enlaces. En síntesis: los resultados de las búsquedas se basan
en la frecuencia de aparición de una o más palabras en un sitio web y sus relaciones
con otros sitios relevantes.
La segunda causa viene dada por la heterogeneidad de formatos que contienen la
información: textos en HTML y PDF, formatos XML, fotografía, vídeos, audios,
animaciones flash, etc. No hay una interoperabilidad sintáctica, de forma que para
cada tipo de formato se necesitan técnicas de rastreo diferentes y en algunos es
prácticamente imposible (o muy costoso) tratar de descubrir las palabras (fotografías,
vídeos o audio). Por lo tanto, parte de la información sigue sin estar al alcance de los
buscadores tradicionales.
La tercera causa es la ineficiencia de los sistemas de información actuales a la hora de
trabajar con el lenguaje. Esta ineficiencia se debe a la propia estructura de los
lenguajes humanos. Los sistemas de información no tienen interoperabilidad
semántica, no trabajan de forma cómoda con las polisemias, homonimias, no
entienden qué es un antónimo o un sinónimo, no saben comprender una palabra mal
escrita o con errores ortográficos, en definitiva, no saben trabajar con el significado
de los textos.
El resultado es que las búsquedas que obtenemos son:
Javier Iglesia Aparicio, 2014
Página 164
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
•
•
Menos precisas, exactas y relevantes de lo que desearíamos. Se devuelven
muchos documentos poco relevantes para la búsqueda ya que, la presencia
de una palabra clave en un documento, no implica necesariamente que
éste sea relevante.
Muy dependientes del vocabulario utilizado empleado en la búsqueda.
¿Pero qué resultados debemos esperar? Echemos un vistazo a esta viñeta:
¿Quién no quiere respuestas así de precisas?
Efectivamente, respuestas precisas y realmente útiles a cualquiera de las consultas que
hagamos a los buscadores. Esta es la visión que los científicos y técnicos que siguen
investigando la Web tienen en mente. Y el nombre de esa visión es Web Semántica,
que de forma concisa consiste en proporcionar más información dentro de los
documentos para que sean entendidos mejor por las máquinas (robots buscadores) y,
de esta forma, los procesen mejor y así nos ofrezcan mejores respuestas. Es decir, que
si, por ejemplo, existe un vídeo en la Web, éste vaya acompañado de un pequeño
fichero con un formato estándar en el que se describa qué contiene el vídeo.
Pero, algo tan sencillo de explicar no es nada fácil de llevar a cabo, pues, supone
cambiar la forma en que los documentos están ahora dispuestos en la red. E incluso,
aunque a partir de hoy todo se hiciera bien, habría que transformar toda la
información existente desde 1989 hasta ahora: un trabajo descomunal.
6.2 Los pasos hacia la Web semántica
La idea de Web Semántica está ya madura pero, el establecimiento de sus estándares y
procedimientos no ha sido tarea fácil. Antes de ello han existido iniciativas que han
ayudado a avanzar hacia esta nueva visión y que, en cierta manera, han aumentado el
Javier Iglesia Aparicio, 2014
Página 165
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
interés por la investigación de esta materia. Vamos a ver cuáles son los antecedentes
de la Web semántica.
6.2.1 Microformatos
Un microformato es una forma simple de agregar significado semántico a un
contenido legible por el humano y que para la máquina es sólo texto plano.
La idea es muy sencilla. Las páginas escritas en HTML contienen texto pero, no tienen
ninguna indicación del significado de ese texto. Pues bien, mediante los microformatos
trato de dar esa información semántica a los robots buscadores para que sepan qué
significa realmente una palabra.
Algunos estándares de microformatos
Veamos un ejemplo. Tenemos una página web en la que se informa sobre nuestra
información de contacto. En lenguaje HTML estará escrito de esta forma:
<p>Juan Fontanero</p>
<p>Restaurante Buen Comer</p>
<p>Tel: 604-555-1234</p>
Un buscador extraerá las palabras (Juan, Fontanero, Restaurante, Buen, Comer, etc.)
pero, no sabrá que Juan es un nombre propio, Fontanero es un apellido y Restaurante
Buen Comer el nombre de la empresa. Luego, la idea es ofrecer información extra al
buscador. Entonces usamos un microformato llamado hCard y escribimos lo siguiente
en HTML:
<div class="vcard">
<div class="fn">Juan Fontanero</div>
<div class="org">Restaurante Buen Comer</div>
<div class="tel">604-555-1234</div>
</div>
Si el buscador tiene entre sus reglas de procesamiento una lógica para entender el
microformato hCard identificará que es una información del tipo vcard, es decir,
información de contacto. Entonces sabrá que lo que venga detrás de class=”fn” es
Javier Iglesia Aparicio, 2014
Página 166
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
un nombre propio; que a continuación de class=”org” vendrá el nombre de una
organización; y que asociado a class=”tel” viene el número de teléfono.
Es necesario hacer notar que para el usuario humano no existirá diferencia cuando
esta información aparezca en la página web.
Desde el año 2005 han surgido varios estándares de microformatos. Los más utilizados
han sido creados y mantenidos por la comunidad Microformats
(http://microformats.org/). Estos son algunos de ellos:
× hCard, sirve para describir información personal de contacto, como ya hemos
visto en el ejemplo anterior.
× hCalendar, utilizado para representar información de la fecha de un evento.
Por ejemplo, si escribimos: “El partido de fútbol comienza el 5 de febrero de
2011 a las 20:00 y acaba ese mismo día a las 22:00. Se jugará en el Estadio
Nuevo.” Al transformarlo al microformato hCalendar, en la página web deberá
de ir de la siguiente información escrita:
<div class=”event”>
El <span class=”summary”>partido de fútbol</span> comienza el
<abbr
class=”dtstart”
title=”2011-02-05T20:00+01:00”>5
de
febrero de 2011 a las 20:00</span> y acaba <span class=”dtend”
title=”2011-02-05T22:00+01:00”> ese mismo día a las 22:00. Se
jugará en el <span class=”location”>Estadio Nuevo</span>.
</div>
El usuario humano entenderá perfectamente que el partido comienza el 5 de
febrero de 2011 a las 20:00. Y el usuario máquina se encontrará más cómodo
con la información <abbr class=”dtstart” title=”2011-02-05T20:00+01:00”>.
× geo, para proporcionar información geográfica de un lugar mediante latitud y
longitud.
× adr, microformatos para direcciones postales.
Existe también una versión microformatos de Dublin Core que se puede consultar en
http://webposible.com/microformatos-dublincore/ejemplosesta
dirección:
microformatos-dublincore.html
Por supuesto, este etiquetado con microformatos debe de hacerse de forma
automática. Es decir, que cuando en un gestor de contenidos una persona esté
introduciendo información, la aplicación, de forma automática, debe de escribir estos
microformatos. Es inviable que todos los documentos HTML tengan que ser editados a
mano para introducir esta información.
Y este es el principal problema de los microformatos. Aunque son una buena idea aún
hay gran cantidad de gestores de contenidos y de intranets de gestión de datos que no
incorporan esta información cuando generan las páginas webs.
Javier Iglesia Aparicio, 2014
Página 167
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
6.2.2 Metadatos
Cuando hemos hablado sobre la interoperabilidad ya ha surgido el concepto de
metadatos y hemos hablado de uno de ellos: Dublin Core. Los metadatos son
actualmente la implementación más cercana a lo que será una futura web semántica.
Ofrecen información adicional sobre los datos que contiene una página web. Y
precisamente, esto es lo que la Web Semántica pide para poder dar como resultado
búsquedas más precisas.
Elaborar un estándar de metadatos exige el consenso de un amplio grupo de personas.
Es necesario ponerse de acuerdo en qué elementos contendrá, cuáles serán
obligatorios u opcionales, en qué formato se escribirán (texto, número, etc.). Este es
un esfuerzo que generalmente se realiza entre personas dedicadas a un mismo ámbito
de estudio o de negocio.
Antes de continuar veamos algunos ejemplos de metadatos aparte del ya conocido
Dublin Core:
× ID3, actualmente en su versión 2.0, sirve para etiquetar la información que
contiene un archivo audiovisual con datos como título, artista, álbum, año, etc.
Aquí se puede consultar la información oficial: http://www.id3.org/.
× LOM (Learning Object Metadata), especificación dirigida a la descripción de
objetos digitales de educación. Además de los datos descriptivos de un objeto
permiten señalar sus características pedagógicas y didácticas. Esta es su
especificación
oficial:
http://ltsc.ieee.org/wg12/files/LOM_1484_12_1_v1_Final_Draft.pdf.
× SCORM (Shareable Content Object Reference Model), para definir contenidos
pedagógicos estructurados.
× EXIF (Exchangeable Image File Format), para etiquetar información de
fotografías como la fecha y la hora y las características de la cámara.
× PBCore (Public Broadcasting Metadata Dictionary), basado en Dublin Core,
permite describir emisiones audiovisuales proporcionando información sobre la
propiedad intelectual y el contenido.
× MARC (Machine Readable Cataloging) y MODS (Metadata Object Description
Schema). Para describir recursos bibliográficos.
× CDWA (Categories for the Description of Works of Art), para describir
información sobre obras de arte y otros objetos de cultura material.
Hemos podido comprobar que todos son para ámbitos muy específicos. Sólo Dublin
Core parece querer abarcar un espectro más amplio de documentos. Por lo tanto, nos
encontramos con ha habido muchos esfuerzos grupales que han dado lugar a
especificaciones de metadatos aceptadas pero que, a su vez, estas especificaciones no
se entienden entre sí. Es decir, nada tienen que ver la descripción ID3 de un archivo de
sonido con la LOM de un objeto digital de educación. Y, por supuesto, es difícil que los
robots buscadores sean tan inteligentes como para entender todas y cada una de las
especificaciones de metadatos existentes.
Javier Iglesia Aparicio, 2014
Página 168
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Pero algo es algo. Las máquinas que alojan contenidos pertenecientes a una misma
área de conocimiento parece que ya pueden entenderse entre sí.
Estándares de metadatos
6.2.3 Vocabularios estructurados: tesauros en la red
En los capítulos anteriores han aparecido, frecuentemente, las palabras folcsonomía,
etiqueta, clasificación social, etcétera. Parece como que todo el esfuerzo invertido
durante generaciones por los estudiosos de las diversas áreas del conocimiento en
realizar clasificaciones o taxonomías no fuera útil en la Web.
Nada más lejos de la realidad. El uso de folcsonomías y taxonomías no está reñido.
Sólo que, cada uno, tiene su ámbito de aplicación. Las taxonomías van a ser una parte
importante de la Web semántica como veremos más adelante. Pero estas taxonomías,
en muchos casos, ya se encuentran volcadas en la Web en formatos útiles para los
sistemas de información. Nos estamos refiriendo a los vocabularios estructurados y, en
concreto, a los tesauros.
Un tesauro es un vocabulario controlado de términos que tienen entre sí relaciones
semánticas y jerárquicas y que se aplica a un determinado dominio del conocimiento.
Simplificando, en un tesauro la sinonimia es una relación de equivalencia; el grado en
que un término representa la parte o el todo se representa por relaciones jerárquicas;
y los términos semánticamente relacionados se indican por relaciones asociativas.
Veamos un ejemplo. Supongamos una palabra que puede significar dos cosas
completamente distintas: toro. Por un lado, es un animal y, por otro, una forma
geométrica. De una forma esquemática en un tesauro se definirían así:
Javier Iglesia Aparicio, 2014
Página 169
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
− Matemáticas > Geometría > Formas geométricas > Volúmenes > Toro
− Zoología > Vertebrados > Mamíferos > Bóvidos > Toro
Si de alguna forma, en cada documento disponible en la Web hubiera información de
este tipo para cada uno de los vocablos que contiene, seguro que los resultados de las
búsquedas serían realmente precisos.
Elaborar un tesauro es una tarea costosa y que necesita de un amplio grupo de
personas. Afortunadamente existen tesauros de uso libre en algunos campos como,
por ejemplo, la educación. Este es el caso de LRE (Learning Resource Exchange for
Schools) cuyos datos están disponibles para ser descargados en varios idiomas (el
español entre ellos) en http://lre.eun.org/node/87.
El listado de resultados que se obtenga es mucho menor que el obtenido es un motor
de búsqueda convencional, pero, en esta ocasión, podemos estar seguros de que
todos ellos son pertinentes casi al 100%.
6.3 ¿Qué es la Web Semántica?
Según el W3C 22, la Web semántica es “una Web extendida, dotada de mayor
significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus
preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al
dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden
obtener soluciones a problemas habituales en la búsqueda de información gracias a la
utilización de una infraestructura común, mediante la cual, es posible compartir,
procesar y transferir información de forma sencilla. Esta Web extendida y basada en el
significado, se apoya en lenguajes universales que resuelven los problemas
ocasionados por una Web carente de semántica en la que, en ocasiones, el acceso a la
información se convierte en una tarea difícil y frustrante.”
El objetivo final es definir un medio universal que, aparte de ser inteligible para los
humanos, lo sea también para las máquinas y así demos la posibilidad de que éstas nos
den resultados más concretos. Es la web de los datos estructurados. Esta nueva Web
es una vieja aspiración de su creador, Tim Berners-Lee, quien ya en el año 2000,
propuso: “La nueva información debe ser reunida de forma que un buscador pueda
comprender, en lugar de ponerla simplemente en una lista”.
22
Web.
World Wide Web Consortium, entidad que se ocupa de la definición de estándares para la
Javier Iglesia Aparicio, 2014
Página 170
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
La Web actual es un entrelazado de enlaces entre páginas HTML. La futura Web será un entrelazado
de conceptos relacionados semánticamente.
Para que estos datos estructurados sean de verdad entendidos por las máquinas es
necesario crear nuevos estándares que describan el contenido de los distintos recursos
disponibles de la red. Estos estándares han de ir más allá de lo que hasta el momento
hemos ido estudiando.
Los microformatos sólo sirven para etiquetar una información extremadamente
concreta (una localización, un contacto, un evento, etcétera). Los metadatos y los
tesauros abarcan contenidos más amplios pero, sólo en ámbitos cerrados de uso
(educación, bibliotecas, museos, fotografías, etc.).
Si se quiere estructurar la totalidad del significado de los contenidos de la Web es
preciso proponer nuevas formas de descripción del conocimiento. Por eso el W3C ha
desarrollado una serie de nuevos conceptos y estándares que conforman la base de la
siguiente revolución Web. Pero, antes de profundizar en estos fundamentos veamos
qué permitirá la Web semántica.
6.3.1 ¿Qué permitirá la Web semántica?
Ante todo obtener resultados y respuestas más precisas a nuestras consultas, a
peticiones que ahora mismo sabemos que no van a obtener la contestación deseada.
Si preguntamos a Google: “Búscame todos los electricistas existentes a 5 kilómetros a
la redonda de mi posición y lístame primero los más baratos” estamos seguros, a día de
hoy, de que no vamos a obtener la respuesta que desearíamos: “Fulanito, 40 € la hora.
Su teléfono es…”.
Javier Iglesia Aparicio, 2014
Página 171
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Posibles aplicaciones de la web semántica
Esta futura potencia de búsqueda será aplicable en multitud de campos dando lugar a:
•
•
•
•
•
•
Buscadores semánticos. Las tecnologías de Web semántica van a permitir
construir buscadores de tercera generación (buscadores semánticos). Estos
buscadores van a complementar las soluciones de búsqueda tradicionales,
haciéndolas mucho más ricas, ya que no sólo se buscará en el universo Web la
ocurrencia de ciertas palabras clave, sino que también se buscará atendiendo al
significado (semántica) de dichas palabras clave en un contexto.
Agentes personales inteligentes. Aprenderán de nuestras búsquedas y nos
guiarán hacia los mejores resultados. Una primera aproximación son los
actuales sistemas de recomendación de comercios en línea como Amazon.
Aplicaciones de integración de fuentes de datos heterogéneas. Se ocupan de
obtener, agrupar y correlacionar información dispersa en Internet sobre un
dominio, como, por ejemplo, deportes o noticias.
Aplicaciones de anotación semántica de contenidos multimedia. Permiten
catalogar los contenidos multimedia de forma semántica, pudiéndose realizar
catálogos de contenidos personalizados, descubrir nuevos recursos multimedia
de interés para el usuario, etc.
Aplicaciones de adaptación automática de contenidos basándose en la
anotación semántica de los mismos. La idea que subyace en estas aplicaciones
es que los contenidos web sean adaptados dinámicamente teniendo en cuenta
su semántica y la personalización asociada al usuario. Actualmente existen
mecanismos automáticos de adaptación de contenidos, pero basados
únicamente en aspectos sintácticos de las páginas. [espacio párrafos quitado]
Aplicaciones para las empresas. Bajo este punto aparecen todas aquellas
aplicaciones de la web semántica encaminadas a mejorar los mecanismos
actuales de gestión de las empresas, explotando al máximo el nuevo abanico de
posibilidades que ofrecen las tecnologías y plataformas de web semántica.
Javier Iglesia Aparicio, 2014
Página 172
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
6.3.2 Concepto de ontología
El primer paso para el procesamiento informático del conocimiento es la
representación formal de dicho conocimiento. Uno de los recursos disponibles para
realizar esta labor es la ontología.
Siguiendo a Silvia Arano 23, “Una ontología es una representación formal del
conocimiento donde los conceptos, las relaciones y las restricciones conceptuales son
explicitadas mediante formalismos en un determinado dominio. […] la ontología es una
representación formal y explícita de la estructura conceptual del campo sobre el que se
trabaja. Este recurso lingüístico incluye como mecanismo de inferencia a la herencia,
que implica una economía en la codificación de la información: los conceptos
superiores transmiten sus características a los conceptos inferiores”.
Una ontología contiene definiciones que nos proporcionan un vocabulario para
referirse a un determinado área de conocimiento, a un conjunto de conceptos (como
cosas, propiedades, eventos y relaciones), que se especifican, por ejemplo, en lenguaje
natural con el objetivo de crear un idioma común para intercambiar información. Ese
vocabulario se define mediante un conjunto de términos básicos y relaciones entre
dichos términos, así como las reglas que combinan los términos y las relaciones que
permiten ampliar las definiciones dadas en el vocabulario. Por tanto, una ontología es
una forma de ver el mundo, ya que determina los términos a utilizar para describir y
representar un determinado área de conocimiento, haciendo énfasis en compartir y
reutilizar el conocimiento y el consenso en la representación de éste.
La utilización de las ontologías aporta una serie de beneficios, ya que:
•
•
•
•
Proporcionan una forma de representar y compartir el conocimiento utilizando
un vocabulario común.
Permiten usar un formato de intercambio de conocimiento.
Hacen posible un protocolo específico de comunicación.
Facilitan la reutilización del conocimiento.
En la Web semántica, las ontologías capturan un conocimiento consensuado de un
modo genérico, de forma que pueda ser compartido y reutilizado por distintos grupos
de personas y aplicaciones de software. Una de las condiciones para que funcione la
Web semántica es que el contenido de los documentos se presente por medio de la
utilización de ontologías que sean públicas y accesibles, de uso común y, a ser posible,
normalizadas. Así, estos documentos con contenido semántico podrán ser utilizados
por robots software.
La idea es que la Web semántica está formada, al menos en parte, por una red de
nodos tipificados e interconectados mediante clases y relaciones definidas por una
ontología compartida por sus distintos autores.
23
ARANO, Silvia. “La ontología: una zona de interacción entre la Lingüística y la Documentación”
[en línea]. Hipertext.net, núm. 2, 2003. [ref. de 5 de febrero 2014]. Disponible en Web:
<http://www.upf.edu/hipertextnet/numero-2/ontologia.html>
Javier Iglesia Aparicio, 2014
Página 173
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Tratemos de aclararlo con un ejemplo. Supongamos que se ha establecido una
ontología sobre cuadros y pintura. Un museo virtual puede organizar sus contenidos
creando instancias concretas de esos conceptos para cada uno de los pintores y
cuadros que se exponen en dicho museo, interrelacionándolas y publicándolas en la
Web.
En este sentido, la adopción de ontologías comunes es clave para todos los que
participen de la Web semántica. Así, por ejemplo, varios museos podrán colaborar
para dar lugar a un gran metamuseo que integre los contenidos de todos ellos. Un
programa que navegue por una red como esta puede reconocer las distintas unidades
de información, obtener datos específicos o razonar sobre relaciones complejas. Todo
esto permitiría, por ejemplo, distinguir entre un cuadro pintado por un artista y un
retrato de un artista. De forma que cuando una persona busque un “retrato de
Velázquez”, le muestre todos los cuadros del museo en los que aparece un retrato del
pintor Velázquez y no todos los retratos que pintó Velázquez de diferentes personajes.
6.3.3 Niveles de ontología
Generalmente se describen primero ontologías superiores, no muy detalladas, que
pueden ser extendidas para describir nuevos ámbitos de conocimiento y que pueden
hacer de puentes de unión con otras ontologías superiores de otros dominios de
conocimiento. En la imagen sería aquella que deriva de Cosa (Thing) a Vehículo
(Vehicle).
El siguiente paso es definir la ontología de Vehículo, una ontología de nivel inferior. En
el ejemplo se diferencia entre vehículos terrestres, marítimos y aéreos y se desarrolla
sólo esta última parcela de la realidad. Se sigue creando una taxonomía diferenciando
entre helicóptero y avión y, dentro de éste último, diferencia tres tipos más.
Travis Breaux: ejemplo de diferentes niveles de ontologías.
En último lugar, están las instancias, es decir, representaciones individuales de
entidades existentes en la realidad.
Javier Iglesia Aparicio, 2014
Página 174
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
6.3.4 Proceso de construcción de una ontología
No existe un proceso único para la construcción de ontologías aunque, sí se pueden
diferenciar estos pasos generales:
•
Determinar el ámbito y el alcance de la ontología.
•
Buscar si existen ontologías ya definidas que nos puedan servir de base. Esta es
una parte fundamental, pues, interesa reutilizar no construir todo de nuevo. ¿Y
cómo se puede saber qué ontologías están disponibles? Podemos tratar de
encontrar ontologías públicas ya desarrolladas mediante Swoogle
(http://swoogle.umbc.edu/)
o
en
DAML
Ontology
Library
(http://www.daml.org/ontologies/).
•
Definir la clases o conceptos del ámbito de conocimiento que queremos
abarcar.
•
Ordenar las clases creando una taxonomía, una jerarquía.
•
Definir las propiedades de las clases y los valores que pueden tomar: tipo de
valor (texto, número, fecha…), cardinalidad, rango, etc.
•
Completar los valores de las propiedades para cada una de las instancias reales
que puedan existir.
Aparte de los paquetes comerciales, existen herramientas de software libre que
facilitan este proceso. Las más usadas son Protégé (http://protege.stanford.edu/) y
KAON (http://kaon2.semanticweb.org/). La construcción de ontologías creará un
nuevo ámbito de trabajo: el de los ontologistas o ingenieros de ontologías.
6.4 Datos enlazados y datos abiertos
La descripción de los ámbitos de conocimiento mediante metadatos u ontologías es
básica para conseguir hacer real la web semántica. Pero, es igual de importante que los
datos disponibles en la red se puedan relacionar entre sí de una forma estructurada y
que, además, dichos datos sean accesibles por el mayor número de servicios y
aplicaciones posibles. Por ello, el segundo pilar de la web semántica es la existencia de
datos con enlaces estructurados y abiertos.
6.4.1 Datos enlazados
Todos ya estamos acostumbrados a navegar en la Web y conocemos el concepto de
hiperenlace que se ha visto materializado en las páginas HTML. Si estamos escribiendo
un documento sobre un país y, queremos hacer referencia a su población, lo más
probable es que acompañemos ese dato de un enlace a aquella fuente de Internet de
Javier Iglesia Aparicio, 2014
Página 175
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
donde lo hemos obtenido. Este hiperenlace es interpretado por nosotros de la forma:
número de habitantes según el organismo x. Pero, de nuevo, los rastreadores web, el
entorno de las máquinas, no pueden entender esta asociación. Es necesario
acompañar este enlace de alguna información adicional que indique por qué, bajo qué
circunstancias o, mejor expresado, cuál es la relación de significado bajo la que se
realiza esta relación.
Para que esto sea posible necesitamos que los datos disponibles en la web ya estén
estructurados mediante metadatos, ontologías u otros estándares de la web semántica
como RDF o SKOS, que veremos más adelante. Es lo que se llama datos enlazados o,
en inglés, linked data.
Ejemplo de enlace estructurado
Estructurar datos es un esfuerzo que no es asumible por un reducido número de
personas. Necesita de equipos amplios, en muchos casos interdisciplinares y también
del apoyo de organismos e instituciones de prestigio. Actualmente, existe un número
creciente de sitios web dedicados a esta tarea aprovechando incluso datos que están
siendo categorizados de forma desinteresada por usuarios de todo el mundo. La
iniciativa más madura y que se ha convertido en el núcleo central de esta red de datos
enlazados es Dbpedia (http://dbpedia.org).
Dbpedia es una iniciativa alemana que se ocupa de extraer información estructurada
de la enciclopedia Wikipedia. Durante muchos años, los usuarios de Wikipedia han ido
organizando los artículos en categorías, subcategoría; han creado fichas estructuradas
de datos; han relacionado unos conceptos con otros… Todo este esfuerzo es el que
Dbpedia trata de aprovechar para facilitar la estructuración de los datos contenidos en
otros sitios web. El producto final es una base de datos descrita en RDF y que además
es de uso libre. Cada concepto ofrecido por Dbpedia tiene una URI como esta:
http://dbpedia.org/resource/Spain.
Javier Iglesia Aparicio, 2014
Página 176
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Otra iniciativa importante es Freebase (http://www.freebase.com/). Es una base de
datos estructurados –adquirida en 2010 por Google- que se apoya como ninguna otra
en las acciones de sus usuarios. Son ellos los encargados de clasificar el conocimiento
en entidades (ya tienen cerca de 20 millones), siendo una entidad una cosa, un lugar,
una personas... Esas entidades están conectadas y enriquecidas por la comunidad.
Toda esta información se almacena usando el estándar RDF. Cuando tratamos de
buscar en Freebase no podemos usar cualquier término. En cuanto empezamos a
escribir nos muestra una sugerencia y tenemos que elegir una de ellas. Una vez que lo
hemos elegido, nos presenta información sobre el término y multitud de información
relacionada: otros términos, libros, profesionales, congresos, empresas, etc.
Por ejemplo, esta es la información
http://www.freebase.com/view/en/spain.
sobre
el
concepto
España:
Resultado de búsqueda en Freebase
Además
dispone
de
herramientas
como
Google
Refine
(http://code.google.com/p/google-refine/) que permite almacenar información
recogida de la Web y conectarla con la base de datos de Freebase.
6.4.2 Datos abiertos
El esfuerzo de estructuración de datos no sirve de nada si no disponemos de datos
actualizados, fiables y disponibles. Si bien, no se puede pedir que todos los datos sean
accesibles de forma gratuita y universal, la gran mayoría de las administraciones o de
las instituciones de carácter público poseen datos de interés que deben de estructurar
Javier Iglesia Aparicio, 2014
Página 177
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
y de poner al servicio del conocimiento en la Web sin restricciones de copyright u otros
mecanismos de control. Es los que se llama datos abiertos (open data).
Desde el año 2009 son cada vez las instituciones públicas que se suman a la comunidad
Open Data, aunque predominan en el mundo anglosajón. La primera iniciativa fue la
promovida por data.gov (http://data.gov), sitio del gobierno de los Estados Unidos de
América cuyo objetivo es proporcionar datos válidos, fiables y que puedan ser
entendidos por las máquinas. Iniciativas similares han aparecido también en el Reino
Unido (data.gov.uk), Australia (data.gov.au) y Canadá (data.gc.ca).
En España, aunque con algo de retraso, existen cada vez más iniciativas como, por citar
algunos, en Asturias (http://datos.fundacionctic.org/), gracias a la labor de la
Fundación CTIC, en Castilla y León (http://www.datosabiertos.jcyl.es/) o en el País
Vasco (http://opendata.euskadi.net/w79-home/es/).
Por último, para todos los que estéis interesados en profundizar este campo, merece la
pena hacer referencia a otros tres sitios web. El primero, es un buscador de datos
abiertos The Data Hub (http://thedatahub.org/), que permite obtener sitios web que
ofrecen datos abiertos así como el formato en que son ofrecidos. El segundo, es la
página de la Open Knowledge Foundation (http://okfn.org/), iniciativa fundada en
2004 para promover el uso de los datos abiertos. Y la tercera, es
(http://www.opendefinition.org/), que trata de estandarizar la definición de
conocimiento, dato, contenido y servicio abiertos.
Algunos proyectos citados en temas anteriores, como es el caso de Europeana,
también participan ya de esta filosofía: http://pro.europeana.eu/web/guest/re-usedata.
6.4.3 Datos enlazados y abiertos
Por lo tanto, la red de sitios web que hará posible la existencia de una web realmente
semántica debe de proporcionar datos abiertos y con relaciones estructuradas entre sí,
es decir, usando la terminología inglesa, tienen que ofrecer Linked Open Data.
Para que otros sitios web puedan hacer referencia a estos datos es crucial disponer de
un punto de información acerca de qué datos están disponibles y quién los
proporciona. Esta es la labor de la comunidad Linked Open Data
Javier Iglesia Aparicio, 2014
Página 178
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
(http://linkeddata.org/). Cada vez son más los nodos de información que se van
incorporando a la red. Mientras que en 2007 solo había 12 nodos, actualmente, la red
ha crecido considerablemente.
La red de Linked Open Data en mayo de 2007
El último grafo de la red
está disponible
http://richard.cyganiak.de/2007/10/lod/imagemap.html.
en
esta
dirección:
Los datos públicos y enlazados son cada vez más relevantes y serán la base de una
nueva forma de buscar y de obtener la información. Por supuesto, el buscador líder no
podía obviar este hecho y ya proporciona un interfaz de consulta de este tipo de datos.
De momento la información que muestra es limitada pero seguro que irá creciendo de
forma progresiva. Se trata de su servicio Google Public Data Explorer
http://www.google.com/publicdata/directory.
6.5 Estándares de la Web semántica
Durante varios años de desarrollo e investigación, el W3C ha ido desarrollando una
serie de tecnologías con las que debe de ser factible construir desde un punto de vista
técnico la Web semántica. Como en muchos modelos de tecnología informática, el
conjunto se dispone en una serie de capas, cada una de las cuales realiza una función
interactuando con sus adyacentes. El modelo de capas de la Web Semántica se
muestra en la siguiente imagen.
Javier Iglesia Aparicio, 2014
Página 179
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Dos representaciones de la pila de tecnologías de la Web semántica
Su base son los datos que están codificados en Unicode y se encuentran disponibles en
una URI (Uniform Resource Identifier), en una dirección unívoca y accesible.
Todos los datos y metadatos estarán estructurados en un mismo metalenguaje de
marcado, XML (eXtensible Markup Languaje). XML permite desarrollar fácilmente
otros lenguajes gracias a la creación de esquemas. Todos los estándares de Web
semántica que veremos a continuación se escriben usando XML. Son la sintaxis y la
gramática con las que escribir bien cualquier cosa en la Web semántica.
La Web actual ya utiliza en gran medida esta estructura base. A continuación veremos
con un poco más de detalle las capas semánticas.
Javier Iglesia Aparicio, 2014
Página 180
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Estándares de la Web semántica
6.5.1 RDF y RDFS
RDF (Resource Description Framework) y RDFS (Resource Description Framework
Schema) son la columna vertebral de la Web semántica. RDF permite describir recursos
de una forma similar a los metadatos. Los recursos pueden ser páginas web pero,
también otras cosas como valores estáticos definidos en otros estándares de
metadatos como, por ejemplo, Dublin Core. Una descripción RDF es una tripleta, es
decir, tiene tres partes:
•
Lo que se describe.
•
Las propiedades de lo que se describe.
•
Los valores de las propiedades de lo que se describe.
Es similar a la estructura sujeto, objeto y predicado. De esta forma se van describiendo
grafos de cada recurso.
Veamos cómo funciona con un sencillo ejemplo: El libro La Divina Comedia fue escrito
por Dante. Identifiquemos las tres partes esenciales de esta descripción:
•
El libro La Divina Comedia es lo que estoy describiendo. Es el sujeto.
•
El libro La Divina Comedia tiene una propiedad: autor. Es el predicado.
•
La propiedad autor tiene un valor: Dante. Es el objeto.
Y a partir de estos datos puedo inferir más cosas: lo que describo es un Libro y un
Libro tiene una propiedad llamada título.
RDFS proporciona los medios para describir simples taxonomías (conceptos) que
agrupan los datos RDF dando lugar a conjuntos más complejos. Siguiendo con el
ejemplo anterior, con RDFS definimos que una clase de objeto llamada Libro tiene
dos propiedades: autor y título.
Javier Iglesia Aparicio, 2014
Página 181
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Pues bien, si ahora tenemos un documento PDF en la Web que contiene el texto de La
Divina Comedia podemos describirlo mediante RDF haciendo uso de los metadatos de
Dublin Core que ya conocemos. Esta sería la sintaxis RDF:
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc=http://purl.org/dc/elements/1.0/>
<rdf:Description
rdf:about="http://www.librosgratisweb.com/pdf/alighieridante/divina-comedia.pdf">
<dc:title>La Divina Comedia</dc:title>
<dc:creator>Dante Alighieri</dc:creator>
</rdf:Description>
</rdf:RDF>
6.5.2 OWL
OWL (Web Ontology Language) es un mecanismo para describir temas o vocabularios
específicos en los que asociar esos recursos que antes hemos visto descritos en RDF. Lo
que hace OWL es proporcionar un lenguaje para definir ontologías estructuradas que
pueden ser utilizadas a través de diferentes sistemas. OWL define clases, propiedades
e individuos y las relaciones entre esos elementos. Estas descripciones son mucho más
complejas que las permitidas por RDF. Con OWL se puede definir que “un libro de
papel es distinto de un libro electrónico” o que un libro “puede tener uno o más
autores” y que “un autor puede haber escrito uno o más libros”.
De esta forma se podrá “preguntar” a la ontología y se podrá razonar sobre ella para
obtener respuestas adecuadas.
6.5.3 Consultas y reglas (SPARQL y RIF)
La siguiente capa tiene que realizar preguntas a los datos estructurados por las capas
anteriores. Para ello existen dos tecnologías:
SPARQL (Simple Protocol and RDF Query Language) es un lenguaje de consulta sobre
RDF, que permite hacer búsquedas sobre los recursos de la Web Semántica utilizando
distintas fuentes datos.
RIF (Rule Interchange Format) es un familia de lenguajes para definir reglas del tipo si
ocurre cierta condición entonces se llega a una conclusión. Está muy relacionada con la
lógica y sirve, sobre todo, para definir reglas específicas de conversión de datos para
ámbitos específicos de aplicación, extendiendo o constriñendo los modelos de datos
definidos por OWL y RDF.
6.5.4 Las capas superiores
Las capas superiores apenas están actualmente desarrolladas y son definidas de forma
muy imprecisa.
Javier Iglesia Aparicio, 2014
Página 182
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Capa Lógica
Una capa de lógica matemática que reconcilie las diferentes partes del modelo
semántico (RDF, RDFS, OWL, SPARQL y RIF) creando un modelo teórico consistente y
holístico. Será un interfaz lógico unificado de datos y reglas que podrá ser usado por
cualquier aplicación pero, aún no existe ninguna implementación técnica estándar.
Prueba, confianza y criptografía
Debido a que la Web semántica incorpora niveles de inteligencia artificial sin
precedentes, debemos asegurarnos de que las aplicaciones obtienen resultados a las
consultas realmente apropiados y de confianza. Esto será muy importante pues habrá
casos en los que, por ejemplo, una aplicación web monitorice constantemente las
señales vitales de una persona y pueda recomendar acciones drásticas cuando detecta
ciertas combinaciones para tratar de mantenerla con vida.
El elemento de prueba intenta proporcionar una forma matemáticamente correcta de
explicar qué inferencias y qué reglas han llevado a una recomendación o una
conclusión en concreto. Es una vía para que los humanos puedan validar lo que el
software de las máquinas ha inferido.
El elemento de confianza proporciona medios para comprobar de forma numérica la
integridad de los resultados, de forma que podamos distinguir aquellos datos que
tienen más posibilidades de ser buenos de los que parecen ser erróneos.
Por último, la criptografía abarcará a todas las capas de la Web semántica para
asegurar que los datos intercambiados no pueden ser entendidos nada más que por
las partes necesariamente implicadas.
6.5.5 Otras tecnologías relacionadas
Existen algunos otros estándares que, aunque no pertenecen a esa pila que ya hemos
descrito también han sido recomendados por el W3C con el objeto de facilitar el
cambio hacia la visión de la Web semántica. Estas son algunas de esas tecnologías:
•
•
•
GRDDL (Gleaning Resource Descriptions from Dialects of Languages), un estándar
que permite codificar documentos XML y XHTML ya existentes con metadatos
extra para que sean más fácilmente convertibles a RDF.
SAWSDL (Semantic Annotation for Web Service Description Language), para anotar
servicios web con RDF y OWL.
RDFa (Resource Description Framework in Attributes). Mediante RDFa se pueden
representar los datos estructurados visibles en las páginas Web (eventos en
calendarios, información de contacto personal, información sobre derechos de
autor, etc.), a través de unas anotaciones semánticas incluidas en el código e
invisibles para el usuario, lo que permitirá a las aplicaciones interpretar esta
información y utilizarla de forma eficaz. Por ejemplo, una aplicación de calendario
Javier Iglesia Aparicio, 2014
Página 183
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
podría importar directamente los eventos que encuentra al navegar por cierta
página Web, o se podrían especificar los datos del autor de cualquier foto
publicada, así como la licencia de cualquier documento que se encuentre.
•
SKOS (Simple Knowledge Organization System) construido en RDF, se usa para
proporcionar un punto de partida para los desarrolladores que buscan crear sus
propios vocabularios.
6.6 Buscadores semánticos
Desde un punto de vista técnico, un buscador semántico es una aplicación que
comprende las búsquedas de los usuarios y los textos de los documentos de la web
mediante el uso de algoritmos que simulan comprensión o entendimiento, y que, a
partir de éstos, proporciona resultados correctos sin que el usuario tenga que abrir el
documento e inspeccionarlo por sí mismo. Un buscador de este tipo reconoce el
contexto correcto para las palabras o sentencias de búsqueda.
Google o Yahoo no son buscadores semánticos, pues, como ya hemos visto, se basan
en algoritmos que generan estadísticas a partir de palabras y enlaces, y no en
algoritmos cognitivos que capturen el significado. Por ejemplo, una búsqueda como
"¿Quién fue Júpiter?" en cualquiera de esos buscadores devolverá resultados afines al
planeta del Sistema Solar, cuando está claro que el propósito de la búsqueda es
encontrar información sobre el dios romano.
Los buscadores semánticos no siempre pueden acertar a la primera el significado de
una palabra polisémica. Por tanto, deben disponer de medios de desambiguación para
conocer el sentido exacto que tiene la palabra en la búsqueda. Por ejemplo, un
buscador semántico que utilice internamente ontologías con conceptos informáticos y
medios de transporte deberá disponer de herramientas para determinar a qué se
refiere el usuario cuando hace una consulta con la palabra bus, que puede significar
autobús o "sistema digital que transfiere datos entre los componentes de un
computador o computadores". Para ello, puede escoger el significado más probable,
preguntar al usuario para que elija entre varias opciones o usar las demás palabras de
la búsqueda para inferir el significado exacto de bus en ese contexto (por ejemplo, en
una consulta como "¿A qué hora sale este viernes el bus para Burgos desde Sevilla?").
Como un buscador semántico se basa en algoritmos que simulan la comprensión de las
palabras y, por lo tanto, establece relaciones entre ellas, puede realizar búsquedas de
interés para el usuario aunque en los documentos devueltos no figuren las palabras o
expresiones de búsqueda. Por ejemplo, un buscador semántico en el que se
introdujera la palabra "marsupial" mostraría documentos donde aparecerían términos
como éstos: canguro o koala.
Actualmente, la falta de estructura y de anotaciones semánticas en los recursos de la
web (audiovisuales, PDF, páginas HTML, animaciones Flash, etc.) obliga a que los
buscadores semánticos analicen mediante algoritmos cognitivos los recursos, palabra a
palabra y oración a oración, para asignar las palabras y oraciones a conceptos
Javier Iglesia Aparicio, 2014
Página 184
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
ontológicos. Estos algoritmos son lentos y requieren supervisión humana. De ahí que
los buscadores semánticos no cubran por ahora tantos recursos de la web como los
convencionales, que emplean algoritmos estadísticos, mucho más rápidos y
completamente automatizados. Esta limitación desaparecerá cuando se vayan
mejorando los algoritmos cognitivos y en cuanto las islas semánticas se unan para
formar la Web semántica.
A falta de la Web semántica ya existen buscadores semánticos que trabajan
estructurando la información a la que luego se accede mediante búsquedas, pues
resulta posible obtener cierto nivel de conocimiento semántico a partir de la
estructura de los datos. La mayoría usan el procesamiento de lenguaje natural (NLP)
para determinar entidades y sus relaciones.
En principio, los buscadores semánticos podrían evitar las páginas basura, que
proliferan en la Web. Como tienen en cuenta el contexto de las palabras o frases de los
documentos, podrían descartar esas páginas enseguida. Por ejemplo, una página web
que incluya la frase "web semántica" rodeada de frases de contenido sexual sería
eliminada de cualquier búsqueda semántica o tendría una relevancia muy baja: el
contexto de estas últimas frases (sexo) no tiene ninguna relación con la web
semántica.
Que un buscador permita introducir preguntas en lenguaje natural ("¿Qué tiempo hace
ahora en Viena?") y las responda correctamente no significa necesariamente que sea
un buscador semántico: puede que solamente traduzca las preguntas en lenguaje
natural a consultas sobre una base de datos.
Por el momento, casi todos los buscadores semánticos permiten solamente búsquedas
en inglés, aunque se están ampliando para que admitan otras lenguas. Aparte del
predominio del inglés, la causa de eso se debe también a las dificultades inherentes a
reflejar el conocimiento de los lenguajes naturales en estructuras de datos que
permitan búsquedas rápidas y escalables (matrices, listas, pilas, colas, árboles, grafos,
etc.).
Se equivocará quien piense que, teniendo una ontología de significados de palabras en
inglés, resulta sencilla su conversión a una ontología en otro idioma: la conversión de
ontologías lingüísticas de un idioma a otro es un proceso muy complejo y que requiere
la supervisión constante de un equipo de traductores. Por poner un ejemplo, si
queremos pasar de una ontología lingüística en español a una en inglés, debemos
considerar todas las posibles traducciones al inglés de cada palabra española; en caso
contrario, los resultados de las búsquedas en inglés estarán más limitados que los de
las búsquedas en español. El ejemplo más claro es la relación entre el verbo to be en
inglés que puede ser los verbos ser o estar en español, según el contexto.
6.6.1 Ejemplos de buscadores semánticos
Estos son algunos de los ejemplos existentes actualmente de buscadores semánticos.
No son buscadores semánticos al 100% que hagan uso de ontologías en el sentido
Javier Iglesia Aparicio, 2014
Página 185
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
estricto, pero tratan de usar algoritmos de inferencias y de aprender a partir de las
propias búsquedas de los usuarios.
•
Mnemomap (http://www.mnemo.org/). Buscador que a partir de la
introducción de un término elabora un gráfico visual indicando palabras que
pueden estar relacionadas bien porque son sinónimos, traducciones o estén
relacionados de otra forma. Los mejores resultados se obtienen, de momento,
usando inglés. El gráfico muestra el resultado para la palabra car (coche en
inglés).
Resultado de Mnemomap para el término car
En la parte inferior se muestran los resultados al modo tradicional encontrados
en la Web, en Digg, en Delicious, de imágenes y en Youtube.
24
•
Quintura (http://www.quintura.com/). Para niños. Proporciona una nube de
etiquetas con términos relacionados con aquello que hemos buscado.
•
Hakia (http://www.hakia.com/). Es uno de los mejor considerados. Su
tecnología no se basa únicamente en la indexación sino que, tiene en cuenta
los cambios de género y número de las palabras, los sinónimos, las
generalizaciones y otros muchos de los problemas del lenguaje natural tal y
como explican en su web 24. Los resultados se presentan categorizados según
su naturaleza: enlaces de páginas web, fotografías, blogs, vídeos, tuits, etc. Es
interesante que algunos los agrupa bajo la categoría Credible con lo que
pretende seleccionar aquellos que son relevantes y procedentes de fuentes
fiables.
Véase más información en: http://company.hakia.com/new/whatis.html
Javier Iglesia Aparicio, 2014
Página 186
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Categorías de resultados de Hakia
•
Cluuz (http://www.cluuz.com/). Es un buscador que proporciona numerosa
información sobre el término buscado creando también entidades y diagramas
de relaciones de términos.
Resultados en Cluuz
•
•
Kngine (http://kngine.com). Sus creadores lo presentan como el buscador Web
3.0 más inteligente. Usa técnicas de web semántica para tratar de responder
preguntas del usuario y relacionar conceptos.
Wolfram Alpha (http://www.wolframalpha.com). Esta herramienta trata de
realizar cálculos sobre grandes conjuntos de datos más que búsquedas en sí.
Tiene algunas particularidades realmente útiles para el mundo de las
Javier Iglesia Aparicio, 2014
Página 187
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
matemáticas, al estar integrado con el software de cálculo simbólico
Mathematica, y de las ciencias. Por ejemplo, es capaz de resolver ecuaciones
paso a paso de diferente complejidad (desde algo fácil como 3x-1=45 o algo
más complicado como ecuaciones diferenciales). Por otro lado, si se busca una
ciudad trata de obtener los datos numéricos más representativos: población,
distancias a otras capitales, el tiempo, etc.
Por último, un par de buscadores singulares:
•
•
Swotti (http://www.swotti.com). Enfocado a la búsqueda de opiniones de
objetos de consumo.
Scout.me (http://www.scout.me). Es un buscador semántico que trata de dar
opciones de actividades que puedes hacer según tus gustos, dónde estés y en
qué día. De momento, sólo se ocupa de los Estados Unidos de América.
6.6.2 ¿Se está convirtiendo Google en un buscador semántico?
Como no podía ser menos, Google también quiere que sus búsquedas sean cada vez
más precisas. Sus investigaciones en este sentido han desembocado en experiencias
como la presentada en 2012 y llamada Knowledge Graph. Podéis consultar su
funcionamiento
en
http://www.google.com/insidesearch/features/search/knowledge.html.
Google presenta en los resultados de las búsquedas información asociada realmente
relevante. Por ejemplo, nuestra clásica búsqueda de Júpiter tendrá los siguientes
resultados.
De aquellas páginas que tienen información estructurada (como Wikipedia, el
resultado mostrado en la imagen), Google extraerá directamente información sin
necesidad de que accedamos a la página propiamente dicha. En el caso de la búsqueda
del planeta Júpiter ha extraído su distancia al Sol, su fuerza de la gravedad, etc. que se
Javier Iglesia Aparicio, 2014
Página 188
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
corresponden con datos que aparecen en el infobox (cuadro de datos resumen) de los
artículos de Wikipedia.
A medida que los datos estructurados se vayan generalizando, los buscadores como
Google podrán realizar esta serie de relaciones y mostrarnos respuestas más útiles.
6.7 ¿Cuándo llegará la Web semántica?
Antes de poder responder a la pregunta del título se debe responder a otra: ¿cómo
encaja la Web semántica con la actual? Es decir, cómo accederá el usuario a la Web
semántica, y sobre todo, cómo hacer la transición de la Web actual a la Web
semántica.
Para que la Web semántica pueda realizarse es importante que guarde, al menos al
principio, una compatibilidad con la tecnología actual. Es deseable, por ejemplo,
mantener el lenguaje HTML, u otros lenguajes compatibles con los navegadores
actuales, como vehículo de comunicación con el usuario. La asociación entre las
instancias de la Web semántica y el código HTML se puede establecer mediante
distintos mecanismos.
Una de las formas posibles consiste en conservar los documentos actuales, y crear las
instancias asociadas anotando su correspondencia con los documentos. Esta
posibilidad es la más viable cuando se parte de un gran volumen de material antiguo.
Otra forma consiste en generar dinámicamente páginas web a partir de las ontologías
y sus instancias. Esta última opción puede resultar factible cuando los documentos
antiguos ya se estaban generando automáticamente a partir, por ejemplo, de una base
de datos.
La transición de la Web actual a la Web semántica puede implicar un coste altísimo si
se tiene en cuenta el volumen de contenidos que ya forman parte de la Web. Crear y
poblar las ontologías supone un esfuerzo extra que puede resultar tedioso cuando se
agregan nuevos contenidos, pero directamente prohibitivo en lo que respecta a
integrar los miles de contenidos antiguos. Las estrategias más viables combinan una
pequeña parte de trabajo manual con la automatización del resto del proceso. Las
técnicas para la automatización incluyen, entre otras, el mapeo de la estructura de las
bases de datos a ontologías, el aprovechamiento, previa conversión, de los metadatos
y estándares de clasificación presentes en la Web (y fuera de ella), y la extracción
automática de los metadatos a partir de texto y recursos multimedia.
En segundo lugar, los gestores de contenidos deberán de integrar posibilidades de
etiquetado semántico, bien sea de forma automática o manual, consultando
ontologías públicas. Es decir, las herramientas con las que se están creando los sitios
web tienen que evolucionar.
Y, en tercer lugar, otra dificultad importante a la hora de hacer realidad la Web
semántica, es la de consensuar ontologías en una comunidad, por poco amplia que
sea. Converger a una representación común es una labor más compleja de lo que
puede parecer, ya que cada parte del sistema conlleva, típicamente, ciertas
Javier Iglesia Aparicio, 2014
Página 189
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
peculiaridades necesarias, y un punto de vista propio que, a menudo, necesita incidir
en la propia ontología. La representación del mundo no es neutra respecto al uso que
se le va a dar: tanto un homeópata como un biólogo tienen el conocimiento suficiente
sobre las plantas, pero la representación que pueden hacer de esa materia es muy
distinta, y probablemente, no será adecuado imponer la misma representación para
ambas perspectivas. Las vías para salvar esta dificultad consisten en compartir
ontologías para las áreas comunes en que puede tener lugar una interacción o
intercambio de información entre las partes, y establecer formas de compatibilidad
con las ontologías locales, mediante extensión y especialización de las ontologías
genéricas, o por mapeo y exportación entre ontologías.
La creación de ontologías no ha de partir de cero, pues, ya existen vocabularios
estructurados, tesauros elaborados, que puede servir como base aunque, no es una
transformación sencilla tal y como exponen Vilches-Blázquez et al., en su artículo 25.
Pero, sería realmente interesante, el impulso por parte de instituciones para elaborar
de forma colectiva una serie de ontologías generales que puedan servir como base al
desarrollo de las ontologías en campos más específicos. Este fue por ejemplo el
cometido que se llevó a cabo en Finlandia para elaborar la YSO 26 (Yleinen suomalainen
ontologia), una ontología genérica con más de 20.000 términos basada en el Tesauro
General Finés que mantiene la Biblioteca Nacional de Finlandia.
Por lo tanto, en el momento actual, es muy difícil predecir cuándo toda la Web será
semántica. Existen ejemplos e iniciativas aisladas pero, se dista mucho de un entorno
ideal para que el desarrollo sea rápido. De todas formas, los gurús tecnológicos
suponen que esta década, 2010-2020 será la de la implantación de la Web semántica,
que algunos ya denominan Web 3.0.
25
VILCHES-BLÁZQUEZ, L. M.; GARCÍA SILVA, A.; VILLAZÓN TERRAZAS, B. Construcción de ontologías a
partir de tesauros [En línea]. [ref. de 5 de febrero 2014]. Disponible en Web:
http://oa.upm.es/5129/2/Construccion_de_ontologias_a_partir_de_tesauros_LMVilchesBlazquez.pdf
26
Más información en: http://www.seco.tkk.fi/ontologies/yso/.
Javier Iglesia Aparicio, 2014
Página 190
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Evolución y posibles tendencias de la Web
6.7.1 Esfuerzos actuales de semantización
Por supuesto, existen ya iniciativas para acelerar y ayudar en el establecimiento de una
web semántica. Cada una de ellas tiene un punto de partida distinto, sobre todo
teniendo en cuenta el grado de uso de los estándares propuesto por el W3C. Algunas
de ellas ya han sido mencionadas en este tema pero tratamos de hacer una síntesis de
las iniciativas más actuales.
Por regla general, los contenidos semánticas están siendo impulsados por parte de
especialistas e instituciones, tal y como hemos visto en las iniciativas de Open Data y
Linked Data, dentro de ámbitos de conocimiento específicos y en proyectos de gran
envergadura y coste. Otras iniciativas, como la ya mencionada DbPedia, trata de crear
grandes conjuntos de datos de temática muy variada realizando procesamientos sobre
datos fácilmente estructurables, como los existentes en muchos artículos de
Wikipedia. Los resultados de ambos tipos de iniciativas son datos estructurados de
acuerdo a los estándares de web semántica, es decir, representados en RDF, SKOS u
otros estándares semánticos.
Otros enfoques tratan de semantizar contenidos ya creados pero siendo muy laxos a la
hora de cumplir los estándares, como es la iniciativa Schema.org. Por último, otras
iniciativas como Freebase se apoyan en una comunidad de voluntarios para realizar
bases de datos de conocimiento estructurado abiertas.
DbPedia y Freebase ya han sido explicadas previamente. Vamos a estudiar un poco
cómo funcionan la iniciativa más extendida actualmente: Schema.org.
Javier Iglesia Aparicio, 2014
Página 191
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
Schema.org (http://schema.org/). Es un proyecto impulsado por los tres grandes
motores de búsqueda: Google, Bing y Yahoo! Search. Su premisa es la siguiente: dado
que la expansión de las aplicaciones Web 2.0 ha multiplicado exponencialmente la
cantidad de información existente en la web, los motores de búsqueda tienen que
introducir nuevos parámetros para calcular la relevancia, detectando duplicaciones,
copias, etc. La solución que proponen es incluir dentro del código HTML información
adicional mediante metadatos y microdatos. Para ello crearon un esquema de
categorías (no llega a ser una ontología) –que se puede consultar en este enlace,
http://schema.org/docs/full.html - para que los webmasters puedan, de alguna
manera, clasificar la información de una página web. Este esquema general no puede
modificarse por los usuarios pero éstos sí pueden extenderlo si no encuentran la
clasificación adecuada para su contenido. Lo que ofrece Schema.org es una opción de
marcado semántico de una página web. Puede ser la opción más sencilla para la
cantidad de información actualmente existente y su uso es premiado por los
buscadores pero no es una opción que cumpla con los estándares W3C. Veamos un
ejemplo de cómo se haría un marcado semántico. Schema.org propone dos tipos de
microdatos: itemscope e itemtype. Itemscope informa sobre qué trata cierta parte de
una página web y con itemtype definimos específicamente el tipo de información.
Además con itemprop se declara expresamente cada uno de los atributos de la
información del objeto definido por el itemtype. Por ejemplo, si estamos hablando de
un libro, el código HTML sería así:
<div itemscope itemtype=”http://schema.org/Book”>
<h1 itemprop=”name”>El Quijote</h1>
<span>
Autor:
<span
itemprop=”author”>Miguel
de
Cervantes
<span></span>
<span> Fecha de publicación: <span itemprop=”datePublished”>
1605 </span></span>
</div>
Google anima activamente al empleo de schema.org para etiquetar de forma
semántica nuestra información y parece que proporciona mejores puntuaciones en
cuanto a posicionamiento en buscadores. Incluso dentro de Google Webmaster Tools,
proporciona una herramienta de marcado semántico con Schema.org:
http://www.google.com/webmasters/tools/richsnippets?hl=es
Actualmente se utiliza sobre todo para marcar aplicaciones de software, artículos,
eventos, películas, productos a la venta, reseñas de libros, restaurantes y empresas
locales. Si estáis interesados en profundizar os recomiendo consultar el Asistente de
datos estructurados de Google: https://www.google.com/webmasters/markuphelper/
6.7.2 Comunidades semánticas
Hemos querido finalizar este tema con la descripción de una plataforma de creación de
comunidades de trabajo que está basada en tecnología semántica. Se trata de una
creación española y su nombre es Gnoss (http://www.gnoss.com). Gnoss es una
Javier Iglesia Aparicio, 2014
Página 192
Gestión de recursos en Internet y estrategias para combatir la sobrecarga de información
plataforma que permite crear comunidades de trabajo, debate y compartición de
información donde cada uno de los recursos que se suben se cataloga de acuerdo a los
estándares de web semántica. Esta característica se plasma en la aparición a la
izquierda de un buscador facetado, es decir, de un buscador “dividido” en los distintos
campos de la catalogación del recurso
A su vez, es una plataforma para la creación de webs específicas. Como muestra:
•
•
Mismuseos.net (http://mismuseos.net). Con datos extraídos de varios museos
españoles (Museo del Prado, Museo Sorolla y Museo Reina Sofía entre otros),
se ha creado un buscador facetado que permite buscar entre cerca de 10.000
obras de arte con los mismos parámetros.
Biblioteca Escolar Digital (http://bibliotecaescolardigital.es). Dedicada a la
catalogación de objetos educativos y multitud de información referente al uso
de las tecnologías en educación. Impulsada por el CITA de la Fundación Germán
Sánchez Ruipérez.
Javier Iglesia Aparicio, 2014
Página 193

Documentos relacionados