DIADB

Transcripción

DIADB

DIADB . MÓDULO SEO
SITEMAP
Una forma de mejorar la visibilidad de nuestro sitio web en los
buscadores es indicarles al menos las principales direcciones de que consta.
Disponiendo de este esquema, los rastreadores, a partir de dichas direcciones,
podrán buscar más páginas en nuestro sitio. De esta manera favorecemos que
ningún contenido quede sin indexar por los motores de búsqueda. El protocolo
Sitemaps (http://sitemaps.org/protocol.php) es el seguido por los principales
buscadores (Google o Yahoo entre ellos), de manera que aprenderemos a
crear el fichero en XML Sitemap conforme a dicho protocolo.
El fichero Sitemap debe ser un fichero XML, codificado en UTF-8, de
manera que nuestro fichero deberá comenzar con la siguiente línea:
<?xml version=”1.0” encoding=”UTF-8” ?>

Tarea:
Crear un archivo de texto plano denominado “sitemap.xml”, e
introducir la primera línea del archivo.
El fichero Sitemap, conforme al protocolo, para poder ser reconocido
como tal por los buscadores, debe comenzar con una etiqueta de inicio
<urlset> y terminar con una etiqueta </urlset>, indicando que el archivo
consta de un grupo de direcciones URL.
A su vez, dentro de la etiqueta inicial se debe indicar al menos el
namespace (el protocolo). Igualmente, conviene añadir dos líneas más
necesarias si vamos a validar nuestro archivo sitemap con alguna
herramienta disponible en Internet. En consecuencia, dentro de la etiqueta
inicial <urlset> se deben añadir las siguientes líneas:
<urlset
xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”
xmlns:xsi=”http://www.w3.org/2001/XMLSchemainstance”
xsi:schemaLocation=”http://www.sitemaps.org/schemas/
sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd”>
</urlset>

Tarea:
Añadir al archivo sitemap.xml las dos etiquetas <urlset> y </urlset>,
además del namespace y las dos líneas para validación.
A continuación, el schema de este protocolo señala que entre la
etiqueta inicial <urlset> y la etiqueta final </urlset> deben incluirse una serie de
etiquetas <url></url> como las que figuran a continuación, cuya cantidad
depende de las necesidades en cada caso; a su vez, dentro de cada grupo
<url></url>, la única etiqueta obligatoria es <loc></loc>:
<url>
<loc>http://www.misitio.com/</loc>
<lastmod>2009-09-09</lastmod>
<changefreq>daily</changefreq>
<priority>1.00</priority>
</url>
En este esquema, cada grupo <url> debe incluir una dirección de
nuestro sitio web, y la primera suele reservarse para la página principal del
sitio. A su vez, las etiquetas interiores disponibles son las siguientes:

<loc>: Única etiqueta obligatoria en cada grupo <url></url>. Incluye la
dirección URL de la página. La URL debe comenzar con el protocolo empleado
(suele ser http) y contener menos de 2000 caracteres ASCII, para acabar con
un slash en caso de que haya otras páginas disponibles en nuestro sitio que
comiencen con dicha cadena de caracteres (páginas que posteriormente
pueden incluirse en el listado, si se desea). Debe ponerse especial cuidado en
usar siempre la misma sintaxis: Si indicamos la ubicación de nuestro sitio como
http://www.misitio.com/, NO DEBEMOS INCLUIR POSTERIORMENTE
DIRECCIONES QUE EMPIECEN POR http://misitio.com/ . Igualmente debe
advertirse que NO SE DEBEN INCLUIR DIRECCIONES QUE ENLACEN
DIRECTAMENTE CON IMÁGENES, pues los buscadores no indexan
imágenes, sino las páginas en las que aparecen dichas imágenes.

<lastmod>: Etiqueta optativa, que puede figurar en los grupos <url> que
deseemos. Indica la última fecha de modificación de la página.

<changefreq>: Etiqueta optativa, que puede figurar en los grupos <url>
que deseemos. Indica a los motores de búsqueda con qué frecuencia suele
modificarse la dirección indicada. Este valor no tiene por qué acarrear que los
buscadores la rastreen con dicha frecuencia. Valores válidos para ser incluidos
en esta etiqueta son:
always
hourly
daily
weekly
monthly
yearly
never
Como orientación, la dirección correspondiente a la página principal de un sitio
suele tener valores “always” (se modifica cada vez que se accede a ella) o
“daily”; las direcciones con contenidos finales (no incluyen más páginas dentro
de ellas) suelen tener valor “weekly”; las direcciones correspondientes a
categorías, secciones o páginas de navegación intermedias suelen tener valor
“monthly”; y las direcciones con ficheros archivados suelen tener valor “never”.

<priority>: Etiqueta optativa, que puede figurar en los grupos <url> que
deseemos. Indica el escalafón que ocupa dicha URL en relación al resto de
URLs de nuestro sitio. Puede contener cualquier número entre 0.00 y 1.00 .
Este valor no afectará a su importancia en relación a páginas externas, de
manera que SOLAMENTE indica a los rastreadores qué nivel de importancia
tiene dicha dirección dentro del sitio web. En consecuencia, como orientación,
la página principal de un sitio suele tener prioridad 1.00; las direcciones con
contenidos finales suelen tener prioridad 0.80; las direcciones correspondientes
a categorías, secciones o páginas de navegación intermedias suelen tener
prioridad 0.50; y las direcciones con ficheros archivados suelen tener valor 0.20
Tarea:

Añadir al archivo sitemap.xml al menos 4 grupos <url>,
correspondientes a las direcciones de la página principal, las direcciones
de dos secciones o categorías y la dirección de un contenido final.
Existen en Internet generadores gratuitos de ficheros Sitemap.
Por ejemplo, ir a http://www.xml-sitemaps.com y seguir los pasos indicados allí
para generar automáticamente el fichero sitemap.xml correspondiente a
nuestro sitio web. Para ello debe tenerse en cuenta que:
 La dirección ha de ser completa (http://www.misitio.com);
 Introducid la frecuencia con que soléis o prevéis que modificaréis
vuestro sitio;
 Dejad la opción “Use server's response” que figura por defecto en
relación a la fecha de la última modificación y
 Introducid la opción “Automatic Priority” en relación a la prioridad de
cada página introducida, de manera que el sistema calcule
automáticamente las prioridades. Pulsad en “Start”.
 Tras la creación del archivo sitemap, pulsad en “Download uncompressed XML Sitemap” y elegid “Guardar en disco”. Ya habéis
generado automáticamente el fichero sitemap.xml de vuestro sitio web.
Este fichero puede servir de base para, a raíz de él, modificarlo
conforme al protocolo descrito previamente.
Tarea:
 Comparad el fichero sitemap.xml generado automáticamente con el
vuestro generado previamente y efectuad las modificaciones
pertinentes en el vuestro de manera que resulte un fichero XML
sintácticamente correcto y ajustado a los valores del protocolo
descritos previamente.
Existen también en Internet diversos lugares donde poder
comprobar la corrección de nuestro fichero sitemap.xml, de manera que
observemos si hemos olvidado corregir algún error y poder enmendarlo. Por
ejemplo, podemos emplear el validador del W3C para comprobar si nuestro
fichero
se
ajusta
a
un
Schema
XML.
Para
ello,
id
a
http://www.w3.org/2000/09/webdata/xsv y emplead el segundo formulario, que
comienza: “Use this form only if you are behind a firewall or have a schema to
check which is not accessible via the Web”. Allí:
 Pulsad en “Examinar” y elegid el archivo sitemap.xml que habéis
obtenido de los pasos anteriores.
 Marcad la opción “Show warnings”
 Elegid como opción de salida la última opción: “xml, but labelled
text/plain (works for any browser, but hard to read)”.
 Por último, basta pulsar en “Upload and Get Results”.
Tarea:
 Emplead el validador del Consorcio, y comprobad que, en relación
a vuestro fichero sitemap.xml, el programa da como resultado las
siguientes variables y valores:
 instanceErrors=”0”;
 schemaErrors=”0”;
 outcome=”success”;
A continuación, una vez comprobada la corrección del fichero
creado anteriormente, resta únicamente subirlo a nuestro sitio web. Se
recomienda encarecidamente que se sitúe el fichero sitemap.xml en el
directorio
raíz
del
sitio
web
correspondiente,
esto
es,
http://www.misitio.com/sitemap.xml.
Tarea:
 Subir el fichero sitemap.xml al directorio raíz del sitio web, esto es,
http://www.misitio.com/sitemap.xml
Por último, cuando dispongamos del fichero sitemap.xml en
nuestro sitio web, debemos informar a los motores de búsqueda de que hemos
incluido dicho fichero para ayudarles en la indexación de nuestras páginas.
Para ello existen dos procedimientos principales:
 Remitir a cada uno de los principales buscadores (donde consideremos
que los usuarios acudirán a recuperar información relacionada con
nuestro sitio web) la información de que disponemos de este fichero y su
localización en nuestro sitio web. Para ello, debemos hacerlo empleando
la interfaz de remisión habilitada por los buscadores que soportan este
protocolo.
 Especificando la localización de nuestro fichero sitemap.xml en el fichero
robots.txt, que veremos a continuación. En tal caso, basta añadir la
siguiente línea de código en el archivo:
Sitemap: http://www.misitio.com/ruta_del_fichero_sitemap.xml
Esta directiva “Sitemap” es independiente de la línea user-agent, de manera
que no importa el lugar del fichero donde la coloquemos. Nosotros
emplearemos esta última opción, pues resulta más sencilla.
Para cualquier información adicional, puedes acudir a las
siguientes páginas:
http://sitemaps.org/protocol.php
http://www.google.com/support/webmasters/bin/answer.py?hl=es&answer=156
184
[necesitas, para tener acceso, disponer previamente de una cuenta]
http://www.google.es/webmasters/
ROBOTS
La información sobre nuestro sitio web que podemos adelantar a
los robots de búsqueda, y que completa la ofrecida en sitemap.xml, consiste en
un archivo de texto denominado robots.txt (no olvidéis nunca la 's' del plural)
que incluye esencialmente información sobre qué páginas no deben indexar los
buscadores, además de especificar en algunos casos la localización del archivo
sitemap.xml
El fichero “robots.txt” es más importante aún, si cabe, que el
fichero sitemap.xml, pues es lo primero que visitan los rastreadores, antes
incluso que la página principal de nuestro sitio web. Eso no quiere decir que
obligatoriamente debamos incluir un fichero robots.txt (si no lo localiza,
entenderá que puede rastrear cualquier dirección dentro del sitio), pero es
imprescindible si queremos excluir alguna/s página/s de la aparición en
buscadores, bien porque queremos expresamente que su contenido no sea
visible, bien porque consideramos que no merece la pena su indexación.
Precisamente para que cumpla bien su misión, es
IMPRESCINDIBLE COLOCARLO EN EL DIRECTORIO RAÍZ DE NUESTRO
SITIO WEB, YA QUE NO SERÁ LEÍDO SI SE LOCALIZA EN OTRA POSICIÓN
(http://www.misitio.com/robots.txt). Es por ello que todas las direcciones
incluidas en el fichero robots.txt parten de esta disposición, siendo necesario para incluir cualquier ruta- partir exclusivamente de dicho directorio raíz.
En cuanto a su estructura, el fichero robots.txt consta de líneas en
texto plano con el siguiente formato:
Campo : Valor
También se pueden incluir líneas de comentario empleando al
principio de la misma el carácter almohadilla (#).
Los dos campos posibles y más habituales son:

User-agent (indica el robot o rastreador al que se aplica la siguiente
regla)

Disallow (indica a continuación la URL o URLs cuya indexación se
desea bloquear, debiendo empezar con una barra inclinada / que señala
el directorio raíz en que se encuentra el fichero robots.txt)
A los que se añaden otros dos, menos frecuentes:


Allow (indica a continuación la URL cuya indexación se desea incluir. Su
empleo se limita a una regla previa Disallow, señalando -de entre las
URLs bloqueadas previamente mediante Disallow- la URL excepción
que sí se puede indexar. Debe empezar con una barra inclinada / que
señala el directorio raíz en que se encuentra el fichero robots.txt)
Sitemap (indica a continuación la localización completa del fichero
sitemap.xml)
En cuanto a los valores posibles, los más habituales son los
siguientes:





* (el asterisco, cuando figura aislado, sustituye a cualquier valor posible)
/ (aisladamente, indica todo el sitio en su integridad)
/directorio/ (indica un directorio y todo lo que contiene)
/archivo_bloqueado.html (indica una página bloqueada)
/*.gif$ (indica que todos los archivos de tipo gif están bloqueados)
He aquí algunos ejemplos:
 Para bloquear a todos los rastreadores todo el sitio (no es aconsejable):
User-agent: *
Disallow: /
 Para permitir a todos los rastreadores indexar todo el sitio sin excepción:
User-agent: *
Disallow:
 Para bloquear a todos los rastreadores un directorio y todo su contenido:
User-agent: *
Disallow: /directorio/

Para bloquear a todos los rastreadores un directorio y todo su contenido,
excepto la pagina index.html:
User-agent: *
Disallow: /directorio/
Allow: /directorio/index.html

Para bloquear al robot de Google los directorios cgi-bin e imagenes (se
pueden añadir a la lista cuantos directorios deseemos):
User-agent: googlebot
Disallow: /cgi-bin/
Disallow: /imagenes/

Para bloquear al robot de Altavista todo el sitio y al robot de MSN Live
todos los ficheros jpg:
User-agent: scooter
Disallow: /
User-agent: MSNBot
Disallow: /*.jpg$

Para introducir una línea de comentario indicando que se trata del
fichero robots.txt del sitio web http://www.misitio.com/
# robots.txt de http://www.misitio.com/
 Para añadir la localización del archivo sitemap.xml
Sitemap: http://www.misitio.com/sitemap.xml
Tarea:
 Crear un fichero robots.txt en texto plano donde se bloquee a todos
los buscadores los subdirectorios de tu sitio web cuya indexación
no interesa. Por ejemplo, los directorios administrator, cache,
components, editor, help, images, includes, language, mambots,
media, modules, templates, installation y todos sus contenidos.

Tarea:
Añadir al final del fichero robots.txt la línea de código donde se
especifica la localización del archivo sitemap.xml
Existen en la red varias herramientas que ayudan a crear un
fichero robots.txt, como en http://www.cuwhois.com/robots-txt.php
Una vez creado el fichero robots.txt, conviene comprobar su
corrección. Para ello existen varias herramientas online, entre ellas
http://tool.motoricerca.info/robots-checker.phtml
Si deseamos emplear esta última herramienta descrita, debemos
primeramente subir el fichero robots.txt al directorio raíz de nuestro sitio web.
Tarea:
 Subir el fichero robots.txt recién creado al directorio raíz de nuestro
sitio web y posteriormente comprobar su corrección con la
herramienta de Motoricerca. En caso favorable, se mostrará el
mensaje: “No errors found in this robots.txt file”.
Para cualquier información adicional puedes acudir a las siguientes páginas:
http://www.robotstxt.org/orig.html
http://www.robotstxt.org/robotstxt.html
http://programacion.com/html/articulo/tw_robotstxt/
http://www.google.com/support/webmasters/bin/answer.py?answer=35237
El alumno deberá entregar una copia de este archivo (modificando
el
nombre
de
la
siguiente
manera:
practica_seo_sitemapRobots_ApellidosAlumno), con la respuesta a las
siguientes preguntas:
Reproducir
el
grupo <url> con la
máxima prioridad
Reproducir
el
fichero robots.txt

DIADB

Transcripción

Documentos relacionados