DIADB
Transcripción
DIADB
DIADB . MÓDULO SEO SITEMAP Una forma de mejorar la visibilidad de nuestro sitio web en los buscadores es indicarles al menos las principales direcciones de que consta. Disponiendo de este esquema, los rastreadores, a partir de dichas direcciones, podrán buscar más páginas en nuestro sitio. De esta manera favorecemos que ningún contenido quede sin indexar por los motores de búsqueda. El protocolo Sitemaps (http://sitemaps.org/protocol.php) es el seguido por los principales buscadores (Google o Yahoo entre ellos), de manera que aprenderemos a crear el fichero en XML Sitemap conforme a dicho protocolo. El fichero Sitemap debe ser un fichero XML, codificado en UTF-8, de manera que nuestro fichero deberá comenzar con la siguiente línea: <?xml version=”1.0” encoding=”UTF-8” ?> Tarea: Crear un archivo de texto plano denominado “sitemap.xml”, e introducir la primera línea del archivo. El fichero Sitemap, conforme al protocolo, para poder ser reconocido como tal por los buscadores, debe comenzar con una etiqueta de inicio <urlset> y terminar con una etiqueta </urlset>, indicando que el archivo consta de un grupo de direcciones URL. A su vez, dentro de la etiqueta inicial se debe indicar al menos el namespace (el protocolo). Igualmente, conviene añadir dos líneas más necesarias si vamos a validar nuestro archivo sitemap con alguna herramienta disponible en Internet. En consecuencia, dentro de la etiqueta inicial <urlset> se deben añadir las siguientes líneas: <urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9” xmlns:xsi=”http://www.w3.org/2001/XMLSchemainstance” xsi:schemaLocation=”http://www.sitemaps.org/schemas/ sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd”> </urlset> Tarea: Añadir al archivo sitemap.xml las dos etiquetas <urlset> y </urlset>, además del namespace y las dos líneas para validación. A continuación, el schema de este protocolo señala que entre la etiqueta inicial <urlset> y la etiqueta final </urlset> deben incluirse una serie de etiquetas <url></url> como las que figuran a continuación, cuya cantidad depende de las necesidades en cada caso; a su vez, dentro de cada grupo <url></url>, la única etiqueta obligatoria es <loc></loc>: <url> <loc>http://www.misitio.com/</loc> <lastmod>2009-09-09</lastmod> <changefreq>daily</changefreq> <priority>1.00</priority> </url> En este esquema, cada grupo <url> debe incluir una dirección de nuestro sitio web, y la primera suele reservarse para la página principal del sitio. A su vez, las etiquetas interiores disponibles son las siguientes: <loc>: Única etiqueta obligatoria en cada grupo <url></url>. Incluye la dirección URL de la página. La URL debe comenzar con el protocolo empleado (suele ser http) y contener menos de 2000 caracteres ASCII, para acabar con un slash en caso de que haya otras páginas disponibles en nuestro sitio que comiencen con dicha cadena de caracteres (páginas que posteriormente pueden incluirse en el listado, si se desea). Debe ponerse especial cuidado en usar siempre la misma sintaxis: Si indicamos la ubicación de nuestro sitio como http://www.misitio.com/, NO DEBEMOS INCLUIR POSTERIORMENTE DIRECCIONES QUE EMPIECEN POR http://misitio.com/ . Igualmente debe advertirse que NO SE DEBEN INCLUIR DIRECCIONES QUE ENLACEN DIRECTAMENTE CON IMÁGENES, pues los buscadores no indexan imágenes, sino las páginas en las que aparecen dichas imágenes. <lastmod>: Etiqueta optativa, que puede figurar en los grupos <url> que deseemos. Indica la última fecha de modificación de la página. <changefreq>: Etiqueta optativa, que puede figurar en los grupos <url> que deseemos. Indica a los motores de búsqueda con qué frecuencia suele modificarse la dirección indicada. Este valor no tiene por qué acarrear que los buscadores la rastreen con dicha frecuencia. Valores válidos para ser incluidos en esta etiqueta son: always hourly daily weekly monthly yearly never Como orientación, la dirección correspondiente a la página principal de un sitio suele tener valores “always” (se modifica cada vez que se accede a ella) o “daily”; las direcciones con contenidos finales (no incluyen más páginas dentro de ellas) suelen tener valor “weekly”; las direcciones correspondientes a categorías, secciones o páginas de navegación intermedias suelen tener valor “monthly”; y las direcciones con ficheros archivados suelen tener valor “never”. <priority>: Etiqueta optativa, que puede figurar en los grupos <url> que deseemos. Indica el escalafón que ocupa dicha URL en relación al resto de URLs de nuestro sitio. Puede contener cualquier número entre 0.00 y 1.00 . Este valor no afectará a su importancia en relación a páginas externas, de manera que SOLAMENTE indica a los rastreadores qué nivel de importancia tiene dicha dirección dentro del sitio web. En consecuencia, como orientación, la página principal de un sitio suele tener prioridad 1.00; las direcciones con contenidos finales suelen tener prioridad 0.80; las direcciones correspondientes a categorías, secciones o páginas de navegación intermedias suelen tener prioridad 0.50; y las direcciones con ficheros archivados suelen tener valor 0.20 Tarea: Añadir al archivo sitemap.xml al menos 4 grupos <url>, correspondientes a las direcciones de la página principal, las direcciones de dos secciones o categorías y la dirección de un contenido final. Existen en Internet generadores gratuitos de ficheros Sitemap. Por ejemplo, ir a http://www.xml-sitemaps.com y seguir los pasos indicados allí para generar automáticamente el fichero sitemap.xml correspondiente a nuestro sitio web. Para ello debe tenerse en cuenta que: La dirección ha de ser completa (http://www.misitio.com); Introducid la frecuencia con que soléis o prevéis que modificaréis vuestro sitio; Dejad la opción “Use server's response” que figura por defecto en relación a la fecha de la última modificación y Introducid la opción “Automatic Priority” en relación a la prioridad de cada página introducida, de manera que el sistema calcule automáticamente las prioridades. Pulsad en “Start”. Tras la creación del archivo sitemap, pulsad en “Download uncompressed XML Sitemap” y elegid “Guardar en disco”. Ya habéis generado automáticamente el fichero sitemap.xml de vuestro sitio web. Este fichero puede servir de base para, a raíz de él, modificarlo conforme al protocolo descrito previamente. Tarea: Comparad el fichero sitemap.xml generado automáticamente con el vuestro generado previamente y efectuad las modificaciones pertinentes en el vuestro de manera que resulte un fichero XML sintácticamente correcto y ajustado a los valores del protocolo descritos previamente. Existen también en Internet diversos lugares donde poder comprobar la corrección de nuestro fichero sitemap.xml, de manera que observemos si hemos olvidado corregir algún error y poder enmendarlo. Por ejemplo, podemos emplear el validador del W3C para comprobar si nuestro fichero se ajusta a un Schema XML. Para ello, id a http://www.w3.org/2000/09/webdata/xsv y emplead el segundo formulario, que comienza: “Use this form only if you are behind a firewall or have a schema to check which is not accessible via the Web”. Allí: Pulsad en “Examinar” y elegid el archivo sitemap.xml que habéis obtenido de los pasos anteriores. Marcad la opción “Show warnings” Elegid como opción de salida la última opción: “xml, but labelled text/plain (works for any browser, but hard to read)”. Por último, basta pulsar en “Upload and Get Results”. Tarea: Emplead el validador del Consorcio, y comprobad que, en relación a vuestro fichero sitemap.xml, el programa da como resultado las siguientes variables y valores: instanceErrors=”0”; schemaErrors=”0”; outcome=”success”; A continuación, una vez comprobada la corrección del fichero creado anteriormente, resta únicamente subirlo a nuestro sitio web. Se recomienda encarecidamente que se sitúe el fichero sitemap.xml en el directorio raíz del sitio web correspondiente, esto es, http://www.misitio.com/sitemap.xml. Tarea: Subir el fichero sitemap.xml al directorio raíz del sitio web, esto es, http://www.misitio.com/sitemap.xml Por último, cuando dispongamos del fichero sitemap.xml en nuestro sitio web, debemos informar a los motores de búsqueda de que hemos incluido dicho fichero para ayudarles en la indexación de nuestras páginas. Para ello existen dos procedimientos principales: Remitir a cada uno de los principales buscadores (donde consideremos que los usuarios acudirán a recuperar información relacionada con nuestro sitio web) la información de que disponemos de este fichero y su localización en nuestro sitio web. Para ello, debemos hacerlo empleando la interfaz de remisión habilitada por los buscadores que soportan este protocolo. Especificando la localización de nuestro fichero sitemap.xml en el fichero robots.txt, que veremos a continuación. En tal caso, basta añadir la siguiente línea de código en el archivo: Sitemap: http://www.misitio.com/ruta_del_fichero_sitemap.xml Esta directiva “Sitemap” es independiente de la línea user-agent, de manera que no importa el lugar del fichero donde la coloquemos. Nosotros emplearemos esta última opción, pues resulta más sencilla. Para cualquier información adicional, puedes acudir a las siguientes páginas: http://sitemaps.org/protocol.php http://www.google.com/support/webmasters/bin/answer.py?hl=es&answer=156 184 [necesitas, para tener acceso, disponer previamente de una cuenta] http://www.google.es/webmasters/ ROBOTS La información sobre nuestro sitio web que podemos adelantar a los robots de búsqueda, y que completa la ofrecida en sitemap.xml, consiste en un archivo de texto denominado robots.txt (no olvidéis nunca la 's' del plural) que incluye esencialmente información sobre qué páginas no deben indexar los buscadores, además de especificar en algunos casos la localización del archivo sitemap.xml El fichero “robots.txt” es más importante aún, si cabe, que el fichero sitemap.xml, pues es lo primero que visitan los rastreadores, antes incluso que la página principal de nuestro sitio web. Eso no quiere decir que obligatoriamente debamos incluir un fichero robots.txt (si no lo localiza, entenderá que puede rastrear cualquier dirección dentro del sitio), pero es imprescindible si queremos excluir alguna/s página/s de la aparición en buscadores, bien porque queremos expresamente que su contenido no sea visible, bien porque consideramos que no merece la pena su indexación. Precisamente para que cumpla bien su misión, es IMPRESCINDIBLE COLOCARLO EN EL DIRECTORIO RAÍZ DE NUESTRO SITIO WEB, YA QUE NO SERÁ LEÍDO SI SE LOCALIZA EN OTRA POSICIÓN (http://www.misitio.com/robots.txt). Es por ello que todas las direcciones incluidas en el fichero robots.txt parten de esta disposición, siendo necesario para incluir cualquier ruta- partir exclusivamente de dicho directorio raíz. En cuanto a su estructura, el fichero robots.txt consta de líneas en texto plano con el siguiente formato: Campo : Valor También se pueden incluir líneas de comentario empleando al principio de la misma el carácter almohadilla (#). Los dos campos posibles y más habituales son: User-agent (indica el robot o rastreador al que se aplica la siguiente regla) Disallow (indica a continuación la URL o URLs cuya indexación se desea bloquear, debiendo empezar con una barra inclinada / que señala el directorio raíz en que se encuentra el fichero robots.txt) A los que se añaden otros dos, menos frecuentes: Allow (indica a continuación la URL cuya indexación se desea incluir. Su empleo se limita a una regla previa Disallow, señalando -de entre las URLs bloqueadas previamente mediante Disallow- la URL excepción que sí se puede indexar. Debe empezar con una barra inclinada / que señala el directorio raíz en que se encuentra el fichero robots.txt) Sitemap (indica a continuación la localización completa del fichero sitemap.xml) En cuanto a los valores posibles, los más habituales son los siguientes: * (el asterisco, cuando figura aislado, sustituye a cualquier valor posible) / (aisladamente, indica todo el sitio en su integridad) /directorio/ (indica un directorio y todo lo que contiene) /archivo_bloqueado.html (indica una página bloqueada) /*.gif$ (indica que todos los archivos de tipo gif están bloqueados) He aquí algunos ejemplos: Para bloquear a todos los rastreadores todo el sitio (no es aconsejable): User-agent: * Disallow: / Para permitir a todos los rastreadores indexar todo el sitio sin excepción: User-agent: * Disallow: Para bloquear a todos los rastreadores un directorio y todo su contenido: User-agent: * Disallow: /directorio/ Para bloquear a todos los rastreadores un directorio y todo su contenido, excepto la pagina index.html: User-agent: * Disallow: /directorio/ Allow: /directorio/index.html Para bloquear al robot de Google los directorios cgi-bin e imagenes (se pueden añadir a la lista cuantos directorios deseemos): User-agent: googlebot Disallow: /cgi-bin/ Disallow: /imagenes/ Para bloquear al robot de Altavista todo el sitio y al robot de MSN Live todos los ficheros jpg: User-agent: scooter Disallow: / User-agent: MSNBot Disallow: /*.jpg$ Para introducir una línea de comentario indicando que se trata del fichero robots.txt del sitio web http://www.misitio.com/ # robots.txt de http://www.misitio.com/ Para añadir la localización del archivo sitemap.xml Sitemap: http://www.misitio.com/sitemap.xml Tarea: Crear un fichero robots.txt en texto plano donde se bloquee a todos los buscadores los subdirectorios de tu sitio web cuya indexación no interesa. Por ejemplo, los directorios administrator, cache, components, editor, help, images, includes, language, mambots, media, modules, templates, installation y todos sus contenidos. Tarea: Añadir al final del fichero robots.txt la línea de código donde se especifica la localización del archivo sitemap.xml Existen en la red varias herramientas que ayudan a crear un fichero robots.txt, como en http://www.cuwhois.com/robots-txt.php Una vez creado el fichero robots.txt, conviene comprobar su corrección. Para ello existen varias herramientas online, entre ellas http://tool.motoricerca.info/robots-checker.phtml Si deseamos emplear esta última herramienta descrita, debemos primeramente subir el fichero robots.txt al directorio raíz de nuestro sitio web. Tarea: Subir el fichero robots.txt recién creado al directorio raíz de nuestro sitio web y posteriormente comprobar su corrección con la herramienta de Motoricerca. En caso favorable, se mostrará el mensaje: “No errors found in this robots.txt file”. Para cualquier información adicional puedes acudir a las siguientes páginas: http://www.robotstxt.org/orig.html http://www.robotstxt.org/robotstxt.html http://programacion.com/html/articulo/tw_robotstxt/ http://www.google.com/support/webmasters/bin/answer.py?answer=35237 El alumno deberá entregar una copia de este archivo (modificando el nombre de la siguiente manera: practica_seo_sitemapRobots_ApellidosAlumno), con la respuesta a las siguientes preguntas: Reproducir el grupo <url> con la máxima prioridad Reproducir el fichero robots.txt