Descargar en formato PDF - Centro de Investigación de la Web
Transcripción
Descargar en formato PDF - Centro de Investigación de la Web
Caracterı́sticas de la Web Chilena 2007 Ricardo Baeza-Yates Yahoo! Research Centro de Investigación de la Web Eduardo Graells Centro de Investigación de la Web Mayo de 2008 Resumen En Octubre de 2007 se llevó a cabo una recolección masiva de páginas de la Web de Chile utilizando el sistema WIRE, desarrollado en el CIW. Del análisis de estos datos destacan las siguientes observaciones: La Web chilena está compuesta por al menos 200,000 sitios, y estos sitios contienen más de 9 millones de páginas. Muchas de sus caracterı́sticas son muy similares a las de la Web global en general. Un 5, 63 % de los sitios están conectados entre sı́ a través de enlaces y tienen el 38, 99 % de las páginas. Por otro lado, un 65, 26 % de los sitios está completamente desconectado en términos de enlaces, pero representan un 24, 48 % de las páginas. Un sitio promedio tiene 48, 19 páginas, contenidas en 0, 69 MiB, con 1, 07 referencias desde otros sitios. En total se conocen 190,577 dominios. Un dominio promedio tiene 1, 05 sitios y 50, 57 páginas, contenidas en 0, 73 MiB. Cerca de 1/5 de las páginas chilenas fue creada o actualizada en el último año, lo que implica un alto grado de crecimiento y dinamismo. Alrededor del 81 % de las páginas de Chile está en español y cerca de un 17 % en inglés. Otros idiomas tienen una presencia muy leve. Los sustantivos que más aparecen en la Web chilena son: Chile, web, comentarios, sitio, Santiago, noticias y servicios. Los paı́ses más referenciados desde Chile son China, Argentina, Alemania, México y España, y en general el número de referencias a paı́ses extranjeros está relacionado con el volumen de intercambio comercial. Los sitios que reciben más enlaces son sii.cl, uchile.cl, mineduc.cl, meteochile.cl y corfo.cl. Los proveedores de hosting con mayor número de sitios son IFX Networks, T-Chile, VirtuaByte, PuntoWeb, DattaWeb y ChileAdmin. Respecto a la calidad de las páginas y sitios: De todos los sitios, el 14 % más grande de ellos contiene el 99 % de la información en la Web chilena, medida en el número de bytes contenidos en sus páginas. Cerca de un 24 % de los sitios de Chile no son fáciles de encontrar ya que están hechos con tecnologı́as no visibles para los motores de búsqueda, como Flash y Javascript. 2 Un 26 % de las páginas tienen algún valor de contenido en términos de estar referenciadas desde otros sitios. Sin embargo, estas páginas están repartidas en el 7 % de los sitios Web. Cerca de un 7 % de los enlaces ya no existen. Respecto a las tecnologı́as Web: De los servidores que entregan información, el servidor Web más utilizado es Apache con 53 %, seguido con un 47 % por Microsoft Internet Information Server. De los servidores que entregan información, el sistema operativo más utilizado es Unix/Linux con 68 %, seguido por Microsoft Windows con 32 %. El generador de páginas dinámicas más usado es PHP con un 79, 36 % de participación en el mercado. El formato de documentos más usado es PDF con un 56, 74 % de participación, seguido por XML con un 26, 69 %. Aproximadamente hay una disponibilidad del cuádruple de archivos con paquetes de software para Linux que para Windows en la Web chilena. Centro de Investigación de la Web – www.ciw.cl Índice general 1. Introducción 5 1.1. ¿Cómo es la Web? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Estudiando la Web de un paı́s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3. Recolección de páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4. Dificultades en la caracterización de la Web . . . . . . . . . . . . . . . . . . . . . . 8 1.5. Organización de este informe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2. Documentos 10 2.1. Páginas descargadas versus enlaces inválidos . . . . . . . . . . . . . . . . . . . . . . 11 2.2. URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.1. Longitud de las URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Profundidad de las URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Edad de las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4. Tı́tulos de las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5. Texto en las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.6. Idioma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.7. Vocabulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.8. Páginas Dinámicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.9. Documentos que no están en formato HTML . . . . . . . . . . . . . . . . . . . . . . 18 2.9.1. Imagen, Audio y Vı́deo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.9.2. Archivos Comprimidos, Software y Código Fuente . . . . . . . . . . . . . . . 19 2.10. Enlaces entre páginas Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.11. Ordenamiento usando análisis de enlaces . . . . . . . . . . . . . . . . . . . . . . . . 21 3. Sitios 28 3 4 3.1. Número de Páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2. Sitios con solamente una página . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3. Sitios con muchas páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.4. Tı́tulos de las páginas de un sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.5. Tamaño de los sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.6. Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.7. Proveedores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.8. Enlaces internos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.9. Enlaces entre sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.10. Sitios más referenciados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.11. Sitios con más enlaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.12. Suma de los puntajes por enlaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.13. Componentes fuertemente conectados . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.14. Estructura de enlaces entre sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4. Dominios 50 4.1. Direcciones IP y Software utilizado como servidor . . . . . . . . . . . . . . . . . . . 51 4.2. Número de sitios por dominio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.3. Número de páginas por dominio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.4. Tamaño de los dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.5. Enlaces entre dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.6. Dominios de primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.7. Dominios externos de primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5. Conclusiones 64 Centro de Investigación de la Web – www.ciw.cl Capı́tulo 1 Introducción En este Capı́tulo se presentan las caracterı́sticas de la Web y de la muestra estudiada, ası́ como la metodologı́a para recolectar documentos y efectuar diferentes análisis. También se presenta la estructura de este informe. 1.1. ¿Cómo es la Web? La Web es más que un simple conjunto de documentos en distintos servidores, ya que existen relaciones de información entre los documentos mediante los enlaces que establecen entre ellos. Esto presenta muchas ventajas, tanto para los usuarios, a la hora de buscar información, como para los programas que recorren la Web, a la hora de buscar contenido para recolectar (probablemente para un motor de búsqueda). Debido a esto se plantea que la Web sigue un modelo de grafo dirigido, en el que cada página es un nodo y cada arco representa un enlace entre dos páginas. En general, una página enlaza a otras páginas similares [18], de modo que es posible reconocer páginas mejores que las demás, siendo estas últimas las que reciben un número mayor de enlaces que lo normal (o promedio). La web tiene una estructura que se puede clasificar como red libre de escala, que al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces, en la que los nodos altamente enlazados actúan como centros que conectan muchos de los otros nodos a la red, como se ilustra en la Figura 1.1. Analı́ticamente, la distribución dispareja de enlaces sigue una ley de potencias (power-law )1 : Pr (Γ (p) = k) ≈ k −θ Esto quiere decir que la distribución de los enlaces es muy sesgada: unas pocas páginas reciben muchos enlaces mientras que la mayorı́a recibe muy pocos o incluso ninguno. En este estudio se muestra que dicha distribución se puede aplicar a muchos aspectos de la Web, de los cuales se dice “que siguen una ley de Zipf ”. El nombre de esta distribución se debe a Kingsley Zipf, que en 1932 enunció la distribución que modela la frecuencia de aparición de las palabras en los textos [37]. Cuando estas distribuciones se representan en un gráfico con escala logarı́tmica se obtiene una lı́nea recta, tal como se observa en muchos de los gráficos de este estudio. 1 Respecto a su estudio se recomienda el trabajo de Barabási [10] debido a su claridad. 5 6 (a) Red Aleatoria. (b) Red Libre de Escala Figura 1.1: Ejemplos ilustrativos de una red aleatoria y una red libre de escala. Cada grafo tiene 32 nodos y 32 enlaces. 1.2. Estudiando la Web de un paı́s Las redes libres de escala son auto-similares: una pequeña muestra mantiene caracterı́sticas de la red completa (es decir, las caracterı́sticas trascienden la escala con que se mire la red). Se muestra en este estudio que éste es el caso de la Web Chilena, que presenta caracterı́sticas muy similares a la red mundial y a las redes de otros paı́ses, a pesar de contener menos de 1/1250 de las páginas recolectables2 en la Web global, estimadas el 2005 en 11 × 109 páginas [22]. Ahora bien, ¿cómo se puede definir una web nacional? Se dice que es el conjunto de páginas relacionadas con un paı́s, pero técnicamente es difı́cil distinguir si una página está asociada al paı́s que se está estudiando. En este estudio se utiliza la heurı́stica de asociar a Chile todos los sitios web con dominios .cl3 , ası́ como los dominios genéricos y extranjeros conocidos que, a la hora de realizar el estudio, se encuentren hospedados en direcciones IP asignadas a Chile. La Web Chilena ha sido objetivo constante de estudio: se han estudiado sus caracterı́sticas en los años 2000 [1], 2001-2002 [9], 2004 [3] y 2006 [6]. Asimismo, también existen estudios sobre otras webs nacionales: África (9 paı́ses) [13]. Argentina [34]. Austria [30]. Brasil [27, 36]. China [25]. España [7]. Grecia [20]. 2 La Web pública o recolectable es sólo una parte de la Web total. La Web oculta, de acceso restringido o privado, probablemente es mucho más grande. 3 Gracias al apoyo de NIC Chile se contaba con la lista completa de dominios .cl al momento de realizar el estudio. Centro de Investigación de la Web – www.ciw.cl 7 Hungrı́a [11]. Corea del Sur [8]. Perú [35]. Polonia [15]. Portugal [21]. Reino Unido, Nueva Zelanda y Australia (sólo universidades) [33]. Tailandia [31]. A través de los años se ha comprobado que, si bien la web cambia (y crece) a una velocidad enorme, su estructura y sus propiedades se mantienen dentro de un rango de similitud. 1.3. Recolección de páginas La recolección fue realizada en el mes de Septiembre de 2007, utilizando el crawler WIRE [5]4 . Se utilizó un computador con una CPU Intel Pentium IV de 3 GHz, 1 GiB5 de RAM bajo sistema operativo Ubuntu Linux 7.04. El funcionamiento del recolector es el siguiente: se comienza la descarga de un conjunto de direcciones iniciales, llamadas semillas o seeds, que en este caso son los dominios conocidos mencionados en la Sección anterior. De las páginas descargadas de esos dominios se extraen enlaces a nuevos sitios, que son agregados a una nueva lista de sitios por descargar, y el proceso se repite hasta que se han descargado todos los documentos posibles. El criterio para definir si se han descargado todos estos documentos depende de la configuración del crawler : pueden ser lı́mites de espacio en el disco duro, de tiempo de recolección, de configuración de cantidad máxima de documentos a descargar, o a que simplemente no se encontraron más páginas públicas para descargar. En total, en esta colecta se descargaron más de 9 millones de páginas web. La colección, con documentos comprimidos, utiliza 78 GiB de disco duro. De este espacio, 40 GiB corresponde al texto de los documentos, mientras que el espacio restante corresponde a meta-datos de los documentos, incluyendo 27 GiB conteniendo las direcciones de los documentos en formatos diferentes al HTML. Es necesario indicar que la cantidad de sitios descargados es de 200,000, pero el recolector reportó la existencia de sitios que no pudieron descargarse debido a que esa cifra era el lı́mite máximo especificado en la configuración. Un mes después de la colecta se realizó una colecta secundaria, considerando solamente los sitios que tenı́an al menos un enlace entrante o saliente, con el fin de obtener una mejor caracterización en las tablas del Capı́tulo 3. El Cuadro 1.1 resume las caracterı́sticas principales de la colección. 4 En particular su versión 0.14, modificada para comprimir los documentos recolectados. Usamos “GiB”, “MiB”, etc. para referirnos a potencias en base 2, mientras que “GB” y “MB” se refieren a potencias en base 10. 5 Centro de Investigación de la Web – www.ciw.cl 8 Páginas Web 9.637.801 Texto en Total 135,76 [GiB] Texto promedio por página 15.124,68 [B] Sitios Web Estudiados 200.000 Páginas promedio por sitio 48,19 Texto promedio por sitio 728.843,12 [B] Dominios 190.577 Sitios promedio por dominio 1,05 Páginas promedio por dominio 50,57 Texto promedio por dominio 764.880,47 [B] Cuadro 1.1: Resumen de estadı́sticas de la colecta. 1.4. Dificultades en la caracterización de la Web La Web es una colección descentralizada, en la cual distintos autores pueden contribuir contenido por su cuenta sin una instancia de control que decida qué se publica y qué no. Esta es la principal ventaja de la Web desde el punto de vista de los usuarios, pero también es la principal causa de dificultades tanto para buscar información como para caracterizar colecciones de páginas. Las siguientes anomalı́as constituyen violaciones de estándares o situaciones especiales que dificultan la caracterización de las páginas: Parámetros en la URL y URL Rewriting : existen páginas que tienen direcciones más largas de lo que realmente deberı́an ser. Esto se debe a que entregan sus parámetros en la dirección de la página como si fuera la ruta de acceso a ella, lo que contradice el estándar de URLs [12], puesto que los parámetros de invocación de programas deberı́an aparecer en la URL después de un signo “?”, por ejemplo: Incorrecto: http://sitio/directorio/buscar/palabra/X/maximo/10/ Correcto: http://sitio/directorio/buscar?palabra=X\&maximo=10 Esta técnica es conocida como URL Rewriting y su uso se ha extendido con la aparición de sistemas de administración de contenido (CMS, Content Management System). Entre sus consecuencias se encuentran: 1) no se puede distinguir si la página es estática o dinámica, 2) direcciones inválidas y mal formadas son procesadas como correctas, y 3) se recorren varias páginas que tienen el mismo contenido, ya que por lo general estas direcciones admiten varios parámetros diferentes para entregar una misma página (el identificador, el tı́tulo, la sección dentro del sitio, la fecha, etc.). Como consecuencia, se recolectan sitios que tienen un tamaño mucho más grande del real, con más páginas que el promedio. Réplicas de contenido : Constituye una práctica habitual en la Web el tener varias copias distribuidas geográficamente de los mismos documentos. Normalmente lo que se replica son colecciones completas de gran volumen, y se hace por motivos de eficiencia. Las colecciones más frecuentemente replicadas en la Web son [16]: el sitio de software Tucows, el proyecto de Centro de Investigación de la Web – www.ciw.cl 9 documentación de Linux (LDP), la documentación del servidor web Apache y la documentación del lenguaje de programación Java. La información replicada se estima entre un 20 % y un 40 % del total en la Web. Ahora bien, las cifras en la colección de la Web Chilena, indican que no hay tanto contenido duplicado. Los documentos que son réplicas de otros son 503,145, un 5, 22 % del total de las páginas. Una inspección manual de la colección, en particular de los sitios con más páginas, entrega una gran cantidad de páginas que, si bien no son réplicas exactas, presentan el mismo contenido. Esto sucede principalmente en sitios de venta de productos, como pueden ser catálogos en lı́nea o sitios de remates. Spam en general : El Spam en la Web se refiere a acciones orientadas a engañar a los sistemas de búsqueda en la Web y a dar algunas páginas una posición más alta de la que merecen en el resultado de una búsqueda en un motor de búsqueda [23]. Estas acciones incluyen cambios en el texto, en los meta-datos o en los enlaces de las páginas si es que el visitante es un robot recolector. También se encuentra el spam que afecta a los sitios sociales, como blogs y foros, en los cuales el principal atractivo es la interacción de los usuarios. Usualmente existen robots que, intentando pasar por usuarios, publican comentarios con enlaces hacia sitios de dudoso origen. 1.5. Organización de este informe Los distintos niveles de análisis posibles para la Web son los siguientes: el más pequeño es el de palabras o bloques de texto o imágenes, luego vienen las páginas y documentos, sub-sitios (unidades coherentes de múltiples páginas), sitios, dominios nacionales, y luego la web global. En este informe se sigue esta estructura, llegando hasta el estudio de la web nacional de Chile, a través de los siguientes Capı́tulos: Capı́tulo 2, Documentos: se presenta la Web Chilena a nivel de páginas y documentos. Se estudian tanto las páginas web como los documentos en formatos diferentes a HTML. También se estudia el vocabulario presente en los documentos. Capı́tulo 3, Sitios: se presenta la Web Chilena a nivel de sitios. Se estudia la estructura de grafo de la web, y se enumeran los sitios con más documentos, con mayor tamaño y con mayor cantidad de enlaces entrantes y salientes. Se muestran los proveedores que tienen la mayor cantidad de sitios. Capı́tulo 4, Dominios: se presenta la Web Chilena a nivel de dominios. Se estudia la relación por enlaces entre dominios, los dominios con más sitios y con mayor tamaño. Se estudian las direcciones IP y servidores que hospedan los dominios. También se estudia la relación entre el dominio nacional y los dominios extranjeros en términos de enlaces. Capı́tulo 5, Conclusiones: se presentan las conclusiones de este informe. Centro de Investigación de la Web – www.ciw.cl Capı́tulo 2 Documentos En este Capı́tulo se presenta el análisis individual de los documentos, sin considerar su agrupación en sitios o dominios. Por documento se entiende una página web, aunque también existen documentos con información en formatos distintos a HTML. Las Secciones de estudio son las siguientes: Sección 2.1, Páginas descargadas versus enlaces inválidos: se muestra el grado de éxito al tratar de descargar los enlaces a páginas encontrados durante la recolección. Sección 2.2, URLs: se estudian las direcciones, URLs, de las páginas recolectadas. Este estudio incluye la distribución de largos de los tı́tulos y la profundidad a la que pertenece cada dirección. Sección 2.3, Edad de las páginas: se estudia la edad en meses de los documentos de la colecta. Sección 2.4, Tı́tulos de las páginas: se estudian los tı́tulos de la Web Chilena, tanto en su largo como en su tipo, pudiendo este último, en caso de existir, ser único, compartido o genérico. Sección 2.5, Texto en las páginas: se estudia la cantidad de texto presente en las páginas de la colecta. Sección 2.6, Idioma: se realiza una estimación del idioma al que pertenecen los documentos de la colecta, utilizando una heurı́stica simple pero efectiva de identificación. Sección 2.7, Vocabulario: se estudia el vocabulario presente en la Web Chilena, incluyendo la frecuencia de las palabras y los sustantivos con mayor presencia. Sección 2.8, Páginas Dinámicas: se estudia la cantidad de páginas dinámicas encontradas, ası́ como los tipos de generadores de este tipo de páginas. Sección 2.9, Documentos que no están en formato HTML: se estudian los enlaces encontrados a documentos en formato no HTML, tanto de información escrita como a archivos comprimidos y archivos multimedia. Sección 2.10, Enlaces entre páginas Web: se estudian las relaciones entre páginas web mediante enlaces entrantes (grado interno) y enlaces salientes (grado externo). 10 11 Sección 2.11, Ordenamiento usando análisis de enlaces: se estudian los algoritmos de evaluación de importancia de las páginas de acuerdo a la cantidad de enlaces que éstas reciben. 2.1. Páginas descargadas versus enlaces inválidos El recolector de páginas funciona extrayendo direcciones de las páginas que han sido descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o que simplemente fueron mal escritas. Cada vez que el recolector se contacta con un servidor Web, éste retorna un código de estado que indica si la página existe o no, o si existe un motivo por el cual no se puede entregar el documento pedido. La Figura 2.1 muestra la distribución de páginas de acuerdo a estos códigos de estado. Existe una gran cantidad de códigos de estado que se han agrupado de la siguiente manera: OK: incluye todos los requerimientos exitosos: OK (200) y PARTIAL CONTENT (206). NOT FOUND: el servidor no encuentra el documento pedido: NOT FOUND (404). MOVED: incluye todos los requerimientos en los cuales el servidor redirige al recolector a una otra página: MOVED (301), FOUND (302) y TEMPORARY REDIRECT (307). SERVER ERROR: incluye todas las fallas en el lado del servidor: INTERNAL SERVER ERROR (500), BAD GATEWAY (502), UNAVAILABLE (503), y NO CONTENT (204). FORBIDDEN: incluye todos los requerimientos que no son permitidos, principalmente por tratarse de páginas protegidas con contraseña: UNAUTHORIZED (401), FORBIDDEN (403) y NOT ACCEPTABLE (406). Figura 2.1: Estado HTTP de los Documentos La tasa de éxito, superior al 85 %, ha aumentado cerca de tres puntos en relación a la muestra del año 2006 [6]. Lo mismo sucedió con la tasa de enlaces rotos, que subió desde 4 % a 7 %. Puede parecer extraño que hayan aumentado en la misma cantidad los enlaces a páginas existentes como los enlaces rotos, ante lo cual se pueden plantear diferentes hipótesis. Una de ellas es la migración Centro de Investigación de la Web – www.ciw.cl 12 de contenido en los sitios: en la red cada vez es más común que un sitio completo se administre mediante un administrador de contenidos. Este tipo de software permite que los administradores de un sitio manejen su contenido sin tener que involucrarse en el desarrollo (programación) del mismo. De este modo, los enlaces a las diferentes secciones y páginas los maneja el software, asegurando una tasa mayor de enlaces correctos. Sin embargo, ¿qué sucede cuando un sitio migra todo su contenido desde una estructura antigua a una estructura nueva? La consecuencia de esa migración, que desde el punto de vista administrativo del sitio es positiva, puede ser negativa en términos de todos los enlaces que recibı́a el sitio. 2.2. URLs La dirección de una página Web es comúnmente expresada mediante una URL (sigla de Uniform Resource Locator ) [12]. Una URL tiene un doble propósito, por una parte identifica un recurso en la Web de manera única y por otra indica cómo es posible acceder a dicho recurso en el servidor. Las URLs más usadas en la Web son las que corresponden al protocolo de transferencia de hipertextos (HTTP). Estas URLs tienen normalmente la siguiente forma: http://sitio/directorio/subdirectorio/documento Por ejemplo, http://www.cwr.cl/projects/WIRE/index.html indica que el sitio a contactar es www.cwr.cl, que el documento que se necesita se encuentra en el directorio /projects/WIRE/ y que se llama index.html. Cuando una dirección no incluye el nombre del documento, se asume que se está buscando un archivo index.html1 dentro del directorio indicado en la dirección. 2.2.1. Longitud de las URLs La longitud promedio de una URL, incluyendo la especificación del protocolo http://, nombre de servidor, ruta y parámetros, es de 75 caracteres. Este promedio es similar al de otros paı́ses: 74 para España [7], 69 para Portugal [21], 75 para Argentina [34] y 57 caracteres para la Web global [32]. Esta diferencia con el promedio de la Web global puede tener relación con las nuevas aplicaciones Web, tanto comerciales como sociales, que incluyen una gran cantidad de parámetros en sus direcciones. Esto se corrobora al ver que las direcciones más largas corresponden a páginas dinámicas. El 54 % de las URLs tienen entre 40 y 80 caracteres. Los largos se distribuyen de acuerdo con la Figura 2.2, que tiene una distribución log-normal con parámetros estimados µ = 4, 12 y σ = 0, 40. 2.2.2. Profundidad de las URLs La profundidad de una página dentro de un sitio se puede definir de dos formas: 1 Este nombre depende de la configuración del servidor que se esté utilizando y de la tecnologı́a usada para generar páginas dinámicas. En los servidores primero se suele buscar una página dinámica para que actúe de ı́ndice (por ejemplo, index.php. Si no es encontrada se busca el archivo ya indicado. Centro de Investigación de la Web – www.ciw.cl 13 Figura 2.2: Distribución de los largos de las URLs pertenecientes a los documentos HTML de la colecta. Profundidad Lógica La página inicial de un sitio está a profundidad 1; todas las páginas alcanzables directamente desde ella, a profundidad 2; y ası́ sucesivamente. La profundidad lógica mide el número de clics necesarios desde la portada de un sitio hasta la página requerida. Profundidad Fı́sica La página inicial de un sitio está a profundidad 1, las páginas de la forma http://sitio/pag.html o http://sitio/dir/ están a profundidad 2, y ası́ sucesivamente. La profundidad fı́sica mide la organización en archivos y directorios de un sitio Web. En este estudio se analiza la profundidad fı́sica de las páginas, que es directamente extraı́ble a partir de las URLs. La distribución de esta variable se muestra en la Figura 2.3. Se observa que el máximo de la distribución se encuentra en los niveles 2 y 3, siendo este último el único donde las páginas dinámicas detectadas superan a las estáticas. 2.3. Edad de las páginas La edad de una página se determina al observar la fecha de última modificación especificada por el servidor que la contiene. Al ser una variable dependiente de la configuración del servidor, muchas páginas tienen fechas erróneas, que bien pueden ser fechas del futuro o fechas demasiado antiguas, previas a la invención de la Web. Centro de Investigación de la Web – www.ciw.cl 14 Figura 2.3: Distribución de la profundidad de los documentos recolectados. La distribución de las edades de las páginas en términos de meses se muestra en la Figura 2.4. Esta distribución sigue una ley de potencias con parámetro 1, 27. En los 12 meses anteriores a Octubre de 2007, cerca de un 19 % de las páginas se creó o se actualizó, lo que indica que la Web chilena está creciendo rápidamente, pero no de una manera explosiva: en los dos estudios anteriores, las tasas de crecimiento eran cercanas al 25 %. 2.4. Tı́tulos de las páginas Cerca de un 26 % de las páginas no tiene un tı́tulo de documento, que junto al 1 % de los tı́tulos por omisión2 , indican que un 27 % de las páginas no tiene un tı́tulo significativo. En la Figura 2.5 se observa la distribución de los tipos de tı́tulo: si bien un 73 % de las páginas tiene un tı́tulo significativo, solamente un 33 % tiene un tı́tulo único dentro del sitio al que pertenece. Usualmente el tı́tulo compartido entre las páginas de un sitio es el nombre del sitio. La distribución de los largos de los tı́tulos se observa en la Figura 2.6. Los tı́tulos en la Web Chilena, de acuerdo a esta distribución, se pueden considerar de un largo adecuado, sobretodo si se comparan con los largos de otros paı́ses (en España la mayorı́a de los largos tiene entre 5 y 10 caracteres). Esta medición es importante porque el tı́tulo de una página es uno de sus atributos más importantes, tanto en usabilidad (es el identificador dentro de los bookmarks de un usuario) 2 Tı́tulos como “Untitled Document”, “Documento sin tı́tulo” o “Página nueva 1 ”. Centro de Investigación de la Web – www.ciw.cl 15 Figura 2.4: Distribución de la edad de los documentos en meses, aproximado con una ley de Zipf de parámetro −1, 12. como en difusión (es lo que más se destaca de una página en un listado de resultados de búsqueda). 2.5. Texto en las páginas De cada página descargada se almacenaron sólo los primeros 100 KiB, lo que es suficiente para la mayorı́a de ellas. La distribución de la cantidad de páginas por cantidad de texto, incluyendo el código de la página y el contenido, se observa en la Figura 2.7. Esta distribución se ajusta a una ley de potencias con parámetro 3, 56 para páginas de más de 40 KiB, y de 0, 82 para páginas entre 11 y 40 KiB. 2.6. Idioma WIRE incluye un sistema de detección de idioma basado en stopwords, es decir, palabras que carecen de significado por sı́ mismas, también llamadas palabras funcionales. La heurı́stica cuenta el número de stopwords dentro del documento para cada idioma del que se tienen stopwords y en base a ellas determina el lenguaje correspondiente. De este modo, se obtuvo la distribución de idiomas de la Figura 2.8. Centro de Investigación de la Web – www.ciw.cl 16 Figura 2.5: Tipos de Tı́tulo de Documento La proporción de los idiomas se ha mantenido prácticamente constante, el año 2006 el Castellano tenı́a una presencia de 80, 21 %, comparado con el 81, 34 % actual. El resto de las páginas en idioma extranjero se encuentra prácticamente en su totalidad en inglés. En otros paı́ses el idioma oficial no tiene tanta presencia: 62 % en España [7] y 63 % en Argentina [34]. 2.7. Vocabulario Al hablar de vocabulario se requiere definir qué es una palabra. La definición utilizada en este informe es “cualquier secuencia alfanumérica de uno o más caracteres de largo”. Se incluyen los caracteres especiales del castellano, como la letra ñ y los tildes. También se realiza la conversión de las entidades HTML para representar esos carácteres3 . Las diez palabras más frecuentes: de, la, y, en, a, el, que, los y por ; naturalmente todas ellas son stopwords. En la Figura 2.9 se muestra la distribución de la frecuencia de las palabras presentes en la colección, obteniendo una ley de potencias con parámetro 0, 84, al igual que el año 2006. En el Cuadro 2.1 se incluye una Nube de Etiquetas (TagCloud ), con los sustantivos más frecuentes en la Web chilena. Dentro de esta nube el tamaño de las palabras es proporcional a su frecuencia con respecto a las otras palabras de la nube (es decir, las palabras más pequeñas tienen menor frecuencia que las palabras más grandes, pero aún ası́ son parte del grupo de palabras más frecuentes). Se observa que, dejando de lado los nombres de ciudades y fechas, en general los términos corresponden a servicios, comercio y tecnologı́as recientes: palabras frecuentes en foros, blogs, otros tipos de sitios sociales y administradores de contenido. 2.8. Páginas Dinámicas Más de 3, 2 millones (34 %) de las páginas descargadas eran páginas dinámicas, es decir, páginas generadas en el momento de ser solicitadas sin que existieran previamente. Esto es lo normal cuando hay una consulta a una base de datos involucrada en el proceso de desplegar las páginas. 3 Por ejemplo: el documento contiene la secuencia “á”, que es interpretada como “á”. Centro de Investigación de la Web – www.ciw.cl 17 Figura 2.6: Distribución de los largos de los tı́tulos pertenecientes a los documentos HTML de la colecta. A pesar de que la recolección aumentó su tamaño, la cantidad de páginas identificadas como dinámicas se ha mantenido. Esto se debe a que una gran cantidad de las páginas dinámicas no se puede identificar directamente: WIRE realiza tal detección a partir de la URL de la página, sea a través de la extensión del archivo (lo que indica la tecnologı́a con la que se generó la página) o a través de un signo ?, que indica los parámetros que recibe la página. Sin embargo, técnicas como URL rewriting impiden la determinación directa del tipo de página. Esta técnica, por un lado, es beneficiosa para los usuarios, ya que genera URLs más “amigables”, mientras que por otro, usualmente esta técnica genera demasiadas páginas duplicadas que tienen el mismo contenido pero distintas URLs de acceso, por lo que cifras como la cantidad de páginas que tiene un sitio, ası́ como su tamaño, se ven distorsionadas. En la Figura 2.10 se muestra la distribución de páginas dinámicas de acuerdo a la aplicación que las genera. La aplicación más usada es PHP 4 , una tecnologı́a de código abierto que domina la Web Chilena con un 79, 36 % de participación, aumentando 4 puntos porcentuales respecto al año anterior. Le sigue la tecnologı́a ASP [26], propietaria y de plataforma restringida, con un 18, 07 %. 4 http://www.php.net Centro de Investigación de la Web – www.ciw.cl 18 Figura 2.7: Distribución del tamaño para los documentos de la colecta. 2.9. Documentos que no están en formato HTML Se encontraron aproximadamente 1, 5 millones de enlaces a documentos de texto en formatos distintos a HTML, siendo los más populares PDF (56, 74 %) y XML (26, 69 %). Esto indica que la proporción de enlaces a documentos en formatos estándares ha aumentado en relación a los formatos cerrados. En la Figura 2.11 se aprecia la distribución de los enlaces a los formatos más presentes. Respecto al formato PDF, también es el más usado en otros paı́ses, como en Austria [30], Brasil [27], Corea del Sur [8], Grecia [20], Portugal [21] y Argentina [34]. 2.9.1. Imagen, Audio y Vı́deo Se encontraron muchos enlaces a archivos multimedia: más de 100 millones de enlaces a imágenes, 166 mil enlaces a audio, y 35 mil enlaces a vı́deo. La distribución de enlaces a los formatos de estos medios se muestra en la Figura 2.12. Las imágenes GIF son las más populares en la Web Chilena con un 77, 26 % de los enlaces. Esto se debe a que son utilizadas como elementos gráficos en el diseño de las páginas, al ser un formato con compresión sin pérdida, y a que también se utilizan en el contenido, sea a través de botones u otros elementos gráficos. Le sigue JPG, con un 18, 26 %, un formato de compresión con pérdida que es mayormente usado para almacenar fotografı́as. El formato PNG, a pesar de haber nacido como un reemplazo para GIF, no ha logrado aumentar su participación debido a la falta de Centro de Investigación de la Web – www.ciw.cl 19 Figura 2.8: Lenguaje de los Documentos soporte de los navegadores, en particular del más usado. El resto de los formatos presentes tiene una presencia marginal. En audio, el formato MP3, que se habı́a mantenido lı́der hasta el año 2006, ha cedido parte de su participación al formato WMA. El primero tiene una participación de 39, 23 %; el segundo, 40, 29 %. El tercer formato, PLS, no es un formato de audio por sı́ mismo, más bien es un formato de listas de reproducción. Los archivos en este formato probablemente son los mismos que han estado presentes desde los estudios en años anteriores. En vı́deo, el formato con mayor presencia es WMV (49, 59 %), seguido por QT (18, 20 %) y MPEG(10, 65 %). El formato RM, al igual que en los años anteriores, sigue bajando su presencia (10, 54 %), mientras que AVI parece mantenerse constante (6, 83 %) y FLV ha aumentado algunos puntos porcentuales (4, 20 %). En la Web Global, probablemente el formato con mayor presencia es FLV, ya que es el formato utilizado por las redes sociales de publicación de vı́deo. 2.9.2. Archivos Comprimidos, Software y Código Fuente Se encontraron más de 159 mil enlaces a archivos comprimidos, más de 102 mil enlaces a archivos de programas y más de 27 mil enlaces a archivos de código fuente en diversos lenguajes. La distribución de los enlaces se muestra en la Figura 2.13. La distribución de archivos comprimidos muestra un dominio de los formatos ZIP (53, 64 %) y GZ(24, 47 %). El formato ZIP es usado con frecuencia para distribuir software para Windows, mientras que el formato GZ suele ser usado con frecuencia para distribuir software para Linux. Los archivos RAR (20, 88 %) suelen ser usados para distribuir contenido arbitrario. El formato TAR (1 %)se utiliza primariamente en Linux, aunque es difı́cil encontrar archivos de formato TAR, ya que más que un formato comprimido es un contenedor que es luego comprimido a GZ. Otros formatos tienen una presencia despreciable. Respecto al software, sin considerar que una gran cantidad se distribuye en formatos comprimidos, los formatos con mayor presencia son RPM (59, 06 %) y EXE (23, 12 %). Sin embargo, DEB (17, 82 %) es el tercer formato con presencia (el resto es despreciable), y con ello el software en formato para Linux tiene el triple de presencia que el formato para Windows. Esto no concuerda Centro de Investigación de la Web – www.ciw.cl 20 Figura 2.9: Distribución de la frecuencia de las palabras para los documentos de la colecta. con el mayor uso de Windows por parte de los usuarios, y se puede deber a que una aplicación de Windows se distribuye como un único ejecutable mientras que una aplicación de Linux se distribuye mediante una gran cantidad de paquetes. La distribución de código fuente muestra el gran auge que ha tenido Javascript (28, 35 %) como lenguaje para construir páginas web que reaccionen dinámicamente ante las acciones del usuario, por lo general en sitios que utilizan AJAX para crear aplicaciones basadas en Web. Sin embargo, el código para aplicaciones C y C++ tiene una mayor presencia (59, 05 %). Probablemente esta proporcióń se debe a que un sitio completo utiliza pocos archivos JS con toda su funcionalidad, mientras que una aplicación en C o C++ contiene una gran cantidad de archivos. Sin embargo, no se puede dudar que la cantidad de enlaces a código fuente C y C++ ha aumentado notoriamente: el año 2006 era cercana al 27 %. 2.10. Enlaces entre páginas Web El número de enlaces que recibe una página Web se llama “grado interno”, y el número de enlaces que sale de una página se llama “grado externo”. Las distribuciones de ambos grados se muestra en las Figuras 2.14 y 2.15. Al ajustar una ley de potencias a los datos se obtiene un parámetro 1, 87 para el grado interno, comparable con África (1, 9, [13]), Argentina (1, 71, [34]) y España (2, 11, [7]). Para la Web Global Centro de Investigación de la Web – www.ciw.cl 21 actividades acuerdo aire alumnos amigo amigos anuncios argentina arica arte artı́culo artı́culos audio autor avisos ayuda bitácora blog búsqueda calidad casa categorı́as central centro chile chilena ciencias ciudad clases clasificados clave click colegio comercio compra comprar comuna comunidad condiciones contacto contraseña copyright correo cosas crear cuenta cultura curso cursos datos deportes derechos desarrollo digital dirección director diseño domingo dvd dı́a educación email empresa empresas encuentro equipo equipos era escuela estado estados estudiantes estudio estudios eventos experiencia familia fax fiestas fin final flores fono forma foro foto fotos gente gobierno gracias grupo hecho historia hora hotel hoy imagen información internacional internet juegos jueves lectores ley libre libres libro licencia links lugar lunes luz mapa martes medio mensaje acceso accesorios actividad comentario comentarios inicio nacional nada nivel nombre nosotros noticias oferta ofertas online palabras parapente parte paı́s personas plaza poder polı́tica precio primera primero problemas producto productos profesionales programa proyecto proyectos publicar publicidad puerto página radio recursos red región respuesta resultados rss salud santiago seguridad servicio servicios sexo sistema sitio sitios social sociales sociedad software sur tags tecnologı́a tema temas tiempo tipo todas todo todos trabajo trance turismo universidad usuario usuarios venta vida video videos viernes visitas web zona mensajes mercado mesa metropolitana millones mundo música Cuadro 2.1: Sustantivos y temas más frecuentes en la web Chilena. el valor de este parámetro es 2, 1 [29]. Para el grado externo se obtiene un parámetro 3, 14 en la parte central (entre 12 y 100 enlaces), comparable con el valor 3, 34 obtenido en Argentina [34]. En la Figura 2.16 se muestra la relación entre tamaño y el grado interno/externo de las páginas. Existe una correlación entre el grado externo y el tamaño de las páginas, puesto que una página no puede contener demasiados enlaces en caso de ser es muy pequeña. Respecto al grado interno y el tamaño de las páginas la correlación no es evidente, pero sı́ se aprecia que páginas de menor tamaño reciben una fracción menor de enlaces. 2.11. Ordenamiento usando análisis de enlaces Existen varios algoritmos de enlaces que intentan inferir cuan importante es cada página en la Web, utilizando la información de los enlaces que recibe cada página. En este estudio se comparó a distribución de Pagerank [28] con una variación del algoritmo HITS [24], en el cual se utilizó la Web completa como el conjunto de análisis. Esto último puede verse como una versión estática de HITS. El algoritmo Pagerank calcula para cada página un puntaje que refleja la cantidad de enlaces que recibe desde otras páginas con un alto número de enlaces. De cierto modo es una medida de la cantidad y calidad de los enlaces recibidos. El algoritmo de HITS calcula dos puntajes para cada página: Hub y Authority. El puntaje Hub indica qué tan buena es la página como fuente de Centro de Investigación de la Web – www.ciw.cl 22 Figura 2.10: Páginas Dinámicas Figura 2.11: Documentos No HTML enlaces, en términos de qué tan buenos son los enlaces que tiene la página hacia otras páginas. El puntaje Authority indica qué tan buena es la página como recurso de información o contenido, en términos de la calidad de los enlaces que recibe. La distribución de los puntajes se muestra en la Figura 2.17. Se destaca que los tres puntajes pueden ser aproximados con una ley de potencias: Pagerank, con parámetro 1, 31 en su parte inicial y 2, 19 en su parte central; el puntaje Authority, con parámetro 1, 70 en su parte central; y el puntaje Hub, con parámetro 3, 87 en su parte central. Por la fórmula del cálculo de PageRank, incluso páginas sin grado interno tienen un puntaje no nulo. A pesar de ello, un 62 % de los documentos posee el 99 % del puntaje Pagerank total. En cambio los puntajes Hub y Authority sı́ permiten que un documento tenga puntaje nulo. De esta manera, un 38 % de las páginas tiene puntaje Hub no nulo, y un 26 % tiene puntaje Authority no nulo. De una muestra aleatoria de 10,000 documentos, descartando los que tienen algún tipo de puntaje nulo, se estudió una posible correlación entre los puntajes por enlaces. De acuerdo a la Figura 2.18 no se puede establecer una relación directa, aunque una cantidad no despreciable de documentos con alto puntaje Pagerank también tienen alto puntaje Hub. Centro de Investigación de la Web – www.ciw.cl 23 (a) Imágenes (b) Audio (c) Vı́deo Figura 2.12: Distribuciones de los enlaces a documentos de imagen, audio y vı́deo. (a) Archivos Comprimidos (b) Software (c) Código Fuente Figura 2.13: Distribuciones de los enlaces a archivos comprimidos, software y código fuente. Centro de Investigación de la Web – www.ciw.cl 24 Figura 2.14: Distribución del Grado Interno para los documentos de la colecta. Centro de Investigación de la Web – www.ciw.cl 25 Figura 2.15: Distribución del Grado Externo para los documentos de la colecta. (a) Relación entre el grado interno de un documento (b) Relación entre el grado externo de un documento y su tamaño. y su tamaño. Figura 2.16: Gráficos de dispersión entre el tamaño de un documento y sus grados internos y externo. Centro de Investigación de la Web – www.ciw.cl 26 (a) Distribución del puntaje Authority para los do- (b) Distribución del puntaje Hub para los documencumentos de la colecta. tos de la colecta. (c) Distribución de PageRank para los documentos de la colecta. Figura 2.17: Distribuciones de los puntajes por enlaces para los documentos. Centro de Investigación de la Web – www.ciw.cl 27 (a) Authority vs Hubrank. (b) PageRank vs Authority. (c) PageRank vs HubRank. Figura 2.18: Gráficos de dispersión en busca de relaciones entre los puntajes PageRank, Authority y Hub. Centro de Investigación de la Web – www.ciw.cl Capı́tulo 3 Sitios Un sitio web es definido como un conjunto de páginas que comparte la parte del nombre del servidor de la URL. De este modo, un sitio es denominado http://www.sitio.cl/, y contiene todas las páginas cuya raı́z es http://www.sitio.cl/1 . Este Capı́tulo estudia diferentes caracterı́sticas de los sitios de la Web Chilena. Un cuadro resumen con los datos de los sitios se puede observar en el Cuadro 3.1, donde se observa que el número de sitios estudiados es 200,000. Llama la atención la cantidad de sitios vacı́os que se encontraron, 88,626, es decir, sitios cuya dirección existe en algún lugar2 pero que en realidad no tienen páginas, o incluso ni siquiera están asignados a algún servidor. Sitios Estudiados Vacı́os (Sin Documentos) Sitios con 1 Página Sin Grado Interno Sin Grado Externo Promedio Páginas Promedio Contenido 200.000 88.626 48.103 172.506 171.794 48,19 728.843,12 [B] Cuadro 3.1: Resumen de estadı́sticas sobre los sitios. Las Secciones de este Capı́tulo son las siguientes: Sección 3.1, Número de Páginas: se estudia la cantidad de páginas que poseen los sitios de la colecta. Sección 3.2, Sitios con solamente una página: se estudia el fenómeno de los sitios de una página, que no necesariamente tienen una página, sino más bien, una sola es visible por el recolector. Sección 3.3, Sitios con muchas páginas: se enumeran los sitios con más páginas de la colección. 1 En general, un sitio no discrimina si incluye el prefijo www, es decir, se puede utilizar una heurı́stica en la cual sitio.cl equivale a www.sitio.cl. 2 Por ejemplo, sólo con registrar un dominio .cl ya se conoce su dirección. 28 29 Sección 3.4, Tı́tulos de las páginas de un sitio: se estudian los tı́tulos de documentos en el contexto de los sitios de la colecta. Sección 3.5, Tamaño de los sitios: se estudia el tamaño total de los sitios, considerando la suma del tamaño de las páginas que lo componen. Sección 3.6, Edad: se estudia la edad en meses de los sitios, considerando la edad promedio de los documentos, en conjunto con la edad del documento más antiguo y del más nuevo. Sección 3.7, Proveedores: se estudian los proveedores de servicio de internet, ISP, que hospedan más sitios de la Web Chilena. Sección 3.8, Enlaces internos: se estudian los enlaces internos dentro de un sitio, es decir, aquellos enlaces entre documentos dentro de un mismo sitio. Sección 3.9, Enlaces entre sitios: se estudia el grado interno y externo de los sitios. Sección 3.10, Sitios más referenciados: se enumeran los sitios con mayor grado interno, es decir, aquellos enlazados desde la mayor cantidad de sitios distintos. Sección 3.11, Sitios con más enlaces: se enumeran los sitios que tienen más enlaces hacia otros sitios distintos. Sección 3.12, Suma de los puntajes por enlaces: se estudian los puntajes por enlaces para los sitios de la colección, considerando la suma de los puntajes para los documentos de los sitios. Sección 3.13, Componentes fuertemente conectados: una componente fuertemente conectada, en términos de enlaces, permite llegar desde un sitio de la componente hasta otro solamente siguiendo enlaces. En esta sección se estudia la distribución de este tipo de componentes en la Web Chilena. Sección 3.14, Estructura de enlaces entre sitios: a partir de las componentes estudiadas en la sección anterior, es posible establecer una estructura que define la composición de la Web Chilena, considerando como base de la estructura los enlaces entre sitios. 3.1. Número de Páginas Se observó un promedio de 48, 19 páginas por sitio (considerando sólo los sitios estudiados). La distribución de páginas a través de los sitios es muy sesgada, pues un 7 % de los sitios tiene el 90 % de los documentos. Dicha distribución se puede ajustar a una ley de potencias de parámetro 1, 84, visible en la Figura 3.1, y comparable a 1, 14 en España [7], 1, 6 en Brazil [27], 1, 45 en Argentina [34]. Centro de Investigación de la Web – www.ciw.cl 30 Figura 3.1: Distribución del número de documentos en los sitios. 3.2. Sitios con solamente una página Hay 48,103 sitios en los cuales el recolector encontró sólo una página. Esto representa un 24, 05 % de los sitios estudiados. Ahora bien, si una persona visita estos sitios para inspeccionarlos manualmente, en muchos de ellos encontrará un sitio completo con más de una página. Dentro de los motivos por los cuales se encuentra solamente una página en un sitio se encuentran los siguientes: La navegación de la página está basada en Javascript, por lo que es necesario interpretar el código Javascript para poder navegar. Un robot recolector no suele implementar un intérprete de este lenguaje de programación. El sitio es sólo una redirección a otro sitio. La tecnologı́a para realizar la redirección puede variar entre una etiqueta refresh en los meta-datos de la página, un enlace de redirección manual al que debe acceder el visitante, o una redirección mediante Javascript. La página requiere un plug-in de Adoble Flash para poder ser visualizada. Las dos prácticas más comunes vistas en este tipo de sitios son: 1) la utilización de introducciones de bienvenida al sitio, 2) la navegación del sitio a través de un menú interactivo. En ambos casos la solución al problema es proveer enlaces HTML tradicionales que sirvan de alternativa para navegar a través del sitio. Similar a lo anterior, el sitio utiliza applets Java para la navegación. Centro de Investigación de la Web – www.ciw.cl 31 El sitio efectivamente se compone de una sola página. Esta página puede tener contenido normal o bien presentar un gran conjunto de enlaces. El sitio no es público, por lo se requiere una clave de acceso para ingresar. En este caso se considera normal encontrar solamente una página. En la Figura 3.2 se muestra la distribución de los sitios de una página anómalos, es decir, aquellos en los cuales sı́ se espera tener acceso a una mayor cantidad de páginas. Figura 3.2: Clasificación de los sitios que solamente tienen una página visible para el recolector. 3.3. Sitios con muchas páginas Respecto a los sitios que tienen muchas páginas, o más bien los que tienen el mayor número de páginas, también existen anomalı́as. En el Cuadro 3.2 se observa la lista de los 30 sitios con más páginas, de los cuales se indica el total de páginas encontradas, la dirección del sitio y un comentario indicando la anomalı́a que afecta a ese sitio si es que se puede identificar alguna. En general, existen dos anomalı́as que usualmente se dan juntas. La primera es una consecuencia de utilizar un administrador de contenido (CMS ) para gestionar las páginas. Estos administradores proveen una gran cantidad de formas para acceder al mismo contenido, es decir, generan una gran cantidad de páginas duplicadas, todas válidas, pero con direcciones distintas. La segunda anomalı́a es el uso de parámetros en la URL, mediante URL Rewriting, que acentúa la primera anomalı́a ya que sitúa un documento en una estructura fı́sica que realmente no existe. Los recolectores cuando encuentran una página que se encuentra a una profundidad fı́sica mayor a 2, sacan la última parte de la URL y verifican si sigue siendo una dirección válida. Cuando un CMS utiliza parámetros en la URL, a partir de una dirección se puede llegar a recolectar una cantidad de páginas equivalentes a la profundidad de la dirección. Estas páginas no suelen gatillar errores en el servidor (es decir, del tipo Error 404), sino que usualmente presentan algún tipo de contenido válido y duplicado proporcionado por el CMS. Dejando de lado las anomalı́as, resulta natural pensar que los otros sitios que pueden tener una gran cantidad de páginas son los catálogos de productos, en especial en los sitios de remates, y los sitios comunitarios, donde cada usuario tiene una gran cantidad de páginas asignadas (en las Centro de Investigación de la Web – www.ciw.cl 32 Páginas Sitio 22.825 http://www.autovia.cl 22.473 http://www.b2.cl 22.100 http://www.ais.cl 21.613 http://www.kontent.cl 21.244 http://www.madness.cl 21.158 http://www.suena.cl 20.795 http://www.busch.cl 20.419 http://www.descorchados.cl 20.407 http://www.cienciaforense.cl 20.314 http://www.fotolog.cl 20.270 http://www.tarjetabip.cl 19.975 http://www.caaeii.cl 19.699 http://www.sexrelatos.cl 19.654 http://www.fechta.cl 19.601 http://www.upadiseno.cl 18.527 http://www.ees.cl 18.516 http://www.mediatecamusical.cl 18.447 http://www.enrutators.cl 18.347 http://www.graphologychile.cl 18.340 http://www.jotelog.cl 18.271 http://www.paine.cl 17.861 http://www.kemuel.cl 17.803 http://www.elobservatodo.cl 17.763 http://www.atinachile.cl 17.577 http://www.directorioweb.cl 17.401 http://www.educandonos.cl 17.378 http://www.amazon.cl 17.157 http://www.chileaprende.cl 17.130 http://www.blogcoba.cl 16.974 http://www.confronte.cl Comentario CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL Comunidad de Fotografı́a,Parámetros en URL CMS con parámetros en URL CMS CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS CMS con parámetros en URL CMS con parámetros en URL Comunidad de Fotografı́a, Parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL Comunidad de blogs, CMS con parámetros en URL Directorio de sitios CMS con parámetros en URL Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL Catálogo de Productos Cuadro 3.2: Los sitios con mayor cantidad de documentos HTML. El comentario indica posibles anomalı́as que incidieron en el número de documentos encontrado en el sitio. Centro de Investigación de la Web – www.ciw.cl 33 cuales puede tener fotos, mensajes, publicaciones, etc., dependiendo del tipo de sitio). Un problema detectado en la mayorı́a de los catálogos de productos es que muchos de esos sitios duplican el contenido de otros sitios, lo que quiere decir que cuando un sitio agrega un producto, otros sitios también lo agregan, por lo que el número de páginas crece en todos ellos. 3.4. Tı́tulos de las páginas de un sitio En la Figura 3.3 se observa la correlación entre el número de páginas de un sitio y la cantidad de tı́tulos por página que tiene el sitio. El caso ideal es que un sitio tenga un tı́tulo de documento distinto para cada página. En general no se observa una correlación significativa. Sin embargo, una gran cantidad de sitios tienen una relación cercana a 1, lo cual indica que existe una mayor preocupación por asignar un tı́tulo a los documentos. Figura 3.3: Dispersión entre la cantidad de páginas en un dominio y la proporción entre tı́tulos distintos y páginas dentro del dominio. 3.5. Tamaño de los sitios Al hablar de tamaño de un sitio se considera la suma de los tamaños de las páginas que lo componen. Sólo se considera el contenido HTML, es decir, el texto de las páginas (incluyendo código fuente), no el de sus imágenes u otros documentos o archivos. En la Figura 3.4 se muestra Centro de Investigación de la Web – www.ciw.cl 34 la distribución del tamaño de los sitios, ajustada a una ley de potencias de parámetro 1, 64. La distribución es muy sesgada: un 14 % de los sitios contiene el 99 % del total del contenido. Figura 3.4: Distribución del contenido, en términos de tamaño, para los sitios de la colecta. En el Cuadro 3.3 se listan los 30 sitios con mayor cantidad de texto. De los 30 sitios, 29 son de ı́ndole comercial, y se repiten varios sitios del Cuadro 3.2, lo que es natural si se considera que las anomalı́as que provocan una mayor cantidad de páginas también provocan una mayor cantidad de contenido. 3.6. Edad Para estudiar la edad de un sitio web, se definen tres mediciones: la edad promedio de los documentos; la edad del documento más antiguo, es decir, aquel cuya fecha de actualización es una cota inferior respecto a la de los otros documentos; y la edad del documento más nuevo, es decir, la de aquel cuya actualización se realizó más recientemente. La distribución de la edad en meses de los sitios se observa en la Figura 3.5. Las tres edades consideradas se pueden ajustar a una ley de potencias: para la edad promedio, el parámetro es 1, 32; para la edad del documento más antiguo,1, 21; para la edad del documento más reciente, 1, 37. Cerca del 32 % de los sitios fueron creados o actualizados en el último año, lo que indica no solamente que la web Chilena crece a un ritmo acelerado, sino que también constante, ya que el Centro de Investigación de la Web – www.ciw.cl 35 Texto [MiB] Sitio Tipo 1.718 http://www.suena.cl C 1.586 http://www.amazon.cl C 1.179 http://www.planetashile.cl C 928 http://listados.deremate.cl C 873 http://www.b2.cl C 863 http://foros.irc.cl C 818 http://www.hotmovies.cl C 813 http://www.atinachile.cl C 777 http://www.enrutators.cl C 757 http://www.cienciaforense.cl C 755 http://www.busch.cl C 741 http://www.kontent.cl C 674 http://www.promolibros.cl C 669 http://www.parapentechile.cl C 668 http://amcham.bluecompany.cl C 664 http://www.blogcoba.cl C 630 http://www.amchamchile.cl C 626 http://www.trance.cl C 619 http://www.sexrelatos.cl C 617 http://www.fam.cl C 614 http://www.deremate.cl C 605 http://www.shoebuy.cl C 600 http://foro.rox.cl C 597 http://www.icoubb.cl C 594 http://www.universitarios.cl C 583 http://guia.mercadolibre.cl C 572 http://www.descorchados.cl C 561 http://www.econgreso.cl C 553 http://www.paine.cl G 547 http://www.podcaster.cl C Cuadro 3.3: Tamaño de los sitios en MiB. Se considera solamente el tamaño de los documentos en formato HTML. Centro de Investigación de la Web – www.ciw.cl 36 (a) Edad del documento más antiguo. (b) Edad del documento más reciente. (c) Edad promedio de los documentos. Figura 3.5: Distribuciones de las edades de los documentos de los sitios. Centro de Investigación de la Web – www.ciw.cl 37 año 2006 creció un 40 % respecto al año 2004 [6]. 3.7. Proveedores Aunque cada sitio tiene una dirección única, muchos de ellos están hospedados en los mismos servidores. Determinar esto es posible a través de las direcciones IP de los sitios, y una vez que se tiene la dirección IP, se puede hacer una búsqueda de dns reverso para conocer el proveedor al que pertenece esa dirección. En el Cuadro 3.4 se muestran los 30 proveedores que hospedan más sitios en la Web Chilena. 3.8. Enlaces internos Un enlace interno dentro de una página en un sitio es aquel que apunta hacia otra página dentro del mismo sitio. En promedio, un sitio tiene 337 enlaces internos. Del mismo, el promedio de enlaces internos por página es 2, 25 (sin considerar sitios vacı́os o con una página, en los cuales no existen los enlaces internos). La distribución del número de enlaces internos por sitio se muestra en la Figura 3.6, y se ajusta a una ley de potencias con parámetro 1, 54. La distribución del número de enlaces internos por página en los sitios, visible en la Figura 3.7 se ajusta a una ley de potencias de parámetro 2, 98. Un sitio con pocas páginas no puede tener demasiados enlaces internos. En la Figura 3.7 se muestra un gráfico de dispersión entre el número de páginas y la relación de enlaces internos por página en los sitios. En este gráfico no se aprecia una correlación importante. 3.9. Enlaces entre sitios El grado interno de un sitio es el número de sitios que tienen al menos un enlace hacia él, mientras que el grado externo de un sitio es el número de sitios distintos que son enlazados desde sus páginas.3 En esta Sección se estudia el grado interno y externo de los sitios de la colección4 . El grado interno de un sitio es una medida de su popularidad, mientras que el grado externo refleja el tipo de sitio que se está visitando. Un sitio comercial difı́cilmente tendrá enlaces hacia otros sitios porque eso aleja a los usuarios. Por otro lado, aumentar el grado interno es difı́cil, mientras que aumentar el grado externo es fácil, ya que basta con editar el contenido de las páginas. En la Figura 3.8 se muestra la distribución del grado interno en los sitios. Esta distribución se ajusta a una ley de potencias de parámetro 1, 83, comparable con Brasil (1, 9 [27]), Grecia (2, 0, [20]) y la Web global (2, 34, [19]). 3 Esto se llama también hostrank o grafo de servidores [19]. Un sitio sin grado interno o externo en esta colección no está necesariamente aislado de los demás en la Web global. 4 Centro de Investigación de la Web – www.ciw.cl 38 Proveedor ifxnw tchile virtuabyte puntoweb dattaweb chileadmin tie tecnoera chilecom dch entelchile dreamhost cyberiainternet ibizdns puntohost websitewelcome iia abyb theplanet hostmar intelired idat netline webhostingchile smart portalciudadano dns-principal-2 conepuppy uchile dnsforhost intersitio hostingpro secureserver d11intersitio cyberblues altavoz telmexchile bluehost digitalproserver scd zcohosting Sitios 12497 5712 4048 3471 2590 2172 2120 2086 1835 1564 1525 1286 1277 1251 1242 1160 1143 1088 1067 982 914 884 823 714 688 688 687 612 595 554 536 472 461 456 452 449 438 429 425 424 406 Cuadro 3.4: Proveedores de Servicio de Internet (ISPs) con mayor cantidad de sitios, obtenidos mediante búsqueda de DNS reverso. Centro de Investigación de la Web – www.ciw.cl 39 Figura 3.6: Distribución del número de enlaces internos en los sitios. Asimismo, en la Figura 3.9 se muestra la distribución del grado externo de los sitios. Esta distribución también se ajusta a una ley de potencias de parámetro 1, 83. Es necesario recordar que los grados interno y externo son relativos a la colección de sitios. Un sitio sin grado interno en la Web Chilena bien puede tener un grado interno alto en la Web Global. 3.10. Sitios más referenciados Los 30 sitios más referenciados por otros sitios se muestran en el Cuadro 3.5. Para cada sitio se muestra el total de enlaces que recibe desde los otros sitios. La magnitud de los enlaces es similar a la encontrada el año 2006 [6], y los sitios son, en general, los mismos. También muchas posiciones se han mantenido, lo cual indica que el grado interno de los sitios no presenta grandes variaciones entre un año y otro, posiblemente debido a la dificultad que tienen los sitios, en particular los sitios recientes, para ser enlazados por otros. 3.11. Sitios con más enlaces Los 30 sitios que tienen más enlaces a otros sitios se muestran en el Cuadro 3.6. En los primeros lugares destacan buscadores y directorios, aunque se pueden encontrar sitios de instituciones Centro de Investigación de la Web – www.ciw.cl 40 Sitios que enlazan Total Enlaces 542 21.224 398 21.001 374 2.686 335 2.321 290 1.249 261 8.279 260 3.984 241* 5.635 241 945 239 1.938 232 609 216 1.472 209 720 204 809 200 732 195 966 190 477 187 4.997 165 7.789 162 1.204 160 962 157* 4.312 155 659 154 273 145 288 145 3.139 145** 145 145 6.815 143 430 142 195 Sitio http://www.sii.cl http://www.uchile.cl http://www.mineduc.cl http://www.meteochile.cl http://www.corfo.cl http://www.gobiernodechile.cl http://www.latercera.cl http://mi.loquegustes.cl http://www.bcentral.cl http://www.puc.cl http://www.conama.cl http://www.sence.cl http://www.amarillas.cl http://www.udec.cl http://www.sernatur.cl http://www.terra.cl http://www.minsal.cl http://www.lanacion.cl http://www.elmostrador.cl http://www.iglesia.cl http://www.universia.cl http://ayuda.loquegustes.cl http://www.conicyt.cl http://www.prochile.cl http://www.conaf.cl http://www.dibam.cl http://www.alessandri.cl http://www.uach.cl http://www.bcn.cl http://www.registros19862.cl Cuadro 3.5: Sitios que reciben más enlaces. Primero, la cantidad de sitios que lo enlazan, después el número total de enlaces que reciben. Los sitios marcados con * reciben todos sus enlaces desde otros sitios pertenecientes al mismo dominio. El sitio marcado con ** recibe solamente un enlace desde cada sitio que lo enlaza, todos ellos dominios “resguardados” por los dueños del sitio. Centro de Investigación de la Web – www.ciw.cl 41 (a) Enlaces Internos por Página (b) Número de Enlaces Internos por Página Figura 3.7: Distribuciones de enlaces internos por página para los documentos del sitio y del número de enlaces internos por página. educacionales y sitios comunitarios. La magnitud es muy distinta a la de los estudios anteriores: respecto al estudio del año 2006 3.12. Suma de los puntajes por enlaces En la Figura 3.10 se muestran las distribuciones de los puntajes por enlaces para los sitios. Si bien las distribuciones tienen formas similares a leyes de potencias, el error es demasiado grande como para considerar que son ajustables. Ello no quiere decir que la distribución no sea sesgada: un 20 % de los sitios tiene el 99 % del Puntaje Authority total; un 7 % de los sitios tiene el 99 % del puntaje Hub; y un 20 % de los sitios tiene el 99 % del Pagerank total. 3.13. Componentes fuertemente conectados En un grafo, se dice que una parte de él es una componente conexa o conectada si es posible ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que una componente del grafo es una componente fuertemente conectada si esto es posible respetando la dirección de los enlaces. En la Web se está dentro de una componente fuertemente conectada si es posible ir desde cualquier sitio a cualquier otro sitio siguiendo enlaces. No toda la Web de Chile es fuertemente conectada. En el Cuadro 3.7 se muestra el número de componentes fuertemente conectadas encontradas en la colección (considerando solamente sitios que tienen al menos grado interno o externo no nulo). Se aprecia la aparición de una componente gigante [14], lo que es una señal tı́pica de una red libre de escala. En la Figura 3.11 se muestra la distribución de estas componentes, distribución que se ajusta en su parte inicial a una ley de potencias de parámetro 3, 33, comparable con España (3, 84 [7]), Korea del Sur (2, 6 [8]), Argentina (2, 74 [34]) y la Web Global (2, 81 [19]). Centro de Investigación de la Web – www.ciw.cl 42 Sitios Enlazados 1.253 523 416 352 292 240 224 206 205 193 190 184 172 165 164* 164* 164* 163* 163* 163* 163 163* 162* 162* 162* 162* 162* 155 153* 149 Total Enlaces 2.507 1.706 1.205 361 477 346 225 212 376 437 200 2.796 191 184 168 167 167 167 167 166 165 167 166 167 164 166 164 168 155 505 Sitio http://www.chido.cl http://www.fotolog.cl http://www.atinachile.cl http://www.todocl.cl http://www.webs.cl http://www.solteros.cl http://www.huellas.cl http://www.agendacomercial.cl http://www.123.cl http://www.educarchile.cl http://www.boom.cl http://www.chilepd.cl http://www.lemmefind.cl http://www.mipagina.cl http://www.scanning.cl http://www.nessus.cl http://www.asp.cl http://www.ivr.cl http://www.simulacion.cl http://www.nanotech.cl http://www.yes.cl http://www.bangalore.cl http://www.olap.cl http://www.links.cl http://www.subasta.cl http://www.convenio.cl http://www.top.cl http://www.sitiosculturales.cl http://www.compiere.cl http://www.plataformaurbana.cl Cuadro 3.6: Sitios que tienen más enlaces hacia otros sitios. Primero, la cantidad de sitios que enlazan, después el número total de enlaces que contienen. Los sitios marcados con * corresponden a réplicas del mismo sitio. Centro de Investigación de la Web – www.ciw.cl 43 Tamaño de la Componente Número de Componentes 1 102869 2 528 3 90 4 32 5 13 6 10 7 4 8 2 9 4 10 3 11 1 13 1 14 1 18 1 22 2 24 1 75 1 76 1 266 1 6275 (Componente Gigante) 1 Cuadro 3.7: Tamaño de las componentes fuertemente conexas. Centro de Investigación de la Web – www.ciw.cl 44 Figura 3.8: Distribución del Grado Interno para los sitios de la colecta. 3.14. Estructura de enlaces entre sitios La componente fuertemente conectada gigante puede ser usada como el punto de partida para distinguir ciertas componentes de la Web [14]: MAIN, los sitios en la componente fuertemente conexa, que a su vez se extiende en las siguientes componentes [2]: • MAIN-MAIN, que son los sitios que pueden ser alcanzados directamente desde la componente IN o que pueden alcanzar directamente la componente OUT. • MAIN-IN, que son los sitios que pueden ser alcanzados directamente desde IN pero no están en MAIN-MAIN. • MAIN-OUT, que son los sitios que pueden alcanzar directamente a OUT pero no pertenecen a MAIN-MAIN. • MAIN-NORM, que son los sitios que no pertenecen a las subcomponentes definidas anteriormente. OUT, los sitios que son alcanzables desde MAIN, pero que no tienen enlaces hacia MAIN. IN, los sitios que pueden alcanzar a MAIN, pero que no tienen enlaces desde MAIN. ISLAS, sitios que no son accesibles ni hacia ni desde MAIN. Centro de Investigación de la Web – www.ciw.cl 45 Figura 3.9: Distribución del Grado Externo para los sitios de la colecta. TENTÁCULOS, sitios que sólo se conectan con IN o OUT, pero en el sentido inverso de los enlaces. TÚNEL, una componente que une las componentes IN y OUT sin pasar por MAIN. La Figura 3.12 muestra una representación gráfica de estas componentes. La distribución de sitios por componentes se muestra en el Cuadro 3.8. Se muestra el porcentaje sobre el total de los sitios y sobre aquellos con grado interno o externo no nulo. También se muestra la distribución del número de páginas por componente. La estructura de la web presenta una correlación importante con otras caracterı́sticas de los sitios. En la Figura 3.13 se muestra la distribucióń de sitios de una sola página por componente. En la componente MAIN hay muy pocos sitios de una sola página, mientras que en la componente ISLAS se encuentra aproximadamente el 66 % de dichos sitios. Se observa, además, que el tipo de sitio también tiene un grado de correlación con la componente: en IN se encuentran más redirecciones y páginas con links, mientras que el caso general es tener una mayor cantidad de sitios con páginas que utilizan Java/Javascript o Flash. Otra variable que puede ser importante es la cantidad de información por componentes. En el Cuadro 3.8 se observa que la componente MAIN es la que tiene el mayor porcentaje de páginas, y en la Figura 3.14 se observa que es esta misma componente (en particular MAIN-MAIN) la que tiene la mayor cantidad de enlaces a documentos no HTML que presentan información escrita. Centro de Investigación de la Web – www.ciw.cl 46 (a) Distribución del puntaje Authority para los sitios (b) Distribución del puntaje Hub para los sitios de la de la colecta. colecta. (c) Distribución del PageRank para los sitios de la colecta. Figura 3.10: Distribuciones de las sumas de puntajes por enlaces para los sitios. Componente MAIN IN MAIN OUT MAIN MAIN MAIN NORM MAIN ISLAND IN OUT TOUT TIN TUNNEL Total Sitios 0,90 % 1,64 % 2,21 % 0,90 % 5,63 % 65,26 % 9,32 % 10,18 % 6,02 % 3,16 % 0,43 % Sólo con enlaces Total Páginas 2,29 % 4,46 % 4,17 % 8,58 % 5,63 % 23,17 % 2,29 % 2,78 % 14,37 % 38,99 % 10,59 % 24,48 % 23,77 % 19,67 % 25,96 % 10,37 % 15,36 % 3,46 % 8,07 % 2,55 % 1,09 % 0,48 % De sitios con enlaces 5,63 % 10,82 % 29,20 % 3,50 % 49,15 % 4,82 % 24,79 % 13,06 % 4,36 % 3,21 % 0,61 % Cuadro 3.8: Macrocomponentes de la web chilena y la cantidad de sitios y páginas de cada una de ellas. Centro de Investigación de la Web – www.ciw.cl 47 Figura 3.11: Distribución de los tamaños de las componentes fuertemente conexas. Figura 3.12: Estructura macroscópica de la Web. Centro de Investigación de la Web – www.ciw.cl 48 Figura 3.13: Distribución de los sitios de una página por Macrocomponente. Se indica el motivo por el cual estos sitios tienen una página según la recolección. Centro de Investigación de la Web – www.ciw.cl 49 Figura 3.14: Distribución de los documentos de texto no HTML separados por Macrocomponente. Centro de Investigación de la Web – www.ciw.cl Capı́tulo 4 Dominios Del mismo modo en que las páginas se agrupan en sitios, estos últimos se agrupan en dominios. Un dominio es definido como el sufijo del nombre de un sitio web. Si la dirección de un sitio es www.sitio.cl, se considera como nombre del dominio la cadena sitio.cl, siendo cl el dominio de primer nivel y sitio el dominio de segundo nivel. En el Cuadro 4.1 se muestran algunos datos básicos sobre los dominios conocidos. En la colecta hay 190,577 dominios distintos, y llama la atención la cantidad de dominios vacı́os, 2,934, que son aquellos de los cuales se tiene un registro pero que en realidad no tienen un servidor asignado. Dominios Promedio Contenido Dominios con 1 Página Dominios con 1 Sitio Dominios vacı́os Promedio de Páginas Promedio de Sitios 190.577 764.880,47 [B] 45.607 187.544 2.934 50,57 1,05 Cuadro 4.1: Resumen de estadı́sticas sobre los dominios. Las Secciones de este Capı́tulo son las siguientes: Sección 4.1, Direcciones IP y Software utilizado como servidor: se estudia la distribución de dominios a través de las distintas direcciones IP encontradas en la colecta. Además, a cada dirección IP se le pidió información sobre el software que utiliza, en particular su sistema operativo y el software servidor. Sección 4.2, Número de sitios por dominio: se estudia la distribución de sitios en los dominios. Se incluye un listado de los dominios con más sitios en la colección. Sección 4.3, Número de páginas por dominio: se estudia la distribución de páginas en los dominios. Sección 4.4, Tamaño de los dominios: se estudia la distribución del contenido en los dominios, y se listan los dominios con más texto en la colección. 50 51 Sección 4.5, Enlaces entre dominios: se estudian los enlaces entre dominios. Para ello, se enumeran los dominios que reciben más enlaces desde otros dominios, y se muestra una representación gráfica de la parte central de la componente MAIN-MAIN. Sección 4.6, Dominios de primer nivel: se estudia la distribución de sitios a través de los dominios de primer nivel de la Web Chilena. Sección 4.7, Dominios externos de primer nivel: se estudian los enlaces hacia dominios no nacionales. Esto incluye el listado de los dominios externos más enlazados y la relación entre los enlaces externos y el intercambio comercial de Chile. 4.1. Direcciones IP y Software utilizado como servidor De los sitios estudiados, un 19, 5 % no pudo ser contactado al momento del estudio. A cada uno de los que sı́ se pudo contactar, se les extrajo la dirección IP, obteniendo en total 14,477 direcciones. Al agrupar las direcciones IP por dominio, se obtiene la distribución que muestra la Figura 4.1. La distribución, que se ajusta a una ley de potencias de parámetro 0, 35 en su parte inicial y a una ley de potencias de parámetro 1, 37 en su parte central, es muy sesgada, pues existen dos direcciones IP con más de 1.000 dominios distintos, mientras que más de 13.000 direcciones tienen menos de 10 dominios. Figura 4.1: Distribución de las direcciones IP para los dominios de la web chilena. Para cada dirección IP se examinó el software utilizado por el servidor, incluyendo el sistema Centro de Investigación de la Web – www.ciw.cl 52 operativo, aunque no todas ellas entregan información. En la Figura 4.2 se observan las distribuciones de sistema operativo y de software servidor utilizado en las direcciones encontradas. (a) Software Servidor (b) Sistemas Operativos Figura 4.2: Distribuciones de generadores de páginas dinámicas, software servidor utilizado en los servidores y los sistemas operativos utilizados en ellos. De todas las direcciones válidas, un 38, 21 % de las direcciones no entrega información sobre el software servidor que utiliza. El servidor Apache, considerando la cifra anterior, parece tener la mayor presencia, con un 43 % de participación. No se puede afirmar directamente que Apache tiene la mayor participación debido a que no se conoce la distribución de los servidores que no entregaron información. Respecto al sistema operativo, un 43, 21 % de las direcciones válidas no entrega información. Las distintas versiones de Unix y Linux suman un total de 38, 67 %, dejando a Microsoft Windows con un 18, 12 % de participación. 4.2. Número de sitios por dominio Un dominio tiene en promedio 1, 05 sitios, lo que quiere decir que la mayorı́a de los dominios (187,544 en total) se utiliza para un único sitio. En la Figura 4.3 se observa la distribución de sitios por dominios. Esta distribución se aproxima en su parte central por una ley de potencias de parámetro 0, 75. En la imagen se aprecia claramente la cantidad de dominios con un único sitio. Además, en el Cuadro 4.2 se muestran los dominios con más sitios. Para cada uno de ellos se indica el número de páginas y el número de enlaces a documentos de texto no HTML, como una medida de la cantidad de información que presentan esos dominios. 4.3. Número de páginas por dominio En promedio, un dominio tiene 50, 57 páginas. Además, existen 45,607 dominios con una sola página, una cifra muy similar a la cantidad de sitios con una página. La distribución del número de páginas por dominio se observa en la Figura 4.4, y se ajusta a una ley de potencias de parámetro 0, 13 en su parte inicial y a una ley de potencias de parámetro 1, 54 en su parte central. Centro de Investigación de la Web – www.ciw.cl 53 Sitios 690 374 352 342 267 158 124 111 110 94 85 82 81 75 75 74 72 63 61 56 53 45 40 38 35 32 30 29 28 28 Páginas 1.309 35.215 1.977 21.590 10.868 28.996 36.974 710 5.844 30.596 4.229 12.697 11.117 4.507 513 5.055 5.337 3.745 8.143 5.116 6.745 6.154 1.554 77 4.388 3.297 1.307 1.481 9.680 2.643 Documentos* 649 18.148 136 125 1 6.269 229 452 3.490 36 2.637 5.627 10.236 5.586 39 0 3.127 864 83 1.998 0 3.702 706 2 1.985 2.575 256 2.462 0 0 Dominio 84,28 %(pdf) 15,72 %(doc) portalciudadano 78,96 %(pdf) 13,00 %(xml) uchile 37,50 %(pdf) 35,29 %(doc) scd 100,00 %(txt) loquegustes 100,00 %(txt) boonic 78,23 %(pdf) 21,34 %(doc) gov 99,56 %(xml) 0,44 %(doc) vivastreet 99,12 %(pdf) 0,88 %(xml) co 62,89 %(pdf) 24,47 %(txt) utfsm 50,00 %(pdf) 27,78 %(xml) terra 86,16 %(pdf) 8,04 %(doc) ucv 87,26 %(pdf) 9,72 %(doc) puc 53,43 %(doc) 46,54 %(pdf) gob 90,51 %(pdf) 7,02 %(doc) utalca 76,92 %(xml) 17,95 %(pdf) tie olx 75,60 %(pdf) 21,62 %(doc) usach 82,29 %(pdf) 9,49 %(xml) ucn 59,04 %(xml) 38,55 %(pdf) canal13 81,23 %(pdf) 11,41 %(doc) udec 123 92,33 %(pdf) 7,54 %(doc) uach 65,58 %(pdf) 32,72 %(doc) ulagos 100,00 %(xml) sanvicentett 98,84 %(xml) 0,91 %(pdf) tvn 86,60 %(pdf) 13,32 %(doc) udp 75,78 %(pdf) 12,89 %(doc) usm 95,65 %(pdf) 3,70 %(doc) ufro top1 evisos Tipo C E C C C G C C E C E E G E C C E E M E C E E C M E E E C C Cuadro 4.2: Dominios con mayor cantidad de sitios. Se detalla el número de páginas encontradas en sus sitios, los enlaces a documentos no HTML encontrados en ellos, y el tipo de dominio, donde G es de Gobierno, C de Comercial, E de Educacional y M de Medio de Comunicación. *: Se cuenta la cantidad de enlaces a documentos no HTML. Centro de Investigación de la Web – www.ciw.cl 54 Figura 4.3: Distribución de los sitios para los dominios de la web chilena. 4.4. Tamaño de los dominios El tamaño promedio de un dominio es cercano a los 746 KiB. La distribución del tamaño total de páginas y la fracción de los dominios se muestra en la Figura 4.5, y se ajusta a una ley de potencias con parámetros 0, 98 en su parte inicial y 1, 45 en su parte central. En el Cuadro 4.3 se muestran los 30 dominios con más contenido. La mayorı́a de ellos son sitios comerciales o de subastas, siguiendo la tendencia del año anterior [6]. Las mismas anomalı́as que producen sitios con más contenido del que verdaderamente tienen se aplican a esta tabla. 4.5. Enlaces entre dominios En el Cuadro 4.4 se muestran los 30 dominios que reciben más enlaces desde otros dominios. Nuevamente, prima la cantidad de dominios distintos por sobre el total de enlaces recibidos. En la lista se encuentran dominios del gobierno, de instituciones de educación, de comerciales, de medios de comunicación, y algunos que son marcados como “otros” por el contenido que presentan. En particular, los dominios en los puestos 2, 3 y 4 son equivalentes, tienen la misma IP y muestran los mismos sitios. Para el caso de los dominios, se desea una representación gráfica de la Web Chilena. Para esta representación se eligieron los 100 dominios más enlazados, considerando solamente aquellos que Centro de Investigación de la Web – www.ciw.cl 55 Tamaño [MiB] Dominio Tipo 3.116 turismo-viajes C 1.718 suena C 1.670 deremate C 1.586 amazon C 1.583 mercadolibre C 1.179 planetashile C 873 b2 C 863 irc C 821 lapapa C 818 hotmovies C 813 atinachile C 777 enrutators C 757 cienciaforense C 755 busch C 741 kontent C 726 vivastreet C 674 promolibros C 673 bluecompany C 669 parapentechile C 664 blogcoba C 640 gov G 630 amchamchile C 629 uchile E 626 trance C 619 sexrelatos C 617 fam C 605 shoebuy C 601 rox C 597 icoubb O 594 universitarios C Cuadro 4.3: Dominios de mayor tamaño. Se detalla el tipo de dominio: Comercial (C), Gobierno (G), Educativo (E), Medio de Comunicación (M) u Otro (O). Centro de Investigación de la Web – www.ciw.cl 56 Dominios que Enlazan 1.300 906 904 902 653 550 542 496 467 434 367 335 330 323 293 292 264 261 257 247 232 214 209 209 202 201 200 198 197 193 Enlaces Total Dominio 61.712 uchile 906 nameaction 904 backorder 902 snapnames 3.172 gov 4.654 puc 21.224 sii 3.476 mineduc 5.233 gob 18.146 123 12.876 latercera 2.323 meteochile 1.360 bcentral 1.623 udec 1.263 corfo 7.631 scd 1.998 utfsm 8.279 gobiernodechile 34.471 terra 1.656 sence 609 conama 11.073 co 720 amarillas 1.300 canal13 669 portalciudadano 7.445 uach 732 sernatur 491 minsal 716 ucv 949 usach Tipos E O O O G E G G G C M G G E G C E G C G G C C M O E G G E E Cuadro 4.4: Dominios con mayor grado interno. Se detalla el tipo de dominio: Comercial (C), Gobierno (G), Educacional (E), Medio de Comunicación (M) u Otro (O). Centro de Investigación de la Web – www.ciw.cl 57 Figura 4.4: Distribución de los documentos para los dominios de la web chilena. tenı́an sitios en la componente MAIN MAIN, con el fin de mostrar los dominios más relevantes. Esta representación1 se observa en la Figura 4.6, contiene 100 dominios representados como nodos enlazados por una lı́nea cuyo grosor y color muestra la cantidad de enlaces entre ellos (mientras más oscuro y grueso, hay una mayor cantidad de enlaces). Los dominios se dividen en tres grupos: comerciales (rectángulos), de instituciones educacionales (elipses) y de gobierno (rombos). 4.6. Dominios de primer nivel La colección incluye dominios que están hospedados en IPs asignadas a Chile pero que no necesariamente corresponden al dominio nacional cl. El Cuadro 4.5 muestra como se distribuyen los dominios de primer nivel en la Web Chilena. En esta distribución se aprecia que el dominio más valorado es el dominio nacional, aunque es probable que existan otros sitios con dominios externos que estén hospedados en IPs nacionales pero de los cuales no se tenga conocimiento. Adicionalmente, en el Cuadro 4.6 se muestra la distribución de los sitios de cada componente a través de los dominios de primer nivel. 1 Realizada con la aplicación neato del paquete graphviz, http://www.graphviz.org. Centro de Investigación de la Web – www.ciw.cl 58 Dominio cl com net org otro Nombre comentario comentario comentario comentario comentario % dominios 99,93 % 0,06 % 0,01 % 0,01 % 0,00 % % sitios 99,64 % 0,17 % 0,02 % 0,03 % 0,13 % % páginas 97,63 % 1,99 % 0,01 % 0,30 % 0,06 % Cuadro 4.5: Distribución de dominios de primer nivel. Componente MAIN IN MAIN OUT MAIN MAIN MAIN NORM MAIN ISLAND IN OUT TOUT TIN TUNNEL Total Sitios 0,90 % 1,64 % 2,21 % 0,90 % 5,63 % 65,26 % 9,32 % 10,18 % 6,02 % 3,16 % 0,43 % cl 99,20 % 99,73 % 99,10 % 99,50 % 99,36 % 99,62 % 98,70 % 99,11 % 99,79 % 99,57 % 99,58 % com 0,60 % 0,11 % 0,77 % 0,40 % 0,49 % 0,18 % 0,15 % 0,59 % 0,19 % 0,31 % 0,42 % org net otro 0,00 % 0,20 % 0,00 % 0,05 % 0,00 % 0,11 % 0,04 % 0,08 % 0,00 % 0,00 % 0,00 % 0,10 % 0,03 % 0,06 % 0,05 % 0,04 % 0,02 % 0,13 % 0,04 % 0,02 % 1,09 % 0,08 % 0,10 % 0,12 % 0,01 % 0,00 % 0,00 % 0,06 % 0,00 % 0,06 % 0,00 % 0,00 % 0,00 % Cuadro 4.6: Distribución de dominios de primer nivel por Macrocomponente Centro de Investigación de la Web – www.ciw.cl 59 Figura 4.5: Distribución del tamaño de los dominios para los dominios de la web chilena. 4.7. Dominios externos de primer nivel Se encontraron más de 130.000.000 de enlaces hacia páginas de sitios externos. Los 30 dominios externos de primer nivel más referenciados se muestran en el Cuadro 4.7. Además se indica el ranking de uso de ese dominio en la Web Global [17], el nombre del dominio y el porcentaje de los enlaces que le corresponde dentro del total. La Figura 4.7 muestra la distribución de los enlaces a los dominios externos, que se ajusta a una ley de potencias de parámetros 1, 75 en su parte inicial y 5, 86 en su parte central. Una observación importante es que el gráfico continúa más allá del total de dominios válidos por la presencia de errores de tipo en los nombres de dominio. La cantidad de enlaces externos puede ser relacionada con el intercambio comercial [4]. En la Figura 4.8 se muestra la relación entre los enlaces a dominios externos y las exportaciones e importaciones de Chile. Tal como lo muestran los diagramas, hay una relación significativa entre el número de enlaces y el intercambio comercial, en particular en las exportaciones, donde el número de enlaces y el volumen de intercambio tiene una correlación de 0, 62. Los paı́ses orientales son los que más se alejan de la recta que modela la relación, como es el caso de China, Japón, Korea y Taiwán. En general se observa que los paı́ses más alejados son aquellos que no tienen como lengua oficial el idioma inglés. Una aproximación realizada es la siguiente: para el dominio de Estados Unidos se incluyó el dominio .com, lo que no es del todo exacto ya que dicho dominio contiene sitios de una gran cantidad de naciones. Centro de Investigación de la Web – www.ciw.cl 60 Ranking 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Ranking Global 2 36 1 7 77 28 4 12 21 11 82 29 13 69 8 87 41 5 63 60 127 111 74 14 6 20 9 22 18 19 Dominio Nombre com Comercial (G) org Organización (G) net Red (G) cn China info Información (G) ar Argentina de Alemania mx México es España br Brazil biz Negocio (G) us Estados Unidos uk Inglaterra ve Venezuela edu Educacional (G) ec Ecuador co Colombia it Italia pe Perú uy Uruguay pa Panamá cr Costa Rica do Rep. Dominicana pl Polonia fr Francia dk Dinamarca nl Holanda ch Suiza se Suecia be Bélgica Enlaces 62,02 % 12,46 % 3,67 % 2,99 % 2,83 % 2,15 % 1,40 % 1,25 % 1,16 % 0,65 % 0,62 % 0,61 % 0,56 % 0,53 % 0,43 % 0,37 % 0,33 % 0,33 % 0,31 % 0,29 % 0,29 % 0,27 % 0,26 % 0,24 % 0,23 % 0,20 % 0,19 % 0,17 % 0,15 % 0,15 % Cuadro 4.7: Fracción de enlaces a los 30 dominios externos más referenciados. Centro de Investigación de la Web – www.ciw.cl 61 Figura 4.6: Una visión gráfica de los 100 dominios más enlazados de la Web Chilena, considerando solamente aquellos dominios con sitios en la componente MAIN MAIN. Centro de Investigación de la Web – www.ciw.cl 62 Figura 4.7: Distribución de los enlaces externos para los dominios de la web chilena. Centro de Investigación de la Web – www.ciw.cl 63 Figura 4.8: Relación entre el intercambio comercial internacional y los enlaces salientes de la Web Chilena. Centro de Investigación de la Web – www.ciw.cl Capı́tulo 5 Conclusiones En Octubre de 2007, cuando se inició la recolección que dio luz a este informe, se tenı́an nociones de los resultados que entregarı́a el análisis posterior de la colecta. Los resultados obtenidos, si bien se acercan a las proyecciones que se habı́an estimado de acuerdo a los resultados de años anteriores, no dejan de ser sorprendentes. La Web Chilena ha cambiado bastante respecto a los últimos años y, a pesar de estar en constante cambio, sigue manteniendo una estructura similar a la encontrada en años anteriores. En el Capı́tulo 2, se analizaron diversas caracterı́sticas de los documentos en la colección. El crecimiento en la cantidad de documentos recolectados desde la colecta anterior es notorio,desde 7, 4 millones a 9, 6 millones, lo cual es consecuente con la cantidad de documentos creada o actualizada en los últimos 12 meses. La distribución de los documentos en diferentes análisis se puede ajustar a leyes de potencias, verificando el modelo de redes libres de escala enunciado en el Capı́tulo 1, en particular en las distribuciones de contenido, de enlaces y de algoritmos de puntaje por enlaces. Ahora bien, aparte de los análisis matemáticos, también se estudiaron diversas propiedades de los documentos, como el lenguaje, donde se observa que el idioma mantiene una distribución similar a la del estudio anterior: el idioma oficial de Chile, el Castellano, mantiene una presencia cercana al 81 %, mientras que el Inglés tiene una presencia cercana al 18 %. También se observó un aumento en la cantidad de enlaces funcionales y en la cantidad de enlaces que ya no existen, es decir, se han disminuido los otros tipos de errores HTTP. Respecto al contenido de las páginas, el vocabulario sigue la tendencia del año pasado, siendo Chile y su capital parte de los términos más comunes, considerando también la aparición de palabras relacionadas con el comercio, con la educación y con las tecnologı́as web. En términos de usabilidad, dentro de un sitio han disminuido los tı́tulos compartidos en las páginas pero han aumentado los tı́tulos vacı́os. El Capı́tulo 3 estudió los 200,000 sitios que contiene la colecta, de los cuales se pudieron recolectar cerca de 111,000. De estos últimos, cerca de 48,000 se identificaron como sitios de una sola página, aunque la mayorı́a de ellos tenı́a efectivamente más documentos. El análisis de algunas caracterı́sticas de los sitios también presenta leyes de potencias: la distribución de documentos por sitios, la edad en meses, la distribución de enlaces internos y la distribución de enlaces entre sitios, entre otras propiedades. Si bien los sitios con más documentos y con más contenido, en términos de tamaño, presentan 64 65 anomalı́as que perturban los resultados del análisis, los sitios que reciben más enlaces se han mantenido a lo largo de los años. Estos sitios destacan por ser sitios del gobierno, de instituciones educacionales o de medios de comunicación. La macroestructura de la web también presenta caracterı́sticas importantes. Aunque solamente un 5 % de los sitios válidos o no vacı́os está fuertemente conectado entre sı́, estos sitios tienen el 39 % del total de las páginas. A su vez, un 65, 26 % de los sitios está aislado de los demás, y contienen cerca del 24 % del total de las páginas. También se estudiaron los proveedores de los sitios que forman la colecta. Una gran mayorı́a de ellos están ubicados fı́sicamente en Chile, aunque algunos ISP de la lista de proveedores con más sitios están ubicados en el extranjero. El Capı́tulo 4 estudió los 190,577 dominios encontrados. La proporción entre sitios y dominios es casi uno a uno si no se consideran los sitios vacı́os, aunque la inspección manual de la colecta indica que hay una gran cantidad de dominios con más de un sitio. Por otro lado, las distribuciones de páginas y sitios por dominio se pueden ajustar a leyes de potencias, aunque el ajuste para los sitios no abarca los dominios con mayor cantidad de sitios. La distribución de direcciones IP para los dominios también se ajusta a una ley de potencias. En estas direcciones se estudió la tecnologı́a que utilizaba el servidor, y en las que entregaron información se encontró que tanto en el sistema operativo como en el servidor utilizado, las tecnologı́as de código abierto tienen mayor presencia. Respecto a los dominios extranjeros, se encontró nuevamente, al igual que en los años anteriores, que existe una relación significativa entre la cantidad de enlaces y el intercambio comercial de un paı́s. En general, los paı́ses que no cumplen con la relación tienen motivos claramente identificables, en su mayorı́a de lenguaje. Finalmente, los análisis presentados a lo largo de los Capı́tulos permiten no solamente establecer un modelamiento de la Web en términos matemáticos o analı́ticos, también permiten tener datos concretos que sirven de base para estudios de usabilidad, de mercado y de minerı́a de datos, entre otros. Lo que se ha realizado es una captura de un instante particular de la existencia de la Web, cuya representatividad no se puede poner en duda al ver la constancia que se ha tenido durante los años pasados, y los resultados similares vistos en estudios aplicados a otras Webs nacionales. Centro de Investigación de la Web – www.ciw.cl Bibliografı́a [1] Ricardo Baeza-Yates and Carlos Castillo. Caracterizando la web chilena. In Encuentro chileno de ciencias de la computación, Punta Arenas, Chile, 2000. Sociedad Chilena de Ciencias de la Computación. [2] Ricardo Baeza-Yates and Carlos Castillo. Relating web characteristics with link based web page ranking. In Proceedings of String Processing and Information Retrieval SPIRE, pages 21–32, Laguna San Rafael, Chile, 2001. IEEE CS Press. [3] Ricardo Baeza-Yates and Carlos Castillo. Caracterı́sticas de la web chilena 2004. Technical report, Center for Web Research, University of Chile, 2005. [4] Ricardo Baeza-Yates and Carlos Castillo. Relationship between web links and trade. Proceedings of the 15th international conference on World Wide Web, pages 927–928, 2006. [5] Ricardo Baeza-Yates and Carlos Castillo. WIRE: Web Information Retrieval Environment, 2006. http://www.cwr.cl/projects/WIRE/. [6] Ricardo Baeza-Yates, Carlos Castillo, and Eduardo Graells. Caracterı́sticas de la web chilena 2006. Technical report, Center for Web Research, University of Chile, 2007. [7] Ricardo Baeza-Yates, Carlos Castillo, and Vicente López. Caracterı́sticas de la web de españa. El Profesional de la Información, 15(1), January 2006. [8] Ricardo Baeza-Yates and Felipe Lalanne. Characteristics of the korean web. Technical report, Korea–Chile IT Cooperation Center ITCC, 2004. [9] Ricardo Baeza-Yates, Bárbara Poblete, and Felipe Saint-Jean. Evolución de la web chilena 2001–2002. Technical report, Center for Web Research, University of Chile, 2003. [10] Albert-László Barabási. Linked: The New Science of Networks. Perseus Books Group, May 2002. [11] A.A. Benczur, K. Csalogany, D. Fogaras, E. Friedman, T. Sarlos, M. Uher, and E. Windhager. Searching a small national domain–a preliminary report. Poster Proceedings of Conference on World Wide Web, 2003. [12] T. Berners-Lee, L. Masinter, and M. McCahill. RFC1738: Uniform Resource Locators (URL). Internet RFCs, 1994. [13] P. Boldi, B. Codenotti, M. Santini, and S. Vigna. Structural properties of the African web. The Eleventh International WWW Conference, May, 2002. 66 67 [14] A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the web: experiments and models. Proceedings of the ninth WWW Conference, 2000. [15] Carlos Castillo, Bartlomiej Starosta, and Marcin Sydow. Crawl.pl: Measuring statistical and structural properties of the polish web. Studia Informatica, 1(8):43–73, 2007. [16] J. Cho, N. Shivakumar, and H. Garcia-Molina. Finding replicated web collections. ACM SIGMOD, pages 355–366, 1999. [17] Internet Systems Consortium. Internet Domain Survey, 2007. http://www.isc.org/ds/. [18] Brian D. Davison. Topical locality in the web. In SIGIR ’00: Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pages 272–279, New York, NY, USA, 2000. ACM Press. [19] S. Dill, R. Kumar, K.S. McCurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. SelfSimilarity In the Web. ACM Transactions on Internet Technology, 2(3):205–223, 2002. [20] Efthimis Efthimiadis and Carlos Castillo. Charting the Greek Web. In Proceedings of the Conference of the American Society for Information Science and Technology (ASIST), Providence, Rhode Island, USA, November 2004. American Society for Information Science and Technology. [21] D. Gomes and M.J. Silva. A characterization of the portuguese web. 3rd ECDL Workshop on Web Archives, Trondheim, Norway, 21, 2003. [22] A. Gulli and A. Signorini. The indexable web is more than 11.5 billion pages. In WWW ’05: Special interest tracks and posters of the 14th international conference on World Wide Web, pages 902–903, New York, NY, USA, 2005. ACM Press. [23] Z. Gyongyi and H. Garcia-Molina. Web spam taxonomy. First International Workshop on Adversarial Information Retrieval on the Web, 2005. [24] Jon M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632, 1999. [25] Guowei Liu, Yong Yu, Jie Han, and Guirong Xue. China web graph measurements and evolution. In Web Technologies Research and Development (APWeb), pages 668–679, Shanghai, China, 2005. Springer Berlin / Heidelberg. [26] Microsoft. ASP: Active Server Pages, 2006. http://msdn.microsoft.com/asp.net/. [27] Marco Modesto, Álvaro Pereira, Nivio Ziviani, Carlos Castillo, and Ricardo Baeza-Yates. Um novo retrato da web brasileira. In Proceedings of XXXII SEMISH, pages 2005–2017, São Leopoldo, Brazil, 2005. [28] L. Page, S. Brin, R. Motwani, and T. Winograd. The pagerank citation ranking: Bringing order to the web, 1998. Centro de Investigación de la Web – www.ciw.cl 68 [29] G. Pandurangan, P. Raghavan, and E. Upfal. Using PageRank to Characterize Web Structure. 8th Annual International Computing and Combinatorics Conference (COCOON), pages 330– 339, 2002. [30] A. Rauber, A. Aschenbrenner, O. Witvoet, R.M. Bruckner, and M. Kaiser. Uncovering Information Hidden in Web Archives. D-Lib Magazine, 8(12):1082–9873, 2002. [31] S. Sanguanpong, P.P. Nga, S. Keretho, Y. Poovarawan, and S. Warangrit. Measuring and analysis of the Thai World Wide Web. Proceeding of the Asia Pacific Advance Network conference, pages 225–230, 2000. [32] T. Suel and J. Yuan. Compressing the graph structure of the web. Data Compression Conference (DCC), pages 213–222, 2001. [33] M. Thelwall and D. Wilkinson. Graph structure in three national academic Webs: Power laws with anomalies. Journal of the American Society for Information Science and Technology, 54(8):706–712, 2003. [34] Gabriel Tolosa, Fernando Bordignon, Ricardo Baeza-Yates, and Carlos Castillo. Characterization of the argentinian web. Cybermetrics, 11(1):3+, July 2007. [35] Gabriel H. Tolosa, Fernando R. Bordignon, and Pablo J. Lavallén. Caracterización del espacio web de perú. 2006. [36] Eveline A. Veloso, Edleno de Moura, P. Golgher, A. da Silva, R. Almeida, A. Laender, Ribeiro B. Neto, and Nivio Ziviani. Um retrato da Web Brasileira. In Proceedings of Simposio Brasileiro de Computacao, Curitiba, Brasil, 2000. [37] George K. Zipf. Human Behavior and the Principle of Least Effort. Addison-Wesley (Reading MA), 1949. Centro de Investigación de la Web – www.ciw.cl