Descargar en formato PDF - Centro de Investigación de la Web

Transcripción

Descargar en formato PDF - Centro de Investigación de la Web
Caracterı́sticas de la Web Chilena 2007
Ricardo Baeza-Yates
Yahoo! Research
Centro de Investigación
de la Web
Eduardo Graells
Centro de Investigación
de la Web
Mayo de 2008
Resumen
En Octubre de 2007 se llevó a cabo una recolección masiva de páginas de la Web de Chile
utilizando el sistema WIRE, desarrollado en el CIW. Del análisis de estos datos destacan las
siguientes observaciones:
La Web chilena está compuesta por al menos 200,000 sitios, y estos sitios contienen más de
9 millones de páginas. Muchas de sus caracterı́sticas son muy similares a las de la Web
global en general.
Un 5, 63 % de los sitios están conectados entre sı́ a través de enlaces y tienen el 38, 99 %
de las páginas. Por otro lado, un 65, 26 % de los sitios está completamente desconectado
en términos de enlaces, pero representan un 24, 48 % de las páginas.
Un sitio promedio tiene 48, 19 páginas, contenidas en 0, 69 MiB, con 1, 07 referencias
desde otros sitios.
En total se conocen 190,577 dominios. Un dominio promedio tiene 1, 05 sitios y 50, 57
páginas, contenidas en 0, 73 MiB.
Cerca de 1/5 de las páginas chilenas fue creada o actualizada en el último año, lo
que implica un alto grado de crecimiento y dinamismo.
Alrededor del 81 % de las páginas de Chile está en español y cerca de un 17 % en inglés.
Otros idiomas tienen una presencia muy leve.
Los sustantivos que más aparecen en la Web chilena son: Chile, web, comentarios, sitio,
Santiago, noticias y servicios.
Los paı́ses más referenciados desde Chile son China, Argentina, Alemania, México y España,
y en general el número de referencias a paı́ses extranjeros está relacionado con el volumen
de intercambio comercial.
Los sitios que reciben más enlaces son sii.cl, uchile.cl, mineduc.cl, meteochile.cl y
corfo.cl.
Los proveedores de hosting con mayor número de sitios son IFX Networks, T-Chile, VirtuaByte, PuntoWeb, DattaWeb y ChileAdmin.
Respecto a la calidad de las páginas y sitios:
De todos los sitios, el 14 % más grande de ellos contiene el 99 % de la información en
la Web chilena, medida en el número de bytes contenidos en sus páginas.
Cerca de un 24 % de los sitios de Chile no son fáciles de encontrar ya que están hechos
con tecnologı́as no visibles para los motores de búsqueda, como Flash y Javascript.
2
Un 26 % de las páginas tienen algún valor de contenido en términos de estar referenciadas
desde otros sitios. Sin embargo, estas páginas están repartidas en el 7 % de los sitios Web.
Cerca de un 7 % de los enlaces ya no existen.
Respecto a las tecnologı́as Web:
De los servidores que entregan información, el servidor Web más utilizado es Apache con
53 %, seguido con un 47 % por Microsoft Internet Information Server.
De los servidores que entregan información, el sistema operativo más utilizado es Unix/Linux
con 68 %, seguido por Microsoft Windows con 32 %.
El generador de páginas dinámicas más usado es PHP con un 79, 36 % de participación en el
mercado.
El formato de documentos más usado es PDF con un 56, 74 % de participación, seguido por
XML con un 26, 69 %.
Aproximadamente hay una disponibilidad del cuádruple de archivos con paquetes de software
para Linux que para Windows en la Web chilena.
Centro de Investigación de la Web – www.ciw.cl
Índice general
1. Introducción
5
1.1. ¿Cómo es la Web? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2. Estudiando la Web de un paı́s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3. Recolección de páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4. Dificultades en la caracterización de la Web . . . . . . . . . . . . . . . . . . . . . .
8
1.5. Organización de este informe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2. Documentos
10
2.1. Páginas descargadas versus enlaces inválidos . . . . . . . . . . . . . . . . . . . . . . 11
2.2. URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Longitud de las URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Profundidad de las URLs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Edad de las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4. Tı́tulos de las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5. Texto en las páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6. Idioma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7. Vocabulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8. Páginas Dinámicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.9. Documentos que no están en formato HTML . . . . . . . . . . . . . . . . . . . . . . 18
2.9.1. Imagen, Audio y Vı́deo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9.2. Archivos Comprimidos, Software y Código Fuente . . . . . . . . . . . . . . . 19
2.10. Enlaces entre páginas Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11. Ordenamiento usando análisis de enlaces . . . . . . . . . . . . . . . . . . . . . . . . 21
3. Sitios
28
3
4
3.1. Número de Páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2. Sitios con solamente una página . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3. Sitios con muchas páginas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4. Tı́tulos de las páginas de un sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5. Tamaño de los sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6. Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7. Proveedores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.8. Enlaces internos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.9. Enlaces entre sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.10. Sitios más referenciados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.11. Sitios con más enlaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.12. Suma de los puntajes por enlaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.13. Componentes fuertemente conectados . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.14. Estructura de enlaces entre sitios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4. Dominios
50
4.1. Direcciones IP y Software utilizado como servidor . . . . . . . . . . . . . . . . . . . 51
4.2. Número de sitios por dominio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3. Número de páginas por dominio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4. Tamaño de los dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5. Enlaces entre dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6. Dominios de primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.7. Dominios externos de primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5. Conclusiones
64
Centro de Investigación de la Web – www.ciw.cl
Capı́tulo 1
Introducción
En este Capı́tulo se presentan las caracterı́sticas de la Web y de la muestra estudiada, ası́ como
la metodologı́a para recolectar documentos y efectuar diferentes análisis. También se presenta la
estructura de este informe.
1.1.
¿Cómo es la Web?
La Web es más que un simple conjunto de documentos en distintos servidores, ya que existen
relaciones de información entre los documentos mediante los enlaces que establecen entre ellos. Esto
presenta muchas ventajas, tanto para los usuarios, a la hora de buscar información, como para los
programas que recorren la Web, a la hora de buscar contenido para recolectar (probablemente para
un motor de búsqueda). Debido a esto se plantea que la Web sigue un modelo de grafo dirigido,
en el que cada página es un nodo y cada arco representa un enlace entre dos páginas.
En general, una página enlaza a otras páginas similares [18], de modo que es posible reconocer
páginas mejores que las demás, siendo estas últimas las que reciben un número mayor de enlaces
que lo normal (o promedio). La web tiene una estructura que se puede clasificar como red libre de
escala, que al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de
enlaces, en la que los nodos altamente enlazados actúan como centros que conectan muchos de los
otros nodos a la red, como se ilustra en la Figura 1.1.
Analı́ticamente, la distribución dispareja de enlaces sigue una ley de potencias (power-law )1 :
Pr (Γ (p) = k) ≈ k −θ
Esto quiere decir que la distribución de los enlaces es muy sesgada: unas pocas páginas reciben
muchos enlaces mientras que la mayorı́a recibe muy pocos o incluso ninguno. En este estudio se
muestra que dicha distribución se puede aplicar a muchos aspectos de la Web, de los cuales se
dice “que siguen una ley de Zipf ”. El nombre de esta distribución se debe a Kingsley Zipf, que en
1932 enunció la distribución que modela la frecuencia de aparición de las palabras en los textos
[37]. Cuando estas distribuciones se representan en un gráfico con escala logarı́tmica se obtiene
una lı́nea recta, tal como se observa en muchos de los gráficos de este estudio.
1
Respecto a su estudio se recomienda el trabajo de Barabási [10] debido a su claridad.
5
6
(a) Red Aleatoria.
(b) Red Libre de Escala
Figura 1.1: Ejemplos ilustrativos de una red aleatoria y una red libre de escala. Cada grafo tiene 32
nodos y 32 enlaces.
1.2.
Estudiando la Web de un paı́s
Las redes libres de escala son auto-similares: una pequeña muestra mantiene caracterı́sticas
de la red completa (es decir, las caracterı́sticas trascienden la escala con que se mire la red). Se
muestra en este estudio que éste es el caso de la Web Chilena, que presenta caracterı́sticas muy
similares a la red mundial y a las redes de otros paı́ses, a pesar de contener menos de 1/1250 de
las páginas recolectables2 en la Web global, estimadas el 2005 en 11 × 109 páginas [22].
Ahora bien, ¿cómo se puede definir una web nacional? Se dice que es el conjunto de páginas
relacionadas con un paı́s, pero técnicamente es difı́cil distinguir si una página está asociada al paı́s
que se está estudiando. En este estudio se utiliza la heurı́stica de asociar a Chile todos los sitios
web con dominios .cl3 , ası́ como los dominios genéricos y extranjeros conocidos que, a la hora de
realizar el estudio, se encuentren hospedados en direcciones IP asignadas a Chile.
La Web Chilena ha sido objetivo constante de estudio: se han estudiado sus caracterı́sticas en
los años 2000 [1], 2001-2002 [9], 2004 [3] y 2006 [6]. Asimismo, también existen estudios sobre otras
webs nacionales:
África (9 paı́ses) [13].
Argentina [34].
Austria [30].
Brasil [27, 36].
China [25].
España [7].
Grecia [20].
2
La Web pública o recolectable es sólo una parte de la Web total. La Web oculta, de acceso restringido o privado,
probablemente es mucho más grande.
3
Gracias al apoyo de NIC Chile se contaba con la lista completa de dominios .cl al momento de realizar el
estudio.
Centro de Investigación de la Web – www.ciw.cl
7
Hungrı́a [11].
Corea del Sur [8].
Perú [35].
Polonia [15].
Portugal [21].
Reino Unido, Nueva Zelanda y Australia (sólo universidades) [33].
Tailandia [31].
A través de los años se ha comprobado que, si bien la web cambia (y crece) a una velocidad
enorme, su estructura y sus propiedades se mantienen dentro de un rango de similitud.
1.3.
Recolección de páginas
La recolección fue realizada en el mes de Septiembre de 2007, utilizando el crawler WIRE [5]4 .
Se utilizó un computador con una CPU Intel Pentium IV de 3 GHz, 1 GiB5 de RAM bajo sistema
operativo Ubuntu Linux 7.04.
El funcionamiento del recolector es el siguiente: se comienza la descarga de un conjunto de direcciones iniciales, llamadas semillas o seeds, que en este caso son los dominios conocidos mencionados
en la Sección anterior. De las páginas descargadas de esos dominios se extraen enlaces a nuevos
sitios, que son agregados a una nueva lista de sitios por descargar, y el proceso se repite hasta
que se han descargado todos los documentos posibles. El criterio para definir si se han descargado
todos estos documentos depende de la configuración del crawler : pueden ser lı́mites de espacio en
el disco duro, de tiempo de recolección, de configuración de cantidad máxima de documentos a
descargar, o a que simplemente no se encontraron más páginas públicas para descargar.
En total, en esta colecta se descargaron más de 9 millones de páginas web. La colección, con
documentos comprimidos, utiliza 78 GiB de disco duro. De este espacio, 40 GiB corresponde al
texto de los documentos, mientras que el espacio restante corresponde a meta-datos de los documentos, incluyendo 27 GiB conteniendo las direcciones de los documentos en formatos diferentes
al HTML. Es necesario indicar que la cantidad de sitios descargados es de 200,000, pero el recolector reportó la existencia de sitios que no pudieron descargarse debido a que esa cifra era el
lı́mite máximo especificado en la configuración. Un mes después de la colecta se realizó una colecta
secundaria, considerando solamente los sitios que tenı́an al menos un enlace entrante o saliente,
con el fin de obtener una mejor caracterización en las tablas del Capı́tulo 3.
El Cuadro 1.1 resume las caracterı́sticas principales de la colección.
4
En particular su versión 0.14, modificada para comprimir los documentos recolectados.
Usamos “GiB”, “MiB”, etc. para referirnos a potencias en base 2, mientras que “GB” y “MB” se refieren a
potencias en base 10.
5
Centro de Investigación de la Web – www.ciw.cl
8
Páginas Web
9.637.801
Texto en Total
135,76 [GiB]
Texto promedio por página
15.124,68 [B]
Sitios Web Estudiados
200.000
Páginas promedio por sitio
48,19
Texto promedio por sitio
728.843,12 [B]
Dominios
190.577
Sitios promedio por dominio
1,05
Páginas promedio por dominio
50,57
Texto promedio por dominio
764.880,47 [B]
Cuadro 1.1: Resumen de estadı́sticas de la colecta.
1.4.
Dificultades en la caracterización de la Web
La Web es una colección descentralizada, en la cual distintos autores pueden contribuir contenido por su cuenta sin una instancia de control que decida qué se publica y qué no. Esta es la
principal ventaja de la Web desde el punto de vista de los usuarios, pero también es la principal
causa de dificultades tanto para buscar información como para caracterizar colecciones de páginas.
Las siguientes anomalı́as constituyen violaciones de estándares o situaciones especiales que
dificultan la caracterización de las páginas:
Parámetros en la URL y URL Rewriting : existen páginas que tienen direcciones más largas
de lo que realmente deberı́an ser. Esto se debe a que entregan sus parámetros en la dirección
de la página como si fuera la ruta de acceso a ella, lo que contradice el estándar de URLs
[12], puesto que los parámetros de invocación de programas deberı́an aparecer en la URL
después de un signo “?”, por ejemplo:
Incorrecto: http://sitio/directorio/buscar/palabra/X/maximo/10/
Correcto: http://sitio/directorio/buscar?palabra=X\&maximo=10
Esta técnica es conocida como URL Rewriting y su uso se ha extendido con la aparición de
sistemas de administración de contenido (CMS, Content Management System). Entre sus
consecuencias se encuentran: 1) no se puede distinguir si la página es estática o dinámica, 2)
direcciones inválidas y mal formadas son procesadas como correctas, y 3) se recorren varias
páginas que tienen el mismo contenido, ya que por lo general estas direcciones admiten varios
parámetros diferentes para entregar una misma página (el identificador, el tı́tulo, la sección
dentro del sitio, la fecha, etc.). Como consecuencia, se recolectan sitios que tienen un tamaño
mucho más grande del real, con más páginas que el promedio.
Réplicas de contenido : Constituye una práctica habitual en la Web el tener varias copias distribuidas geográficamente de los mismos documentos. Normalmente lo que se replica son
colecciones completas de gran volumen, y se hace por motivos de eficiencia. Las colecciones
más frecuentemente replicadas en la Web son [16]: el sitio de software Tucows, el proyecto de
Centro de Investigación de la Web – www.ciw.cl
9
documentación de Linux (LDP), la documentación del servidor web Apache y la documentación del lenguaje de programación Java. La información replicada se estima entre un 20 %
y un 40 % del total en la Web.
Ahora bien, las cifras en la colección de la Web Chilena, indican que no hay tanto contenido
duplicado. Los documentos que son réplicas de otros son 503,145, un 5, 22 % del total de las
páginas. Una inspección manual de la colección, en particular de los sitios con más páginas,
entrega una gran cantidad de páginas que, si bien no son réplicas exactas, presentan el
mismo contenido. Esto sucede principalmente en sitios de venta de productos, como pueden
ser catálogos en lı́nea o sitios de remates.
Spam en general : El Spam en la Web se refiere a acciones orientadas a engañar a los sistemas
de búsqueda en la Web y a dar algunas páginas una posición más alta de la que merecen en
el resultado de una búsqueda en un motor de búsqueda [23]. Estas acciones incluyen cambios
en el texto, en los meta-datos o en los enlaces de las páginas si es que el visitante es un robot
recolector.
También se encuentra el spam que afecta a los sitios sociales, como blogs y foros, en los
cuales el principal atractivo es la interacción de los usuarios. Usualmente existen robots
que, intentando pasar por usuarios, publican comentarios con enlaces hacia sitios de dudoso
origen.
1.5.
Organización de este informe
Los distintos niveles de análisis posibles para la Web son los siguientes: el más pequeño es
el de palabras o bloques de texto o imágenes, luego vienen las páginas y documentos, sub-sitios
(unidades coherentes de múltiples páginas), sitios, dominios nacionales, y luego la web global. En
este informe se sigue esta estructura, llegando hasta el estudio de la web nacional de Chile, a través
de los siguientes Capı́tulos:
Capı́tulo 2, Documentos: se presenta la Web Chilena a nivel de páginas y documentos. Se estudian tanto las páginas web como los documentos en formatos diferentes a HTML. También
se estudia el vocabulario presente en los documentos.
Capı́tulo 3, Sitios: se presenta la Web Chilena a nivel de sitios. Se estudia la estructura de grafo
de la web, y se enumeran los sitios con más documentos, con mayor tamaño y con mayor
cantidad de enlaces entrantes y salientes. Se muestran los proveedores que tienen la mayor
cantidad de sitios.
Capı́tulo 4, Dominios: se presenta la Web Chilena a nivel de dominios. Se estudia la relación
por enlaces entre dominios, los dominios con más sitios y con mayor tamaño. Se estudian las
direcciones IP y servidores que hospedan los dominios. También se estudia la relación entre
el dominio nacional y los dominios extranjeros en términos de enlaces.
Capı́tulo 5, Conclusiones: se presentan las conclusiones de este informe.
Centro de Investigación de la Web – www.ciw.cl
Capı́tulo 2
Documentos
En este Capı́tulo se presenta el análisis individual de los documentos, sin considerar su agrupación en sitios o dominios. Por documento se entiende una página web, aunque también existen
documentos con información en formatos distintos a HTML. Las Secciones de estudio son las
siguientes:
Sección 2.1, Páginas descargadas versus enlaces inválidos: se muestra el grado de éxito al
tratar de descargar los enlaces a páginas encontrados durante la recolección.
Sección 2.2, URLs: se estudian las direcciones, URLs, de las páginas recolectadas. Este estudio
incluye la distribución de largos de los tı́tulos y la profundidad a la que pertenece cada
dirección.
Sección 2.3, Edad de las páginas: se estudia la edad en meses de los documentos de la colecta.
Sección 2.4, Tı́tulos de las páginas: se estudian los tı́tulos de la Web Chilena, tanto en su
largo como en su tipo, pudiendo este último, en caso de existir, ser único, compartido o
genérico.
Sección 2.5, Texto en las páginas: se estudia la cantidad de texto presente en las páginas de
la colecta.
Sección 2.6, Idioma: se realiza una estimación del idioma al que pertenecen los documentos de
la colecta, utilizando una heurı́stica simple pero efectiva de identificación.
Sección 2.7, Vocabulario: se estudia el vocabulario presente en la Web Chilena, incluyendo la
frecuencia de las palabras y los sustantivos con mayor presencia.
Sección 2.8, Páginas Dinámicas: se estudia la cantidad de páginas dinámicas encontradas,
ası́ como los tipos de generadores de este tipo de páginas.
Sección 2.9, Documentos que no están en formato HTML: se estudian los enlaces encontrados a documentos en formato no HTML, tanto de información escrita como a archivos
comprimidos y archivos multimedia.
Sección 2.10, Enlaces entre páginas Web: se estudian las relaciones entre páginas web mediante enlaces entrantes (grado interno) y enlaces salientes (grado externo).
10
11
Sección 2.11, Ordenamiento usando análisis de enlaces: se estudian los algoritmos de evaluación de importancia de las páginas de acuerdo a la cantidad de enlaces que éstas reciben.
2.1.
Páginas descargadas versus enlaces inválidos
El recolector de páginas funciona extrayendo direcciones de las páginas que han sido descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o que
simplemente fueron mal escritas. Cada vez que el recolector se contacta con un servidor Web,
éste retorna un código de estado que indica si la página existe o no, o si existe un motivo por el
cual no se puede entregar el documento pedido. La Figura 2.1 muestra la distribución de páginas
de acuerdo a estos códigos de estado. Existe una gran cantidad de códigos de estado que se han
agrupado de la siguiente manera:
OK: incluye todos los requerimientos exitosos: OK (200) y PARTIAL CONTENT (206).
NOT FOUND: el servidor no encuentra el documento pedido: NOT FOUND (404).
MOVED: incluye todos los requerimientos en los cuales el servidor redirige al recolector a una
otra página: MOVED (301), FOUND (302) y TEMPORARY REDIRECT (307).
SERVER ERROR: incluye todas las fallas en el lado del servidor: INTERNAL SERVER ERROR
(500), BAD GATEWAY (502), UNAVAILABLE (503), y NO CONTENT (204).
FORBIDDEN: incluye todos los requerimientos que no son permitidos, principalmente por tratarse de páginas protegidas con contraseña: UNAUTHORIZED (401), FORBIDDEN (403) y NOT
ACCEPTABLE (406).
Figura 2.1: Estado HTTP de los Documentos
La tasa de éxito, superior al 85 %, ha aumentado cerca de tres puntos en relación a la muestra
del año 2006 [6]. Lo mismo sucedió con la tasa de enlaces rotos, que subió desde 4 % a 7 %. Puede
parecer extraño que hayan aumentado en la misma cantidad los enlaces a páginas existentes como
los enlaces rotos, ante lo cual se pueden plantear diferentes hipótesis. Una de ellas es la migración
Centro de Investigación de la Web – www.ciw.cl
12
de contenido en los sitios: en la red cada vez es más común que un sitio completo se administre
mediante un administrador de contenidos. Este tipo de software permite que los administradores
de un sitio manejen su contenido sin tener que involucrarse en el desarrollo (programación) del
mismo. De este modo, los enlaces a las diferentes secciones y páginas los maneja el software,
asegurando una tasa mayor de enlaces correctos. Sin embargo, ¿qué sucede cuando un sitio migra
todo su contenido desde una estructura antigua a una estructura nueva? La consecuencia de esa
migración, que desde el punto de vista administrativo del sitio es positiva, puede ser negativa en
términos de todos los enlaces que recibı́a el sitio.
2.2.
URLs
La dirección de una página Web es comúnmente expresada mediante una URL (sigla de Uniform
Resource Locator ) [12]. Una URL tiene un doble propósito, por una parte identifica un recurso en
la Web de manera única y por otra indica cómo es posible acceder a dicho recurso en el servidor.
Las URLs más usadas en la Web son las que corresponden al protocolo de transferencia de
hipertextos (HTTP). Estas URLs tienen normalmente la siguiente forma:
http://sitio/directorio/subdirectorio/documento
Por ejemplo, http://www.cwr.cl/projects/WIRE/index.html indica que el sitio a contactar
es www.cwr.cl, que el documento que se necesita se encuentra en el directorio /projects/WIRE/
y que se llama index.html. Cuando una dirección no incluye el nombre del documento, se asume
que se está buscando un archivo index.html1 dentro del directorio indicado en la dirección.
2.2.1.
Longitud de las URLs
La longitud promedio de una URL, incluyendo la especificación del protocolo http://, nombre
de servidor, ruta y parámetros, es de 75 caracteres. Este promedio es similar al de otros paı́ses:
74 para España [7], 69 para Portugal [21], 75 para Argentina [34] y 57 caracteres para la Web
global [32]. Esta diferencia con el promedio de la Web global puede tener relación con las nuevas
aplicaciones Web, tanto comerciales como sociales, que incluyen una gran cantidad de parámetros
en sus direcciones. Esto se corrobora al ver que las direcciones más largas corresponden a páginas
dinámicas.
El 54 % de las URLs tienen entre 40 y 80 caracteres. Los largos se distribuyen de acuerdo con la
Figura 2.2, que tiene una distribución log-normal con parámetros estimados µ = 4, 12 y σ = 0, 40.
2.2.2.
Profundidad de las URLs
La profundidad de una página dentro de un sitio se puede definir de dos formas:
1
Este nombre depende de la configuración del servidor que se esté utilizando y de la tecnologı́a usada para
generar páginas dinámicas. En los servidores primero se suele buscar una página dinámica para que actúe de ı́ndice
(por ejemplo, index.php. Si no es encontrada se busca el archivo ya indicado.
Centro de Investigación de la Web – www.ciw.cl
13
Figura 2.2: Distribución de los largos de las URLs pertenecientes a los documentos HTML de la colecta.
Profundidad Lógica La página inicial de un sitio está a profundidad 1; todas las páginas alcanzables directamente desde ella, a profundidad 2; y ası́ sucesivamente. La profundidad lógica
mide el número de clics necesarios desde la portada de un sitio hasta la página requerida.
Profundidad Fı́sica La página inicial de un sitio está a profundidad 1, las páginas de la forma
http://sitio/pag.html o http://sitio/dir/ están a profundidad 2, y ası́ sucesivamente.
La profundidad fı́sica mide la organización en archivos y directorios de un sitio Web.
En este estudio se analiza la profundidad fı́sica de las páginas, que es directamente extraı́ble a
partir de las URLs. La distribución de esta variable se muestra en la Figura 2.3. Se observa que el
máximo de la distribución se encuentra en los niveles 2 y 3, siendo este último el único donde las
páginas dinámicas detectadas superan a las estáticas.
2.3.
Edad de las páginas
La edad de una página se determina al observar la fecha de última modificación especificada
por el servidor que la contiene. Al ser una variable dependiente de la configuración del servidor,
muchas páginas tienen fechas erróneas, que bien pueden ser fechas del futuro o fechas demasiado
antiguas, previas a la invención de la Web.
Centro de Investigación de la Web – www.ciw.cl
14
Figura 2.3: Distribución de la profundidad de los documentos recolectados.
La distribución de las edades de las páginas en términos de meses se muestra en la Figura 2.4.
Esta distribución sigue una ley de potencias con parámetro 1, 27.
En los 12 meses anteriores a Octubre de 2007, cerca de un 19 % de las páginas se creó o se
actualizó, lo que indica que la Web chilena está creciendo rápidamente, pero no de una manera
explosiva: en los dos estudios anteriores, las tasas de crecimiento eran cercanas al 25 %.
2.4.
Tı́tulos de las páginas
Cerca de un 26 % de las páginas no tiene un tı́tulo de documento, que junto al 1 % de los tı́tulos
por omisión2 , indican que un 27 % de las páginas no tiene un tı́tulo significativo. En la Figura 2.5
se observa la distribución de los tipos de tı́tulo: si bien un 73 % de las páginas tiene un tı́tulo
significativo, solamente un 33 % tiene un tı́tulo único dentro del sitio al que pertenece. Usualmente
el tı́tulo compartido entre las páginas de un sitio es el nombre del sitio.
La distribución de los largos de los tı́tulos se observa en la Figura 2.6. Los tı́tulos en la Web
Chilena, de acuerdo a esta distribución, se pueden considerar de un largo adecuado, sobretodo si
se comparan con los largos de otros paı́ses (en España la mayorı́a de los largos tiene entre 5 y 10
caracteres). Esta medición es importante porque el tı́tulo de una página es uno de sus atributos
más importantes, tanto en usabilidad (es el identificador dentro de los bookmarks de un usuario)
2
Tı́tulos como “Untitled Document”, “Documento sin tı́tulo” o “Página nueva 1 ”.
Centro de Investigación de la Web – www.ciw.cl
15
Figura 2.4: Distribución de la edad de los documentos en meses, aproximado con una ley de Zipf de
parámetro −1, 12.
como en difusión (es lo que más se destaca de una página en un listado de resultados de búsqueda).
2.5.
Texto en las páginas
De cada página descargada se almacenaron sólo los primeros 100 KiB, lo que es suficiente para
la mayorı́a de ellas. La distribución de la cantidad de páginas por cantidad de texto, incluyendo el
código de la página y el contenido, se observa en la Figura 2.7. Esta distribución se ajusta a una
ley de potencias con parámetro 3, 56 para páginas de más de 40 KiB, y de 0, 82 para páginas entre
11 y 40 KiB.
2.6.
Idioma
WIRE incluye un sistema de detección de idioma basado en stopwords, es decir, palabras que
carecen de significado por sı́ mismas, también llamadas palabras funcionales. La heurı́stica cuenta
el número de stopwords dentro del documento para cada idioma del que se tienen stopwords y
en base a ellas determina el lenguaje correspondiente. De este modo, se obtuvo la distribución de
idiomas de la Figura 2.8.
Centro de Investigación de la Web – www.ciw.cl
16
Figura 2.5: Tipos de Tı́tulo de Documento
La proporción de los idiomas se ha mantenido prácticamente constante, el año 2006 el Castellano
tenı́a una presencia de 80, 21 %, comparado con el 81, 34 % actual. El resto de las páginas en idioma
extranjero se encuentra prácticamente en su totalidad en inglés. En otros paı́ses el idioma oficial
no tiene tanta presencia: 62 % en España [7] y 63 % en Argentina [34].
2.7.
Vocabulario
Al hablar de vocabulario se requiere definir qué es una palabra. La definición utilizada en este
informe es “cualquier secuencia alfanumérica de uno o más caracteres de largo”. Se incluyen los
caracteres especiales del castellano, como la letra ñ y los tildes. También se realiza la conversión
de las entidades HTML para representar esos carácteres3 .
Las diez palabras más frecuentes: de, la, y, en, a, el, que, los y por ; naturalmente todas ellas son
stopwords. En la Figura 2.9 se muestra la distribución de la frecuencia de las palabras presentes
en la colección, obteniendo una ley de potencias con parámetro 0, 84, al igual que el año 2006.
En el Cuadro 2.1 se incluye una Nube de Etiquetas (TagCloud ), con los sustantivos más frecuentes en la Web chilena. Dentro de esta nube el tamaño de las palabras es proporcional a su
frecuencia con respecto a las otras palabras de la nube (es decir, las palabras más pequeñas tienen menor frecuencia que las palabras más grandes, pero aún ası́ son parte del grupo de palabras
más frecuentes). Se observa que, dejando de lado los nombres de ciudades y fechas, en general los
términos corresponden a servicios, comercio y tecnologı́as recientes: palabras frecuentes en foros,
blogs, otros tipos de sitios sociales y administradores de contenido.
2.8.
Páginas Dinámicas
Más de 3, 2 millones (34 %) de las páginas descargadas eran páginas dinámicas, es decir, páginas
generadas en el momento de ser solicitadas sin que existieran previamente. Esto es lo normal cuando
hay una consulta a una base de datos involucrada en el proceso de desplegar las páginas.
3
Por ejemplo: el documento contiene la secuencia “á”, que es interpretada como “á”.
Centro de Investigación de la Web – www.ciw.cl
17
Figura 2.6: Distribución de los largos de los tı́tulos pertenecientes a los documentos HTML de la colecta.
A pesar de que la recolección aumentó su tamaño, la cantidad de páginas identificadas como
dinámicas se ha mantenido. Esto se debe a que una gran cantidad de las páginas dinámicas no se
puede identificar directamente: WIRE realiza tal detección a partir de la URL de la página, sea
a través de la extensión del archivo (lo que indica la tecnologı́a con la que se generó la página)
o a través de un signo ?, que indica los parámetros que recibe la página. Sin embargo, técnicas
como URL rewriting impiden la determinación directa del tipo de página. Esta técnica, por un
lado, es beneficiosa para los usuarios, ya que genera URLs más “amigables”, mientras que por otro,
usualmente esta técnica genera demasiadas páginas duplicadas que tienen el mismo contenido pero
distintas URLs de acceso, por lo que cifras como la cantidad de páginas que tiene un sitio, ası́ como
su tamaño, se ven distorsionadas.
En la Figura 2.10 se muestra la distribución de páginas dinámicas de acuerdo a la aplicación
que las genera. La aplicación más usada es PHP 4 , una tecnologı́a de código abierto que domina la
Web Chilena con un 79, 36 % de participación, aumentando 4 puntos porcentuales respecto al año
anterior. Le sigue la tecnologı́a ASP [26], propietaria y de plataforma restringida, con un 18, 07 %.
4
http://www.php.net
Centro de Investigación de la Web – www.ciw.cl
18
Figura 2.7: Distribución del tamaño para los documentos de la colecta.
2.9.
Documentos que no están en formato HTML
Se encontraron aproximadamente 1, 5 millones de enlaces a documentos de texto en formatos
distintos a HTML, siendo los más populares PDF (56, 74 %) y XML (26, 69 %). Esto indica que
la proporción de enlaces a documentos en formatos estándares ha aumentado en relación a los
formatos cerrados. En la Figura 2.11 se aprecia la distribución de los enlaces a los formatos más
presentes. Respecto al formato PDF, también es el más usado en otros paı́ses, como en Austria
[30], Brasil [27], Corea del Sur [8], Grecia [20], Portugal [21] y Argentina [34].
2.9.1.
Imagen, Audio y Vı́deo
Se encontraron muchos enlaces a archivos multimedia: más de 100 millones de enlaces a imágenes, 166 mil enlaces a audio, y 35 mil enlaces a vı́deo. La distribución de enlaces a los formatos de
estos medios se muestra en la Figura 2.12.
Las imágenes GIF son las más populares en la Web Chilena con un 77, 26 % de los enlaces.
Esto se debe a que son utilizadas como elementos gráficos en el diseño de las páginas, al ser un
formato con compresión sin pérdida, y a que también se utilizan en el contenido, sea a través de
botones u otros elementos gráficos. Le sigue JPG, con un 18, 26 %, un formato de compresión con
pérdida que es mayormente usado para almacenar fotografı́as. El formato PNG, a pesar de haber
nacido como un reemplazo para GIF, no ha logrado aumentar su participación debido a la falta de
Centro de Investigación de la Web – www.ciw.cl
19
Figura 2.8: Lenguaje de los Documentos
soporte de los navegadores, en particular del más usado. El resto de los formatos presentes tiene
una presencia marginal.
En audio, el formato MP3, que se habı́a mantenido lı́der hasta el año 2006, ha cedido parte
de su participación al formato WMA. El primero tiene una participación de 39, 23 %; el segundo,
40, 29 %. El tercer formato, PLS, no es un formato de audio por sı́ mismo, más bien es un formato
de listas de reproducción. Los archivos en este formato probablemente son los mismos que han
estado presentes desde los estudios en años anteriores.
En vı́deo, el formato con mayor presencia es WMV (49, 59 %), seguido por QT (18, 20 %) y
MPEG(10, 65 %). El formato RM, al igual que en los años anteriores, sigue bajando su presencia
(10, 54 %), mientras que AVI parece mantenerse constante (6, 83 %) y FLV ha aumentado algunos
puntos porcentuales (4, 20 %). En la Web Global, probablemente el formato con mayor presencia
es FLV, ya que es el formato utilizado por las redes sociales de publicación de vı́deo.
2.9.2.
Archivos Comprimidos, Software y Código Fuente
Se encontraron más de 159 mil enlaces a archivos comprimidos, más de 102 mil enlaces a
archivos de programas y más de 27 mil enlaces a archivos de código fuente en diversos lenguajes.
La distribución de los enlaces se muestra en la Figura 2.13.
La distribución de archivos comprimidos muestra un dominio de los formatos ZIP (53, 64 %)
y GZ(24, 47 %). El formato ZIP es usado con frecuencia para distribuir software para Windows,
mientras que el formato GZ suele ser usado con frecuencia para distribuir software para Linux. Los
archivos RAR (20, 88 %) suelen ser usados para distribuir contenido arbitrario. El formato TAR
(1 %)se utiliza primariamente en Linux, aunque es difı́cil encontrar archivos de formato TAR, ya
que más que un formato comprimido es un contenedor que es luego comprimido a GZ. Otros
formatos tienen una presencia despreciable.
Respecto al software, sin considerar que una gran cantidad se distribuye en formatos comprimidos, los formatos con mayor presencia son RPM (59, 06 %) y EXE (23, 12 %). Sin embargo, DEB
(17, 82 %) es el tercer formato con presencia (el resto es despreciable), y con ello el software en
formato para Linux tiene el triple de presencia que el formato para Windows. Esto no concuerda
Centro de Investigación de la Web – www.ciw.cl
20
Figura 2.9: Distribución de la frecuencia de las palabras para los documentos de la colecta.
con el mayor uso de Windows por parte de los usuarios, y se puede deber a que una aplicación de
Windows se distribuye como un único ejecutable mientras que una aplicación de Linux se distribuye
mediante una gran cantidad de paquetes.
La distribución de código fuente muestra el gran auge que ha tenido Javascript (28, 35 %) como
lenguaje para construir páginas web que reaccionen dinámicamente ante las acciones del usuario,
por lo general en sitios que utilizan AJAX para crear aplicaciones basadas en Web. Sin embargo,
el código para aplicaciones C y C++ tiene una mayor presencia (59, 05 %). Probablemente esta
proporcióń se debe a que un sitio completo utiliza pocos archivos JS con toda su funcionalidad,
mientras que una aplicación en C o C++ contiene una gran cantidad de archivos. Sin embargo, no
se puede dudar que la cantidad de enlaces a código fuente C y C++ ha aumentado notoriamente:
el año 2006 era cercana al 27 %.
2.10.
Enlaces entre páginas Web
El número de enlaces que recibe una página Web se llama “grado interno”, y el número de
enlaces que sale de una página se llama “grado externo”. Las distribuciones de ambos grados se
muestra en las Figuras 2.14 y 2.15.
Al ajustar una ley de potencias a los datos se obtiene un parámetro 1, 87 para el grado interno,
comparable con África (1, 9, [13]), Argentina (1, 71, [34]) y España (2, 11, [7]). Para la Web Global
Centro de Investigación de la Web – www.ciw.cl
21
actividades acuerdo aire alumnos amigo amigos anuncios argentina arica arte
artı́culo artı́culos audio autor avisos ayuda bitácora blog búsqueda calidad casa categorı́as
central centro chile chilena ciencias ciudad clases clasificados clave click colegio
comercio compra comprar comuna comunidad condiciones contacto
contraseña copyright correo cosas crear cuenta cultura curso cursos datos deportes derechos
desarrollo digital dirección director diseño domingo dvd dı́a educación email empresa
empresas encuentro equipo equipos era escuela estado estados estudiantes estudio estudios
eventos experiencia familia fax fiestas fin final flores fono forma foro foto fotos gente gobierno gracias
grupo hecho historia hora hotel hoy imagen información
internacional internet
juegos jueves lectores ley libre libres libro licencia links lugar lunes luz mapa martes medio mensaje
acceso
accesorios
actividad
comentario
comentarios
inicio
nacional nada nivel nombre
nosotros noticias oferta ofertas online palabras parapente parte paı́s personas plaza poder
polı́tica precio primera primero problemas producto productos profesionales programa proyecto
proyectos publicar publicidad puerto página radio recursos red región respuesta resultados rss
salud santiago seguridad servicio servicios sexo sistema sitio sitios social sociales
sociedad software sur tags tecnologı́a tema temas tiempo tipo todas todo todos
trabajo trance turismo universidad usuario usuarios venta vida video videos
viernes visitas web zona
mensajes
mercado mesa metropolitana millones
mundo
música
Cuadro 2.1: Sustantivos y temas más frecuentes en la web Chilena.
el valor de este parámetro es 2, 1 [29]. Para el grado externo se obtiene un parámetro 3, 14 en la
parte central (entre 12 y 100 enlaces), comparable con el valor 3, 34 obtenido en Argentina [34].
En la Figura 2.16 se muestra la relación entre tamaño y el grado interno/externo de las páginas.
Existe una correlación entre el grado externo y el tamaño de las páginas, puesto que una página
no puede contener demasiados enlaces en caso de ser es muy pequeña. Respecto al grado interno
y el tamaño de las páginas la correlación no es evidente, pero sı́ se aprecia que páginas de menor
tamaño reciben una fracción menor de enlaces.
2.11.
Ordenamiento usando análisis de enlaces
Existen varios algoritmos de enlaces que intentan inferir cuan importante es cada página en la
Web, utilizando la información de los enlaces que recibe cada página. En este estudio se comparó a
distribución de Pagerank [28] con una variación del algoritmo HITS [24], en el cual se utilizó la
Web completa como el conjunto de análisis. Esto último puede verse como una versión estática de
HITS.
El algoritmo Pagerank calcula para cada página un puntaje que refleja la cantidad de enlaces
que recibe desde otras páginas con un alto número de enlaces. De cierto modo es una medida de
la cantidad y calidad de los enlaces recibidos. El algoritmo de HITS calcula dos puntajes para
cada página: Hub y Authority. El puntaje Hub indica qué tan buena es la página como fuente de
Centro de Investigación de la Web – www.ciw.cl
22
Figura 2.10: Páginas Dinámicas
Figura 2.11: Documentos No HTML
enlaces, en términos de qué tan buenos son los enlaces que tiene la página hacia otras páginas. El
puntaje Authority indica qué tan buena es la página como recurso de información o contenido, en
términos de la calidad de los enlaces que recibe. La distribución de los puntajes se muestra en la
Figura 2.17. Se destaca que los tres puntajes pueden ser aproximados con una ley de potencias:
Pagerank, con parámetro 1, 31 en su parte inicial y 2, 19 en su parte central; el puntaje Authority,
con parámetro 1, 70 en su parte central; y el puntaje Hub, con parámetro 3, 87 en su parte central.
Por la fórmula del cálculo de PageRank, incluso páginas sin grado interno tienen un puntaje
no nulo. A pesar de ello, un 62 % de los documentos posee el 99 % del puntaje Pagerank total. En
cambio los puntajes Hub y Authority sı́ permiten que un documento tenga puntaje nulo. De esta
manera, un 38 % de las páginas tiene puntaje Hub no nulo, y un 26 % tiene puntaje Authority no
nulo.
De una muestra aleatoria de 10,000 documentos, descartando los que tienen algún tipo de
puntaje nulo, se estudió una posible correlación entre los puntajes por enlaces. De acuerdo a la
Figura 2.18 no se puede establecer una relación directa, aunque una cantidad no despreciable de
documentos con alto puntaje Pagerank también tienen alto puntaje Hub.
Centro de Investigación de la Web – www.ciw.cl
23
(a) Imágenes
(b) Audio
(c) Vı́deo
Figura 2.12: Distribuciones de los enlaces a documentos de imagen, audio y vı́deo.
(a) Archivos Comprimidos
(b) Software
(c) Código Fuente
Figura 2.13: Distribuciones de los enlaces a archivos comprimidos, software y código fuente.
Centro de Investigación de la Web – www.ciw.cl
24
Figura 2.14: Distribución del Grado Interno para los documentos de la colecta.
Centro de Investigación de la Web – www.ciw.cl
25
Figura 2.15: Distribución del Grado Externo para los documentos de la colecta.
(a) Relación entre el grado interno de un documento (b) Relación entre el grado externo de un documento
y su tamaño.
y su tamaño.
Figura 2.16: Gráficos de dispersión entre el tamaño de un documento y sus grados internos y externo.
Centro de Investigación de la Web – www.ciw.cl
26
(a) Distribución del puntaje Authority para los do- (b) Distribución del puntaje Hub para los documencumentos de la colecta.
tos de la colecta.
(c) Distribución de PageRank para los documentos
de la colecta.
Figura 2.17: Distribuciones de los puntajes por enlaces para los documentos.
Centro de Investigación de la Web – www.ciw.cl
27
(a) Authority vs Hubrank.
(b) PageRank vs Authority.
(c) PageRank vs HubRank.
Figura 2.18: Gráficos de dispersión en busca de relaciones entre los puntajes PageRank, Authority y
Hub.
Centro de Investigación de la Web – www.ciw.cl
Capı́tulo 3
Sitios
Un sitio web es definido como un conjunto de páginas que comparte la parte del nombre del
servidor de la URL. De este modo, un sitio es denominado http://www.sitio.cl/, y contiene
todas las páginas cuya raı́z es http://www.sitio.cl/1 .
Este Capı́tulo estudia diferentes caracterı́sticas de los sitios de la Web Chilena. Un cuadro
resumen con los datos de los sitios se puede observar en el Cuadro 3.1, donde se observa que
el número de sitios estudiados es 200,000. Llama la atención la cantidad de sitios vacı́os que se
encontraron, 88,626, es decir, sitios cuya dirección existe en algún lugar2 pero que en realidad no
tienen páginas, o incluso ni siquiera están asignados a algún servidor.
Sitios Estudiados
Vacı́os (Sin Documentos)
Sitios con 1 Página
Sin Grado Interno
Sin Grado Externo
Promedio Páginas
Promedio Contenido
200.000
88.626
48.103
172.506
171.794
48,19
728.843,12 [B]
Cuadro 3.1: Resumen de estadı́sticas sobre los sitios.
Las Secciones de este Capı́tulo son las siguientes:
Sección 3.1, Número de Páginas: se estudia la cantidad de páginas que poseen los sitios de la
colecta.
Sección 3.2, Sitios con solamente una página: se estudia el fenómeno de los sitios de una
página, que no necesariamente tienen una página, sino más bien, una sola es visible por el
recolector.
Sección 3.3, Sitios con muchas páginas: se enumeran los sitios con más páginas de la colección.
1
En general, un sitio no discrimina si incluye el prefijo www, es decir, se puede utilizar una heurı́stica en la cual
sitio.cl equivale a www.sitio.cl.
2
Por ejemplo, sólo con registrar un dominio .cl ya se conoce su dirección.
28
29
Sección 3.4, Tı́tulos de las páginas de un sitio: se estudian los tı́tulos de documentos en el
contexto de los sitios de la colecta.
Sección 3.5, Tamaño de los sitios: se estudia el tamaño total de los sitios, considerando la
suma del tamaño de las páginas que lo componen.
Sección 3.6, Edad: se estudia la edad en meses de los sitios, considerando la edad promedio de
los documentos, en conjunto con la edad del documento más antiguo y del más nuevo.
Sección 3.7, Proveedores: se estudian los proveedores de servicio de internet, ISP, que hospedan más sitios de la Web Chilena.
Sección 3.8, Enlaces internos: se estudian los enlaces internos dentro de un sitio, es decir,
aquellos enlaces entre documentos dentro de un mismo sitio.
Sección 3.9, Enlaces entre sitios: se estudia el grado interno y externo de los sitios.
Sección 3.10, Sitios más referenciados: se enumeran los sitios con mayor grado interno, es
decir, aquellos enlazados desde la mayor cantidad de sitios distintos.
Sección 3.11, Sitios con más enlaces: se enumeran los sitios que tienen más enlaces hacia
otros sitios distintos.
Sección 3.12, Suma de los puntajes por enlaces: se estudian los puntajes por enlaces para
los sitios de la colección, considerando la suma de los puntajes para los documentos de los
sitios.
Sección 3.13, Componentes fuertemente conectados: una componente fuertemente conectada, en términos de enlaces, permite llegar desde un sitio de la componente hasta otro
solamente siguiendo enlaces. En esta sección se estudia la distribución de este tipo de componentes en la Web Chilena.
Sección 3.14, Estructura de enlaces entre sitios: a partir de las componentes estudiadas en
la sección anterior, es posible establecer una estructura que define la composición de la Web
Chilena, considerando como base de la estructura los enlaces entre sitios.
3.1.
Número de Páginas
Se observó un promedio de 48, 19 páginas por sitio (considerando sólo los sitios estudiados). La
distribución de páginas a través de los sitios es muy sesgada, pues un 7 % de los sitios tiene el 90 %
de los documentos. Dicha distribución se puede ajustar a una ley de potencias de parámetro 1, 84,
visible en la Figura 3.1, y comparable a 1, 14 en España [7], 1, 6 en Brazil [27], 1, 45 en Argentina
[34].
Centro de Investigación de la Web – www.ciw.cl
30
Figura 3.1: Distribución del número de documentos en los sitios.
3.2.
Sitios con solamente una página
Hay 48,103 sitios en los cuales el recolector encontró sólo una página. Esto representa un
24, 05 % de los sitios estudiados. Ahora bien, si una persona visita estos sitios para inspeccionarlos
manualmente, en muchos de ellos encontrará un sitio completo con más de una página. Dentro
de los motivos por los cuales se encuentra solamente una página en un sitio se encuentran los
siguientes:
La navegación de la página está basada en Javascript, por lo que es necesario interpretar el
código Javascript para poder navegar. Un robot recolector no suele implementar un intérprete
de este lenguaje de programación.
El sitio es sólo una redirección a otro sitio. La tecnologı́a para realizar la redirección puede
variar entre una etiqueta refresh en los meta-datos de la página, un enlace de redirección
manual al que debe acceder el visitante, o una redirección mediante Javascript.
La página requiere un plug-in de Adoble Flash para poder ser visualizada. Las dos prácticas
más comunes vistas en este tipo de sitios son: 1) la utilización de introducciones de bienvenida
al sitio, 2) la navegación del sitio a través de un menú interactivo. En ambos casos la solución
al problema es proveer enlaces HTML tradicionales que sirvan de alternativa para navegar a
través del sitio.
Similar a lo anterior, el sitio utiliza applets Java para la navegación.
Centro de Investigación de la Web – www.ciw.cl
31
El sitio efectivamente se compone de una sola página. Esta página puede tener contenido
normal o bien presentar un gran conjunto de enlaces.
El sitio no es público, por lo se requiere una clave de acceso para ingresar. En este caso se
considera normal encontrar solamente una página.
En la Figura 3.2 se muestra la distribución de los sitios de una página anómalos, es decir,
aquellos en los cuales sı́ se espera tener acceso a una mayor cantidad de páginas.
Figura 3.2: Clasificación de los sitios que solamente tienen una página visible para el recolector.
3.3.
Sitios con muchas páginas
Respecto a los sitios que tienen muchas páginas, o más bien los que tienen el mayor número
de páginas, también existen anomalı́as. En el Cuadro 3.2 se observa la lista de los 30 sitios con
más páginas, de los cuales se indica el total de páginas encontradas, la dirección del sitio y un
comentario indicando la anomalı́a que afecta a ese sitio si es que se puede identificar alguna.
En general, existen dos anomalı́as que usualmente se dan juntas. La primera es una consecuencia
de utilizar un administrador de contenido (CMS ) para gestionar las páginas. Estos administradores
proveen una gran cantidad de formas para acceder al mismo contenido, es decir, generan una gran
cantidad de páginas duplicadas, todas válidas, pero con direcciones distintas. La segunda anomalı́a
es el uso de parámetros en la URL, mediante URL Rewriting, que acentúa la primera anomalı́a ya
que sitúa un documento en una estructura fı́sica que realmente no existe. Los recolectores cuando
encuentran una página que se encuentra a una profundidad fı́sica mayor a 2, sacan la última parte
de la URL y verifican si sigue siendo una dirección válida. Cuando un CMS utiliza parámetros en
la URL, a partir de una dirección se puede llegar a recolectar una cantidad de páginas equivalentes
a la profundidad de la dirección. Estas páginas no suelen gatillar errores en el servidor (es decir,
del tipo Error 404), sino que usualmente presentan algún tipo de contenido válido y duplicado
proporcionado por el CMS.
Dejando de lado las anomalı́as, resulta natural pensar que los otros sitios que pueden tener una
gran cantidad de páginas son los catálogos de productos, en especial en los sitios de remates, y
los sitios comunitarios, donde cada usuario tiene una gran cantidad de páginas asignadas (en las
Centro de Investigación de la Web – www.ciw.cl
32
Páginas
Sitio
22.825
http://www.autovia.cl
22.473
http://www.b2.cl
22.100
http://www.ais.cl
21.613
http://www.kontent.cl
21.244
http://www.madness.cl
21.158
http://www.suena.cl
20.795
http://www.busch.cl
20.419
http://www.descorchados.cl
20.407
http://www.cienciaforense.cl
20.314
http://www.fotolog.cl
20.270
http://www.tarjetabip.cl
19.975
http://www.caaeii.cl
19.699
http://www.sexrelatos.cl
19.654
http://www.fechta.cl
19.601
http://www.upadiseno.cl
18.527
http://www.ees.cl
18.516 http://www.mediatecamusical.cl
18.447
http://www.enrutators.cl
18.347
http://www.graphologychile.cl
18.340
http://www.jotelog.cl
18.271
http://www.paine.cl
17.861
http://www.kemuel.cl
17.803
http://www.elobservatodo.cl
17.763
http://www.atinachile.cl
17.577
http://www.directorioweb.cl
17.401
http://www.educandonos.cl
17.378
http://www.amazon.cl
17.157
http://www.chileaprende.cl
17.130
http://www.blogcoba.cl
16.974
http://www.confronte.cl
Comentario
CMS con parámetros en URL, Catálogo de Productos
CMS con parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL, Catálogo de Productos
CMS con parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL, Catálogo de Productos
CMS con parámetros en URL
CMS con parámetros en URL
Comunidad de Fotografı́a,Parámetros en URL
CMS con parámetros en URL
CMS
CMS con parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL
CMS
CMS con parámetros en URL
CMS con parámetros en URL
Comunidad de Fotografı́a, Parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL
CMS con parámetros en URL
Comunidad de blogs, CMS con parámetros en URL
Directorio de sitios
CMS con parámetros en URL
Catálogo de Productos
CMS con parámetros en URL
CMS con parámetros en URL
Catálogo de Productos
Cuadro 3.2: Los sitios con mayor cantidad de documentos HTML. El comentario indica posibles anomalı́as que incidieron en el número de documentos encontrado en el sitio.
Centro de Investigación de la Web – www.ciw.cl
33
cuales puede tener fotos, mensajes, publicaciones, etc., dependiendo del tipo de sitio). Un problema
detectado en la mayorı́a de los catálogos de productos es que muchos de esos sitios duplican el
contenido de otros sitios, lo que quiere decir que cuando un sitio agrega un producto, otros sitios
también lo agregan, por lo que el número de páginas crece en todos ellos.
3.4.
Tı́tulos de las páginas de un sitio
En la Figura 3.3 se observa la correlación entre el número de páginas de un sitio y la cantidad
de tı́tulos por página que tiene el sitio. El caso ideal es que un sitio tenga un tı́tulo de documento
distinto para cada página. En general no se observa una correlación significativa. Sin embargo,
una gran cantidad de sitios tienen una relación cercana a 1, lo cual indica que existe una mayor
preocupación por asignar un tı́tulo a los documentos.
Figura 3.3: Dispersión entre la cantidad de páginas en un dominio y la proporción entre tı́tulos distintos
y páginas dentro del dominio.
3.5.
Tamaño de los sitios
Al hablar de tamaño de un sitio se considera la suma de los tamaños de las páginas que lo
componen. Sólo se considera el contenido HTML, es decir, el texto de las páginas (incluyendo
código fuente), no el de sus imágenes u otros documentos o archivos. En la Figura 3.4 se muestra
Centro de Investigación de la Web – www.ciw.cl
34
la distribución del tamaño de los sitios, ajustada a una ley de potencias de parámetro 1, 64. La
distribución es muy sesgada: un 14 % de los sitios contiene el 99 % del total del contenido.
Figura 3.4: Distribución del contenido, en términos de tamaño, para los sitios de la colecta.
En el Cuadro 3.3 se listan los 30 sitios con mayor cantidad de texto. De los 30 sitios, 29 son de
ı́ndole comercial, y se repiten varios sitios del Cuadro 3.2, lo que es natural si se considera que las
anomalı́as que provocan una mayor cantidad de páginas también provocan una mayor cantidad de
contenido.
3.6.
Edad
Para estudiar la edad de un sitio web, se definen tres mediciones: la edad promedio de los
documentos; la edad del documento más antiguo, es decir, aquel cuya fecha de actualización es
una cota inferior respecto a la de los otros documentos; y la edad del documento más nuevo, es
decir, la de aquel cuya actualización se realizó más recientemente.
La distribución de la edad en meses de los sitios se observa en la Figura 3.5. Las tres edades
consideradas se pueden ajustar a una ley de potencias: para la edad promedio, el parámetro es
1, 32; para la edad del documento más antiguo,1, 21; para la edad del documento más reciente,
1, 37.
Cerca del 32 % de los sitios fueron creados o actualizados en el último año, lo que indica no
solamente que la web Chilena crece a un ritmo acelerado, sino que también constante, ya que el
Centro de Investigación de la Web – www.ciw.cl
35
Texto [MiB]
Sitio
Tipo
1.718
http://www.suena.cl
C
1.586
http://www.amazon.cl
C
1.179
http://www.planetashile.cl
C
928
http://listados.deremate.cl
C
873
http://www.b2.cl
C
863
http://foros.irc.cl
C
818
http://www.hotmovies.cl
C
813
http://www.atinachile.cl
C
777
http://www.enrutators.cl
C
757
http://www.cienciaforense.cl
C
755
http://www.busch.cl
C
741
http://www.kontent.cl
C
674
http://www.promolibros.cl
C
669
http://www.parapentechile.cl
C
668
http://amcham.bluecompany.cl
C
664
http://www.blogcoba.cl
C
630
http://www.amchamchile.cl
C
626
http://www.trance.cl
C
619
http://www.sexrelatos.cl
C
617
http://www.fam.cl
C
614
http://www.deremate.cl
C
605
http://www.shoebuy.cl
C
600
http://foro.rox.cl
C
597
http://www.icoubb.cl
C
594
http://www.universitarios.cl
C
583
http://guia.mercadolibre.cl
C
572
http://www.descorchados.cl
C
561
http://www.econgreso.cl
C
553
http://www.paine.cl
G
547
http://www.podcaster.cl
C
Cuadro 3.3: Tamaño de los sitios en MiB. Se considera solamente el tamaño de los documentos en
formato HTML.
Centro de Investigación de la Web – www.ciw.cl
36
(a) Edad del documento más antiguo.
(b) Edad del documento más reciente.
(c) Edad promedio de los documentos.
Figura 3.5: Distribuciones de las edades de los documentos de los sitios.
Centro de Investigación de la Web – www.ciw.cl
37
año 2006 creció un 40 % respecto al año 2004 [6].
3.7.
Proveedores
Aunque cada sitio tiene una dirección única, muchos de ellos están hospedados en los mismos
servidores. Determinar esto es posible a través de las direcciones IP de los sitios, y una vez que
se tiene la dirección IP, se puede hacer una búsqueda de dns reverso para conocer el proveedor al
que pertenece esa dirección. En el Cuadro 3.4 se muestran los 30 proveedores que hospedan más
sitios en la Web Chilena.
3.8.
Enlaces internos
Un enlace interno dentro de una página en un sitio es aquel que apunta hacia otra página
dentro del mismo sitio. En promedio, un sitio tiene 337 enlaces internos. Del mismo, el promedio
de enlaces internos por página es 2, 25 (sin considerar sitios vacı́os o con una página, en los cuales
no existen los enlaces internos).
La distribución del número de enlaces internos por sitio se muestra en la Figura 3.6, y se ajusta
a una ley de potencias con parámetro 1, 54. La distribución del número de enlaces internos por
página en los sitios, visible en la Figura 3.7 se ajusta a una ley de potencias de parámetro 2, 98.
Un sitio con pocas páginas no puede tener demasiados enlaces internos. En la Figura 3.7 se
muestra un gráfico de dispersión entre el número de páginas y la relación de enlaces internos por
página en los sitios. En este gráfico no se aprecia una correlación importante.
3.9.
Enlaces entre sitios
El grado interno de un sitio es el número de sitios que tienen al menos un enlace hacia él,
mientras que el grado externo de un sitio es el número de sitios distintos que son enlazados desde
sus páginas.3
En esta Sección se estudia el grado interno y externo de los sitios de la colección4 . El grado
interno de un sitio es una medida de su popularidad, mientras que el grado externo refleja el tipo de
sitio que se está visitando. Un sitio comercial difı́cilmente tendrá enlaces hacia otros sitios porque
eso aleja a los usuarios. Por otro lado, aumentar el grado interno es difı́cil, mientras que aumentar
el grado externo es fácil, ya que basta con editar el contenido de las páginas.
En la Figura 3.8 se muestra la distribución del grado interno en los sitios. Esta distribución se
ajusta a una ley de potencias de parámetro 1, 83, comparable con Brasil (1, 9 [27]), Grecia (2, 0,
[20]) y la Web global (2, 34, [19]).
3
Esto se llama también hostrank o grafo de servidores [19].
Un sitio sin grado interno o externo en esta colección no está necesariamente aislado de los demás en la Web
global.
4
Centro de Investigación de la Web – www.ciw.cl
38
Proveedor
ifxnw
tchile
virtuabyte
puntoweb
dattaweb
chileadmin
tie
tecnoera
chilecom
dch
entelchile
dreamhost
cyberiainternet
ibizdns
puntohost
websitewelcome
iia
abyb
theplanet
hostmar
intelired
idat
netline
webhostingchile
smart
portalciudadano
dns-principal-2
conepuppy
uchile
dnsforhost
intersitio
hostingpro
secureserver
d11intersitio
cyberblues
altavoz
telmexchile
bluehost
digitalproserver
scd
zcohosting
Sitios
12497
5712
4048
3471
2590
2172
2120
2086
1835
1564
1525
1286
1277
1251
1242
1160
1143
1088
1067
982
914
884
823
714
688
688
687
612
595
554
536
472
461
456
452
449
438
429
425
424
406
Cuadro 3.4: Proveedores de Servicio de Internet (ISPs) con mayor cantidad de sitios, obtenidos mediante
búsqueda de DNS reverso.
Centro de Investigación de la Web – www.ciw.cl
39
Figura 3.6: Distribución del número de enlaces internos en los sitios.
Asimismo, en la Figura 3.9 se muestra la distribución del grado externo de los sitios. Esta
distribución también se ajusta a una ley de potencias de parámetro 1, 83.
Es necesario recordar que los grados interno y externo son relativos a la colección de sitios. Un
sitio sin grado interno en la Web Chilena bien puede tener un grado interno alto en la Web Global.
3.10.
Sitios más referenciados
Los 30 sitios más referenciados por otros sitios se muestran en el Cuadro 3.5. Para cada sitio se
muestra el total de enlaces que recibe desde los otros sitios. La magnitud de los enlaces es similar a
la encontrada el año 2006 [6], y los sitios son, en general, los mismos. También muchas posiciones
se han mantenido, lo cual indica que el grado interno de los sitios no presenta grandes variaciones
entre un año y otro, posiblemente debido a la dificultad que tienen los sitios, en particular los sitios
recientes, para ser enlazados por otros.
3.11.
Sitios con más enlaces
Los 30 sitios que tienen más enlaces a otros sitios se muestran en el Cuadro 3.6. En los primeros lugares destacan buscadores y directorios, aunque se pueden encontrar sitios de instituciones
Centro de Investigación de la Web – www.ciw.cl
40
Sitios que enlazan Total Enlaces
542
21.224
398
21.001
374
2.686
335
2.321
290
1.249
261
8.279
260
3.984
241*
5.635
241
945
239
1.938
232
609
216
1.472
209
720
204
809
200
732
195
966
190
477
187
4.997
165
7.789
162
1.204
160
962
157*
4.312
155
659
154
273
145
288
145
3.139
145**
145
145
6.815
143
430
142
195
Sitio
http://www.sii.cl
http://www.uchile.cl
http://www.mineduc.cl
http://www.meteochile.cl
http://www.corfo.cl
http://www.gobiernodechile.cl
http://www.latercera.cl
http://mi.loquegustes.cl
http://www.bcentral.cl
http://www.puc.cl
http://www.conama.cl
http://www.sence.cl
http://www.amarillas.cl
http://www.udec.cl
http://www.sernatur.cl
http://www.terra.cl
http://www.minsal.cl
http://www.lanacion.cl
http://www.elmostrador.cl
http://www.iglesia.cl
http://www.universia.cl
http://ayuda.loquegustes.cl
http://www.conicyt.cl
http://www.prochile.cl
http://www.conaf.cl
http://www.dibam.cl
http://www.alessandri.cl
http://www.uach.cl
http://www.bcn.cl
http://www.registros19862.cl
Cuadro 3.5: Sitios que reciben más enlaces. Primero, la cantidad de sitios que lo enlazan, después el
número total de enlaces que reciben. Los sitios marcados con * reciben todos sus enlaces desde otros sitios
pertenecientes al mismo dominio. El sitio marcado con ** recibe solamente un enlace desde cada sitio que
lo enlaza, todos ellos dominios “resguardados” por los dueños del sitio.
Centro de Investigación de la Web – www.ciw.cl
41
(a) Enlaces Internos por Página
(b) Número de Enlaces Internos por Página
Figura 3.7: Distribuciones de enlaces internos por página para los documentos del sitio y del número de
enlaces internos por página.
educacionales y sitios comunitarios. La magnitud es muy distinta a la de los estudios anteriores:
respecto al estudio del año 2006
3.12.
Suma de los puntajes por enlaces
En la Figura 3.10 se muestran las distribuciones de los puntajes por enlaces para los sitios. Si
bien las distribuciones tienen formas similares a leyes de potencias, el error es demasiado grande
como para considerar que son ajustables. Ello no quiere decir que la distribución no sea sesgada:
un 20 % de los sitios tiene el 99 % del Puntaje Authority total; un 7 % de los sitios tiene el 99 %
del puntaje Hub; y un 20 % de los sitios tiene el 99 % del Pagerank total.
3.13.
Componentes fuertemente conectados
En un grafo, se dice que una parte de él es una componente conexa o conectada si es posible
ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que
una componente del grafo es una componente fuertemente conectada si esto es posible respetando
la dirección de los enlaces. En la Web se está dentro de una componente fuertemente conectada si
es posible ir desde cualquier sitio a cualquier otro sitio siguiendo enlaces.
No toda la Web de Chile es fuertemente conectada. En el Cuadro 3.7 se muestra el número de
componentes fuertemente conectadas encontradas en la colección (considerando solamente sitios
que tienen al menos grado interno o externo no nulo). Se aprecia la aparición de una componente
gigante [14], lo que es una señal tı́pica de una red libre de escala. En la Figura 3.11 se muestra
la distribución de estas componentes, distribución que se ajusta en su parte inicial a una ley de
potencias de parámetro 3, 33, comparable con España (3, 84 [7]), Korea del Sur (2, 6 [8]), Argentina
(2, 74 [34]) y la Web Global (2, 81 [19]).
Centro de Investigación de la Web – www.ciw.cl
42
Sitios Enlazados
1.253
523
416
352
292
240
224
206
205
193
190
184
172
165
164*
164*
164*
163*
163*
163*
163
163*
162*
162*
162*
162*
162*
155
153*
149
Total Enlaces
2.507
1.706
1.205
361
477
346
225
212
376
437
200
2.796
191
184
168
167
167
167
167
166
165
167
166
167
164
166
164
168
155
505
Sitio
http://www.chido.cl
http://www.fotolog.cl
http://www.atinachile.cl
http://www.todocl.cl
http://www.webs.cl
http://www.solteros.cl
http://www.huellas.cl
http://www.agendacomercial.cl
http://www.123.cl
http://www.educarchile.cl
http://www.boom.cl
http://www.chilepd.cl
http://www.lemmefind.cl
http://www.mipagina.cl
http://www.scanning.cl
http://www.nessus.cl
http://www.asp.cl
http://www.ivr.cl
http://www.simulacion.cl
http://www.nanotech.cl
http://www.yes.cl
http://www.bangalore.cl
http://www.olap.cl
http://www.links.cl
http://www.subasta.cl
http://www.convenio.cl
http://www.top.cl
http://www.sitiosculturales.cl
http://www.compiere.cl
http://www.plataformaurbana.cl
Cuadro 3.6: Sitios que tienen más enlaces hacia otros sitios. Primero, la cantidad de sitios que enlazan,
después el número total de enlaces que contienen. Los sitios marcados con * corresponden a réplicas del
mismo sitio.
Centro de Investigación de la Web – www.ciw.cl
43
Tamaño de la Componente
Número de Componentes
1
102869
2
528
3
90
4
32
5
13
6
10
7
4
8
2
9
4
10
3
11
1
13
1
14
1
18
1
22
2
24
1
75
1
76
1
266
1
6275
(Componente Gigante) 1
Cuadro 3.7: Tamaño de las componentes fuertemente conexas.
Centro de Investigación de la Web – www.ciw.cl
44
Figura 3.8: Distribución del Grado Interno para los sitios de la colecta.
3.14.
Estructura de enlaces entre sitios
La componente fuertemente conectada gigante puede ser usada como el punto de partida para
distinguir ciertas componentes de la Web [14]:
MAIN, los sitios en la componente fuertemente conexa, que a su vez se extiende en las
siguientes componentes [2]:
• MAIN-MAIN, que son los sitios que pueden ser alcanzados directamente desde la componente IN o que pueden alcanzar directamente la componente OUT.
• MAIN-IN, que son los sitios que pueden ser alcanzados directamente desde IN pero no
están en MAIN-MAIN.
• MAIN-OUT, que son los sitios que pueden alcanzar directamente a OUT pero no pertenecen a MAIN-MAIN.
• MAIN-NORM, que son los sitios que no pertenecen a las subcomponentes definidas
anteriormente.
OUT, los sitios que son alcanzables desde MAIN, pero que no tienen enlaces hacia MAIN.
IN, los sitios que pueden alcanzar a MAIN, pero que no tienen enlaces desde MAIN.
ISLAS, sitios que no son accesibles ni hacia ni desde MAIN.
Centro de Investigación de la Web – www.ciw.cl
45
Figura 3.9: Distribución del Grado Externo para los sitios de la colecta.
TENTÁCULOS, sitios que sólo se conectan con IN o OUT, pero en el sentido inverso de los
enlaces.
TÚNEL, una componente que une las componentes IN y OUT sin pasar por MAIN.
La Figura 3.12 muestra una representación gráfica de estas componentes. La distribución de
sitios por componentes se muestra en el Cuadro 3.8. Se muestra el porcentaje sobre el total de los
sitios y sobre aquellos con grado interno o externo no nulo. También se muestra la distribución del
número de páginas por componente.
La estructura de la web presenta una correlación importante con otras caracterı́sticas de los
sitios. En la Figura 3.13 se muestra la distribucióń de sitios de una sola página por componente.
En la componente MAIN hay muy pocos sitios de una sola página, mientras que en la componente
ISLAS se encuentra aproximadamente el 66 % de dichos sitios. Se observa, además, que el tipo de
sitio también tiene un grado de correlación con la componente: en IN se encuentran más redirecciones y páginas con links, mientras que el caso general es tener una mayor cantidad de sitios con
páginas que utilizan Java/Javascript o Flash.
Otra variable que puede ser importante es la cantidad de información por componentes. En el
Cuadro 3.8 se observa que la componente MAIN es la que tiene el mayor porcentaje de páginas,
y en la Figura 3.14 se observa que es esta misma componente (en particular MAIN-MAIN) la que
tiene la mayor cantidad de enlaces a documentos no HTML que presentan información escrita.
Centro de Investigación de la Web – www.ciw.cl
46
(a) Distribución del puntaje Authority para los sitios (b) Distribución del puntaje Hub para los sitios de la
de la colecta.
colecta.
(c) Distribución del PageRank para los sitios de la
colecta.
Figura 3.10: Distribuciones de las sumas de puntajes por enlaces para los sitios.
Componente
MAIN IN
MAIN OUT
MAIN MAIN
MAIN NORM
MAIN
ISLAND
IN
OUT
TOUT
TIN
TUNNEL
Total Sitios
0,90 %
1,64 %
2,21 %
0,90 %
5,63 %
65,26 %
9,32 %
10,18 %
6,02 %
3,16 %
0,43 %
Sólo con enlaces Total Páginas
2,29 %
4,46 %
4,17 %
8,58 %
5,63 %
23,17 %
2,29 %
2,78 %
14,37 %
38,99 %
10,59 %
24,48 %
23,77 %
19,67 %
25,96 %
10,37 %
15,36 %
3,46 %
8,07 %
2,55 %
1,09 %
0,48 %
De sitios con enlaces
5,63 %
10,82 %
29,20 %
3,50 %
49,15 %
4,82 %
24,79 %
13,06 %
4,36 %
3,21 %
0,61 %
Cuadro 3.8: Macrocomponentes de la web chilena y la cantidad de sitios y páginas de cada una de ellas.
Centro de Investigación de la Web – www.ciw.cl
47
Figura 3.11: Distribución de los tamaños de las componentes fuertemente conexas.
Figura 3.12: Estructura macroscópica de la Web.
Centro de Investigación de la Web – www.ciw.cl
48
Figura 3.13: Distribución de los sitios de una página por Macrocomponente. Se indica el motivo por el
cual estos sitios tienen una página según la recolección.
Centro de Investigación de la Web – www.ciw.cl
49
Figura 3.14: Distribución de los documentos de texto no HTML separados por Macrocomponente.
Centro de Investigación de la Web – www.ciw.cl
Capı́tulo 4
Dominios
Del mismo modo en que las páginas se agrupan en sitios, estos últimos se agrupan en dominios.
Un dominio es definido como el sufijo del nombre de un sitio web. Si la dirección de un sitio es
www.sitio.cl, se considera como nombre del dominio la cadena sitio.cl, siendo cl el dominio
de primer nivel y sitio el dominio de segundo nivel.
En el Cuadro 4.1 se muestran algunos datos básicos sobre los dominios conocidos. En la colecta
hay 190,577 dominios distintos, y llama la atención la cantidad de dominios vacı́os, 2,934, que son
aquellos de los cuales se tiene un registro pero que en realidad no tienen un servidor asignado.
Dominios
Promedio Contenido
Dominios con 1 Página
Dominios con 1 Sitio
Dominios vacı́os
Promedio de Páginas
Promedio de Sitios
190.577
764.880,47 [B]
45.607
187.544
2.934
50,57
1,05
Cuadro 4.1: Resumen de estadı́sticas sobre los dominios.
Las Secciones de este Capı́tulo son las siguientes:
Sección 4.1, Direcciones IP y Software utilizado como servidor: se estudia la distribución
de dominios a través de las distintas direcciones IP encontradas en la colecta. Además, a cada
dirección IP se le pidió información sobre el software que utiliza, en particular su sistema
operativo y el software servidor.
Sección 4.2, Número de sitios por dominio: se estudia la distribución de sitios en los dominios. Se incluye un listado de los dominios con más sitios en la colección.
Sección 4.3, Número de páginas por dominio: se estudia la distribución de páginas en los
dominios.
Sección 4.4, Tamaño de los dominios: se estudia la distribución del contenido en los dominios, y se listan los dominios con más texto en la colección.
50
51
Sección 4.5, Enlaces entre dominios: se estudian los enlaces entre dominios. Para ello, se enumeran los dominios que reciben más enlaces desde otros dominios, y se muestra una representación gráfica de la parte central de la componente MAIN-MAIN.
Sección 4.6, Dominios de primer nivel: se estudia la distribución de sitios a través de los
dominios de primer nivel de la Web Chilena.
Sección 4.7, Dominios externos de primer nivel: se estudian los enlaces hacia dominios no
nacionales. Esto incluye el listado de los dominios externos más enlazados y la relación entre
los enlaces externos y el intercambio comercial de Chile.
4.1.
Direcciones IP y Software utilizado como servidor
De los sitios estudiados, un 19, 5 % no pudo ser contactado al momento del estudio. A cada uno
de los que sı́ se pudo contactar, se les extrajo la dirección IP, obteniendo en total 14,477 direcciones.
Al agrupar las direcciones IP por dominio, se obtiene la distribución que muestra la Figura 4.1. La
distribución, que se ajusta a una ley de potencias de parámetro 0, 35 en su parte inicial y a una ley
de potencias de parámetro 1, 37 en su parte central, es muy sesgada, pues existen dos direcciones
IP con más de 1.000 dominios distintos, mientras que más de 13.000 direcciones tienen menos de
10 dominios.
Figura 4.1: Distribución de las direcciones IP para los dominios de la web chilena.
Para cada dirección IP se examinó el software utilizado por el servidor, incluyendo el sistema
Centro de Investigación de la Web – www.ciw.cl
52
operativo, aunque no todas ellas entregan información. En la Figura 4.2 se observan las distribuciones de sistema operativo y de software servidor utilizado en las direcciones encontradas.
(a) Software Servidor
(b) Sistemas Operativos
Figura 4.2: Distribuciones de generadores de páginas dinámicas, software servidor utilizado en los servidores y los sistemas operativos utilizados en ellos.
De todas las direcciones válidas, un 38, 21 % de las direcciones no entrega información sobre
el software servidor que utiliza. El servidor Apache, considerando la cifra anterior, parece tener
la mayor presencia, con un 43 % de participación. No se puede afirmar directamente que Apache
tiene la mayor participación debido a que no se conoce la distribución de los servidores que no
entregaron información. Respecto al sistema operativo, un 43, 21 % de las direcciones válidas no
entrega información. Las distintas versiones de Unix y Linux suman un total de 38, 67 %, dejando
a Microsoft Windows con un 18, 12 % de participación.
4.2.
Número de sitios por dominio
Un dominio tiene en promedio 1, 05 sitios, lo que quiere decir que la mayorı́a de los dominios
(187,544 en total) se utiliza para un único sitio. En la Figura 4.3 se observa la distribución de
sitios por dominios. Esta distribución se aproxima en su parte central por una ley de potencias de
parámetro 0, 75. En la imagen se aprecia claramente la cantidad de dominios con un único sitio.
Además, en el Cuadro 4.2 se muestran los dominios con más sitios. Para cada uno de ellos se indica
el número de páginas y el número de enlaces a documentos de texto no HTML, como una medida
de la cantidad de información que presentan esos dominios.
4.3.
Número de páginas por dominio
En promedio, un dominio tiene 50, 57 páginas. Además, existen 45,607 dominios con una sola
página, una cifra muy similar a la cantidad de sitios con una página. La distribución del número de
páginas por dominio se observa en la Figura 4.4, y se ajusta a una ley de potencias de parámetro
0, 13 en su parte inicial y a una ley de potencias de parámetro 1, 54 en su parte central.
Centro de Investigación de la Web – www.ciw.cl
53
Sitios
690
374
352
342
267
158
124
111
110
94
85
82
81
75
75
74
72
63
61
56
53
45
40
38
35
32
30
29
28
28
Páginas
1.309
35.215
1.977
21.590
10.868
28.996
36.974
710
5.844
30.596
4.229
12.697
11.117
4.507
513
5.055
5.337
3.745
8.143
5.116
6.745
6.154
1.554
77
4.388
3.297
1.307
1.481
9.680
2.643
Documentos*
649
18.148
136
125
1
6.269
229
452
3.490
36
2.637
5.627
10.236
5.586
39
0
3.127
864
83
1.998
0
3.702
706
2
1.985
2.575
256
2.462
0
0
Dominio
84,28 %(pdf)
15,72 %(doc) portalciudadano
78,96 %(pdf)
13,00 %(xml)
uchile
37,50 %(pdf)
35,29 %(doc)
scd
100,00 %(txt)
loquegustes
100,00 %(txt)
boonic
78,23 %(pdf)
21,34 %(doc)
gov
99,56 %(xml) 0,44 %(doc)
vivastreet
99,12 %(pdf)
0,88 %(xml)
co
62,89 %(pdf)
24,47 %(txt)
utfsm
50,00 %(pdf)
27,78 %(xml)
terra
86,16 %(pdf)
8,04 %(doc)
ucv
87,26 %(pdf)
9,72 %(doc)
puc
53,43 %(doc)
46,54 %(pdf)
gob
90,51 %(pdf)
7,02 %(doc)
utalca
76,92 %(xml) 17,95 %(pdf)
tie
olx
75,60 %(pdf)
21,62 %(doc)
usach
82,29 %(pdf)
9,49 %(xml)
ucn
59,04 %(xml) 38,55 %(pdf)
canal13
81,23 %(pdf)
11,41 %(doc)
udec
123
92,33 %(pdf)
7,54 %(doc)
uach
65,58 %(pdf)
32,72 %(doc)
ulagos
100,00 %(xml)
sanvicentett
98,84 %(xml) 0,91 %(pdf)
tvn
86,60 %(pdf)
13,32 %(doc)
udp
75,78 %(pdf)
12,89 %(doc)
usm
95,65 %(pdf)
3,70 %(doc)
ufro
top1
evisos
Tipo
C
E
C
C
C
G
C
C
E
C
E
E
G
E
C
C
E
E
M
E
C
E
E
C
M
E
E
E
C
C
Cuadro 4.2: Dominios con mayor cantidad de sitios. Se detalla el número de páginas encontradas en
sus sitios, los enlaces a documentos no HTML encontrados en ellos, y el tipo de dominio, donde G es de
Gobierno, C de Comercial, E de Educacional y M de Medio de Comunicación. *: Se cuenta la cantidad
de enlaces a documentos no HTML.
Centro de Investigación de la Web – www.ciw.cl
54
Figura 4.3: Distribución de los sitios para los dominios de la web chilena.
4.4.
Tamaño de los dominios
El tamaño promedio de un dominio es cercano a los 746 KiB. La distribución del tamaño total
de páginas y la fracción de los dominios se muestra en la Figura 4.5, y se ajusta a una ley de
potencias con parámetros 0, 98 en su parte inicial y 1, 45 en su parte central.
En el Cuadro 4.3 se muestran los 30 dominios con más contenido. La mayorı́a de ellos son sitios
comerciales o de subastas, siguiendo la tendencia del año anterior [6]. Las mismas anomalı́as que
producen sitios con más contenido del que verdaderamente tienen se aplican a esta tabla.
4.5.
Enlaces entre dominios
En el Cuadro 4.4 se muestran los 30 dominios que reciben más enlaces desde otros dominios.
Nuevamente, prima la cantidad de dominios distintos por sobre el total de enlaces recibidos. En la
lista se encuentran dominios del gobierno, de instituciones de educación, de comerciales, de medios
de comunicación, y algunos que son marcados como “otros” por el contenido que presentan. En
particular, los dominios en los puestos 2, 3 y 4 son equivalentes, tienen la misma IP y muestran
los mismos sitios.
Para el caso de los dominios, se desea una representación gráfica de la Web Chilena. Para esta
representación se eligieron los 100 dominios más enlazados, considerando solamente aquellos que
Centro de Investigación de la Web – www.ciw.cl
55
Tamaño [MiB]
Dominio
Tipo
3.116
turismo-viajes
C
1.718
suena
C
1.670
deremate
C
1.586
amazon
C
1.583
mercadolibre
C
1.179
planetashile
C
873
b2
C
863
irc
C
821
lapapa
C
818
hotmovies
C
813
atinachile
C
777
enrutators
C
757
cienciaforense
C
755
busch
C
741
kontent
C
726
vivastreet
C
674
promolibros
C
673
bluecompany
C
669
parapentechile
C
664
blogcoba
C
640
gov
G
630
amchamchile
C
629
uchile
E
626
trance
C
619
sexrelatos
C
617
fam
C
605
shoebuy
C
601
rox
C
597
icoubb
O
594
universitarios
C
Cuadro 4.3: Dominios de mayor tamaño. Se detalla el tipo de dominio: Comercial (C), Gobierno (G),
Educativo (E), Medio de Comunicación (M) u Otro (O).
Centro de Investigación de la Web – www.ciw.cl
56
Dominios que Enlazan
1.300
906
904
902
653
550
542
496
467
434
367
335
330
323
293
292
264
261
257
247
232
214
209
209
202
201
200
198
197
193
Enlaces Total
Dominio
61.712
uchile
906
nameaction
904
backorder
902
snapnames
3.172
gov
4.654
puc
21.224
sii
3.476
mineduc
5.233
gob
18.146
123
12.876
latercera
2.323
meteochile
1.360
bcentral
1.623
udec
1.263
corfo
7.631
scd
1.998
utfsm
8.279
gobiernodechile
34.471
terra
1.656
sence
609
conama
11.073
co
720
amarillas
1.300
canal13
669
portalciudadano
7.445
uach
732
sernatur
491
minsal
716
ucv
949
usach
Tipos
E
O
O
O
G
E
G
G
G
C
M
G
G
E
G
C
E
G
C
G
G
C
C
M
O
E
G
G
E
E
Cuadro 4.4: Dominios con mayor grado interno. Se detalla el tipo de dominio: Comercial (C), Gobierno
(G), Educacional (E), Medio de Comunicación (M) u Otro (O).
Centro de Investigación de la Web – www.ciw.cl
57
Figura 4.4: Distribución de los documentos para los dominios de la web chilena.
tenı́an sitios en la componente MAIN MAIN, con el fin de mostrar los dominios más relevantes.
Esta representación1 se observa en la Figura 4.6, contiene 100 dominios representados como nodos
enlazados por una lı́nea cuyo grosor y color muestra la cantidad de enlaces entre ellos (mientras
más oscuro y grueso, hay una mayor cantidad de enlaces). Los dominios se dividen en tres grupos:
comerciales (rectángulos), de instituciones educacionales (elipses) y de gobierno (rombos).
4.6.
Dominios de primer nivel
La colección incluye dominios que están hospedados en IPs asignadas a Chile pero que no
necesariamente corresponden al dominio nacional cl. El Cuadro 4.5 muestra como se distribuyen
los dominios de primer nivel en la Web Chilena. En esta distribución se aprecia que el dominio
más valorado es el dominio nacional, aunque es probable que existan otros sitios con dominios
externos que estén hospedados en IPs nacionales pero de los cuales no se tenga conocimiento.
Adicionalmente, en el Cuadro 4.6 se muestra la distribución de los sitios de cada componente a
través de los dominios de primer nivel.
1
Realizada con la aplicación neato del paquete graphviz, http://www.graphviz.org.
Centro de Investigación de la Web – www.ciw.cl
58
Dominio
cl
com
net
org
otro
Nombre
comentario
comentario
comentario
comentario
comentario
% dominios
99,93 %
0,06 %
0,01 %
0,01 %
0,00 %
% sitios
99,64 %
0,17 %
0,02 %
0,03 %
0,13 %
% páginas
97,63 %
1,99 %
0,01 %
0,30 %
0,06 %
Cuadro 4.5: Distribución de dominios de primer nivel.
Componente
MAIN IN
MAIN OUT
MAIN MAIN
MAIN NORM
MAIN
ISLAND
IN
OUT
TOUT
TIN
TUNNEL
Total Sitios
0,90 %
1,64 %
2,21 %
0,90 %
5,63 %
65,26 %
9,32 %
10,18 %
6,02 %
3,16 %
0,43 %
cl
99,20 %
99,73 %
99,10 %
99,50 %
99,36 %
99,62 %
98,70 %
99,11 %
99,79 %
99,57 %
99,58 %
com
0,60 %
0,11 %
0,77 %
0,40 %
0,49 %
0,18 %
0,15 %
0,59 %
0,19 %
0,31 %
0,42 %
org
net
otro
0,00 % 0,20 % 0,00 %
0,05 % 0,00 % 0,11 %
0,04 % 0,08 % 0,00 %
0,00 % 0,00 % 0,10 %
0,03 % 0,06 % 0,05 %
0,04 % 0,02 % 0,13 %
0,04 % 0,02 % 1,09 %
0,08 % 0,10 % 0,12 %
0,01 % 0,00 % 0,00 %
0,06 % 0,00 % 0,06 %
0,00 % 0,00 % 0,00 %
Cuadro 4.6: Distribución de dominios de primer nivel por Macrocomponente
Centro de Investigación de la Web – www.ciw.cl
59
Figura 4.5: Distribución del tamaño de los dominios para los dominios de la web chilena.
4.7.
Dominios externos de primer nivel
Se encontraron más de 130.000.000 de enlaces hacia páginas de sitios externos. Los 30 dominios
externos de primer nivel más referenciados se muestran en el Cuadro 4.7. Además se indica el
ranking de uso de ese dominio en la Web Global [17], el nombre del dominio y el porcentaje de los
enlaces que le corresponde dentro del total.
La Figura 4.7 muestra la distribución de los enlaces a los dominios externos, que se ajusta a una
ley de potencias de parámetros 1, 75 en su parte inicial y 5, 86 en su parte central. Una observación
importante es que el gráfico continúa más allá del total de dominios válidos por la presencia de
errores de tipo en los nombres de dominio.
La cantidad de enlaces externos puede ser relacionada con el intercambio comercial [4]. En
la Figura 4.8 se muestra la relación entre los enlaces a dominios externos y las exportaciones e
importaciones de Chile. Tal como lo muestran los diagramas, hay una relación significativa entre el
número de enlaces y el intercambio comercial, en particular en las exportaciones, donde el número
de enlaces y el volumen de intercambio tiene una correlación de 0, 62. Los paı́ses orientales son los
que más se alejan de la recta que modela la relación, como es el caso de China, Japón, Korea y
Taiwán. En general se observa que los paı́ses más alejados son aquellos que no tienen como lengua
oficial el idioma inglés. Una aproximación realizada es la siguiente: para el dominio de Estados
Unidos se incluyó el dominio .com, lo que no es del todo exacto ya que dicho dominio contiene
sitios de una gran cantidad de naciones.
Centro de Investigación de la Web – www.ciw.cl
60
Ranking
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Ranking Global
2
36
1
7
77
28
4
12
21
11
82
29
13
69
8
87
41
5
63
60
127
111
74
14
6
20
9
22
18
19
Dominio
Nombre
com
Comercial (G)
org
Organización (G)
net
Red (G)
cn
China
info
Información (G)
ar
Argentina
de
Alemania
mx
México
es
España
br
Brazil
biz
Negocio (G)
us
Estados Unidos
uk
Inglaterra
ve
Venezuela
edu
Educacional (G)
ec
Ecuador
co
Colombia
it
Italia
pe
Perú
uy
Uruguay
pa
Panamá
cr
Costa Rica
do
Rep. Dominicana
pl
Polonia
fr
Francia
dk
Dinamarca
nl
Holanda
ch
Suiza
se
Suecia
be
Bélgica
Enlaces
62,02 %
12,46 %
3,67 %
2,99 %
2,83 %
2,15 %
1,40 %
1,25 %
1,16 %
0,65 %
0,62 %
0,61 %
0,56 %
0,53 %
0,43 %
0,37 %
0,33 %
0,33 %
0,31 %
0,29 %
0,29 %
0,27 %
0,26 %
0,24 %
0,23 %
0,20 %
0,19 %
0,17 %
0,15 %
0,15 %
Cuadro 4.7: Fracción de enlaces a los 30 dominios externos más referenciados.
Centro de Investigación de la Web – www.ciw.cl
61
Figura 4.6: Una visión gráfica de los 100 dominios más enlazados de la Web Chilena, considerando
solamente aquellos dominios con sitios en la componente MAIN MAIN.
Centro de Investigación de la Web – www.ciw.cl
62
Figura 4.7: Distribución de los enlaces externos para los dominios de la web chilena.
Centro de Investigación de la Web – www.ciw.cl
63
Figura 4.8: Relación entre el intercambio comercial internacional y los enlaces salientes de la Web
Chilena.
Centro de Investigación de la Web – www.ciw.cl
Capı́tulo 5
Conclusiones
En Octubre de 2007, cuando se inició la recolección que dio luz a este informe, se tenı́an nociones
de los resultados que entregarı́a el análisis posterior de la colecta. Los resultados obtenidos, si bien
se acercan a las proyecciones que se habı́an estimado de acuerdo a los resultados de años anteriores,
no dejan de ser sorprendentes. La Web Chilena ha cambiado bastante respecto a los últimos años
y, a pesar de estar en constante cambio, sigue manteniendo una estructura similar a la encontrada
en años anteriores.
En el Capı́tulo 2, se analizaron diversas caracterı́sticas de los documentos en la colección. El
crecimiento en la cantidad de documentos recolectados desde la colecta anterior es notorio,desde 7, 4
millones a 9, 6 millones, lo cual es consecuente con la cantidad de documentos creada o actualizada
en los últimos 12 meses.
La distribución de los documentos en diferentes análisis se puede ajustar a leyes de potencias,
verificando el modelo de redes libres de escala enunciado en el Capı́tulo 1, en particular en las
distribuciones de contenido, de enlaces y de algoritmos de puntaje por enlaces. Ahora bien, aparte
de los análisis matemáticos, también se estudiaron diversas propiedades de los documentos, como el
lenguaje, donde se observa que el idioma mantiene una distribución similar a la del estudio anterior:
el idioma oficial de Chile, el Castellano, mantiene una presencia cercana al 81 %, mientras que el
Inglés tiene una presencia cercana al 18 %. También se observó un aumento en la cantidad de
enlaces funcionales y en la cantidad de enlaces que ya no existen, es decir, se han disminuido los
otros tipos de errores HTTP. Respecto al contenido de las páginas, el vocabulario sigue la tendencia
del año pasado, siendo Chile y su capital parte de los términos más comunes, considerando también
la aparición de palabras relacionadas con el comercio, con la educación y con las tecnologı́as web.
En términos de usabilidad, dentro de un sitio han disminuido los tı́tulos compartidos en las páginas
pero han aumentado los tı́tulos vacı́os.
El Capı́tulo 3 estudió los 200,000 sitios que contiene la colecta, de los cuales se pudieron
recolectar cerca de 111,000. De estos últimos, cerca de 48,000 se identificaron como sitios de una
sola página, aunque la mayorı́a de ellos tenı́a efectivamente más documentos. El análisis de algunas
caracterı́sticas de los sitios también presenta leyes de potencias: la distribución de documentos por
sitios, la edad en meses, la distribución de enlaces internos y la distribución de enlaces entre sitios,
entre otras propiedades.
Si bien los sitios con más documentos y con más contenido, en términos de tamaño, presentan
64
65
anomalı́as que perturban los resultados del análisis, los sitios que reciben más enlaces se han
mantenido a lo largo de los años. Estos sitios destacan por ser sitios del gobierno, de instituciones
educacionales o de medios de comunicación.
La macroestructura de la web también presenta caracterı́sticas importantes. Aunque solamente
un 5 % de los sitios válidos o no vacı́os está fuertemente conectado entre sı́, estos sitios tienen
el 39 % del total de las páginas. A su vez, un 65, 26 % de los sitios está aislado de los demás, y
contienen cerca del 24 % del total de las páginas.
También se estudiaron los proveedores de los sitios que forman la colecta. Una gran mayorı́a de
ellos están ubicados fı́sicamente en Chile, aunque algunos ISP de la lista de proveedores con más
sitios están ubicados en el extranjero.
El Capı́tulo 4 estudió los 190,577 dominios encontrados. La proporción entre sitios y dominios
es casi uno a uno si no se consideran los sitios vacı́os, aunque la inspección manual de la colecta
indica que hay una gran cantidad de dominios con más de un sitio. Por otro lado, las distribuciones
de páginas y sitios por dominio se pueden ajustar a leyes de potencias, aunque el ajuste para los
sitios no abarca los dominios con mayor cantidad de sitios.
La distribución de direcciones IP para los dominios también se ajusta a una ley de potencias.
En estas direcciones se estudió la tecnologı́a que utilizaba el servidor, y en las que entregaron información se encontró que tanto en el sistema operativo como en el servidor utilizado, las tecnologı́as
de código abierto tienen mayor presencia.
Respecto a los dominios extranjeros, se encontró nuevamente, al igual que en los años anteriores,
que existe una relación significativa entre la cantidad de enlaces y el intercambio comercial de un
paı́s. En general, los paı́ses que no cumplen con la relación tienen motivos claramente identificables,
en su mayorı́a de lenguaje.
Finalmente, los análisis presentados a lo largo de los Capı́tulos permiten no solamente establecer
un modelamiento de la Web en términos matemáticos o analı́ticos, también permiten tener datos
concretos que sirven de base para estudios de usabilidad, de mercado y de minerı́a de datos, entre
otros. Lo que se ha realizado es una captura de un instante particular de la existencia de la Web,
cuya representatividad no se puede poner en duda al ver la constancia que se ha tenido durante
los años pasados, y los resultados similares vistos en estudios aplicados a otras Webs nacionales.
Centro de Investigación de la Web – www.ciw.cl
Bibliografı́a
[1] Ricardo Baeza-Yates and Carlos Castillo. Caracterizando la web chilena. In Encuentro chileno
de ciencias de la computación, Punta Arenas, Chile, 2000. Sociedad Chilena de Ciencias de
la Computación.
[2] Ricardo Baeza-Yates and Carlos Castillo. Relating web characteristics with link based web
page ranking. In Proceedings of String Processing and Information Retrieval SPIRE, pages
21–32, Laguna San Rafael, Chile, 2001. IEEE CS Press.
[3] Ricardo Baeza-Yates and Carlos Castillo. Caracterı́sticas de la web chilena 2004. Technical
report, Center for Web Research, University of Chile, 2005.
[4] Ricardo Baeza-Yates and Carlos Castillo. Relationship between web links and trade. Proceedings of the 15th international conference on World Wide Web, pages 927–928, 2006.
[5] Ricardo Baeza-Yates and Carlos Castillo. WIRE: Web Information Retrieval Environment,
2006. http://www.cwr.cl/projects/WIRE/.
[6] Ricardo Baeza-Yates, Carlos Castillo, and Eduardo Graells. Caracterı́sticas de la web chilena
2006. Technical report, Center for Web Research, University of Chile, 2007.
[7] Ricardo Baeza-Yates, Carlos Castillo, and Vicente López. Caracterı́sticas de la web de españa.
El Profesional de la Información, 15(1), January 2006.
[8] Ricardo Baeza-Yates and Felipe Lalanne. Characteristics of the korean web. Technical report,
Korea–Chile IT Cooperation Center ITCC, 2004.
[9] Ricardo Baeza-Yates, Bárbara Poblete, and Felipe Saint-Jean. Evolución de la web chilena
2001–2002. Technical report, Center for Web Research, University of Chile, 2003.
[10] Albert-László Barabási. Linked: The New Science of Networks. Perseus Books Group, May
2002.
[11] A.A. Benczur, K. Csalogany, D. Fogaras, E. Friedman, T. Sarlos, M. Uher, and E. Windhager.
Searching a small national domain–a preliminary report. Poster Proceedings of Conference
on World Wide Web, 2003.
[12] T. Berners-Lee, L. Masinter, and M. McCahill. RFC1738: Uniform Resource Locators (URL).
Internet RFCs, 1994.
[13] P. Boldi, B. Codenotti, M. Santini, and S. Vigna. Structural properties of the African web.
The Eleventh International WWW Conference, May, 2002.
66
67
[14] A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and
J. Wiener. Graph structure in the web: experiments and models. Proceedings of the ninth
WWW Conference, 2000.
[15] Carlos Castillo, Bartlomiej Starosta, and Marcin Sydow. Crawl.pl: Measuring statistical and
structural properties of the polish web. Studia Informatica, 1(8):43–73, 2007.
[16] J. Cho, N. Shivakumar, and H. Garcia-Molina. Finding replicated web collections. ACM
SIGMOD, pages 355–366, 1999.
[17] Internet Systems Consortium. Internet Domain Survey, 2007. http://www.isc.org/ds/.
[18] Brian D. Davison. Topical locality in the web. In SIGIR ’00: Proceedings of the 23rd annual
international ACM SIGIR conference on Research and development in information retrieval,
pages 272–279, New York, NY, USA, 2000. ACM Press.
[19] S. Dill, R. Kumar, K.S. McCurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. SelfSimilarity In the Web. ACM Transactions on Internet Technology, 2(3):205–223, 2002.
[20] Efthimis Efthimiadis and Carlos Castillo. Charting the Greek Web. In Proceedings of the
Conference of the American Society for Information Science and Technology (ASIST), Providence, Rhode Island, USA, November 2004. American Society for Information Science and
Technology.
[21] D. Gomes and M.J. Silva. A characterization of the portuguese web. 3rd ECDL Workshop
on Web Archives, Trondheim, Norway, 21, 2003.
[22] A. Gulli and A. Signorini. The indexable web is more than 11.5 billion pages. In WWW ’05:
Special interest tracks and posters of the 14th international conference on World Wide Web,
pages 902–903, New York, NY, USA, 2005. ACM Press.
[23] Z. Gyongyi and H. Garcia-Molina. Web spam taxonomy. First International Workshop on
Adversarial Information Retrieval on the Web, 2005.
[24] Jon M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM,
46(5):604–632, 1999.
[25] Guowei Liu, Yong Yu, Jie Han, and Guirong Xue. China web graph measurements and evolution. In Web Technologies Research and Development (APWeb), pages 668–679, Shanghai,
China, 2005. Springer Berlin / Heidelberg.
[26] Microsoft. ASP: Active Server Pages, 2006. http://msdn.microsoft.com/asp.net/.
[27] Marco Modesto, Álvaro Pereira, Nivio Ziviani, Carlos Castillo, and Ricardo Baeza-Yates. Um
novo retrato da web brasileira. In Proceedings of XXXII SEMISH, pages 2005–2017, São
Leopoldo, Brazil, 2005.
[28] L. Page, S. Brin, R. Motwani, and T. Winograd. The pagerank citation ranking: Bringing
order to the web, 1998.
Centro de Investigación de la Web – www.ciw.cl
68
[29] G. Pandurangan, P. Raghavan, and E. Upfal. Using PageRank to Characterize Web Structure.
8th Annual International Computing and Combinatorics Conference (COCOON), pages 330–
339, 2002.
[30] A. Rauber, A. Aschenbrenner, O. Witvoet, R.M. Bruckner, and M. Kaiser. Uncovering Information Hidden in Web Archives. D-Lib Magazine, 8(12):1082–9873, 2002.
[31] S. Sanguanpong, P.P. Nga, S. Keretho, Y. Poovarawan, and S. Warangrit. Measuring and
analysis of the Thai World Wide Web. Proceeding of the Asia Pacific Advance Network
conference, pages 225–230, 2000.
[32] T. Suel and J. Yuan. Compressing the graph structure of the web. Data Compression Conference (DCC), pages 213–222, 2001.
[33] M. Thelwall and D. Wilkinson. Graph structure in three national academic Webs: Power laws
with anomalies. Journal of the American Society for Information Science and Technology,
54(8):706–712, 2003.
[34] Gabriel Tolosa, Fernando Bordignon, Ricardo Baeza-Yates, and Carlos Castillo. Characterization of the argentinian web. Cybermetrics, 11(1):3+, July 2007.
[35] Gabriel H. Tolosa, Fernando R. Bordignon, and Pablo J. Lavallén. Caracterización del espacio
web de perú. 2006.
[36] Eveline A. Veloso, Edleno de Moura, P. Golgher, A. da Silva, R. Almeida, A. Laender, Ribeiro B. Neto, and Nivio Ziviani. Um retrato da Web Brasileira. In Proceedings of Simposio
Brasileiro de Computacao, Curitiba, Brasil, 2000.
[37] George K. Zipf. Human Behavior and the Principle of Least Effort. Addison-Wesley (Reading
MA), 1949.
Centro de Investigación de la Web – www.ciw.cl

Documentos relacionados