Rastrear URL - INTRANET CAP

Transcripción

Rastrear URL - INTRANET CAP
Rastrear URL
Antes de empezar a rastrear contenido web, debe especificar una o varias ubicaciones
iniciales. Puede controlar y ajustar mejor la magnitud del rastreo, especificando patrones
de URL que deben seguirse y otros que deben evitarse. Para que una URL concreta se
rastree, debe concordar al menos con un patrón de URL especificado en el cuadro Seguir
y rastrear sólo las URL con los patrones siguientes y con ninguno de los patrones de
URL del cuadro No rastrear las URL con los patrones siguientes.
Nota: Si una URL coincide con los patrones de Seguir y rastrear sólo las URL con los
patrones siguientes y No rastrear las URL con los patrones siguientes, la URL no se
rastreará.
Las URL distinguen entre mayúsculas y minúsculas; para que las URL no distingan entre
mayúsculas y minúsculas, utilice el operador regexpIgnoreCase.
El rastreador puede acceder a la información a través de los protocolos HTTP, HTTPS y
SMB, así como mediante rutas UNC (Convenio universal de denominación). A
continuación encontrará más información sobre el rastreo del sistema de archivos con
SMB.
Las siguientes opciones permiten controlar y ajustar mejor el rastreo.
Iniciar rastreo desde las URL siguientes
http://w w w .tigabytes.com/secure/
http://w w w .cap.cl/
http://w w w .invercap.cl/
http://w w w .infoacero.cl/
http://w w w .koomedia.cl/
http://intranet.cap.cl/
Ejemplo: http://www.miorganización.micompañía.com *obligatorio
Las URL de inicio, que se introducen en líneas distintas, controlan la ubicación exacta
donde se inicia el rastreo. Todo el contenido que desee incluir en los grupos debe poder
consultarse siguiendo los vínculos de uno o varios documentos que figuran en las URL de
inicio.
Dichas URL únicamente son los puntos de inicio del rastreo, es decir, indican al
rastreador dónde debe empezar a rastrear. Sin embargo, los vínculos de las URL de inicio
sólo se seguirán y rastrearán si concuerdan con uno de los patrones de Seguir y rastrear
sólo las URL con los patrones siguientes. Por ejemplo, si especifica la URL de inicio
http://miempresa.es/ en esta sección y el patrón www.miempresa.es/ en la sección
mencionada, el rastreador detectará los vínculos que haya en la página web
http://www.miempresa.es/. Sin embargo, únicamente rastreará e indexará las URL que
concuerden con el patrón www.miempresa.es/.
Las entradas de esta ventana deben ser URL completas que utilicen el formato:
<protocolo>://<host>[:puerto]/[ruta]
donde el protocolo puede incluir HTTP, HTTPS (para contenido protegido) o SMB (para
archivos compartidos). La información entre corchetes [ ] es opcional. La barra diagonal
"/" que aparece tras <host>[:puerto] es obligatoria.
Si utiliza nombres de rutas UNC de Windows, no es necesario que especifique el
protocolo, pero debe utilizar una barra invertida ("\") en lugar de una barra inclinada. Las
entradas UNC presentan este formato:
\\<host>[:port]\<path>
La información entre corchetes [ ] es opcional. La barra invertida que aparece tras
<host>[:puerto] es obligatoria.
Ejemplos válidos:
https://www.ejemplo.com/protegido/
http://www.ejemplo.com:80/ayuda/
smb://archivocompartido.miempresa.es/
\\archivocompartido.miempresa.es\compartido\
Ejemplos no válidos:
http://www/
www.ejemplo.com/
http://www.ejemplo.com
Motivo:
No es válido, porque el nombre del host está
incompleto. Los nombres de host completos
incluyen el nombre de host local y el nombre
completo
del
dominio;
por
ejemplo:
correo.corp.compañía.com.
No es válido porque falta la información sobre
el protocolo.
El
carácter
"/"
que
aparece
tras
<host>[:puerto] es obligatorio.
Para introducir una nueva URL, escriba una entrada válida en la ventana. Pulse Intro
para añadir otras URL (una por línea).
Nota: Esta ventana debe contener al menos una URL de inicio. Google Search Appliance
tratará de resolver la información de la ruta incompleta utilizando los datos introducidos
en la página Administración > Configuración de la red de la sección Sufijo DNS (ruta
de búsqueda DNS). Sin embargo, si no lo consigue, se mostrará el siguiente mensaje de
error en rojo en la página:
Ha introducido una o varias URL de inicio no válidas. Por favor,
compruebe sus ediciones.
El rastreador intentará varias veces rastrear las URL que no estén disponibles
temporalmente.
Rastreo del sistema de archivos
Los archivos SMB (Bloque de mensajes de servidor) compartidos, también conocidos
como "Archivos compartidos de Windows", son un sistema de archivos de red muy
utilizado. Para rastrear documentos almacenados en un archivo SMB compartido,
especifique una ruta URI mediante el protocolo smb. Por ejemplo,
smb://archivo-servidor/carpeta/
No inicie el rastreo en la URL de SMB de nivel superior. Por ejemplo, la siguiente es una
URL no válida:
smb://
Estos archivos se indexarán y publicarán en resultados de búsqueda públicos. Los
vínculos de resultados que corresponden a documentos ubicados en archivos compartidos
SMB se publicarán a través de Google Mini y estarán disponibles para todos los usuarios
de la búsqueda.
Nota: Si su entorno utiliza un servidor WINS para buscar nombres de host, también debe
configurar el rastreador para que utilice este servidor en la página Administración >
Configuración de la red.
Seguir y rastrear sólo las URL con los patrones siguientes
http://w w w .tigabytes.com/secure/
cap.cl/
invercap.cl/
infoacero.cl/
koomedia.cl/
netoffice.cl/
ejemplo: miempresa.com/
*obligatorio
Todas las entradas del cuadro Iniciar rastreo desde las URL siguientes requieren la
entrada correspondiente en el cuadro Seguir y rastrear sólo las URL con los patrones
siguientes. De no ser así, se mostrará un mensaje de error.
Sólo se seguirán y rastrearán las URL que concuerden con los patrones especificados
(uno por línea) en esta ventana. De esta manera podrá controlar los archivos que se
rastrearán en su servidor.
Ejemplo:
https://www.ejemplo.com/protegido/
http://www.ejemplo.com:80/ayuda/
smb://archivocompartido.miempresa.com/
\\archivocompartido.miempresa.es\compartidocompartido\
Estas entradas limitan el rastreo a las URL que contienen las cadenas anteriores. Por
ejemplo, todas las que aparecen a continuación se rastrearían, siempre y cuando no
aparezcan en la lista de URL que no deben rastrearse:
https://www.ejemplo.com/protegido/archivo.txt
http://www.ejemplo.com:80/ayuda/proyectoA
smb://archivocompartido.miempresa.com/carpeta1
\\archivocompartido.miempresa.es\carpeta1\
Las URL que se encuentren se compararán con estos patrones a fin de determinar su
inclusión en el índice. Sólo se rastrearán e indexarán las URL que concuerden con ellos.
Para que una URL se rastree e indexe, debe existir una secuencia de vínculos que
concuerden con los patrones de seguimiento de una de las URL de inicio. Si no cuenta
con una ruta de vínculos válida, deberá añadir la URL a la sección Iniciar rastreo desde
las URL siguientes.
Los patrones de URL que especifique en esta ventana deben cumplir con las normas para
definir patrones de URL válidos. Si desea introducir un patrón de URL, introduzca el
patrón válido en la ventana. Pulse Intro para añadir patrones adicionales. Está permitido
incluir líneas vacías y comentarios que empiecen por #.
Las URL de la página Rastrear URL distinguen entre mayúsculas y minúsculas. Para que
los patrones de concordancia de URL no distingan entre mayúsculas y minúsculas, utilice
el operador regexpIgnoreCase. Por ejemplo, el patrón
regexpIgnoreCase:http://www.miempresa.com/documentos/
también coincidirá con las URL que incluyen
http://www.miempresa.com/documentos/ y
http://www.miempresa.com/DOCUMENTOS/.
Probar estos patrones
Introduzca varias URL:
http://w w w .tigabytes.com/secure/
http://w w w .cap.cl/
http://w w w .invercap.cl/
http://w w w .infoacero.cl/
http://w w w .koomedia.cl/
http://intranet.cap.cl/
Probar con estos patrones:
http://w w w .tigabytes.com/secure/
cap.cl/
invercap.cl/
infoacero.cl/
koomedia.cl/
netoffice.cl/
Probar estos patrones
Resultados: URL
http://www.tigabytes.com/secure/
http://www.cap.cl/
http://www.invercap.cl/
http://www.infoacero.cl/
http://www.koomedia.cl/
http://intranet.cap.cl/
http://www.netoffice.cl/
http://intranet.cap.cl/google_paths/documen
tos_confidenciales/
Concordancia con el patrón
http://www.tigabytes.com/secure/
cap.cl/
invercap.cl/
infoacero.cl/
koomedia.cl/
cap.cl/
netoffice.cl/
cap.cl/
Si desea saber qué URL coincidirán con uno de los patrones que ha introducido en este
campo, haga clic en cualquiera de los vínculos Probar estos patrones para abrir la
“Utilidad de prueba de patrones”. Esta utilidad permite especificar una lista de URL en la
parte izquierda y un conjunto de patrones en la derecha, e indica las correspondencias
entre las URL y los patrones del grupo.
Al abrirse, la “Utilidad de prueba de patrones” se inicia con las entradas guardadas en la
página Rastrear e indexar > Rastrear URL. Si desea analizar más exhaustivamente los
grupos de patrones, puede introducir más URL y patrones en esta utilidad. Sin embargo,
las modificaciones no se guardarán. Para ello, debe introducirlas y guardarlas en la
página Rastrear e indexar > Rastrear URL.
Tras hacer clic en el botón Probar estos patrones, los resultados aparecerán en la misma
página. El fondo verde indica que al menos uno de los patrones concuerda con las URL
que desea rastrear. También se muestra el primer patrón coincidente. Si el fondo es rojo,
significa que ninguno de los patrones concuerda con esta URL.
Haga clic en el vínculo Volver a Rastrear e indexar > Rastrear URL para regresar a la
página Rastrear e indexar > Rastrear URL.
No rastrear las URL con los patrones siguientes
# The follow ing are popular filetype extensions - uncomment th
# disable craw ling them
# Microsoft Word
#.doc$
# Microsoft Excel
#.xls$
La búsqueda por tipo de archivos de Google extrae e indexa cualquier texto puro de un
documento. Los gráficos, diagramas e información de formato no se indexan. Asimismo,
puede excluir un formato de archivo concreto del rastreo y la indexación definiendo
excepciones de patrones de URL con el objetivo de evitar el rastreo en esas páginas. Las
URL que concuerden con los patrones especificados (uno por línea) en esta ventana no se
rastrearán.
Esta opción permite evitar el rastreo de determinados tipos de archivos, directorios u
otros grupos de páginas. Por ejemplo, si introduce el patrón contains:? en este cuadro,
evitará que se rastreen muchos guiones CGI (Common Gateway Interface).
Los patrones de URL que incluya aquí deben ajustarse a las normas para definir patrones
de URL válidos. Para introducir un nuevo patrón de URL, escriba uno válido en la
ventana. Pulse Intro para añadir patrones adicionales en líneas nuevas. Está permitido
incluir líneas vacías y comentarios que empiecen por #.
Para su comodidad, este cuadro se completa previamente con diversos patrones de URL y
tipos de archivos que, generalmente, los usuarios desean que el rastreador ignore. No es
recomendable suprimir ninguno de los patrones predeterminados a menos que descubra
que partes de su sitio quedan excluidas debido a estas normas.
Para excluir un patrón o un tipo de archivo del rastreo, elimine la marca # de la línea que
contiene el tipo de archivo.
Por ejemplo, para evitar que el rastreador tenga acceso a los archivos Excel de sus
servidores, cambie la línea
#.xls$
por
.xls$
Probar estos patrones
Para probar los patrones especificados, haga clic en uno de los vínculos Probar estos
patrones. Al abrirse, la “Utilidad de prueba de patrones” se inicia con las entradas
guardadas en la página Rastrear e indexar > Rastrear URL. Si desea analizar más
exhaustivamente los grupos de patrones, puede introducir más URL y patrones en esta
utilidad. Sin embargo, las modificaciones no se guardarán. Para ello, debe introducirlas y
guardarlas en la página Rastrear e indexar > Rastrear URL. Tras hacer clic en el botón
Probar estos patrones, los resultados aparecerán en la misma página. El fondo verde
indica que al menos uno de los patrones concuerda con las URL que desea rastrear.
También se muestra el primer patrón coincidente. Si el fondo es rojo, significa que
ninguno de los patrones concuerda con esta URL.
Haga clic en el vínculo Volver a Rastrear e indexar > Rastrear URL para regresar a la
página Rastrear e indexar > Rastrear URL.
Nota: Si el rastreo debe limitarse a su intranet, le recomendamos que aplique uno o
varios de estos procedimientos.
•
Configure la red para inhabilitar la conectividad de Google Mini fuera de la
intranet.
Para asegurarse de que Google Mini no rastree en ningún caso fuera de la intranet,
un miembro del grupo de TI/SI deberá bloquear explícitamente las direcciones IP
de dicho dispositivo a fin de que no puedan salir de dicha red. El grupo de TI/SI
debe configurar una lista de control de acceso en los routers externos o un grupo
de normas en el cortafuegos a fin de inhabilitar toda comunicación entre dichas
direcciones IP y el mundo exterior.
•
Compruebe que el nombre de dominio de todos los patrones del campo Seguir y
rastrear sólo las URL con los patrones siguientes sea suempresa.es.

Documentos relacionados