CULTURA

La metaetiqueta robots y el archivo robots.txt

Los robots debe colocarse en todas las páginas y tiene el propósito de brindar información a la araña para indicar qué páginas indexar y cuáles deben omitirse.

Aquí está su sintaxis:

  • le dice a la araña que archive la página en la base de datos ÍNDICE
  • NOINDEX le dice a la araña que no almacene la página en la base de datos
  • SEGUIR dile a la araña que siga los enlaces de la página
  • NO SEGUIR dile a la araña que no siga los enlaces de la página

Metaetiquetas

La etiqueta robots debe insertarse en el contenido de la cabeza, entre las etiquetas y de la página como en este ejemplo:

<html>
<head>
<title>Il titolo della pagina</title>
<meta name="keywords" content="parola1,parola2,parola3,parola4">
<meta name="description" content="Breve descrizione della pagina.">
<meta name="robots" content="index,follow">
</head>
<body>
Il contenuto della tua pagina web

</body>

Google agrega el contenido de las páginas indexadas a su base de datos mientras navega por las páginas. El contenido guardado se llama versión Cache, y se puede ver haciendo clic en el enlace Contenido Cache. Si no desea que el contenido se guarde en la base de datos de Google, use esta etiqueta:

Esto no impedirá que Google indexe su página, solo evita guardar contenido que puede resultarle inapropiado presentar en versiones desactualizadas. Si no desea indexar la página, deberá utilizar la etiqueta «noindex».

Otra alternativa al procedimiento anterior es comunicarse de manera específica con Google Spider u otro agente. Esto permitirá que los otros motores almacenen los datos, pero no Google.

Robots.txt

El archivo robots.txt Debe insertarse en la raíz del sitio y está compuesto por:

Agente de usuario: Rechazar:

En el campo User-agent tienes que poner el nombre de la araña. Con el símbolo * te refieres a todas las arañas.

En el campo Disallow: dirás lo que no quieres que la araña se retire. Por ejemplo, dígale a Google que no obtenga el archivo informarea.htm.

  • Usuario-agente: googlebot
  • No permitir: /informarea.htm

Ejemplo de registro:

Usuario-agente: googlebot

El registro antes mencionado le dice a Google («googlebot» es el nombre de la araña de Google) que no está permitido descargar el archivo text.html o acceder al directorio «poems» y su contenido, incluidos los subdirectorios. Observe cómo el nombre del archivo está precedido por un carácter «/» (que indica el directorio raíz del sitio) y cómo el nombre del directorio también usa un carácter «/» al final.

El campo Agente de usuario puede contener un asterisco «*», Sinónimo de «cualquier araña». Entonces, el siguiente ejemplo le dice a todas las arañas que no busquen el archivo temporal.html:

Agente de usuario: *

El campo Rechazar puede contener un carácter «/» para indicar «cualquier archivo y directorio». El siguiente ejemplo evita que un scooter (la araña de Altavista) recoja algo:

Agente de usuario: scooter

Por último, el campo No permitir se puede dejar en blanco, lo que indica que no hay archivos o directorios que desee evitar que se recojan. El siguiente ejemplo muestra cómo decirle a todos los motores de búsqueda que busquen todos los archivos del sitio:

Agente de usuario: *

Ejemplo de un archivo robots.txt

El archivo robots.txt se compone de uno o más registros, cada uno de los cuales examina diferentes arañas. Así que aquí hay un ejemplo completo de archivo robots.txt, que bloquea completamente Altavista, previene Google acceder a algunos archivos y directorios y dejar libre acceso a todos los demás motores de búsqueda.

Agente de usuario: scooter

Usuario-agente: googlebot

Agente de usuario: *

Aquí está la lista de algunas arañas.

Motor de búsqueda de araña

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar