Un fichier robots.txt stocké à la racine de votre site Web indique aux robots Web, tels que les robots de recherche les moteurs de recherche, quels répertoires et fichiers ils sont autorisés à analyser. Il est facile d’utiliser un fichier robots.txt, mais vous devez vous rappeler certaines choses:
- Les robots Web Blackhat ignoreront votre fichier robots.txt. Les types les plus courants sont les robots malveillants et les robots recherchant des adresses électroniques à exploiter.
- Certains nouveaux programmeurs écriront des robots qui ignorent le fichier robots.txt. Cela se fait généralement par erreur.
- Tout le monde peut voir votre fichier robots.txt. Ils s'appellent toujours robots.txt et sont toujours stockés à la racine du site.
- Enfin, si quelqu'un crée un lien vers un fichier ou un répertoire exclu par votre fichier robots.txt à partir d'une page qui n'est pas exclue par son fichier robots.txt, les moteurs de recherche peuvent néanmoins le trouver.
N’utilisez pas de fichiers robots.txt pour cacher quelque chose d’important. Au lieu de cela, vous devriez placer des informations importantes derrière des mots de passe sécurisés ou les laisser complètement hors du Web.
Comment utiliser ces exemples de fichiers
Copiez le texte de l'exemple le plus proche de ce que vous voulez faire et collez-le dans votre fichier robots.txt. Modifiez les noms de robot, de répertoire et de fichier pour qu'ils correspondent à votre configuration préférée.
Deux fichiers Robots.txt de base
Agent utilisateur: *Interdit: / Ce fichier dit que n’importe quel robot ( Agent utilisateur: *) qui y accède doit ignorer toutes les pages du site ( Interdit: /). Agent utilisateur: *Refuser: Ce fichier dit que n’importe quel robot ( Agent utilisateur: *) qui y accède est autorisé à voir toutes les pages du site ( Refuser:). Pour ce faire, vous pouvez également laisser votre fichier robots.txt vide ou ne pas en avoir du tout sur votre site. Agent utilisateur: *Interdit: / cgi-bin /Interdit: / temp / Ce fichier dit que n’importe quel robot ( Agent utilisateur: *) qui y accède doit ignorer les répertoires / cgi-bin / et / temp / ( Interdit: / cgi-bin / Interdit: / temp /). Agent utilisateur: *Interdit: /jenns-stuff.htmInterdit: /private.php Ce fichier dit que n’importe quel robot ( Agent utilisateur: *) qui y accède doit ignorer les fichiers /jenns-stuff.htm et /private.php ( Interdit: /jenns-stuff.htm Interdit: /private.php). Agent utilisateur: Lycos / x.xInterdit: / Ce fichier indique que le bot Lycos ( Agent utilisateur: Lycos / x.x) n’est autorisé à accéder à aucun endroit du site ( Agent utilisateur: *Interdit: /Agent utilisateur: GooglebotRefuser: Ce fichier refuse tout d'abord tous les robots comme nous l'avons fait ci-dessus, puis laisse explicitement Googlebot ( Agent utilisateur: Googlebot) avoir accès à tout ( Bien qu’il soit préférable d’utiliser une ligne User-agent très inclusive, comme User-agent: *, vous pouvez être aussi spécifique que vous le souhaitez. N'oubliez pas que les robots lisent le fichier dans l'ordre. Ainsi, si les premières lignes indiquent que tous les robots sont bloqués, puis que plus tard dans le fichier, tous les robots sont autorisés à accéder à tout, ils auront accès à tout. Si vous n'êtes pas sûr d'avoir écrit votre fichier robots.txt correctement, vous pouvez utiliser les outils pour les webmasters de Google pour vérifier votre fichier robots.txt ou en créer un nouveau. Protéger des répertoires spécifiques des robots
Protégez des pages spécifiques des robots
Empêcher un robot spécifique d'accéder à votre site
Autoriser un seul accès robotique spécifique
Combinez plusieurs lignes pour obtenir exactement les exclusions souhaitées