Internet News & Ressources for Webmasters 100% net

Nouveauté


	Site Index Dossiers


	Se connecter
	Proposer un site
	Publicité

	Logos / Presse

Photothèque

Nos Racines

Robots d'indexation

Comment un robot décide ce qu'il doit visiter ?

Cela dépend du robot, plusieures stratégies sont utilisées. En général ils commencent à partir d'une liste historique d'URLs, en particulier par des documents avec de nombreux liens externes, comme des listes de serveurs, les pages "what's new", et les emplacements les plus populaires sur le Web. La plupart des services d'indexation vous permettent également de soumettre des URLs manuellement, qui seront alors listées et visitées par le robot.
Parfois d'autres sources d'URLs sont employées, (USENET...)
A partir de ces points de départ un robot peut choisir les URLs à visiter et àindexer, les analyser pour les employer comme source de nouvelles URLs.

Comment un robot d'indexation décide ce qui doit être indexé ?

Quand un robot d'indexation a connaissance d'un document, il peut décider de l'analyser, et l'insère alors dans sa base de données : certains robots classent les titres du code HTML, ou les premiers paragraphes, ou analysent le code HTML entier et classent tous les mots, avec des pondérations selon des constructions HTML, etc... Certains analysent les META données, ou d'autres étiquettes spéciales cachées.
Ceci est évidemment en constante évolution et ne cesse de s'améliorer...

Comment faire pour que son site soit visité par un robot ?

Rien ! si ce n'est soumettre son site aux engins de recherche, et/ou être lié par des hyperliens à des sites déjà référencés.

Par exemple, Google : information pour Webmasters.

Norme d'exclusion des robots

Comment puis-je empêcher des robots de lire certains fichiers sur mon serveur ?

La manière la plus répandue est de créer un fichier robots.txt (à mettre dans le root de son serveur). Ce fichier contient la liste des dossiers ou fichiers a exclure de la recherche en fonction des robots.

Par exemple :

User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs
Plus de détails.

Une autre méthode consiste à mettre une étiquette :

< META NAME="ROBOTS" CONTENT="NOINDEX" >

dans votre document HTML, ce document ne sera pas classé.
Si vous indiquez :

< META NAME="ROBOTS" CONTENT="NOFOLLOW" >

les liens de ce document ne seront pas analysés par le robot.

Où puis-je obtenir un robot ?

Oui ! vous pouvez utiliser un robot à vos propres fins, et pourquoi pas créer votre propre moteur de recherche!
Aujourd'hui, deux robots classants sont disponibles : Harvest (libre), et Verity's.

la liste des robots? : the robots page

The Web Robots Pages


	Annuaire
	Proposer un site
	Nous écrire

bracelet ambre

LE DRAGON JAUNE