|
|
Robots d'indexation
Comment un robot décide ce qu'il doit visiter ?
Cela dépend
du robot, plusieures stratégies sont utilisées. En général
ils commencent à partir d'une liste historique d'URLs, en particulier par
des documents avec de nombreux liens externes, comme des listes de serveurs, les
pages "what's new", et les emplacements les plus populaires sur le Web. La plupart
des services d'indexation vous permettent également de soumettre des URLs
manuellement, qui seront alors listées et visitées par le robot.
Parfois d'autres sources d'URLs sont employées, (USENET...)
A partir de ces points de départ un robot peut choisir les URLs à
visiter et àindexer, les analyser pour les employer comme source de nouvelles
URLs.
Comment un robot d'indexation décide ce qui doit être indexé
?
Quand un robot d'indexation a connaissance d'un document, il peut décider
de l'analyser, et l'insère alors dans sa base de données : certains
robots classent les titres du code HTML, ou les premiers paragraphes, ou analysent
le code HTML entier et classent tous les mots, avec des pondérations selon
des constructions HTML, etc... Certains analysent les META données, ou
d'autres étiquettes spéciales cachées.
Ceci est évidemment en constante évolution et ne cesse de s'améliorer...
Comment faire
pour que son site soit visité par un robot ?
Rien ! si ce n'est
soumettre son site aux engins de recherche, et/ou être lié par
des hyperliens à des sites déjà référencés.
Par exemple, Google
: information pour Webmasters.
Norme d'exclusion
des robots
Comment puis-je
empêcher des robots de lire certains fichiers sur mon serveur ?
La manière
la plus répandue est de créer un fichier robots.txt (à
mettre dans le root de son serveur). Ce fichier contient la liste des dossiers
ou fichiers a exclure de la recherche en fonction des robots.
Par exemple :
User-agent: webcrawler Disallow:
User-agent:
lycra
Disallow: /
User-agent:
*
Disallow: /tmp
Disallow: /logs
Plus
de détails.
Une autre méthode
consiste à mettre une étiquette :
< META NAME="ROBOTS" CONTENT="NOINDEX" >
dans votre document HTML, ce document ne sera pas classé.
Si vous indiquez :
< META NAME="ROBOTS"
CONTENT="NOFOLLOW" >
les liens de ce document
ne seront pas analysés par le robot.
Où puis-je obtenir un robot ?
Oui ! vous pouvez
utiliser un robot à vos propres fins, et pourquoi pas créer votre propre
moteur de recherche!
Aujourd'hui, deux robots classants sont disponibles : Harvest (libre), et
Verity's.
la liste des robots? : the
robots page
The
Web Robots Pages
|
|
|