annuaire emission archives émissions dossiers techniques
contact 100%net inscription de site services aux webmasters informations
Nouveauté   
  Site Index
Dossiers
wstit
 
 
  Se connecter
  Proposer un site
Publicité
  Logos / Presse
 
  Photothèque
  Nos Racines

 

Robots d'indexation


Comment un robot décide ce qu'il doit visiter ?

Cela dépend du robot, plusieures stratégies sont utilisées. En général ils commencent à partir d'une liste historique d'URLs, en particulier par des documents avec de nombreux liens externes, comme des listes de serveurs, les pages "what's new", et les emplacements les plus populaires sur le Web. La plupart des services d'indexation vous permettent également de soumettre des URLs manuellement, qui seront alors listées et visitées par le robot.
Parfois d'autres sources d'URLs sont employées, (USENET...)
A partir de ces points de départ un robot peut choisir les URLs à visiter et àindexer, les analyser pour les employer comme source de nouvelles URLs.

Comment un robot d'indexation décide ce qui doit être indexé ?

Quand un robot d'indexation a connaissance d'un document, il peut décider de l'analyser, et l'insère alors dans sa base de données : certains robots classent les titres du code HTML, ou les premiers paragraphes, ou analysent le code HTML entier et classent tous les mots, avec des pondérations selon des constructions HTML, etc... Certains analysent les META données, ou d'autres étiquettes spéciales cachées.
Ceci est évidemment en constante évolution et ne cesse de s'améliorer...

Comment faire pour que son site soit visité par un robot ?


Rien ! si ce n'est soumettre son site aux engins de recherche, et/ou être lié par des hyperliens à des sites déjà référencés.

Par exemple, Google : information pour Webmasters.

Norme d'exclusion des robots


Comment puis-je empêcher des robots de lire certains fichiers sur mon serveur ?


La manière la plus répandue est de créer un fichier robots.txt (à mettre dans le root de son serveur). Ce fichier contient la liste des dossiers ou fichiers a exclure de la recherche en fonction des robots.

Par exemple :

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /


User-agent: *
Disallow: /tmp
Disallow: /logs

Plus de détails.
Une autre méthode consiste à mettre une étiquette :

< META NAME="ROBOTS" CONTENT="NOINDEX" >

dans votre document HTML, ce document ne sera pas classé.
Si vous indiquez :

< META NAME="ROBOTS" CONTENT="NOFOLLOW" >

les liens de ce document ne seront pas analysés par le robot.

Où puis-je obtenir un robot ?

Oui ! vous pouvez utiliser un robot à vos propres fins, et pourquoi pas créer votre propre moteur de recherche!
Aujourd'hui, deux robots classants sont disponibles : Harvest (libre), et Verity's.

la liste des robots? : the robots page


The Web Robots Pages
 
  Annuaire
  Proposer un site
  Nous écrire
bracelet ambre
LE DRAGON JAUNE



      
Copyright 2003-2017- 100%net