Le temps d’exploration des moteurs de recherche : principaux facteurs
Je relaie un billet de Joel Oleson sur ce thème qui me tient à coeur : la recherche en entreprise.
Il indique quels sont les principaux facteurs influant sur le temps nécessaire à l’indexation :
- Le nombre de threads d’indexation/d’exploration,
- La taille des documents à indexer, leur type, ainsi que les Ifilters utilisés pour les parcourir,
- Le type de réseau ainsi que ses caractéristiques : bande passante, temps de latence, perte de paquets,
- Mémoire / Utilisation CPU / Utilisation de ou des interface(s) réseau sur le serveur de destination et sur les serveurs source,
- L’applicatif sur le serveur de destination (WSS 2.0, WSS 3.0 SPS 2003, MOSS 2007, dossiers partagés, Sites Web, etc…) et le type d’indexation (incrémental/full),
- Le Business Data Catalog utilise ses propres threads pour l’exploration de données structurées et peut donc être un facteur supplémentaire.
Quelques ordres de grandeur :
- De quelques dizaines à quelques centaines de Mo : à compter en minutes,
- De quelques dizaines à quelques centaines de Go : à compter en heures,
- De un à dix To : à compter en jours, potentiellement de l’ordre d’une semaine,
- De 10 à 100 To : à compter en semaines.
Il indique également qu’a été observée une moyenne de 20 documents indexés par seconde dans un contexte très favorable contre une moyenne de 5 par secondes dans de moins bonnes conditions. Bien sûr, la moyenne dépend de la source explorée.
Il cite également d’un document sur les performances de recherche et le « capactity planning » (dimensionnement d’architecture) actuellement à l’état de draft, mais qui sera probablement publié le mois prochain.
Références :
Plan to deploy index and query servers
Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :