Bienvenue à Blogs CodeS-SourceS Identification | Inscription | Aide

Blog Technique de Romelard Fabrice

Les dernières Actualités de Romelard Fabrice (Alias fabrice69 ou F___) principalement autour des technologies Microsoft

Actualités

  • Toutes les actualités et informations sur les technologies Microsoft principalement autour de .NET et SQL Server

Archives

SharePoint : Utiliser SharePoint Search pour de la veille concurentielle

Lorsque l'on met en place une solution de recherche globale, il convient de réfléchir sur des utilisations business.

En effet, dans toutes les entreprises, il existe une concurrence bien définie (liste fournie en général par le département des ventes ou de la communication). Et cette concurrence doit être surveillée, c’est ce que l’on appelle classiquement l’Intelligence économique, ou dans la version extreme l’espionnage industriel.

Le moteur de recherche de MOSS est un moteur d’indexation capable de crawler des sources diverses dont les sites web classiques.

De ce fait, on peut très bien ajouter la liste des sites publics de ses concurrents dans les sources à indexer (de préférence, une source par concurrent), puis créer un scope “Concurrence” ainsi qu’un jeu de pages de recherche et de résultat.

Je vous renvoie vers l’article sur les Scopes pour cela :

Quelques petits détails tout de même sont à fignoler :

Site avec des pages par langues (utilisation des régional Settings pour le transfert)

Le moteur d’indexation ne recoit pas le routage effectué après le test du navigateur et de ce fait ne peut pas indexer le contenu du site. Il faut donc aller manuellement sur le site et ajouter pour la source de recherche du concurrent les urls du type :

Vous relancer l’indexation ensuite et tout fonctionne parfaitement

Site avec la balise meta NOINDEX (interdisant l’indexation par les moteurs de recherche)

On remarque cela en regardant les logs du crawler, on trouve le message :

http://www.xxxxxxxx.com
Content for this URL is excluded by the server because a no-index attribute.

Ce cas peut être rencontré (même si aujourd’hui cela paraît totalement idiot pour un site public), et convient donc d’adapter suivant le contexte.

  • Il faut dans un premier temps tester l’existance du fichier “robots.txt” afin de comprendre les interdictions ou authorisations attribués aux moteurs de recherche.
  • Si ce fichier n’existe pas mais que vous trouvez dans la source de la page d’accueil cette balise :

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

De ce fait, cette page ne peut pas être indexée par votre moteur. En revanche, vous pouvez regarder si une autre page que celle d’accueil contient aussi cette balise (About.html par exemple). Très souvent ce n’est pas le cas.

Vous modifiez alors l’URL dans la source de votre Crawl et relancez celui-ci. Il ira alors parcourir tous les liens disponible depuis ce point de départ.

Site basés sur des URL complexes

Certains sites WEB sont intégralement construits dynamiquement, avec des URL comme :

Par défaut, Le Search de SharePoint ne supporte pas ce type d’URL et ignore les constructions dynamiques de ce type. On trouve alors le message du type

http://www.xxxxxxx.com?ob=15
The specified address was excluded from the index. The crawl rules may have to be modified to include this address.

Pour faire accepter ceci par le Crawler, il convient d’ajouter une règle dans le moteur de recherche : Crawl Rules

Cliquer sur “New Crawl Rule”, on définit l’URL (http://www.xxxx.com/*), On Sélectionne “Include all items in this path” et on coche “Crawl complex URLs (URLs that contain a question mark (?))

image

On valide par OK et relance l’indexation.

Il existe certainement d’autres cas que je vous fournirai au fur et à mesure.

Romelard Fabrice [MVP]

Ce post vous a plu ? Ajoutez le dans vos favoris pour ne pas perdre de temps à le retrouver le jour où vous en aurez besoin :
Posted: vendredi 12 décembre 2008 13:00 par ROMELARD Fabrice
Classé sous : ,

Commentaires

Gribouillon a dit :

Post très interessant. Cas d'utilisation atypique mais dont le besoin est très certainement réel. Côté technique, ça donne aussi l'occasion de s'interesser à des options qu'on ne retourne pas souvent. Merci !

# décembre 12, 2008 16:04
Les commentaires anonymes sont désactivés

Les 10 derniers blogs postés

- Merci par Blog de Jérémy Jeanson le 10-01-2019, 20:47

- Office 365: Script PowerShell pour auditer l’usage des Office Groups de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 11:02

- Office 365: Script PowerShell pour auditer l’usage de Microsoft Teams de votre tenant par Blog Technique de Romelard Fabrice le 04-26-2019, 10:39

- Office 365: Script PowerShell pour auditer l’usage de OneDrive for Business de votre tenant par Blog Technique de Romelard Fabrice le 04-25-2019, 15:13

- Office 365: Script PowerShell pour auditer l’usage de SharePoint Online de votre tenant par Blog Technique de Romelard Fabrice le 02-27-2019, 13:39

- Office 365: Script PowerShell pour auditer l’usage d’Exchange Online de votre tenant par Blog Technique de Romelard Fabrice le 02-25-2019, 15:07

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Stream Portal par Blog Technique de Romelard Fabrice le 02-21-2019, 17:56

- Office 365: Script PowerShell pour auditer le contenu de son Office 365 Video Portal par Blog Technique de Romelard Fabrice le 02-18-2019, 18:56

- Office 365: Script PowerShell pour extraire les Audit Log basés sur des filtres fournis par Blog Technique de Romelard Fabrice le 01-28-2019, 16:13

- SharePoint Online: Script PowerShell pour désactiver l’Option IRM des sites SPO non autorisés par Blog Technique de Romelard Fabrice le 12-14-2018, 13:01