Archive des chroniques "Cybernotes de Bertrand Salvas", telles que publiées dans le magazine "Entracte"
de la Chambre des notaires du Québec et autres contributions en droit des technologies de l'information.

Novembre 2000 >>> Les recherches complexes sur le Web

Chose promise, chose due: ce mois-ci je vous dirai quelques mots sur les recherches complexes sur Internet. Je ne crois en effet pas que l’on puisse prétendre tirer profit au maximum des possibilités du Web sans utiliser quelques fonctions de recherche avancée. Il y a maintenant beaucoup trop de sites et de pages Web  pour se contenter de lancer des recherches ne comportant qu’un seul mot. Le  nombre de sites retrouvé sera en effet trop important pour que le résultat soit  vraiment utilisable. Il vous faudra bien choisir votre site de recherche,  suivre quelques conseils simples dans la construction de vos requêtes, et  limiter le nombre de références retrouvées par le moteur de recherche. Notez en  passant que j’utilise habituellement pour ce faire la section « advanced  search » sur AltaVista[i],   mais que plusieurs moteurs de recherches disponibles sur le Web vous offrent  des fonctions équivalentes. Il suffit de vérifier.

Encore faut-il  distinguer entre les différents sites de recherche sur le Web, car tous ne  fonctionnent pas de la même façon. On retrouve principalement deux types de  sites de recherche, soit ceux que l'on qualifie de répertoires, de services  d'annuaires ("directory services") ou parfois de "portails"  (quoi que ce terme réfère à une plus large réalité) et les véritables moteurs  de recherche, aussi nommés parfois "robots" ou "araignées"  ("spiders"). La première catégorie regroupe des sites comme ceux de  la grande famille "Yahoo"[ii],  la Toile du Québec[iii]  ou Francité[iv],  alors que la deuxième regroupe des grands noms comme AltaVista, WebCrawler[v], HotBot[vi] ou Google[vii]. La  distinction découle de la façon dont un site obtient l'information qu'il  utilise pour répondre aux questions de ses visiteurs.

Les services  d'annuaires sont fondamentalement un lieu où on peut retrouver les références à  des sites spécialisés, classés par catégories. Je vous parlais le mois dernier  de l'importance de bien "indexer" votre site pour le faire connaître.  Cette opération se fera en l'inscrivant sur de tels services d'annuaire, dans  une ou plusieurs catégories appropriées. On peut voir ce type de site comme  l'équivalent virtuel des bottins de pages jaunes. Vos recherches pourront donc  être bien ciblées. Mais vous devrez garder à l'esprit que de tels services  n'offrent pas, sauf exception, de recherche exhaustive du Web. Autrement dit,  si le propriétaire d'un site ne l'y a pas inscrit, vous ne le trouverez pas  nécessairement dans ce type de répertoire.

Un véritable  moteur de recherche c'est autre chose. Plutôt que d'attendre passivement que  les sites Web lui fournissent leurs coordonnées, les moteurs de recherche  recueillent et accumulent activement de l'information sur tout ce qui grouille  ou grenouille sur le Web. Leurs ordinateurs parcourent systématiquement tous  les sites se trouvant sur Internet pour recueillir des informations et les  indexer dans leurs banques de données où elles attendent patiemment d'être  cueillies. C'est de cette activité fébrile et incessante que découlent les termes "robots" ou "araignée". Ces bestioles virtuelles  recueilleront cependant des informations différentes, et à des intervalles  variables, selon les critères établis par leurs dresseurs. Les résultats seront  donc forcément différents d'un moteur à l'autre. Pour en faire l'essai, entrez  mon nom sur différents moteurs. Vous serez surpris (mais pas autant que je l'ai  été) de constater qu'AltaVista me trouve sept fois, Excite deux  fois, HotBot cinq, InfoSeek (go.com) une fois, Lycos  vingt-deux fois, Google dix-neuf fois (en 0.2 secondes d'ailleurs...) et  Deja aucune. Pourquoi? Tout simplement parce que certains moteurs ne  retiennent que les informations retrouvées dans certaines parties des pages  (comme le titre par exemple) alors que d'autres conservent leur texte en entier.  Certains seront nécessairement plus exhaustifs que d'autres. Et si on tente le  même test sur un répertoire? Yahoo, comme la Toile du Québec, ne trouvent  aucun site contenant mon nom. Normal, je ne m'y suis pas inscrit. Vous voyez la  différence? Pour compléter le portrait, sachez qu'il existe aussi des sites où  il est possible de chercher sur plus d'un moteur à la fois, ce qui est très  pratique pour les boulimiques d'information comme moi. Voyez par exemple le  site de "Use-it"[viii].

J'ai tenté de  vous démontrer qu'il y a plus d'une façon de trouver de l'information sur le  Web. Vous aurez aussi vu que si votre moteur préféré ne trouve pas ce que vous  cherchez, ce n'est pas nécessairement parce que l'information n'existe pas. Il  se peut qu'il ne l'ait tout simplement pas trouvé.... Essayez quelques  moteurs de recherche, et vous verrez à l'usage lequel correspond le plus à vos  attentes et à vos préférences. Personnellement, j'aime beaucoup utiliser le  classique AltaVista ou le très rapide Google pour mes recherches  simples, et avec le service de recherche avancée d'AltaVista pour mes  recherches complexes. Il est cependant bon de garder à l'esprit qu'il peut être  utile de chercher à plusieurs endroits pour arriver au résultat escompté.

Je pressens  cependant une question: qu'est-ce qu'une recherche complexe? Tout simplement  celle qui vous permet d'utiliser plus d'un mot à la fois, reliés par des  opérateurs logiques pour formuler des questions sous forme d'équations. C'est  ce qu'on appelle des "expressions booléennes". (souvenez-vous de ce  mot pour une prochaine partie de Scrabble!) Vous pourrez programmer l’engin de  recherche pour ajouter ou retirer des mots de la question que vous lui poserez,  ce qui vous permettra de préciser vos critères. Voici quelques exemples  concrets.

Le mode le plus  courant, et souvent le plus efficace, est de relier plusieurs mots pour former  une expression. Supposons que vous vouliez obtenir des renseignements sur la  loi sur la protection du consommateur. Une recherche par un seul mot de cette  phrase, soit « loi » (plus de 600,000 retours) ou  « consommateur » (plus de 45000) s'avérera beaucoup trop large. Le  simple fait de relier tous les mots de la locution en plaçant un signe  d’addition (+) entre chaque mot que vous voulez relier ou en les plaçant entre  guillemets ou entre parenthèses ramènera le résultat à une échelle plus  humaine, soit 403 retours.

Il faut noter  aussi que vos recherches ne se font que dans une langue à la foi. Poser une  question en français signifie que les pages trouvées seront dans cette langue.[ix] Vous pourriez donc avoir à  mener deux recherches si vous voulez aussi trouver des pages en Anglais. Mais à  l'inverse, cette situation peut aussi vous aider à diriger vos recherches vers  des sites de langue française ou anglaise.

Il n'en demeure  pas moins que vérifier 403 sites reste une tâche majeure. Surtout avec un modem  téléphonique... Vous serez alors sûrement très content de pouvoir encore  limiter votre recherche.[x]   Une façon de procéder serait de réussir à ne retenir parmi les 403 sites de  tout à l'heure , que ceux qui contiennent le mot "québec". Vous  pourrez alors retrouver les sites qui contiennent le titre de votre loi fétiche  et qui traitent de la juridiction qui vous intéresse. Votre requête se lira  alors comme suit : (loi sur la protection du consommateur) AND québec.  Vous remarquez qu'il ne vous reste que 205 sites à vérifier. Vous venez de  récupérer un après-midi de travail, une soirée en famille, ou une nuit de sommeil...

Vous pourriez  restreindre encore un peu plus votre recherche, et récupérer un autre bout de  votre vie sociale en exigeant la présence d'autres expressions. Vous pouvez en  effet ajouter à l’infini des critères de recherche additionnels en utilisant  l’opérateur « AND ». Mais afin de faire le tour du jardin, et de  justifier au passage mes honoraires de rédacteur, voyons cette fois-ci comment exclure  des sites qui contiennent un terme particulier en utilisant l’opérateur AND   NOT. Excluons alors du compte les sites qui contiennent le mot « automobile »,  afin de retirer ceux qui traitent de ce domaine commercial. Votre requête se  lira dans ce cas comme suit : (loi sur la protection du consommateur)  AND québec AND NOT automobile. Miracle! Le compte de sites  baisse à 172.

Finalement,  comme il y a plusieurs façons de désigner une même chose et que, par ailleurs,  l'erreur est humaine, l'opérateur booléen NEAR est aussi très utile. Inséré  entre deux mots, il vous permettra de retrouver deux mots à l’intérieur de tout  groupe d’au plus 10 mots. Vous pourrez souvent débusquer par ce moyen des sites  traitant d'un sujet qui vous intéresse, mais qui le nomment différemment. Par  exemple, si l’auteur de la page utilise les expressions « loi protégeant  le consommateur », « loi de protection du consommateur », ou  encore s’il a tout bêtement fait une faute de frappe dans le nom exact de la  loi, utiliser ce titre précis comme critère de recherche fera en sorte  d'exclure un tel site de la liste des résultats. L’opérateur NEAR aura plus de  chance de le ramener dans son filet. L'éventail initial sera bien entendu plus  large. Voyons un peu: (loi NEAR consommateur) AND québec AND NOT  automobile nous donne 307 sites.

Vous aurez  rapidement compris qu'il faut apprendre à utiliser ces fonctions avec  précision, car le risque de passer à côté de sites d'intérêt en précisant trop  vos critères est très réel. Il est par ailleurs très pratique d'apprendre à  maîtriser les expressions booléennes car ils sont acceptés, avec quelques  variations, sur plusieurs moteurs de recherche ainsi que sur plusieurs sites  maison[xi].  Vous n'avez qu'à consulter les fichier d'aide des sites en questions pour  savoir si tel est le cas.

Je crois avoir  couvert l'essentiel du sujet sans trop vous endormir. Du moins je l'espère!  Comme dirait un de mes amis: "questions? suggestions? insultes?" Je  vous rappelle mon adresse courriel: bertrand@cybernotes.info. À la prochaine !


[i] www.altavista.com

[ii] www.yahoo.com, .ca, .fr ...

[iii] http://www.toile.qc.ca/

[iv] http://www.francite.com/

[v] http://www.webcrawler.com/

[vi] www.hotbot.com

[vii] www.google.com, un de mes préférés

[viii] http://www.he.net/~kamus/useen.htm

[ix] Plusieurs sites de recherche vous offrent d'ailleurs un choix de langue.

[x] Nous utiliserons la page de recherche avancée d‘AltaVista.

[xi] par exemple Microsoft ou CanLII

Aucun commentaire:

Publier un commentaire