La recherche documentaire
avec internet

(10/06/2002)

Thierry Hannedouche

 


Etape préliminaire :

* Situation dans laquelle la recherche documentaire se situe
* Document connu
  ex : "S; Lawrence, L. Giles, Accessibility and distribution of information on the web", Nature, 400, 1999"
* Documents inconnus mais environnement bien délimité :
  ex : l'ensemble du travail de l'Université Louis Pasteur sur la génétique moléculaire
* Univers de connaissance délimité :
  ex : Le génome humain
* Enjeu de la recherche documentaire
* temps consacré au travail et la recherche
* décisions en découlant
* position des documents recherchés dans la problématique
* Nature des documents recherchés - priorités
* Crédibilité
* Sensibilité ou Spécificité
* Exhaustivité, focalisation




Les outils disponibles:

* Interrogation d'individus
* identifiés par :
- notoriété - références d'autres articles, co-citations (site isinet : www.isinet.com/emea/french/)

* Interrogation d'experts
* Interrogation générales
* Newsgroups (par exemple fr.bio.medecine)
* Liste de diffusion
* Conférences privatives (par exemple le site inVivo : www.invivo.net/invivo/edu/)
* Corpus de documents
* Ordonnés : bases documentaires
* Libres : le web, "knowledgeware"


Le web

* Environ 1 millard de documents (20 To)
* 50% textuels
* Stagnation du nombre de documents statiques (ex : Une base de données de liens en anesthésie, réanimation et urgence :www.invivo.net/invivo/db/liens/index.php?cfg=bg
* Plus de 100 langues, 15 alphabets différents
* Hétérogénéité
* Duplications, variations mineures (+++)


Principes des "Moteurs de recherche"

Terme générique qui recouvre tous les procédés de recherche

* Annuaires
* Classement humain des sites
* Selon une définition et organisation préalables
* Exemples : Yahoo (www.yahoo.com/), Nomade (www.nomade.tiscali.fr/)
* Avantages : Simples, "pré-humanisés"
* Inconvénient : mauvaise tolérance ˆ la croissance avec perte de la structure logique au fil du temps
* Moteurs de recherche
* Indexation par robot selon un algorithme
* Altavista (www.altavista.com/), voila (www.voila.fr/)
* Avantages :
- recherche de documents spécifiques
- utilise l'analyse pré-requête

- qualité croissante avec le nombre de mots (2,4 en moyenne)

* Inconvénients :
- Faible couverture (30%)
- Politiques commerciales d'indexation en conflit avec le but du moteur de recherche
* Les méta-moteurs
- Réalisent des requêtes simultanées sur plusieurs moteurs et/ou annuaires

- Meilleure couverture

- Absence de synchronisation

- Duplicats nombreux
* Les algorithmes des moteurs de recherche
- mots-clés / thésaurus

- indexation syntaxique : très efficace mais forte dépendance linguistique
* Méthodes plates
- Méthodes linguistiques : analyse des groupes nominaux (reformulation thématique ou par groupe nominal)

- Méthodes de classement pragmatique (par exemple : www.northernlight.com)

- IA (construction automatique d'ontologies) : limitée par la taille du corpus
* Statistiques :
* qualité d'analyse liée à la taille du corpus
* base : analyse des requêtes et des liens
* PageRank ou analyse de co-citations (par exemple : www.google.com)
* Analyse des sites de liens
* CLEVER : "co-citation organisée" distinction du document principal et de ses liens pour information voir : www.almaden.ibm.com/cs/k53/clever.html
* HITS : les meilleurs documents sont ceux qui sont très appelés par des pages de liens (pas forcément cités)
* Facteurs de correction : méthodes de référencement, sites dynamiques


Les bases de données

Les documents sont présents au sein d'un même outil de stockage et de recherche.

* La structure de la base détermine ses propriétés
* Peu de place laissée à l'aléatoire
* Dichotomie dans le choix du document (qui est ou n'est pas dans la base)
* Possibilités d'indexation humaine systématique
* Dichotomie sémantique de l'indexation par mots clés :
* Arbitraire du choix des mots-clés
* Gravité de l'erreur
* Fermeture du document
* Les "Medline" : http://www.invivo.net/bg/
* PubMed : http://www.ncbi.nlm.nih.gov/PubMed/
* Nouveau PubMed = (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed)
* Outils PubMed
* Le MeSH (www.ncbi.nlm.nih.gov:80/entrez/meshbrowser.cgi)
* Les journaux par titres (www.ncbi.nlm.nih.gov:80/entrez/jrbrowser.cgi)
* Citation matcher (http://www.ncbi.nlm.nih.gov:80/entrez/getids.cgi)
* Obtenir un article (loansome)
* Les "clinical queries" : recherches orientées vers la clinique (www.ncbi.nlm.nih.gov:80/entrez/query/static/clinical.html)
* Les booléens (www.ncbi.nlm.nih.gov/PubMed/boolean.html)

 

 l  contact l