dictionnaire
vision programme de recherche
ieml.org > articles > programme de recherche

UN PROGRAMME DE RECHERCHE POUR L’ÉCONOMIE DE L’INFORMATION

Prof. Pierre Lévy, CRC, MSRC, Université d’Ottawa

Les agents de l’économie de l’information sont des communautés de chercheurs qui alimentent et exploitent ce bien commun qu’est la mémoire numérique. Un des principaux problème des communautés de chercheurs est de disposer d’outils logico-symboliques leur permettant d’extraire le maximum d’information de la mémoire. Mon hypothèse est qu’un système d’adressage sémantique des concepts - conçu pour se prêter au traitement automatique plus facilement que les langues naturelles - ferait franchir un seuil décisif à la puissance des outils de recherche d’information. Pour traduire la diversité des significations exprimables en langues naturelles, ce système doit pouvoir adresser un espace conceptuel varié à l’infini. Pour satisfaire les plus exigeantes des communautés de chercheurs dans les sciences de l’homme et de la société, il doit autoriser le test de théories complexes sur la signification des documents, selon des méthodes reproductibles et avec des instruments de mesure mathématiques. L’hypothèse selon laquelle un système d’adressage universel des concepts répondant à ces contraintes multiplierait la puissance des outils de recherche d’information aujourd’hui disponibles peut être testée sur le métalangage de l’économie de l’information (IEML) décrit dans cet article et sur le site www.ieml.org. Le programme de recherche que je propose s’articule en deux volets :
- premièrement, entreprendre la construction coopérative d’un moteur de recherche sémantique à sources ouvertes basé sur IEML ;
- deuxièmement, initier, au moyen de ce nouvel instrument d’observation, une exploration coordonnée de la mémoire numérique au service des sciences de l’homme et de la société.

article publié dans la revue scientifique ISDM

Introduction

Opacité de la mémoire numérique

Depuis l’apparition du Web au début des années 1990, les fondations techniques d’une économie globale de l’information ouverte et dynamique ont été posées. La mémoire numérique désormais accessible en ligne constitue le capital - ou le bien commun - de l’économie de l’information. Ce bien commun est alimenté par la création de documents numériques et il est exploité par des opérations de recherche : indexation des documents, formulation de requêtes et extraction d’information. Or l’exploitation optimale du nouveau bien commun au bénéfice des communautés de chercheurs se heurte à d’importants obstacles dont les principaux sont :
- la fragmentation linguistique,
- l’incompatibilité mutuelle et l’inadaptation des nombreux systèmes d’indexation et de catalogage hérités de l’ère de l’imprimerie,
- les difficultés rencontrées par l’ingénierie informatique à prendre en compte la signification des documents au moyen de méthode générales,
- l’absence de transparence des méthodes employées par les moteurs de recherche commerciaux contemporains. Deux grands programmes de recherche, le Web 2 et le Web sémantique, tentent de répondre aujourd’hui, chacun à leur manière, au problème de l’opacité de la mémoire numérique.

Le Web 2

Le projet du Web 2 est porté par une nébuleuse informelle de communautés qui s’activent principalement à multiplier les outils collaboratifs, bien souvent dans un cadre open source et P2P. Le Web 2 a tendance à considérer le Web comme une sorte de système d’exploitation pour des applications collaboratives en ligne. Cela se marque notamment par l’usage croissant des wikis, par la multiplication des processus de partage d’information tels qu’on peut notamment les expérimenter sur del.icio.us (partage de signets) et flickr.com (partage de photos) et par le succès des logiciels sociaux et des services tendant à accroître le capital social de leurs usagers (myplace.com est à cet égard emblématique). Le succès mérité de Wikipedia, la vogue des modes de communication P2P, la montée continue des systèmes d’exploitation et des logiciels à sources ouvertes, la pression pour desserrer les freins que pose la propriété intellectuelle classique sur l’économie de l’information numérique peuvent également être considérés comme des tendances liées au Web 2. Tout cela manifeste une exploration sociale des diverses formes d’intelligence collective rendues possibles par le Web et représente donc une évolution très positive. Mais, en fin de compte, il s’agit d’une exploitation par et pour le plus grand nombre de potentialités qui étaient techniquement et philosophiquement déjà présentes dès l’apparition du Web au début des années 90. Je vois dans le Web 2 une maturation culturelle et sociale du Web (qui a été conçu dès l’origine par Tim Berners Lee pour favoriser les processus collaboratifs) plutôt qu’un saut épistémologique majeur.

Le Web sémantique

Quant au Web sémantique, contrairement à ce que laisse supposer son nom, il propose essentiellement des normes de codage logique des informations. Rejoignant certaines tendances du Web 2, l’ambition du Web sémantique est de constituer une sorte de système d’exploitation des données du Web au service des moteurs de recherche et des « agents intelligents ». Les principaux outils symboliques de cette nouvelle couche du cyberespace sont :
- XML (eXtended Mark-up Language), dérivé du langage SGML de Charles Goldfarb, qui permet de décrire de manière universelle la structure des données ;
- RDF (Ressource Description Framework) qui permet de cataloguer les données du Web et le langage Sparkl qui permet d’interroger les ressources ainsi cataloguées ;
- OWL (Ontology Web Language), qui permet de décrire les « ontologies » c’est-à-dire la structure conceptuelle des divers domaines de connaissances. Cet appareillage de descripteurs et de marqueurs a pour principale fonction de favoriser l’automatisation des traitements dans la recherche des données et l’exécution des opérations confiées aux agents intelligents ou robots logiciels.

Le programme open search

Les deux orientations intellectuelles qui viennent d’être évoquées proposent des solutions certes utiles, mais partielles, aux difficultés de fond mentionnées plus haut. Le Web 2 définit plutôt un certain esprit, une orientation vers la croissance de l’intelligence collective. Le Web sémantique, pour sa part, se spécialise dans la définition consensuelle de normes favorisant l’interopérabilité en ligne. Je propose ici un troisième programme de recherche au service de l’économie de l’information. Ce programme, baptisé open search, que je développe depuis 2002 au laboratoire d’intelligence collective de l’Université d’Ottawa, n’est nullement opposé, mais plutôt complémentaire à ceux du Web 2 et du Web sémantique. En effet, la réalisation d’un moteur de recherche ouvert capable de dissiper l’opacité sémantique ne peut que bénéficier aux outils collaboratifs - du côté du Web 2 - et aux normes d’inférences automatiques et de services informationnels - du côté du Web sémantique. Le programme de recherche open search veut surmonter les problèmes auxquels est confronté l’économie de l’information en s’attaquant à leur cause : l’absence d’un système d’adressage sémantique universel (indépendant des langues et des cultures) capable d’optimiser la puissance et la portée de la recherche automatisée d’information. On peut supposer, en effet, qu’un tel système d’adressage, s’il était utilisé, résoudrait une grande partie des problèmes liés - je le répète - (1) à la fragmentation linguistique, (2) à l’incompatibilité des multiples systèmes d’indexation, (3) à leur inadéquation au traitement automatique à grande échelle, (4) à l’absence d’une approche systématique de la signification par l’ingénierie informatique contemporaine et (5) à l’opacité des méthodes et algorithmes utilisés par les moteurs de recherche commerciaux. Une première version du système d’adressage sémantique dont a besoin l’économie d’information pour franchir un seuil décisif existe déjà : c’est IEML (pour Information Economy Meta Language). On en trouvera le noyau lexical et syntaxique sur le site www.ieml.org. Ce métalangage, développé au laboratoire d’intelligence collective de l’Université d’Ottawa , n’a pas vocation à devenir une langue parlée ou écrite d’usage courant au même titre que les langues naturelles comme le français, l’anglais ou le mandarin : ses fonctions sont d’indexer - ou d’adresser - les documents numériques rédigés en langue naturelle et de représenter des connaissances complexes à des fins de traitement automatique. IEML (ou n’importe quel autre métalangage ayant les mêmes caractéristiques) peut jouer ce rôle de système d’adressage sémantique et permettre ainsi à l’économie de l’information de franchir les obstacles mentionnés plus haut parce qu’il réunit deux propriétés généralement séparées :
- d’un côté, il est capable de traduire de manière distincte l’ensemble ouvert des concepts explicitables dans des langues naturelles ;
- d’un autre côté, contrairement aux langues naturelles, il peut être traité de manière optimale par les ordinateurs : c’est un système mathématique permettant des calculs puissants (mesures de distances sémantique, rangement sur critères sémantiques, inférences automatiques).

JPG - 75.2 ko

Plan de l’article

Avant d’expliquer la solution que je propose au problème de l’économie de l’information, il est nécessaire d’en poser les termes le plus clairement possible. C’est pourquoi le premier chapitre définit les concepts principaux et les grandes fonctions de cette économie. Le second chapitre analyse les difficultés rencontrées aujourd’hui par la recherche d’information dans la mémoire numérique en ligne et esquisse les plans d’un moteur de recherche sémantique ouvert capable de résoudre ces difficultés. Comme le moteur de recherche sémantique ne peut fonctionner qu’au moyen d’un système d’adressage sémantique universel, le troisième chapitre décrit la structure syntaxico-sémantique du métalangage de l’économie de l’information. Ce chapitre explique comment IEML est capable d’adresser la signification des documents de façon mathématique tout en permettant la plus grande liberté et une variété virtuellement infinie dans l’expression des nuances sémantiques. Le quatrième chapitre, le plus long, analyse les possibilités de recherche scientifique dans la mémoire numérique offertes par le moteur de recherche sémantique. Ce quatrième chapitre est centré sur la description des graphes conceptuels IEML, qui peuvent exprimer aussi bien les données que les hypothèses au sujet des données.L’article se conclut par une discussion des thèmes du cerveau global et de la conscience réflexive de l’intelligence collective ainsi que par l’évocation de nouvelles perspectives de développement pour l’informatique et les sciences de l’homme.

téléchargez le texte complet

Programme IE