Le langage / Intelligence et artifices |
GRISABLUES
1. Une échappée belle Il y a vingt-cinq ans, très précisément le 1er octobre 1959, une équipe plurinationale et pluridisciplinaire prenait ses fonctions à Bruxelles, siège d'EURATOM (qui devait plus tard fusionner avec la CECA et le Marché Commun pour donner naissance à la CEE). Nous avions adopté le sigle "GRISA" (Groupe de Recherches sur l'Information Scientifique Automatique). Dans l'esprit de Jules Guéron, directeur de la Recherche, et d'Etienne Hirsch, président d'EURATOM, il s'agissait de faire progresser rapidement les techniques de manipulation et d'analyse de textes scientifiques, technologiques et administratifs multilingues, dont on pouvait prévoir que les services de la communauté seraient vite submergés. Ici comme ailleurs, le Commissariat à l'Energie Atomique fournissait le noyau initial de l'équipe : André Leroy venait du service de la documentation, Jean Larisse était mathématicien à Saclay, j'avais moi-même travaillé successivement à la Documentation et au Département d'électronique d'où venait également Philippe Gutmann. Dès le début de notre entreprise, nous étions convaincus de la nécessité de ne négliger aucune direction de recherches. En particulier, nous refusions de séparer "Documentation Automatique" et "Traduction Automatique", nous voulions participer aux développements en "Démonstration Automatique" et en "simulation des jeux" : en bref, le domaine que nous visions était celui de l'Intelligence Artificielle (le baptême venait d'être donné par Marvin Minsky). Nous étions déjà en relation avec Silvio Ceccato à Milan et avec Ernst Pietsch à Francfort, ce qui rendit possible la constitution rapide d'une équipe réellement européenne. Nos ambitions s'affirmèrent avec éclat grâce à l'organisation d'un "Enseignement préparatoire aux techniques de la Documentation", que nous avions baptisé fort peu modestement : séminaire Leibniz, qui eut lieu dès février 1960. La table des matières du document qui fut ensuite publié pour en rendre compte donne une assez bonne idée de notre projet. (cf.. [1]). En voici le fac-similé :
Rapidement il devint clair que nos ambitions exigeaient la création d'un centre de calcul de pourvu de moyens puissants. Une justification supplémentaire pour la mise en service d'un tel centre provenait des activités liées au calcul des réacteurs nucléaires, ce qui, après tout, était la raison d'être essentiel d'EURATOM. C'est ainsi qu'en 1961 fut créé le CETIS (Centre Européen de Traitement de l'Information Scientifique), dont GRISA était l'une des composantes, et qui est encore aujourd'hui l'un des départements essentiels du centre d'Ispra. Un bâtiment bien étudié fut construit pour nous où furent installés de puissants ordinateurs (IBM 7090 et IBM 1401). Le coût de l'opération était supérieur à 3 milliards de francs de l'époque. La salle des machines (d'où l'on pouvait voir le Monte Rosa) était immense et pourtant la capacité de calcul calabrais est serait largement surclassée aujourd'hui par un IBM PC Je reproduis ci-dessous le schéma de notre organisation telle qu'il avait été publié à l'époque ([2])
Un bilan d'ensemble de notre effort fut publié en 1963 ([3]).
2. La langue au naturel Notre cahier des charges initial portait sur le traitement de l'information scientifique mais notre analyse des systèmes existants (principalement néerlandais et allemands), ainsi que nos expériences conduites à Saclay nous conduisaient à rejeter la constructions de systèmes "ad hoc", pour affronter la problématique du langage naturel dans toute sa généralité. Nous étions partagés entre la tendance "syntaxe d'abord" défendue par Chomsky et la tendance "sémantique et syntaxe même combat" proposée est illustrée par Ceccato et Gardin. Leroy, Lecerf et moi tranchâmes en faveur d'une solution intermédiaire : choix d'une grammaire de dépendance pour l'analyse syntaxique (en l'occurrence la grammaire de Tésnière), et développement d'une technique de représentation des connaissances à l'aide de "diagrammes", comportant la mise en ouvre d'un jeu de primitives sémantique ([4]). Yves Lecerf devint rapidement un maître dans la manipulation des grammaires de dépendance. Il montra l'équivalence du système de Tésnière avec celui proposé à la Rand Corporation par D. Hays, puis donna un algorithme permettant de traduire un graphe de Chomsky en "stemma" et réciproquement ([5]). Avec P. Ihm, il mit en évidence le phénomène de projectivité qui peut s'exprimer ainsi (cf. [6]) : L'aspect mathématique de cette propriété fut examiné par Paul Camion dans le rapport [7]. Il y a certainement là des développements qu'il aurait été intéressant de poursuivre davantage. Le talent pédagogique de Lecerf le conduisit à présenter sa méthodologie en utilisant des expressions éclairantes telles que : - L'adressage intrinsèque en analyse grammaticale ([8]) - Le programme des conflits ([9]). Cela nous donna l'idée de poursuivre plus loin la métaphore : "langage naturel/langage de programmation". Notre point de vue pouvait s'exprimer ainsi : Dans le fonctionnement de notre compétence linguistique, les mots jouent le rôle des noms de programmes dans le fonctionnement d'un système informatique. Énoncer une phrase équivaut donc à lancer l'exécution d'une suite de programmes sous le contrôle d'un système muni d'une capacité de récupération d'erreur, de gestion des piles de programmes suspendus, etc.. Malheureusement au "programme des conflits" de Lecerf devait succéder un " conflit des programmes" entre lui et moi... Car les premiers balbutiements de l'intelligence artificielle avaient attiré l'attention des médias. La traduction automatique de la Pravda " cover to cover" et en temps réel était pour demain. Le théorème de Fermat les qu'à bien se tenir etc.. De telles élucubration sont pain bénit pour des journalistes en mal de copie lorsque l'actualité est en panne de massacres. Mais aussitôt s'éleva la protestation des gardiens du temple : jamais au grand jamais les automates ne remplaceront les hommes, et qu'est-ce que vous faites de l'âme, etc.. Le Dreyfus des années 60 s'appelait Taube et développait est à peu près les mêmes arguments (que Searle reprenait récemment contre l'inébranlable Minsky). Il reçut le renfort inattendu du logicien Yeoshua Bar-Hillel qui, Gödel au poing, entreprit de détruire ce qu'il venait d'adorer. De bons esprits, comme Lecerf, furent victimes d'un terrorisme qui sévit encore aujourd'hui. J'insistai, pour ma part, sur la nécessité d'expérimenter le plus complètement possible et d'utiliser tous les matériaux disponibles, y compris des logiciels de traduction automatique, tout imparfait qu'ils fussent à cette époque. Je fis acquérir, pour EURATOM, le programme russe-anglais développé à l'université Georgetown à Washington par un français, Léon Dostert. Ce programme, qui fournissait des traductions d'une qualité littéraire des plus médiocres, fut cependant utilisé avec profit pendant des années par les techniciens et scientifiques d'EURATOM. La commission de l'EURATOM décida un beau jour de mettre fin à l'exploitation de ce programme, puis, quelques années après, s'empressa d'acheter à nouveau le même programme qui avait changé de nom (il s'agissait du système Systran développé par Toma un ancien collaborateur de Dostert. Systran peut être considéré comme le prototype des logiciels de traduction automatique de la première génération).
3. Représentations inachevées Dès 1959, André Leroy et moi-même avions proposé une méthodologie nouvelle en Documentation Automatique. Partis de la technique usuelle des mots-clés, nous avions décrit une technique de "phrases-clés qui débouchait naturellement sur une représentation bidimensionnelle (ce que nous appelions les "diagrammes"). Il s'agissait donc d'une technique de représentation des connaissances qui anticipait largement Quillian et Schank, ainsi que le montre l'exemple ci-dessous extrait d'un article publié dans le Bulletin des Bibliothèques de France ([10]) : Le caractère universel du modèle de Tésnière avait été bien mis en évidence à l'occasion d'un travail collectif dirigé par Peter Ihm et moi-même étant et qui devait être présenté à un colloque de lexicologie à Tübingen sous le titre agréablement blasphématoire : Dépouillement et exploitation d'un échantillon linguistique ([11]). Il s'agissait tout bonnement du Pater Noster dans ses 131 traductions recueillies par Lorenzo Hervas S.J. en 1787. À chaque traduction s'était joint le mot-à-mot latin nous permettant de reconstituer le stemma associée à chacune des traductions. Une analyse statistique factorielle nous avait montré la pertinence de la représentation par stemma en mettant en évidence des points d'accumulation qui correspondaient bien aux groupements bien attestés des langues naturelles. André Leroy avait, à cette occasion, construit le diagramme sémantique associé au Pater Noster, diagramme que je me fais un plaisir de reproduire ci-dessous : André Leroy avait parfaitement défini un programme de travail qui permettait de détailler les étapes de la construction d'un diagramme sémantique à partir du stemma de Tésnière. Bien entendu l'explicitation des significations mettait en ouvre une représentation des connaissances encyclopédiques présupposées, représentation qui avait reçu le nom de "diagramme général". Toutefois nous étions conscients du fait que les "primitives sémantiques" et les "relations" que nous utilisions n'étaient pas nécessairement pertinentes et nous attendions beaucoup des travaux de Silvio Ceccato et de la "Scuola Operativa Italiana" (cf. [12]). La combinatoire de Ceccato utilise une primitive unique : la corrélation qui lui permet de définir des structures sémantiques "élémentaires" comme le montre l'exemple ci-dessous qui présente la codification "cecattienne"de trois mots outils : Avec et ou On trouve là une anticipation de ce que seront les systèmes de Schank avec ses 15 primitives et surtout de Wilks avec ses 100 primitives. Un développement des systèmes de Ceccato atteignit même 900 primitive (cf. l'article de Beltratme dans [13]). Aussi n'est-ce pas sans plaisir que j'ai constaté qu'enfin justice était rendue
au travail pionnier de Ceccato dans le récent ouvrage de Sowa ([14]). 4. Tout le reste Stemmas, diagrammes, réseaux, sphères notionnelles, etc., toutes ces formes de représentation de la connaissance ne pouvaient être produites, gérées, exploitées que sous le contrôle d'algorithmes et de programmes disposant d'une certaine capacité d'inérence. Les explosions combinatoires toujours menaçantes devaient être désamorcées par la mise en jeu d'heuristiques adéquates. Il fallait tout à la fois, disposer de méthodologies aussi générales que possible et en poursuivre la validation à partir d'exemples concrets. C'est assez ce qui détermina le déclenchement, au sein de GRISA, puis du CETIS, d'un vaste programme de recherches couvrant pratiquement tout le spectre de l'Intelligence Artificielle. Un premier symposium sur ce sujet fut organisé par le cargo du congrès il fit le qu'il se tint à Munich en 1962 placée sous la présidence de Minsky, il réunissait Andrew, Glushkov, Pask et et moi-même. Voici le texte de mon intervention : Bien sûr notre projet était trop ambitieux pour qu'une seule équipe pût y suffire. Aussi avions-nous conclu des contrats de recherche avec un certain nombre de laboratoires européens : - En France nous avions décidé de soutenir, dans le domaine de la Traduction Automatique, les efforts de Sestier à Paris et Vauquois à Grenoble. De même l'équipe de Gardin put démarrer, avec notre aide, les premières analyses de SYNTOL (système orienté vers la Documentation Automatique). - Aux Pays-Bas, Beth et son équipe s'attaquaient aux problèmes de la démonstration automatique des théorèmes (par la fameuse "méthode des tableaux"). - En Allemagne l'Université de Bonn entreprenait un travail sur la reconnaissance de la parole. Un curieux concours de circonstances fit qu'une partie des fonds fut utilisée pour financer les premières recherches de Pétri sur les réseaux qui portent son nom! - En Italie et l'équipe de Ceccato se renforça rapidement. - En Belgique l'ULB apporta une contribution importante (mais demeurée en grande partie inédite aux grammaires de dépendance du type tesniere. - Enfin une importante équipe internationale avait été rassemblée autour de Max Euwe (ancien champion du monde) pour travailler sur le problème de la simulation du jeu des échecs. On y trouvait l'encyclopédiste François Le Lionnais, le mathématicien Claude Bergé, le logicien Barzin, le psychologue de Groot. Cette équipe fit considérablement progresser la problématique des milieux de partie, mais n'eut pas la possibilité de réaliser un programme de jeu complet. Notre mission était, en fait, de porter la recherche européenne à un niveau comparable à celui qu'avaient atteint les États-Unis ; le Japon à cette époque était pratiquement inexistant. Avec l'aide d'IBM Europe - et surtout grâce à la diligence de David Hirschberg - il nous fut possible d'organiser à Blaricum (Pays-Bas) deux séminaires de qui réunirent les compétences des plus remarquables du moment, et ceci sur un spectre très large de domaines : Brouwer, Newell, Gelerntner, John Mc Carthy, Hao Wang, Abraham Robinson, etc. vinrent rejoindre nos experts européens, Berge, Schützenberger, Gardin, Ceccato, etc. et les membres de notre équipe. Une sélection des meilleures communications présentées au cours de séminaires fut publiée par en 1963 ([16]). On y trouve le célèbre article Chomsky-Schützenberger (dû essentiellement au second auteur), l'article fondateur de Mc Carthy et d'autres papiers importants de Beth, Gilmore, etc.. On trouvera ici quelques détails des photos de famille prise à l'occasion de ses séminaires Dans le même esprit les résultats essentiels obtenus par les équipes travaillant autour du professeur Beth, à Amsterdam, furent publiés par EURATOM en 1968 ([17]). Nos travaux n'étaient pas sans susciter de sérieuses oppositions chez certains dirigeants. Un de nos soucis majeurs était de montrer la possibilité de retombées directement utilisables dans le cadre d'activité plus typiquement nucléaire. C'est ainsi qu'en [3] nous avions souligné : Dès 1962 nous avions donc porté notre effort vers les applications de l'intelligence artificielle et plusieurs projets internes furent lancés dans cet esprit : ETNA (expérience d'un théoricien nucléaire automatique) CARN (calcul automatique des réacteurs nucléaires)TARD (techniques analogiques avec rétroaction différée) BIRD (behavior of retroactive devices) Les deux premiers projets en se situaient dans le domaine de ce que l'on appelle aujourd'hui les "systèmes experts". Les deux suivants avaient un caractère assez original. Ils étaient pour moi la continuation naturelle de mon activité antérieure à Saclay. Il s'agissait de mettre en ouvre des techniques "hybrides" autorisant le couplage des calculateurs analogiques et "digitaux" et d'y puiser l'inspiration de recherches plus fondamentales sur la nature et le rôle des structures spatio-temporelles dans le traitement de l'information (cf. [18] et de [19]). Nous nous efforcions d'aborder les problèmes de l'heuristiques sur des cas particuliers plus maniables que celui de la simulation du jeu des échecs ([20]), et nous étions intéressés par les techniques de programmation originales que ces problématiques nouvelles nous suggéraient ([21])... et aussi à l'ingénierie des interfaces analogues-digitales ([22]). Enfin nous avions abordé avec Jean Larisse les problèmes passionnants des phénomènes pseudo stochastiques liés à la propagation des erreurs de calcul. Ces problèmes se situaient dans le cas volume théorie général de la diffusion et, par conséquent, relevait d'une technique qui était tout à fait pertinente pour EURATOM.
5....est littérature La France, malheureusement, ne respectait pas le traité de Rome (pour ce qui est de la déclaration des quantités de matériaux fissiles produits sur le sol national - et qu'elle était seule à produire au sein de la communauté). Étienne Hirsch en fils observation au général de Gaulle. Malgré les services rendus (au gouvernement provisoire d'Alger puis à la direction du plan), Hirsch fut remplacée par Pierre Chatenet, ancien ministre de l'intérieur qui n'avait pas vu venir le putsch d'Alger. Son rôle était visiblement de mettre en veilleuse la flamme européenne et c'est ce qu'il fit. Certains commissaires européens que Jules Guéron n'avait pas ménagés en profitèrent pour entreprendre une véritable "normalisation" dont le fut l'une des premières victimes, grâce à l'aide empressée que leur apportèrent certains services français "de sécurité". L'intervention d'un jeune avocat, Robert Badinter, permit de limiter les dégâts. Après une année à Saclay pendant laquelle je m'efforçai de rassembler et d'ordonner les résultats obtenus à EURATOM, je redevins européen, mais cette fois au service de la Recherche Spatiale. Mon activité officielle était limitée au domaine de la Mathématique Appliquée, mais je pus maintenir une certaine présence dans l'étude de la logique et du langage. C'est ainsi que je fus amené a présenter une communication au Congrès International de Logique, Méthodologie et Philosophie des Sciences (Amsterdam, 1967). Il s'agissait d'une session spéciale organisée par J.F.Staal et où Max Black, Hinttika, Katz, Montague, Perelman, Bar-Hillel et Curry étaient également invités. Ma communication était consacrée à la mise en évidence des inférences implicites dans la compréhension du récit et s'appuyait notamment sur l'analyse d'un roman policier de Rex Stout : Red Threads. En 1968 les presses universitaires de France publiaient, dans la collection La science vivante un livre où j'avais rassemblé et organisé l'expérience de GRISA, et du CETIS ([25]). C'était le premier ouvrage apparaître sous le titre l'intelligence artificielle et j'attendais beaucoup à ma grande déception se passa rien : - le livre parut en juillet 1968, époque où l'intelligence, naturelle ou non, se posait d'autres questions. - Le directeur de la collection, Henri Laugier se brouilla avec les PUF qui ne firent aucun effort de promotion. - Surtout la discipline elle-même dont j'avais imaginé le déploiement se mourait de longueur, par suite de la diminution des crédits (en particulier des crédits militaires américains) et de la dispersion des équipes de chercheurs (il faut bien vivre !). Mon livre fut acheté par de nombreuses bibliothèques (tout au moins en France) mais il fut ignoré aux USA et on en chercherait en vain la trace dans les bibliographies (françaises y compris !). Le chapitre V de mon livre était consacré au langage. J'y présentais notre méthodologie combinant stemmas et diagramme (dont j'avais renforcé la structure logique en m'appuyant sur le Calcul des prédicats) à l'aide d'un texte de Jean Queval, tiré de sa merveilleuse autobiographie poétique Tout le monde descend. Mon intérêt était de plus en plus orienté vers le langage comme matériau littéraire. En 1961 j'avais été coopté à l'OULIPO (Ouvroir de Littérature Potentielle), fondé en 1960 par Raymond Queneau François Le Lionnais et d'autres (dont Jean Queval). On sait que l'OULIPO s'intéresse particulièrement à l'explicitation et à la mise en ouvre de systèmes de contraintes littéraires, à leurs formulations mathématiques, etc. Notre action demeura confidentielle jusqu'à ce que de nouvelle recrues : Roubaud, Perec, Bénabou, Fournel et Calvino, entre autres, nous permettent de présenter plus largement nos réalisations au public. En 1975 Europalia était consacré à la culture française. L'OULIPO y fut largement représenté et nous fûmes amenés à compléter nos interventions et lectures par une prestation informatique rendue possible par l'amitié de David Hirschberg et Yves Leborgne. Il s'agissait d'une version algorithmique des Cent mille milliards de poèmes. Marcel Bénabou et Paul Fournel proposèrent à leur tour d'autres algorithmes de manipulation et de création de textes. Ces activités prenaient bientôt de l'ampleur et je fus chargé d'organiser une journée Ecrivains, ordinateurs, algorithmes, qui eut lieu au Centre Georges Pompidou en juin 1977. Yvon Belaval présidait cette manifestation où Calvino, Roubaud, Andreewsky, Moreau, gardin, etc. présentèrent des interventions. Le deuxième ouvrage édité par l'OULIPO contenait une partie consacrée à ces problèmes (cf. [26], IV). Mais il devint bientôt clair qu'une confusion risquait de se développer entre l'activité oulipienne et la recherche plus directement informatique. . Cela nous conduisit à créer, en 1981, l'ALAMO (Atelier de Littérature Assistée par la Mathématique et les Ordinateurs). Cette nouvelle équipe s'est développée rapidement et a participé à de nombreuses manifestations (citons la grande exposition Les Immatériaux au centre Georges Pompidou, mars-juillet 1985). Un important projet de logiciel (le projet LAPAL) bénéficie d'une subvention du Ministère de la Culture. De nombreuses publications ont été consacrées à nos activités, en particulier [27]. Et c'est par ce singulier détour de la littérature que j'ai été ramené à mes anciennes amours ! Il est commode de repartir de répartir les travaux de création littéraire assistée par ordinateur en trois niveaux de complexité croissante : "combinatoire", "applicationnel", "implicationnel". La réalisation de projets appartenant au troisième type, en particulier la création de récits cohérents met simultanément en jeu structures textuelles, systèmes de réécriture filtres syntaxiques et sémantiques, etc.. Les structures textuelles doit être riches d'informations complexes et ne diffèrent en rien de ces "bases de données de connaissance" où se concentrent beaucoup de recherches contemporaines en intelligence Artificielle. Levi-Strauss ([28], cité par Gardin dans [29]), a justement observé que « la preuve de l'analyse est dans la synthèse ». Réciproquement la synthèse de textes possédant une véritable qualité littéraire suppose l'existence de bases de données textuelles complètement analysées. C'est ce qui nous a amené à nouveau plonger dans le domaine de la recherche cgnitive et j'ai eu la surprise, en parcourant la littérature (au sens documentaire du terme), de m'apercevoir que les diagrammes de Leroy faisaient florès... sans que son nom soit jamais mentionné !
6. La nostalgie ne s'use que si l'on s'en sert ! Vérifier, une fois de plus, que « nul n'est prophète en son pays » ne procure qu'une piètre satisfaction. Il en résulte au contraire un certain agacement, dont on peut d'ailleurs discerner la trace dans le récent (et excellent) recueil de Gardin ([30]). Faute d'être prophète, il ne serait pas pour autant convenable de jouer les ayatollahs ! Il faut convenir qu'une bonne partie des travaux que j'ai cités n'ont connu qu'une diffusion tout à fait restreinte. C'est particulièrement vrai pour les travaux de Leroy et Lecerf publiés sous la forme de rapports internes... et de plus rédigés en français ! Le gâchis relatif que l'on constate ici est lié, me semble-t-il, à la conjonction de deux facteurs : - la totale myopie que manifesta la commission de l'EURATOM devant les perspectives de la technologie, myopie qui lui vaut, entre autres, d'avoir été tenue en marge du projet Esprit et d'être complètement écartée du projet Eurêka. - Une certaine faiblesse de votre part qui s'est traduite par un évident manque de suivi dans notre effort lorsque l'équipe se disperser, plusieurs de ses membres les plus doués se sont reconvertis dans des pages diverses, parfois purement administratives, renoncement le souci d'une carrière ne justifie certainement pas Le lecteur se rassura peut-être en observant que la situation est aujourd'hui bien différente : colloques, publications se sont multipliés. Les Japonais font monter la pression avec l'ICOT, en France même, l'AFCET voit ses efforts complétés par ceux de deux associations : Intelligence Artificielle et Recherche Cognitive. Le CNRS, l'ADI, le Carrefour de la communication multiplient les initiatives suivies par la mission Industries de la langue. Mais ce qui inquiète observateur - qui ne doit cependant pas jouer aux anciens combattants grincheux - c'est surtout l'apparente non-additivité des innombrables travaux en cours ; on nous propose bien des techniques de représentation des connaissances, schéma systèmes de primitive sémantique, etc. dont l'attrait est évident, mais les "connaissances" elles-mêmes sont fort peu représentées : on est un peu las des "menus de restaurant" ou des catalogues de pharmaciens Il en va de même des techniques associées ou les logiques parallèles (modales, temporelles, non monotones, etc.), abondent, tout comme les outils informatiques (Prolog divers, langages "orientés objet"), etc.. Bien sûr, cela produit beaucoup de thèses mais risque à la longue d'indisposer les donateurs... Et puisque le lamba-calcul est (fort heureusement) redevenu "in", j'aimerais conclure en pastichant Jaures qui avait opéré "abstraction fonctionnelle" et "application" sur un aphorisme célèbre de Saint-Augustin. La version de l'aphorisme sera : « Un peu de recherches cognitive éloigne de la confusion, beaucoup en rapproche. » ou faudrait-il conclure, fleur au diagramme : « L'intelligence artificielle et la continuation de l'intelligence naturelle par d'autres moyens »?
_________________________________ Bibliographie [1] A. Leroy (ed.) : Enseignement
préparatoire aux techniques de la documentation automatique. Euratom, Bruxelles, février1960.
|
Le langage / Intelligence et artifices |
Paul Braffort © 2002 |