NEURO-NIMES
88 : COUP D'ENVOI POUR
LES RESEAUX NEURONAUX
par
Jean-Michel TRUONG NGOC
(*)
Les journées internationales
sur les réseaux neuromimétiques et leurs
applications, qui se sont tenues à Nîmes
du 15 au 17 novembre, sous l'égide de l'Ecole pour
les études et la recherche en informatique de Nîmes
et d'EC2, ont été l'occasion pour des chercheurs
jusque là très discrets de présenter
un panorama complet de leurs travaux. Pour les 300 personnes
présentes, dont une bonne moitié d'industriels,
une seule question : s'y mettre ou pas ?
NE DITES PAS A MA MERE QUE JE FAIS DES RESEAUX NEURONAUX,
ELLE ME CROIT INFORMATICIEN !
Que ces journées
Neuro-Nîmes aient été la dixième
grande manifestation tenue de par le monde en cette année
1988 sur les réseaux neuronaux témoigne
avec éloquence du regain d'intérêt
dont ce thème est depuis peu l'objet. Née
dans les années quarante, du projet de reproduire
les capacités de traitement d'information du cerveau
à l'aide de processeurs simples mais fortement
interconnectés (modèle de Mac Culloch et
Pitts), l'école dite "connexionniste" connaissait,
depuis la fin des années soixante, une longue éclipse,
due autant à l'échec des premières
tentatives de mise en uvre qu'aux insuffisances
théoriques des premiers modèles proposés
(Adaline de Widrow, Perceptron de Rosenblatt
). "C'était
l'époque où il valait mieux cacher la véritable
nature de ses activités, se souvient Jeanny
Hérault, de l'Institut national polytechnique de
Grenoble, un des rares chercheurs français à
pouvoir aligner vingt années de travaux dans le
domaine. Pour ma hiérarchie, officiellement,
je travaillais sur de nouveaux algorithmes de reconnaissance
de formes: en réalité, je faisais des réseaux
neuronaux". Les progrès des neurosciences,
ceux des technologies notamment l'électronique
et l'optique , la découverte de modèles
mieux appropriés (modèle de Hopfield, Néocognitron
de Fukushima, algorithme de rétropropagation du
gradient de l'erreur, etc.) et la mise au point de quelques
démonstrations spectaculaires ont contribué,
à partir de 1982, à sortir ces chercheurs
de la relative clandestinité où ils étaient
confinés et à accréditer l'idée
que des applications opérationnelles étaient
désormais envisageables. Aujourd'hui
selon Jean-Claude Rault, organisateur de Neuro-Nîmes
, près de deux cents organismes de recherche
et sociétés industrielles s'activent dans
ce domaine surtout aux USA et près
de cinquante sociétés à vocation
commerciale proposent d'ores et déjà produits
ou services. Est-ce à dire que le marché
des réseaux neuronaux connaîtra la croissance
qu'a connu celui des systèmes-experts ces cinq
dernières années ? Faut-il, comme certains
participants, parmi les plus enthousiastes, annoncer la
fin des systèmes-experts, définitivement
supplantés par ces réseaux aux capacités
d'apprentissage quasi diaboliques ? Les cogniticiens
sont-ils condamnés avant même d'avoir existé ?
Une bonne partie de l'attrait que représentent
les réseaux neuronaux est dû, en effet, à
leur capacité d'apprendre par l'exemple: plus n'est
besoin d'expliciter l'expertise, ni de la formaliser.
" Confiez-nous vos données, nous nous occupons
du reste! ", tel pourrait être le slogan
des neuromiméticiens.
UNE APPROCHE SEDUISANTE
DU TRAITEMENT DE L'INFORMATION
Selon Françoise Fogelman-Soulié,
qui dirige à l'Ecole des hautes études en
informatique (EHEI) une des plus importantes équipes
françaises, les réseaux neuronaux ou réseaux
neuromimétiques sont des réseaux d'automates
reproduisant approximativement l'architecture des
réseaux de neurones naturels. Un automate (ou neurone
formel) est un processeur élémentaire défini
par:
- un état interne
s
- des connexions
(avec d'autres automates ou avec l'environnement)
- une fonction de transition
f qui lui permet de calculer son état
interne en fonction des signaux qu'il reçoit
sur ses connexions.
On utilise dans les modèles
connexionnistes des automates quasi- linéaires
pour lesquels l'automate applique une fonction f
à la somme pondérée de ses entrées
(les coefficients de pondération W sont
appelés les poids des connexions).
Un réseau neuronal
est donc un ensemble d'automates du type précédent,
massivement interconnectés. Il est entièrement
spécifié par la donnée:
- du nombre des automates
qui le composent
- de l'architecture de ses
connexions
- des poids des connexions
- des fonctions de transition
f des différents automates.
Dans un tel réseau,
l'information se trouve donc distribuée dans les
états des différents neurones et dans les
poids de leurs connexions. On voit par ailleurs que si
ces poids sont paramétrables, on obtient un système
dynamique "programmable" qui peut être utilisé
pour traiter de l'information.
Contrairement à un
ordinateur conventionnel, un réseau de neurones
ne se programme pas à l'aide d'instructions, mais
par apprentissage, au moyen d'exemples. L'apprentissage
consiste à présenter au réseau une
série d'entrées, et à modifier ses
connexions pour qu'à chacune de ces entrées
corresponde la sortie attendue: c'est ici qu'intervient
le fameux algorithme de rétropropagation du gradient
de l'erreur évoqué plus haut. Au fur et
à mesure de l'apprentissage, le réseau reconfigure
donc le poids de ses connexions, et finit par converger
vers une représentation interne structurée
des connaissances implicites contenues dans l'ensemble
d'exemples qui lui a été présenté
en entrée. Dès lors, il devient capable
d'effectuer le traitement pour lequel il a été
"programmé" et d'associer, à une entrée
donnée, la sortie la plus vraisemblable, compte
tenu des connaissances accumulées dans ses connexions
lors de la phase d'apprentissage. On voit là se
dessiner un avantage considérable des réseaux
neuronaux sur les systèmes-experts, pour toute
une gamme de problèmes où les connaissances
factuelles et procédurales nécessaires à
leur résolution ne peuvent pas être explicitées
par les experts, en raison d'une trop grande complexité.
Outre cette aptitude à
apprendre à partir d'exemples, les spécialistes
reconnaissent aux réseaux neuronaux les propriétés
suivantes:
- la robustesse, ou
possibilité de rappeler l'information stockée,
même si une partie des neurones est détruite,
conséquence directe de la distribution de l'information
à travers les neurones et leurs connexions. En
cas de lésion du réseau, ses performances
se dégradent progressivement et non de manière
catastrophique;
- la capacité
de généraliser, qui autorise la recherche
du "plus proche voisin" s'il n'existe pas d'équivalent
exact de l'information recherchée. Cette propriété
est, par exemple, exploitée pour la reconnaissance
de caractères manuscrits ou déformés;
- la flexibilité,
ou capacité de modifier l'information stockée
en réponse à de nouvelles données,
réduisant d'autant le recours à la reprogrammation;
- la tolérance
aux fautes, en raison de la distribution de l'information
stockée;
- la capacité
de travailler dans un environnement d'information "bruité";
- la faculté
de rappel associatif, qui permet de retrouver une information
à partir d'une autre, ou l'information originale
à partir d'une version dégradée;
- la capacité
de mettre en évidence les relations complexes existant
entre les données d'entrée;
- la capacité
de résoudre des problèmes à explosion
combinatoire (type "voyageur de commerce");
- et, bien entendu,
la rapidité de traitement, certes, mais aussi de
mise au point. A cet égard, Françoise Fogelman-Soulié,
qui travaille sur plusieurs projets industriels et militaires
en association avec Thomson-CSF, cite l'exemple d'une
application de reconnaissance de signaux radar dont la
mise au point, par des techniques classiques, avait demandé
6 années.homme et qui, reprise selon une approche
connexionniste, n'a plus nécessité que 4
mois.homme. "Vous m'apportez votre base de données
aujourd'hui, affirme-t-elle, et dans un mois vous
avez la réponse!"
DES DOMAINES D'APPLICATION NOMBREUX
MAIS ENCORE PEU EXPLORES
Selon Bernard Angeniol,
responsable d'une unité de recherche sur les réseaux
neuronaux chez Thomson-CSF, les domaines d'application
privilégiés de cette technologie concernent
avant tout le traitement des données sensorielles.
En effet, a-t-il expliqué, "contrairement aux
systèmes- experts dont l'approche symbolique attaque
les problèmes à un haut niveau, en copiant
la partie consciente du raisonnement humain, les réseaux
de neurones proposent de copier le comportement inconscient
en partant du bas niveau, c'est-à-dire des données
sensorielles." Effectivement, l'essentiel des applications
en cours de développement concernent le traitement
d'images (compression, segmentation, reconnaissance de
formes, détection de mouvements, stéréovision,
etc.), le traitement du signal (classification, localisation,
séparation de sources, débruitage,etc.),
la reconnaissance de la parole et la robotique (coordination
moteurs-senseurs). "Le principal donneur d'ordres est
l'armée, constate F. Fogelman-Soulié.
Elle s'intéresse à des problèmes
comme l'interprétation d'images satellite, la cartographie,
etc. Pourtant, il pourrait y avoir de nombreuses applications
civiles, en imagerie médicale par exemple. "
De fait, une équipe du CRIN à Nancy, dirigée
par Jean-Paul Haton, achève un système capable
d'interpréter des clichés radiographiques.
"On trouve aussi, ajoute B. Angéniol, quelques
applications de plus haut niveau chaque fois que les données
à traiter sont redondantes, incomplètes,
floues ou partiellement inexactes", critère
qui, à bien y regarder, devrait ouvrir de larges
perspectives d'application. Parmi ces problèmes
de haut-niveau, on peut citer les problèmes d'optimisation
(CAO, allocation de ressources, planification,...), de
contrôle de processus adaptatifs (contrôle
de fabrication, inspection automatique,...) et bien entendu,
d'apprentissage à partir de bases de données.
Selon une des conférencières
de Neuro-Nîmes, Donna Thompson, le domaine d'applications
civiles le plus actif et le plus prometteur celui
aussi où les investissements sont les plus importants
est celui de la banque et de la finance: modélisation
et prévision, choix d'investissements, courtage,
credit scoring, vérification de signatures.
D'après D. Thompson, dirigeante de Phase Linear
Systems, Inc., une des premières sociétés
de conseil spécialisées dans ce domaine
aux USA, les caractéristiques d'un "bon problème"
pour les réseaux neuronaux sont :
- que sa solution implique
une classification ou une organisation de données
(comme en prévision ou en modélisation);
- qu'il résiste
aux solutions techniques traditionnelles;
- que sa méthode
de résolution soit inconnue, mais qu'on soit capable
d'associer des données d'entrées à
des résultats;
- qu'on soupçonne
l'existence d'une relation d'ordre mathématique
ou statistique entre les données;
- qu'on dispose d'un
nombre suffisant de cas pour l'apprentissage;
- que sa solution implique
rapidité, fiabilité, tolérance au
bruit et robustesse (dégradation progressive
des performances).
Si la tonalité du
discours sur les possibilités d'application est
généralement optimiste, il ne faut pas se
cacher que la plupart des exemples évoqués
à Neuro-Nîmes de même que ceux
présentés dans la littérature du
domaine sont tout au plus des maquettes de démonstration
bien éloignées, leurs auteurs ne le dissimulent
pas, d'applications opérationnelles: on est encore
très loin de la maîtrise technique. Ces maquettes
simulent des réseaux de petite taille ("toy
size": quelques centaines de neurones) et on n'a pas
d'exemples de mise en uvre de grands réseaux
(10000 neurones et plus: "natural size" ) sur des
problèmes plus complexes. De plus, il s'agit bien
souvent de "manips" montées sur des cas d'école
pour vérifier la plus ou moins bonne adéquation
de cette nouvelle technologie à une classe de problèmes
déjà connue, en comparant les résultats
d'un réseau neuronal avec ceux des algorithmes
classiques (reconnaissance de formes, optimisation, analyse
de données...). Le fait que les réseaux
neuronaux soient souvent en compétition avec des
techniques plus anciennes (et mieux "établies"...)
risque de constituer un handicap pour leur acceptation
par l'industrie: pourquoi engagerait-elle des fonds pour
résoudre un problème déjà
bien maîtrisé par ailleurs? Il est urgent
que les chercheurs du domaine énoncent une définition
plus spécifique de leur domaine d'excellence.
Peu soucieuse sans doute
de donner dans les travers triomphalistes des pionniers
des systèmes-experts, et de s'exposer à
leur tour aux mêmes déconvenues, les principaux
ténors de la recherche en réseaux neuronaux
se signalent par la grande prudence de leurs prédictions,
dès lors qu'il s'agit de quantifier le marché
ou d'en jalonner l'évolution. Tout au plus s'accorde-t-on
à dire que quelques applications commerciales rudimentaires
pourraient voir le jour d'ici à deux ans, notamment
en reconnaissance de caractères. Quant à
l'industrialisation, elle ne semble pas encore à
l'ordre du jour. "Il faut souvent une dizaine d'années
entre le moment où l'on pense maîtriser une
technologie en laboratoire et celui où on est capable
de l'intégrer de façon fiable dans un process
ou dans un produit, constate B. Angéniol. L'industrialisation
d'applications des réseaux neuronaux pose un certain
nombre de questions auxquelles on ne sait pas encore répondre:
devra-t-on utiliser un matériel spécialisé
ou pas? Si oui, sera-t-il analogique ou digital, dédié
à l'algorithme ou général, synchrone
ou asynchrone? Et comment ce matériel coopérera-t-il
avec les programmes classiques des ordinateurs conventionnels?"
Hormis ces questions d'implémentation physique,
se poseront aussi les problèmes classiques d'assurance-qualité
(comment spécifier, valider, maintenir à
niveau des systèmes réalisés par
apprentissage sur des bases de données?) et d'intégration
dans l'environnement d'exploitation (comment concilier
la nécessité de poursuivre l'apprentissage
avec les contraintes d'une exploitation continue sur le
site?), problèmes, notons-le, auxquels sont toujours
confrontées, des années après, les
entreprises mettant en uvre des systèmes-experts.
LA MISE EN OEUVRE DES RESEAUX
NEURONAUX : DIVERSITE
ET CREATIVITE
La plupart des chercheurs
expérimentent leurs modèles par simulation
sur des ordinateurs, classiques ou spécialisés.
Dans ce cas, les réseaux de neurones sont modélisés
sous forme de matrices dont les éléments
représentent le poids des connexions. L'apprentissage
se fait en modifiant les éléments de la
matrice suivant des règles déterminées.
Des outils logiciels destinés
à faciliter ce travail commencent à apparaître
sur le marché. En France, l'EHEI a mis au point
un simulateur de réseaux de neurones multicouches,
SN 1.3, destiné à la construction de réseaux
connexionnistes à plusieurs couches et à
leur apprentissage par rétropropagation du gradient
ou autres méthodes dérivées. Cet
outil dispose d'un langage de haut niveau, dérivé
de LISP, pour décrire les réseaux, piloter
leur simulation et intervenir en cours d'apprentissage,
et d'une bibliothèque contenant les principaux
algorithmes d'apprentissage. SN 1.3 autorise un accès
à l'ensemble des paramètres du réseau,
propriété indispensable en phase de mise
au point. Un interface graphique facilite le suivi de
ces paramètres en cours d'apprentissage. SN 1.3
est écrit en C, et est disponible sur stations
SUN et APOLLO. L'EHEI commercialise cet outil par l'intermédiaire
de la société AXONE.
Une autre société
française, EUROPIXELS, de Montpellier, distribue
depuis peu le système de développement NESTOR,
produit vedette aux Etats-Unis. D'une conception très
professionnelle, ce produit s'apparente par sa philosophie
à GURU ou NEXPERT, ces fameux "shells" qui
permirent voici peu à tant d'entreprises de faire
leurs premières armes en systèmes-experts.
Sans offrir la souplesse et la transparence de SN
1.3, NESTOR se présente comme un progiciel offrant,
à travers une interface extrêmement conviviale,
toutes les fonctionnalités utiles pour la réalisation,
la mise au point et l'exploitation de réseaux de
neurones (jusqu'à 36). L'architecture des réseaux
ainsi constitués et la nature des algorithmes d'apprentissage
utilisés sont secrètes: tout ce qu'on
en sait est qu'elles sont l'uvre du Dr Léon
COOPER, prix Nobel de physique 1972, et gourou des réseaux
neuronaux. Disponible sur SUN 3 et sur IBM-PC, NESTOR
est commercialisé en deux versions: une version
d'initiation, comportant les outils de développement
(complets mais limités à un seul réseau),
un logiciel d'EAO et la documentation (tous deux en ligne,
mais en anglais); et une version de développement,
sans les limitations de la première, avec deux
semaines de formation. Dans sa version d'initiation, NESTOR
est facturé 30000F HT, et 129000F dans sa version
de développement sur IBM-PC.
Si des simulations logicielles
reposant sur de simples stations de travail de type UNIX
ou PC peuvent à la rigueur suffire au stade de
la mise au point d'une maquette de démonstration
ou pour certains types d'applications ne mettant pas en
jeu un nombre excessif de données, en revanche,
des applications industrielles ou consommatrices de temps
de calcul, comme en imagerie, requièrent l'emploi
de moyens matériels plus appropriés. Pour
Philip Treleaven, professeur à l'University College
de Londres, et responsable du thème "Neurocomputers"
à Neuro-Nîmes, de telles machines sont, pour
l'essentiel, " des réseaux parallèles
de processeurs élémentaires interconnectés
et opérant conjointement. Chaque processeur élémentaire
est de structure primitive, mais présente un degré
élevé d'interconnexion avec les autres processeurs.
Il possède en outre une certaine capacité
de mémoire locale." Ces architectures ont en
commun certaines propriétés:
- modularité:
chaque processeur élémentaire doit être
aisément replicable. Il doit donc réunir
en un composant autonome la totalité des fonctions
de process, de communication et de mémoire;
- primitivité:
si l'on veut pouvoir construire de grands neurocomputers,
mobilisant plusieurs millions de processeurs élémentaires,
chacun d'entre eux doit être suffisamment primitif
pour autoriser une intégration importante sur
un seul VLSI.
- connectivité:
des structures de communication simples sont nécessaires
pour rendre possible l'extension des neurocomputers,
et pour surmonter les limitations naturelles imposées
à la connectivité par les VLSI;
- asynchronisme: pour
reproduire la richesse du fonctionnement hétérogène
du cerveau, les neurocomputers doivent être des
systèmes à flux multi-instruction-multi-data
(MIMD).
- stabilité:
tout système parallèle asynchrone requiert
une stabilité absolue du process et des communications
dans toutes les situations.
- programmabilité: cette
condition est indispensable pour autoriser la construction
d'une grande variété de réseaux.
Les processeurs élémentaires devront
donc être programmables, tant du point de vue de
leurs connexions que des fonctions qu'ils assument.
Parmi les machines "general-purpose"
bien adaptées aux réseaux neuronaux Philip
Treleaven cite l'INTEL iPSC (hypercubes), la Connexion
Machine et les Transputers. Par ailleurs, de nombreuses
start-up américaines proposent des co-processeurs
pour IBM-PC et DIGITAL VAX. Les principaux sont : ANZA
de Hecht-Nielsen, Parallon de Human Devices, Sigma de
SAI Corp., Odyssey de Texas Instruments et Mark III de
TRW.
Enfin, des arrays-processor
parallèles sont actuellement en cours de développement
aux USA, au Japon et en Europe. C'est notamment le cas
chez IBM, qui a développé un environnement
expérimental complet pour la programmation de réseaux
neuronaux, appelé CONE (Computation Network Environment),
comprenant des NEP (Network Emulation Processor), un Network
Interactive Execution Program (IXP) et un langage de haut
niveau nommé GNL (Generalized Network Language).
256 NEP peuvent être assemblés, chaque NEP
simulant jusqu'à 4000 processeurs élémentaires
et 16000 interconnexions. Le tout est interfacé
à un PC.
C'est aussi un PC que Texas
Instruments (G-B) a choisi comme frontal de son système
NETSIM, développé en association avec l'université
de Cambridge. Il s'agit d'un ensemble de cartes émulatrices
de réseaux neuronaux assemblées en un réseau
tri-dimensionnel. Chaque carte NETSIM représente
une unité autonome construite autour d'un microprocesseur
standard 80188, capable de calculer un réseau de
256 neurones avec 256 connexions par neurone en moins
de 20 ms. Au total, un système NETSIM complet est
capable d'activer 450 millions de synapses par seconde
en propagation avant, et 90 millions pour un cycle complet.
Par opposition à
ces architectures "general-purpose" dont la principale
caractéristique est d'être programmables,
une seconde voie s'offre, qui consiste à implémenter
un réseau neuronal directement sur un support physique
(VLSI). Les neurones y sont simulés à l'aide
d'amplificateurs de gain variable et les poids des connexions
du réseau sont modélisés par des
résistances variables. Dans ce cas, le neurocomputer
obtenu est dédié à un seul modèle
de réseau. On espère bien entendu gagner
en efficacité ce qu'on perd en souplesse de programmation:
les réseaux VLSI opèrent en temps réel
(106 fois plus vite qu'un calculateur classique), avec
de faibles consommations. Autre avantage, les performances
du réseau se dégradent progressivement en
cas de défaillance d'un composant. Le représentant
le plus avancé de cette option est la puce mise
au point par AT&T. Il s'agit d'un réseau VLSI
CMOS en technologie 2.5 microns (6.7 mm x mm et 75000
transistors) de 54 amplificateurs (neurones analogiques)
avec des interconnexions programmables. Au moyen d'une
RAM, la plus grande partie du silicium utile, pratiquement
90%, est utilisée pour les interconnexions. La
puce comporte 2916 dispositifs de connexion. Aucun apprentissage
n'est possible. Le circuit mémorise 32 vecteurs
de 100 bits et trouve le vecteur approchant en moins de
100 ms. AT&T pense mettre prochainement sur le marché
un système de reconnaissance de caractères
manuscrits exploitant cette puce. En France, Thomson poursuit
des buts identiques avec son projet IRENE et étudie
la possibilité d'utiliser comme support des matrices
d'interconnexion ferroélectriques.
Le principal problème
posé par l'intégration d'architectures de
réseaux neuronaux sur des supports physiques est
lié à l'abondance des connexions, qui entraîne
une limitation d'ordre physique de la justesse et de la
précision des résultats. Lever cette limitation
impliquerait de mettre au point des architectures de réseaux
à connectivité réduite. C'est le
but que s'est fixé une équipe dirigée
par Jean-Paul HATON (CRIN) et Yves BURNOD (INSERM-Institut
Pasteur), qui propose une nouvelle approche, reposant
non pas sur la simulation du neurone, mais sur celle de
la colonne corticale, architecture modulaire du
cortex intégrant le fonctionnement d'une centaine
de neurones. Ces colonnes interagissent au moyen d'un
nombre très restreint de connexions, ce qui devrait
constituer un moyen de limiter l'explosion combinatoire
qui menace les réseaux neuronaux classiques.
En attendant les résultats
de ces explorations prometteuses, le choix du mode d'implémentation
(ordinateur conventionnel ou VLSI) d'un réseau
neuronal dépendra, au total, des contraintes spécifiques
de l'application. Selon G. Saucier, de lnstitut national
polytechnique de Grenoble, "le domaine d'excellence
du neuronique pourrait être le traitement rapide
de données pour trouver une solution satisfaisante
mais pas nécessairement optimale. Si une solution
optimale ou certifiée est requise, il sera toujours
fait appel aux calculateurs digitaux. Mais pour reconnaître
une image ou un son dans un temps acceptable ou à
faible coût, le calculateur neuronique peut être
la voie d'avenir."
Pour clore cette partie
consacrée à la mise en uvre des réseaux
neuronaux, citons encore pour mémoire une voie
de recherche importante: les processeurs optiques (ou
optoélectroniques). Ces systèmes utilisent
le photon comme support primaire de l'information. L'avantage
des photons sur les électrons est évident : du
fait de leur fréquence plus élevée
dans le spectre électromagnétique, les photons
ont une plus grande capacité de transport de l'information;
ensuite, les photons sont dépourvus de charge,
donc n'interfèrent pas entre eux; enfin, ils se
propagent de façon omnidirectionnelle: ils se prêtent
donc naturellement à la construction de dispositifs
parallèles. Par ailleurs, l'optique dispose de
toute une gamme de composants susceptibles d'être
exploités pour modéliser des réseaux
de neurones: portes, modulateurs, multiplieurs matrices-vecteurs,
corrélateurs d'images. Les hologrammes, par exemple,
peuvent être mis à contribution pour leur
extraordinaire capacité de stockage. Plusieurs
laboratoires aux Etats-Unis étudient des implémentations
optiques de réseaux neuronaux: BMD Corp., CALTECH,
Carnegie-Mellon University, Hughes Research Labs., et
Naval Research Labs.
RESEAUX NEURONAUX: LA FIN DES
COGNITICIENS ?
Les réseaux neuronaux
se présentent sur le devant de la scène
technologique à un moment où l'on commence
à prendre conscience de certaines limites de l'intelligence
artificielle et nommément de sa pointe la
plus avancée, les systèmes-experts. Du fait
de leur capacité d'apprentissage à partir
de données non structurées, les réseaux
neuronaux semblent en effet apporter une solution idéale
au problème souvent rédhibitoire du coût
de l'acquisition et de la maintenance de l'expertise.
Un des papes des systèmes-experts, Minsky, reconnaît
que " les réseaux parallèles distribués
offrent des avantages de simplicité et de rapidité
et surtout nous permettent d'apprendre de nouvelles compétences
sans avoir à comprendre comment ". Le
constat de cet avantage dont on a souligné
plus haut à quel point il était encore largement
à vérifier est-il une raison suffisante
pour s'écrier, comme certains le font déjà
aux Etats-Unis: " AI: forget it! " ? Pour
Françoise Fogelman-Soulié, cette attitude
serait "ridicule et suicidaire". A l'idée
d'une compétition entre les deux technologies,
elle préfère celle d'une complémentarité
et d'une coopération. Les réseaux neuronaux
présentent sans doute des avantages, mais les payent
de certains inconvénients. Ainsi, ne sont-ils pas
capables d'expliquer leur comportement; d'autre part,
ils ne sont pas utiles pour résoudre des problèmes
n'impliquant pas une classification. La conception la
plus raisonnable et la plus prometteuse semble donc être
celle de systèmes hybrides. C'est aussi l'avis
du Dr Hecht-Nielsen : " Les systèmes
d'intelligence artificielle sont fondés sur la
logique, appliquée à des règles exprimées
par des experts humains, et opèrent donc à
un niveau cognitif élevé. Quant aux réseaux
neuronaux, ils opèrent au niveau du signal ou des
données. Les deux réunis devraient pouvoir
être appliqués avec succès à
des problèmes comme l'analyse de scènes,
le réseau neuronal identifiant les objets et le
système-expert interprétant la scène."
Peut-être parviendra-t-on de cette manière
à résoudre ce paradoxe énoncé
par Scott Fahlman: " L'IA peut reproduire les capacités
de raisonnement des meilleurs experts humains dans certains
cas particuliers, mais éprouve la plus grande difficulté
à approcher le bon sens et les capacités
sensorielles d'un enfant de cinq ans."
De la même façon,
il serait naïf de croire que les réseaux neuronaux
permettront de se passer de ces deux ressources chères
que sont l'expert et le cogniticien. Selon Tom States
(TSA) "L'expert du domaine est indispensable pour sélectionner
les données pertinentes", et les cogniticiens
sont nécessaires pour déterminer la manière
dont les données brutes devront être pré-traitées
et la façon d'obtenir la meilleure performance
possible.
En définitive, c'est
en se frottant à l'industrie que cette technologie
naissante trouvera son identité et sa légitimité.
Les systèmes-experts ont franchi un pas décisif
lorsqu'ils ont été capables très
récemment seulement de démontrer
leur capacité à contribuer de manière
déterminante à la production de richesses.
Il faut souhaiter que ces journées de Nîmes
auront réussi à persuader quelques-uns des
industriels présents à donner une chance
aux réseaux neuronaux.
(*) Ce texte
fut publié la première fois en 1988 dans
Le Monde Informatique
(Retour au texte)
retour
à la notice du livre
|