Synthèse lexico-syntagmatique assistée de l'arabe voyellé

De 4000 racines à 135 millions de formes simples et agglutinées




Fathi DEBILI - Adnane ZRIBI - Chiraz BEN OTHMAN - Hadhémi ACHOUR - Emna SOUISSI
CNRS - idl
21, rue Boris Vildé - 92260 Fontenay aux Roses - France
Tél.: (33.1) 43 50 54 01
Courrier électronique : debili@idl.msh-paris.fr


Résumé

Ne serions-nous pas en train d'accomplir un nouveau saut technologique en matière de dictionnaires machines? Nous sommes tentés de le soutenir. En simplifiant, nous pourrions dire qu'il y a eu jusqu'ici trois périodes, et que nous sommes maintenant à l'aube d'une quatrième.
La première, selon Bernard Vauquois , irait jusqu'aux environs de 1961-63. Jusque là, les dictionnaires étaient constitués de listes de formes : on y répertoriait aussi bien les formes canoniques que les formes fléchies (conjuguées, pluriels, etc.). L'analyse morphologique était réduite à sa plus simple expression : juste un accès. Mais on avait quelques problèmes. La mémoire d'abord, la saisie forcément manuelle ensuite.
Commence alors une seconde période. On veut gagner en place et en couverture d'analyse sans payer le très lourd tribu de la saisie manuelle. L'idée est de recourir à non plus un, mais à plusieurs petits dictionnaires. De préfixes, suffixes, radicaux, etc.. La saisie s'en trouve allégée. La couverture augmentée. La place minimisée. On s'accommode du prix à payer : la confection de grammaires concaténatives puisqu'il faut désormais lutter contre les décompositions illicites que la combinatoire produit. Même si ces grammaires s'avèrent inachevables en fait, cette approche s'impose pratiquement sans partage jusqu'à 1977-79.
Car, les progrès technologiques aidant, on s'aperçoit que les deux griefs majeurs que l'on pouvait opposer aux dictionnaires de formes tombent. La mémoire disponible, est désormais accessible puisque moins coûteuse. La saisie manuelle ne s'impose plus puisque, sachant analyser, on sait aussi engendrer de façon automatique, sans autre investissement. Alors pourquoi ne pas réhabiliter les dictionnaires répertoriant toutes les formes, canoniques et fléchies. Les avantages sont là. Simplicité d'abord, avec une grammaire d'analyse largement allégée, et dès lors une algorithmique aérée. Ensuite et surtout, possibilité de répondre à certaines demandes. Des problématiques et applications comme la correction des graphies fautives ou la reconnaissance automatique de la parole semblent en effet requérir de tels dictionnaires. C'est le retour en force des dictionnaires de formes et le début d'une troisième période qui s'installe ainsi jusqu'à ce jour. Ce retour n'évince cependant pas la deuxième approche. On assiste plutôt à une cohabitation tant il est vrai que de fait les deux approches se complètent. On ne peut tout mettre dans les dictionnaires, on ne peut tout décrire par la grammaire. La cohabitation la plus achevée semble trouver sa réalisation dans les approches morphologiques dites à deux niveaux , où synthèse et analyse sont rassemblées.
C'est dans ce contexte général que nous présenterons nos réalisations informatiques sur la morphologie de l'arabe voyellé (le non voyellé étant obtenu par une simple dévoyellation). Nous montrerons, démonstrations à l'appui, comment nous nous y sommes pris pour construire de façon automatique ou interactive différents dictionnaires : de lemmes (75000 entrées environ), de formes (750000 entrées environ), et aussi de formes agglutinées (40 millions d'entrées environ).
Ne pouvant éviter la surgénération qu'au prix d'un investissement en grammaire qui finit par se confondre en partie avec le lexique recherché, nous montrons la nécessité pratique d'une synthèse assistée et cumulative. Ce qui nous conduit à poser le problème d'une ergonomie linguistique où ce qui est recherché est le confort et la minimisation de l'intervention manuelle.
C'est parce que nous passons comme on le voit de quelques centaines de milliers d'entrées à quelques dizaines de millions d'entrées que nous défendrons l'idée selon laquelle nous sommes là au début d'une quatrième période. Le critère que nous avançons pour définir ces époques est donc simple : il est lié au volume. Faut-il subodorer une cinquième période avec l'avènement des lexiques et des mémoires de traduction, où cette fois l'entrée peut être un syntagme, voire une phrase? Les ordres de grandeur sont à l'évidence bien plus importants. Alors oui, sans doute. Mais cette ascension vers le tout lexique ne doit nullement occulter ou laisser croire qu'il n'y aura point de problèmes algorithmiques. En particulier, avec le nombre apparaît la limite de l'intervention manuelle et la nécessaire réapparition de la grammaire pour une meilleure synthèse.


De même que nous ne pouvons croire à une grammaire de reconnaissance achevée, nous ne pouvons croire à une grammaire de synthèse achevée. Il y paradoxe Cet exposé peut laisser croire

Mais on veut aussi traiter les formes agglutinées. Le problème se pose à nouveau : dictionnaires ou grammaires. Là aussi, on commence d'abord par la grammaire. Mais ayant réalisé en partie de telles grammaires, orientées vers l'analyse dans un premier temps, on se demande très vite si l'on ne pourrait pas, en amendant éventuellement ces grammaires pour les orienter vers la synthèse, recommencer, comme par le passé, pour engendrer les formes et

Mais on veut traiter aussi les expressions, et non pas seulement les figées dont on a admis qu'elles pouvaient être traitées comme les formes simples. Non, les expressions nominales et verbales qui introduisent un ordre de grandeur tout à fait nouveau.
Le problème se pose à nouveau : dictionnaires ou grammaires. Là aussi, on commence d'abord par la grammaire. Quête inachevée. Alors pourquoi pas des dictionnaires d'expressions
Avec l'appréhension
Pourtant, pour appréhender encore mieux les d'autres applications, et toujours pour aller vers moins de grammaires, La quatrième période pourrait se caractériser par la venue
Nous pensons que l'on peut maintenant ouvrir les vannes complètement.
Ces périodes accompagnent en fait les progrès accomplis sur le plan technologiques : support


This paper is also available in rtf format