Comment bâtir une ressource lexicale ? L’exemple de Frantext

Université Henri Poincaré, Nancy 1.

texte
av

Cette communication se propose de présenter une ressource lexicale, Frantext (www.frantext.fr). Initialement conçue pour alimenter en exemples le Trésor de la langue française, dictionnaire de référence, ce réservoir de 4000 textes informatisés est ensuite devenu une base de données accessible au public, moyennant abonnement. À l’époque de sa création, dans les années 70, Frantext était pionnière : l’idée même de construire un dictionnaire à partir d’un ensemble de textes ayant subi un traitement automatisé représentait une révolution dans le paysage lexicographique. Ce qui sera l’occasion de présenter brièvement la méthodologie des rédacteurs de ce dictionnaire atypique, aujourd’hui mis en ligne (http://atilf.atilf.fr/tlf.htm). Qu’en est-il quarante ans après ? Le développement de grands corpus informatisés, comme Google Livres ou Gallica semble avoir totalement bouleversé la donne : on est passé d’une optique d’échantillonnage à celle d’une massification, avec la saisie de plusieurs millions de références. Les « petites » bases de données semblent désormais caduques, l’idéal semblant consister rassembler des corpus de plus en plus importants en taille. Cependant, une ressource linguistique sans un outil de recherche perfectionné pose la question de sa réelle utilité : de ce point de vue, les moteurs de recherche des bases monstres demeurent rudimentaires, et génèrent des résultats fortement « bruités ». Frantext, qui combine un réservoir de textes et un logiciel de recherches, Stella, est une manière de réfléchir à une conception alternative de la ressource : un corpus restreint, mais équilibré, balisé, équipé de descripteurs (appelés « métadonnées ») précis, et proposant des fonctions de recherche avancées. Quelques exemples de requêtes effectuées avec Stella montreront que la force d’une ressource textuelle n’est pas forcément dans la capitalisation quantitative. Mais qu’en revanche, il est indispensable de penser son utilisation pour la rendre capable de produire des résultats pertinents, tant pour un linguiste qu’un littéraire ou qu’un historien.

How to create a lexical resource : the case of Frantext

This paper aims to present a pioneering lexical resource, Frantext. When it was launched, the project consisted in digitalizing a thousand texts so as to excerpt examples intended for a gigantic dictionary, the Trésor de la Langue Française (http://atilf.atilf.fr/tlf.htm). We will first say a few words about this innovative lexicographical undertaking and about its unique result, the TLFi. The database, called Frantext in 1984, kept growing as the dictionary went on and is continually enriched : it now encompasses 4000 references and has been available online since 1998. But forty years after the beginning of the project, the situation has profoundly changed. Huge corpora, such as Google Books or Gallica, have appeared during the last decades and gathered millions of references. Their purpose is no longer to offer a linguistic or literary sample, but to give direct access to the contents of entire libraries. In comparison, small bases such as Frantext may seem useless. Nevertheless, search engines of the most well-know resources often remain poor and the mass of references returned after each query prevents researchers from getting relevant information. Frantext still has a role to play, insofar as it combines texts and a search engine, Stella. It illustrates another conception of what a useful lexical resource may consist in today : a limited corpus, described by numerous and reliable metadata, and equipped with a powerful search engine. Building a textual resource does not simply consist in proposing a huge and heterogeneous data reservoir ; it also implies methodological issues and a reflection about the means and the tools necessary to explore it.