IUF 20 ans
 

Comment bâtir une ressource lexicale ? L’exemple de Frantext

Véronique Montemont

Université Henri Poincaré, Nancy 1.

Cette com­mu­ni­ca­tion se pro­pose de pré­sen­ter une res­source lexi­cale, Frantext (www.fran­text.fr). Initialement conçue pour ali­men­ter en exem­ples le Trésor de la langue fran­çaise, dic­tion­naire de réfé­rence, ce réser­voir de 4000 textes infor­ma­ti­sés est ensuite devenu une base de don­nées acces­si­ble au public, moyen­nant abon­ne­ment. À l’époque de sa créa­tion, dans les années 70, Frantext était pion­nière : l’idée même de cons­truire un dic­tion­naire à partir d’un ensem­ble de textes ayant subi un trai­te­ment auto­ma­tisé repré­sen­tait une révo­lu­tion dans le pay­sage lexi­co­gra­phi­que. Ce qui sera l’occa­sion de pré­sen­ter briè­ve­ment la métho­do­lo­gie des rédac­teurs de ce dic­tion­naire aty­pi­que, aujourd’hui mis en ligne (http://atilf.atilf.fr/tlf.htm). Qu’en est-il qua­rante ans après ? Le déve­lop­pe­ment de grands corpus infor­ma­ti­sés, comme Google Livres ou Gallica semble avoir tota­le­ment bou­le­versé la donne : on est passé d’une opti­que d’échantillonnage à celle d’une mas­si­fi­ca­tion, avec la saisie de plu­sieurs mil­lions de réfé­ren­ces. Les « peti­tes » bases de don­nées sem­blent désor­mais cadu­ques, l’idéal sem­blant consis­ter ras­sem­bler des corpus de plus en plus impor­tants en taille. Cependant, une res­source lin­guis­ti­que sans un outil de recher­che per­fec­tionné pose la ques­tion de sa réelle uti­lité : de ce point de vue, les moteurs de recher­che des bases mons­tres demeu­rent rudi­men­tai­res, et génè­rent des résul­tats for­te­ment « brui­tés ». Frantext, qui com­bine un réser­voir de textes et un logi­ciel de recher­ches, Stella, est une manière de réflé­chir à une concep­tion alter­na­tive de la res­source : un corpus res­treint, mais équilibré, balisé, équipé de des­crip­teurs (appe­lés « méta­don­nées ») précis, et pro­po­sant des fonc­tions de recher­che avan­cées. Quelques exem­ples de requê­tes effec­tuées avec Stella mon­tre­ront que la force d’une res­source tex­tuelle n’est pas for­cé­ment dans la capi­ta­li­sa­tion quan­ti­ta­tive. Mais qu’en revan­che, il est indis­pen­sa­ble de penser son uti­li­sa­tion pour la rendre capa­ble de pro­duire des résul­tats per­ti­nents, tant pour un lin­guiste qu’un lit­té­raire ou qu’un his­to­rien.

How to create a lexical resource : the case of Frantext

This paper aims to pre­sent a pio­nee­ring lexi­cal resource, Frantext. When it was laun­ched, the pro­ject consis­ted in digi­ta­li­zing a thou­sand texts so as to excerpt exam­ples inten­ded for a gigan­tic dic­tio­nary, the Trésor de la Langue Française (http://atilf.atilf.fr/tlf.htm). We will first say a few words about this inno­va­tive lexi­co­gra­phi­cal under­ta­king and about its unique result, the TLFi. The data­base, called Frantext in 1984, kept gro­wing as the dic­tio­nary went on and is conti­nually enri­ched : it now encom­pas­ses 4000 refe­ren­ces and has been avai­la­ble online since 1998. But forty years after the begin­ning of the pro­ject, the situa­tion has pro­foundly chan­ged. Huge cor­pora, such as Google Books or Gallica, have appea­red during the last deca­des and gathe­red mil­lions of refe­ren­ces. Their pur­pose is no longer to offer a lin­guis­tic or lite­rary sample, but to give direct access to the contents of entire libra­ries. In com­pa­ri­son, small bases such as Frantext may seem use­less. Nevertheless, search engi­nes of the most well-know resour­ces often remain poor and the mass of refe­ren­ces retur­ned after each query pre­vents resear­chers from get­ting rele­vant infor­ma­tion. Frantext still has a role to play, inso­far as it com­bi­nes texts and a search engine, Stella. It illus­tra­tes ano­ther concep­tion of what a useful lexi­cal resource may consist in today : a limi­ted corpus, des­cri­bed by nume­rous and relia­ble meta­data, and equip­ped with a power­ful search engine. Building a tex­tual resource does not simply consist in pro­po­sing a huge and hete­ro­ge­neous data reser­voir ; it also implies metho­do­lo­gi­cal issues and a reflec­tion about the means and the tools neces­sary to explore it.