Proiectul se situează în continuarea cercetărilor întreprinse în cadrul grantului Dicţionarul limbii române în format electronic. Studii privind achi-ziţionarea (cod CNCSIS 1815) desfăşurat în perioada 2003–2005. Eşantionul achiziţionat este format din 544 de articole, prelucrate în format XML cu ajutorul DLRex, preluate atât din seria veche, cât şi din seria nouă a dicţionarului DA+DLR. Această operaţie înlesneşte unificarea din punct de vedere tehnic (lexicografic şi computaţional) şi ştiinţific (lingvistică generală şi computaţională) a celor două structuri lexicografice, veche şi nouă, ale Dicţionarului limbii române.
Din punct de vedere lingvistic, cercetarea din cadrul proiectului a avut în vedere:
a) stabilirea listei de cuvinte actualizată în conformitate cu toate volu-mele DLR publicate şi cu materialul lexical cuprins în MDA (în corelaţie cu DA şi cu ultimele cercetari lingvistice în domeniu) a două categorii de nume: derivatele pe terenul limbii române cu sufixul –ime (de origine latină) şi cele cu –işte (de origine veche slavă);
b) analiza lexicologică, statistică, tipologia semantică, structura grama-ticală şi etimologică a derivatelor inseriate în listă.
Proiectul a demarat cu două tipuri de operaţii computaţionale:
1) achiziţionarea şi prelucrarea informatică a textelor lexicografice din seria nouă a DLR (articolele din porţiunea L – Z);
2) achiziţionarea pe suport electronic şi actualizarea din punct de vedere lingvistic (etimologie, diacronie, distribuţie dialectală, prime atestări, filiaţie a sensurilor etc.) a textelor lexicografice din DA (corespunzând por-ţiunii literelor A-J).
În prelucrarea informatică a acestor texte:
– s-a folosit DLRex (rafinat şi adaptat în cadrul operaţiei 1);
– s-a realizat achiziţionarea în format electronic a porţiunilor din DA care cuprind derivatele în –ime şi –işte.
Unul dintre obiectivele principale ale acestui grant a fost argumentarea suplimentară a faptului că un proiect academic privind achiziţionarea, actualizarea şi unificarea Dicţionarului limbii române este fezabil în mod performant din punctul de vedere al duratei de realizare şi al calităţii ştiinţifice.
Contribuţia ştiinţifică vizată de proiectul propus a reprezentat, din punct de vedere computaţional, o primă tentativă de achiziţionare electronică în mod paralel a unor texte lexicografice din seria veche DA a Dicţionarului limbii române şi din seria nouă DLR a acestuia. Prin utilizarea DLRex, rafinat conform textelor achiziţionate, s-a întreprins o premieră absolută atât la nivelul lingvisticii computaţionale româneşti, cât şi la acela al lexicografiei române: actualizarea şi unificarea, cu ajutorul instrumentelor şi tehnologiei create, a unui grup semnificativ pentru limba română de articole lexicografice decalate, ca tehnică lexicografică şi informaţie lingvistică, la momentul desfăşurării proiectului.
Din punct de vedere lingvistic, se propune structurarea unei serii de lexeme (articole de dicţionar) care vizează analiza contrastivă a două grupuri lexicale (cel al derivatelor pe teren romanesc cu sufixul –işte şi acela al deriva-telor cu –ime) pe baza tratării lor lexicografice în Dicţionarul limbii române, DA+DLR. Prin actualizarea lingvistică şi lexicală a listei de cuvinte (a intrărilor) din DA, plecând de lucrările de specialitate anterioare, cele două grupuri ale derivatelor actualizate şi analizate în întregime pe baza Dicţionarului limbii române au fost: 1) studiate minuţios din punctul de vedere al etimologiei, al structurii semantice şi noţionale, al repartiţiei dialectale, stilistice; 2) taxonomizate în funcţie de o multitudine de criterii relevate de achiziţionarea electronică a faptelor lexicale.
Prin urmare, analiza lingvistică şi cea informatică a fenomenului derivării cu sufixele -ime şi -işte pe teren românesc pleacă de la achiziţionarea electronică a acestor derivate din DA+DLR, de la studiul lingvistic al acestor derivate în întreaga literatură de specialitate, realizându-se, astfel, în lexicografia românească, primul eşantion lexical care include un corpus de articole DA+DLR unificat şi actualizat lexicografic.
Modificarea cantitativă a derivatelor analizate până la momentul proiectului, a impus o reajustare a gândirii fenomenului. În cazul unui material lexical care cuprindea, înaintea cercetării din proiectul de faţă, un corpus de cca 300 de lexeme, după realizarea cercetării din proiect se prezintă un corpus care conţine un număr de 720 lexeme. Parametrii analizei se amplifică, modificându-se semnificativ.
Aşadar, primul scop al cercetării a fost punerea în valoare a materialului lexicografic, cuprins în cele aproape 18.000 pagini ale DA+DLR, grupat pe categorii lexicologice.
Un alt obiectiv al proiectului a vizat analiza lingvistică de tip contrastiv a cuvintelor cuprinse în cele două grupuri lexicale. Contrastivitatea presupune o corelare a faptelor de limbă la nivel lexical şi gramatical a) în cadrul fiecărui grup în parte şi b) a celor două grupuri între ele. S-a făcut efortul conturării unor subgrupuri caracterizate de trăsături lingvistice dominante. În funcţie de aceste considerente s-au putut stabili noi poziţionări diatopice, diafazice şi diastratice în structura generală a categoriei. Marcarea şi rezolvarea (acolo unde a fost cazul) a unor omonimii (cf. capişte, oişte – derivate, capişte, oişte – primitive, hurişte1,2, molişte1,2, noime1,2, şesime1,2), discutarea, propunerea şi corijarea unor etimologii (albinărime, arzime, atingime, bătucelişte, buchelişte, câtăţime, cinstelişte, ciocănişte, cioclime, cioclovime, codărişte, cotişte, găinărişte, greime, gurlişte, hurişte1, izbelişte, învechime, lungărime, pribegişte, secovişte, târgolişte), modificarea ariei de circulaţie în limbă a unor cuvinte (arăbime, arăpime, curechişte, greime, golişte, hoţime, inulişte, omenime etc.) şi altele, toate acestea au putut fi făcute datorită vizualizării acestor elemente în totalitatea lor lexicografică.
Pentru eficientizarea operaţiei de recuperare a derivatelor din cele două serii ale dicţionarului academic au fost scanate paginile din tomurile cores-punzătoare. Apoi acestea au fost prelucrate de un program de recunoaştere optică a caracterelor pentru transformarea lor din imagini de tip .tif în docu-mente de tip .rtf. Astfel, a fost înlesnită sarcina filologilor de corectare şi recuperare a materialului lexicografic.
Următorul obiectiv din această etapă a fost reprezentat de actualizarea, din punctul de vedere al tehnicii lexicografice, a articolelor din DA supuse cercetării. S-a urmărit astfel unificarea tehnică, din perspectiva normelor de redactare, a derivatelor analizate după metodele din seria nouă DLR.
Lexiconul astfel obţinut (o primă formă a dicţionarului de derivate DTLRd) a relevat o suită de noi probleme rezultate mai ales din corelarea semantică a categoriilor de definiţii. Analiza focalizată pe materialul obţinut a evidenţiat evoluţia fenomenului lingvistic analizat din perspectiva istoriei limbii române (literare), a structurii semantice a celor două grupuri de derivate, a categoriei gramaticale a cuvintelor-bază, a repartiţiei dialectale, stilistice etc. a lexemelor studiate.
Proiectul iniţiat a fost finalizat printr-un volum alcătuit din două părţi.
Prima parte cuprinde patru studii, reprezentând tot atâtea capitole ale cărţii: 1) Derivatele cu sufixul -ime (p. 23-83), redactat de Elena Dănilă (Tamba) 2) Derivatele cu sufixul -işte (p. 85-112), redactat de Cristina Florescu, 3) un studiu de caz privind relevanţa fenomenului în limba română literară veche (limba lui Dosoftei), Valorificări la nivelul limbii literare. Studiu de caz: Dosoftei (p. 113-128), redactat de Laura Manea şi 4) prezentarea cercetării computaţionale care a înlesnit studiul lingvistic: Cadrul informatic (p. 129-150), redactat de Marius-Radu Clim.
Partea a doua este reprezentată de DTLRd (p. 173-354) care însumează derivatele în discuţie, dicţionarul alcătuit pe baza DA şi DLR unificate şi actualizate.