Corpusul limbii române contemporane

Proiectul a avut ca rezultat construirea unui corpus de aproximativ un miliard cuvinte românești care acoperă perioada de după cel de-al Doilea Război Mondial, 300 de ore de înregistrări vocale, din 17 domenii și mai multe stiluri literare, achiziționate din romane, articole de presă, bloguri, scrieri științifice, piese de teatru etc. Textele au fost curățate, segmentate la fraze și cuvinte, iar cuvintele au fost adnotate automat cu informații morfosintactice.

Accesul în căutare multicriterială este permis prin 3 interfețe.

Corpusul poate fi folosit de persoanele interesate să învețe limba română din exemple, la clasă în scop educațional, dar și în cercetările interesate de studiile lingvistice, prelucrarea automată a limbii române, dezvoltarea modelelor de traducere, recunoaștere și sinteză automată a vorbirii și multe alte tipuri de aplicații bazate pe limbaj.

Colectarea datelor s-a realizat pe baza protocoalelor semnate cu furnizorii de texte, titulari ai drepturilor de proprietate intelectuală.

Textele sunt însoțite de metadate și au fost supuse unui lanț de procesare care combină preprocesarea manuală asistată de computer și procesarea complet automată.

https://corola.racai.ro/

Academia Română
Filiala Iași

Participare ARFI

Denumirea completă

Codul proiectului

Managementul proiectului

Parteneri

Perioada de desfășurare

Tipul proiectului

Linia de finanțare

Finanțator

Buget

Buget ARFI

Pagina oficială

Interes public

Institute și centre de cercetare ARFI

Linkuri utile

© Academia Română, Filiala Iași

28/07/2026 06:42

Dezvoltare web: Codrin Dinu Vasiliu | Iuliana Groza