Proiectul a avut ca rezultat construirea unui corpus de aproximativ un miliard cuvinte românești care acoperă perioada de după cel de-al Doilea Război Mondial, 300 de ore de înregistrări vocale, din 17 domenii și mai multe stiluri literare, achiziționate din romane, articole de presă, bloguri, scrieri științifice, piese de teatru etc. Textele au fost curățate, segmentate la fraze și cuvinte, iar cuvintele au fost adnotate automat cu informații morfosintactice.
Accesul în căutare multicriterială este permis prin 3 interfețe.
Corpusul poate fi folosit de persoanele interesate să învețe limba română din exemple, la clasă în scop educațional, dar și în cercetările interesate de studiile lingvistice, prelucrarea automată a limbii române, dezvoltarea modelelor de traducere, recunoaștere și sinteză automată a vorbirii și multe alte tipuri de aplicații bazate pe limbaj.
Colectarea datelor s-a realizat pe baza protocoalelor semnate cu furnizorii de texte, titulari ai drepturilor de proprietate intelectuală.
Textele sunt însoțite de metadate și au fost supuse unui lanț de procesare care combină preprocesarea manuală asistată de computer și procesarea complet automată.