Corpusul limbii române contemporane

Proiectul a avut ca rezultat construirea unui corpus de aproximativ un miliard cuvinte românești care acoperă perioada de după cel de-al Doilea Război Mondial, 300 de ore de înregistrări vocale, din 17 domenii și mai multe stiluri literare, achiziționate din romane, articole de presă, bloguri, scrieri științifice, piese de teatru etc. Textele au fost curățate, segmentate la fraze și cuvinte, iar cuvintele au fost adnotate automat cu informații morfosintactice.

Accesul în căutare multicriterială este permis prin 3 interfețe.

Corpusul poate fi folosit de persoanele interesate să învețe limba română din exemple, la clasă în scop educațional, dar și în cercetările interesate de studiile lingvistice, prelucrarea automată a limbii române, dezvoltarea modelelor de traducere, recunoaștere și sinteză automată a vorbirii și multe alte tipuri de aplicații bazate pe limbaj.

Colectarea datelor s-a realizat pe baza protocoalelor semnate cu furnizorii de texte, titulari ai drepturilor de proprietate intelectuală.

Textele sunt însoțite de metadate și au fost supuse unui lanț de procesare care combină preprocesarea manuală asistată de computer și procesarea complet automată.

https://corola.racai.ro/

Participare ARFI

Instituție parteneră

Denumirea completă

Corpusul limbii române contemporane-CoRoLa

Codul proiectului

Managementul proiectului

Coordonator: Dan Tufiș (ICIA-București)

Responsabil ARFI-IIT: Dan Cristea

Parteneri

  • Institutul de Inteligență Artificială „Mihai Drăgănescu” al Academiei Române
  • Institutul de Informatică Teoretică al ARFI

Perioada de desfășurare

2013 –2017

Linia de finanțare

Finanțator

Academia Română

Buget

Buget ARFI

Pagina oficială