Proiectul își propune să dezvolte o reprezentare semantică aplicabilă lingvistic, cu un accent deosebit pe datele românești. Reprezentarea semantică primește o atenție tot mai mare în lingvistica computațională în ultimii câțiva ani când au fost create multe propuneri de scheme de reprezentare semantică.
Combinând progresele recente în analiza semantică, mașina este mai aproape ca niciodată de a înțelege textele și a demonstrat deja aplicabilitatea abilităților umane în rezumare, detectarea parafrazelor și evaluarea semantică.
Proiectul aplică metode de învățare automată și de încorporare a cuvintelor pentru a procesa un miliard de cuvinte din 7 domenii științifice și 70 de subdomenii, în vederea identificării semnificațiilor cuvintelor în contexte și pentru cuantificarea modificărilor semantice, prin evaluarea utilizării cuvintelor pe date textuale utilizând metode supravegheate.