Soluțiile Big Data se extind în tehnologiile de ameliorare a plantelor de la secvențierea ADN-ului de mare capacitate la alte tehnologii „omice” și fenotiparea digitală. Cercetarea acestor seturi de date enorme creează noi oportunități pentru înțelegerea performanței culturilor în diferite medii, dar prezintă și „challenging bottlenecks” pentru analiza datelor. Pentru a atinge obiectivele mai eficient, amelioratorii de plante și oamenii de știința care se ocupă de cultura plantelor trebuie să ia decizii inteligente care se bazează pe capacitățile lor de a extrage informații utile din seturi mari de date, iar algoritmii de învățare automată (ML) reprezintă o soluție adecvată pentru a înțelege aceste seturi de date.
Proiectul își propune să testeze și să dezvolte noi modele ML care pot integra eficient diferite tipuri de date din volume mari de date (Big Data) pentru a îmbunătăți predicțiile genetice cantitative, pentru selecția și clasificarea soiurilor de culturi superioare.
Seturile de date de testare și validare cuprind diverse combinații de date fenotip pentru trăsături importante, profiluri de markeri la nivel de genom, secvențe de genom, transcriptom, seturi mici de date ARN și date colectate pe parcursul mai multor ani în mai multe medii. Seturi de date adecvate au fost integrate în modelele ML pentru a accelera progresul reproducerii și pentru a satisface nevoile umane viitoare.