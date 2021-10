Microsoft e Nvidia hanno creato una vasta intelligenza artificiale in grado di imitare il linguaggio umano in modo più convincente che mai. Ma il costo e il tempo coinvolti nella creazione della rete neurale hanno messo in dubbio se tali IA possano continuare a crescere.

La nuova rete neurale, nota come Megatron-Turing Natural Language Generation (MT-NLG), ha 530 miliardi di parametri, triplicando la scala della rivoluzionaria rete neurale GPT-3 di OpenAI che era considerata la migliore fino ad ora. Trattandosi di costi e tempi, va notato fin dall'inizio che questo sviluppo ha richiesto più di un mese di lavoro su un supercomputer dotato di quasi 4.500 schede grafiche molto potenti (e quindi costose), che vengono generalmente utilizzate per le alte prestazioni delle reti neurali.

MT-NLG è stato addestrato su Microsoft Azure NDv4 e sul supercomputer di apprendimento automatico Selene di Nvidia, composto da 560 server DGX A100, ciascuno con otto GPU A100 da 80 GB, su un enorme set di dati noto come The Pile. Il modello è composto da più set di dati più piccoli per un totale di 825 GB di testo ottenuto da Internet. Queste fonti vanno da articoli di Wikipedia e archivi di riviste accademiche a clip di notizie.

"La qualità e i risultati che abbiamo ottenuto oggi sono un grande passo avanti nel viaggio verso lo sblocco della piena promessa dell'intelligenza artificiale nel linguaggio naturale. Le innovazioni di DeepSpeed ​​e Megatron-LM andranno a beneficio dello sviluppo del modello di intelligenza artificiale esistente e futuro e renderanno grandi modelli di intelligenza artificiale più economico e veloce da addestrare", si legge in una dichiarazione.

Fonte: Interesting Engineering