miercuri, 31 mai 2023

AudioGPT

 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head 

AudioGPT este un sistem de inteligență artificială multimodal [1] , care a permite procesarea complexă a informațiilor audio și a dialogului vorbit, în completarea modelelor lingvistice mari actuale, cum ar fi ChatGPT. Testat pentru înțelegerea intențiilor umane și pentru cooperare, AudioGPT prezintă capacitățile de rezolvare a sarcinilor de inteligență artificială cu ajutorul vorbirii, muzicii, sunetului și înțelegerii și generării de capete vorbitoare în dialoguri cu mai multe runde. Cum funcționează: AudioGPT este un sistem capabil să înțeleagă și să genereze conținut audio prin interacțiuni de limbaj natural cu oamenii. Face acest lucru prin utilizarea unei combinații de două tehnologii: 

 1) ChatGPT, un model de limbaj care poate înțelege și genera informații bazate pe text și

 2) modele de fundație audio, care sunt modele de învățare automată concepute special pentru a înțelege și genera conținut audio. 





AudioGPT funcționează în mai multe etape. În primul rând, acesta transformă sunetul vorbit în text. Apoi, acesta analizează sarcina în cauză și o atribuie modelului de fundație audio corespunzător. Modelul de bază procesează informațiile audio și oferă un răspuns în format text, pe care AudioGPT îl convertește înapoi în audio vorbit pentru utilizator. În general, AudioGPT permite oamenilor să comunice cu ușurință sarcini audio complexe și le dă posibilitatea de a crea conținut audio divers și bogat.

[1] Un sistem de inteligență artificială care poate procesa și înțelege informații din mai multe surse sau modalități, cum ar fi textul, imaginile, videoclipurile și sunetul.

Modelele lingvistice mari (Large language models - LLM) precum ChatGPT au revoluționat procesarea limbajului natural. Cu toate acestea, LLM-urile se luptă cu procesarea informațiilor audio, care sunt esențiale pentru realizarea inteligenței generale artificiale. AudioGPT excelează în înțelegerea și generarea vorbirii, a muzicii, a sunetului și a dialogurilor cu mai multe runde. Formarea LLM-urilor pentru procesarea audio este o provocare din cauza datelor și a resurselor computaționale limitate. Prin urmare, folosim o interfață de uz general (ChatGPT) pentru a permite AudioGPT să rezolve numeroase sarcini de înțelegere și generare audio. LLM-urile multimodale devin din ce în ce mai populare și este necesar să se evalueze performanța acestora în înțelegerea intenției umane și în coordonarea mai multor modele de fundație. Această lucrare prezintă principiile de proiectare și procesul de evaluare a AudioGPT, care este capabil să proceseze informații audio complexe în dialoguri cu mai multe runde. Evaluating Multi-Modal LLMs Popularitatea LLM-urilor multimodale a crescut si a creat nevoia de a evalua performanța acestora în înțelegerea intenției umane, raționamentul și coordonarea modelelor de fundație audio. Vom evalua LLM-urile multimodale (în special, AudioGPT) în trei domenii:

 1) Consecvența în înțelegerea intenției utilizatorului și atribuirea modelelor de fundație audio adecvate; [1] Un sistem de inteligență artificială care poate procesa și înțelege informații din mai multe surse sau modalități, cum ar fi textul, imaginile, videoclipurile și sunetul. 



2) Capacitatea de a gestiona sarcini audio complexe, cum ar fi generarea de vorbire și muzică; 



 3) Robustețea în tratarea cazurilor speciale. Pentru a testa dacă LLM-urile multimodale pot raționa și rezolva probleme fără o pregătire explicită, evaluăm consistența lor. Cerem adnotatorilor umani să furnizeze indicații pentru fiecare sarcină și folosim capacitatea de generare de limbaj a LLM-urilor pentru a produce descrieri cu diferite expresii. Apoi, cerem evaluatorilor umani din mulțime să evalueze cât de bine se aliniază răspunsul LLM-ului cu cogniția și intenția umană pe o scală Likert 20-100, fără exemple prealabile de sarcini. Rezultatele sunt documentate cu intervale de încredere de 95%. Pentru a evalua robustețea LLM-urilor multimodale, testăm capacitatea acestora de a gestiona cazuri speciale. Aceste cazuri se încadrează în mai multe categorii, inclusiv lanțuri lungi de evaluare, sarcini fără suport, gestionarea erorilor modelelor multimodale și întreruperi în context. Lanțurile lungi de evaluare implică un lanț de sarcini care poate fi prezentat ca o interogare care necesită aplicarea secvențială a modelelor audio candidate sau ca interogări consecutive care solicită sarcini diferite. Sarcinile nesuportate se referă la interogări care necesită sarcini care nu sunt acoperite de modelele de bază, în timp ce gestionarea erorilor modelelor multimodale se referă la scenarii în care modelele de bază eșuează din cauza argumentelor sau a formatelor de intrare nesuportate. În cele din urmă, întreruperile de context se referă la procesarea interogărilor care nu se află într-o secvență logică, cum ar fi atunci când un utilizator trimite interogări aleatorii într-o secvență de interogări, dar continuă să continue cu interogări anterioare care au mai multe sarcini.

Limitari 

 Deși AudioGPT excelează în rezolvarea unor sarcini complexe de inteligență artificială legate de audio, au putut fi observate limitări în acest sistem, după cum urmează: 

 1) Inginerie de prompt: AudioGPT utilizează ChatGPT pentru a conecta un număr mare de un număr mare de modele de fundație și, prin urmare, necesită inginerie promptă pentru a descrie fundația audio modelele de fundație audio în limbaj natural, ceea ce ar putea necesita timp și expertiză; 

 2) Lungime Limitare: Lungimea maximă a token-urilor din ChatGPT poate limita dialogul cu mai multe ture, ceea ce, de asemenea influențează instrucțiunea de context a utilizatorului;

 3) Limitarea capacității: AudioGPT se bazează în mare măsură pe modele de fundație audio pentru a procesa informațiile audio, care este puternic influențat de acuratețea și eficacitatea acestor modele. 

Arhitectură 

AudioGPT utilizează o arhitectură multimodală care combină modelul de limbaj ChatGPT cu modelele de bază audio și o interfață de transformare a modalității pentru a permite dialogul vorbit. Sistemul valorifică puterea modelelor lingvistice de mari dimensiuni preinstruite, cum ar fi ChatGPT, pentru a gestiona procesarea limbajului natural, integrând, în același timp, modele specifice audio pentru a gestiona sarcinile legate de audio, cum ar fi recunoașterea vorbirii, analiza muzicii și generarea de sunete. AudioGPT este un sistem care combină ChatGPT cu modele de fundație audio și o interfață de transformare a modalității pentru a gestiona sarcinile audio și a permite dialogul vorbit. Acesta are performanțe bune în ceea ce privește transformarea modalității, analiza sarcinilor, atribuirea modelelor și generarea de răspunsuri. Pentru a evalua abilitățile sale, AudioGPT a fost testat în ceea ce privește coerența, capacitatea și robustețea în înțelegerea și generarea vorbirii, a muzicii, a sunetului și a capului vorbitor în dialoguri cu mai multe runde. Rezultatele au arătat că AudioGPT este mai performant în rezolvarea sarcinilor de inteligență artificială legate de audio, facilitând crearea de conținut audio divers de către oameni. 

Niciun comentariu:

Trimiteți un comentariu

MNIST Digit Classification

  MNIST MNIST este un set de date clasic în domeniul recunoașterii de imagini, utilizat  pentru a antrena și evalua algoritmi de învățare au...