Meta a lansat modele deschise de AI Llama 3

author
5 minutes, 2 seconds Read

Dezvoltarea de modele deschise de Inteligenta Artificiala nu se va opri prea curand. Toate companiile mari investesc masiv in modele care au la baza AI-ul pentru a-si atinge diverse scopuri si a ajuta toate sectoarele care au nevoie de instrumentele AI utile. Recent Meta a anuntat doua modele din seria Llama 3, mult mai capabile si mai puternice, asa ca “razboiul” modelelor deschise de AI e doar la inceput.

Am auzit in ultima perioada, de cand ChatGPT a luat prin surprindere pe toata lumea, de modele de inteligenta artificiala. Un model de inteligenta artificiala nu e altceva decat un program special, antrenat pe baza unui set de date, set de antrenament, ca sa recunoasca usor anumite tipuri de modele.

Modelul „deschis” de AI este tot un model avansat de inteligenta artificiala care poate fi accesat de oricine doreste, utilizat si modificat dupa cum se doreste. Important de retinut ca discutam despre un cod sursa si de parametri ce vor fi inspectati si manipulati de dezvoltatori sau cercetatori, oricine doreste si se pricepe la asa ceva. Asa ajungem sa avem colaborare, inovare, transparenta cand discutam despre Inteligenta Artificiala. Cele mai bune exemple de modele „deschise” de AI ar fi BERT sau GPT (Generative Pre-trained Transformer).

Modelele deschise de AI sunt „antrenate” pe seturi de date uriase, pentru versatilitate si adaptabilitate la tot felul de aplicatii din toate domeniile posibile. Se pot face aceste „antrenamente” pentru scopuri precise, fara a fi nevoie de a antrena iarasi de la capat un model de AI. Ce poti face cu aceste modele „deschise” de Inteligenta Artificiala? Generezi text, rezumi, porti discutii „reale”, conversatii, poti avea continut generat cu un grad mare de creativitate si multe altele.

Care ar fi avantajele modelelor „deschise” de Inteligenta Artificiala?

  • Versatilitate, adaptabilitate;
  • Creativitate si inovatie la alt nivel, se construieste pe algoritmii existenti, pe modele deja antrenate;
  • Costuri reduse, procesul de dezvoltare e eficient, schimbul de date e simplu;
  • Transparenta mai mare, poate exista oricand „auditarea” codului pentru securitate, siguranta;
  • Accesibilitate, ecosistemul AI este mai incluziv;
  • Dezvoltare si cercetare, tehnologia AI avanseaza mai rapid;
  • Colaborare mai buna;
  • Educare si dezvoltarea unor abilitati necesare pentru locurile de munca ale viitorului;
  • Eficienta si productivitate imbunatatite, se automatizeaza multe sarcini, cerinte de indeplinit, repetitive.

Aplicatiile modelelor deschise de Inteligenta Artificiala sunt multe. De la generarea de continut de calitate la servicii clienti, sanatate, finante, publicitate sau design, productie, educatie si cercetare. Se adauga pe lista si entertainment, e-commerce, transport.

Meta, compania din spatele Facebook, a lansat Llama 3, o serie de modele „deschise” generative, mai corect spus are doua modele noi in familia Llama 3. Un model, Llama 3 8B, are 8 miliarde de parametri, Llama 3 70B are „doar” 70 miliarde parametri, cu mult peste ce ofereau modelele din trecut, Llama 2 8B si Llama 2 70B.

Llama 3 8B si Llama 3 70B au fost antrenate pe doua clustere 24.000 GPU, Meta a venit si cu dovezi ca sa demonstreze cat de bune sunt, un benchmark precum MMLU si rezultatele din el, dar si cu ARC, DROP. Llama 3 8B depaseste lejer alte modele deschise, Mistral 7B si Gemma 7B, ambele continand 7 miliarde de parametri, asa cum au putut dovedi cel putin noua benchmark-uri, MMLU, ARC, DROP, GPQA, HumanEval, GSM-8K, MATH, AGIEval si BIG-Bench Hard. Llama 3 8B e ceva mai sus in teste decat Mistral 7B si Gemma 7B, deci diferenta nu e uriasa.

Meta sustine sus si tare ca Llama 3 70B se poate „bate” oricand cu Gemini 1.5 Pro, ceea ce e o afirmatie care nu poate fi trecuta cu vederea asa de usor. Llama 3 70B e peste Gemini 1.5 Pro in teste MMLU, HumanEval, GSM-8K, e mai bun si decat Claude 3 Sonnet, in benchmark-uri precum MMLU, GPQA, HumanEval, GSM-8K, MATH. Si meta are propriile teste pentru modelele deschise lansate si a demonstrat ca modelul sau puternic este peste cele de la Mistral, Open AI, varianta 3.5 de GPT sau Claude Sonnet.

Noile modele lansate in familia Llama 3 nu vor mai respinge asa de multe intrebari si vor putea sa ofere raspunsuri valide si cat mai usor de inteles de cine le initiaza. Cand ai 15 trilioane de tokenuri, 750 miliarde de cuvinte chiar iti permiti sa faci orice.

De unde vin toate datele folosite de Llama 3, nu se stie inca; Meta sustine ca din surse publice. Llama 3 vine cu de patru ori mai mult cod decat Llama 2 si cu 5% mai multe date care nu au legatura cu limba engleza ca sa imbunatateasca performantele si in alte limbi decat engleza. S-au mai folosit, de asemenea, si date sintetice, date generate de AI, pentru antrenamente.

Meta are deja probleme cu tot ce tine de copyright pentru ca a folosit e-book-uri pentru antrenamentele AI, OpenAI are si ea probleme asemanatoare. Dincolo de aceste situatii, Meta promite ca noile modele deschise de AI nu vor mai genera continut „toxic”, exista filtrare mai buna, un nou instrument, Code Shield, care detecteaza codul din modelele generative AI ce ar putea veni la pachet cu vulnerabilitati si probleme de securitate.

In curand modelele Llama 3 de la Meta vor fi gazduite de platforme mari precum AWS, Databricks, Google Cloud, Hugging Face, Kaggle, WatsonX, Microsoft Azure, NIM, urmand ca in viitor sa se faca si optimizarile necesare pentru hardware de la AMD, Dell, Intel sau AWS, Nvidia, Qualcomm.

Deocamdata se foloseste peste tot termenul „open” cand vine vorba de Llama 3, vor fi disponibile cercetatorilor si aplicatiilor comerciale, dar Meta nu permite dezvoltatorilor sa foloseasca modelele sale de AI pentru antrenarea altor modele generative. Dezvoltatorii de aplicaiti cu peste 700 milioane de utilizatori lunari trebuie sa depuna o cerere de licenta speciala de la Meta pe care compania o va oferi daca vrea, daca nu, nu.

In momentul de fata Meta nu sta degeaba si antreneaza modelele Llama 3 cu peste 400 de miliarde de parametri, modele ce inteleg imagini, pot purta conversatii in limbi diferite, intelegerea e foarte buna. Lupta cu Idefics2 de la Hugging Face este pornita deja.

Pe viitor Meta a declarat ca isi propune sa transforme modelele Llama 3 intr-unele multilingvistice si multimodale, cu un context mai bine dezvoltat si o imbunatatire simtitoare pe partea de performanta legata de codare si rationamente.

Articole recomandate

Leave a Reply

Your email address will not be published. Required fields are marked *