un blog de Radu Dumitru

asus s5507

►► canalele mele de YouTube: youtube.com/RaduDumitru (personal) și youtube.com/NwraduBlog (tech) ◄◄

asus s5507

Am rulat local două AI-uri folosind NVIDIA ChatRTX și la ce ar putea fi utile acestea

25 Oct 2024  ·

TEHNOLOGIE  ·

1 comentariu

Am făcut în sfârșit ceea ce intenționam de mult: am instalat aplicația ChatRTX de la NVIDIA și l-am și folosit pe diverse seturi de date.

ChatRTX îți permite să rulezi un AI de tip large language model și să îi dai date din propriul PC pe care să le interpreteze. Totul se întâmplă local. Aplicația necesită plăci video NVIDIA GeForce RTX 3000 sau GeForce RTX 4000 pentru prelucrarea datelor, iar acestea nu pleacă niciodată spre cloud.

Știu de mult aplicația, de pe vremea când puteai să-i dai pentru interpretare doar fișiere text (pdf, docx, txt) și apoi aveai propriul AI local. Cândva în 2024 au îmbunătățit-o și cu un model AI care analizează fotografii (jpg, png, tiff și raw), iar “dialogul” se poate face inclusiv prin voce cu ChatRTX.

Și da, chiar s-a dovedit o soluție rapidă și neașteptat de performantă de a rula complet local un AI. Ai nevoie de o placă NVIDIA GeForce RTX performantă, dar aplicația este gratuită și foarte ușor de utilizat, așa că dacă aveți hardware-ul necesar și curiozitatea, instalați-o și jucați-vă cu ea.

Cerințele de sistem sunt acestea:

Aplicația arată ca mai jos, este practic un text box în care introduci query-urile tale, dar poți și să-i vorbești. Ai de ales între trei modele AI:

  1. Mistral 7B int4 – un model AI text produs de compania franceză Mistral, care este probabil cea mai mare din afara SUA în domeniul AI. Numele modelului vine de la faptul că are 7,3 miliarde de parametri.
  2. ChatGLM 3 6B int4 – tot un model AI text, dar pentru limba chineză, deci nu l-am instalat și nici utilizat.
  3. CLIP – un model AI care înțelege imagini, produs de OpenAI. OpenAI produce mai multe modele pe lângă ChatGPT, precum  Sora pentru text-to-video, DALL-E pentru text-to-image, și acest CLIP care poate interpreta imagini în format jpg, tiff, png și raw.

Mistral vine preinstalat cu ChatRTX. Am instalat eu suplimentar și CLIP, din câteva clickuri, pentru că în principal asta voiam să testez.

ChatRTX se folosește foarte ușor. În partea de sus ai două secțiuni. Din prima alegi modelul AI. Din a doua alegi datele pe care le poate analiza, adică îi indici un folder din SSD de unde să le indexeze.

Ce mi se pare important de reținut este că modelele sunt pre-antrenate. Nu-l înveți tu pe CLIP cum arată o broască țestoasă sau un burger. El deja știe asta. Tu doar îi dai un folder de imagini și îi poți cere apoi să ți le arate pe cele cu burgeri.

Și s-a dovedit că știe să recunoască burgeri.

CLIP

Ce-am observat eu testând acest model: este bine să ai imagini de rezoluție înaltă. Nu vă gândiți la cele imense, dar nici 1.280 pixeli. Am obținut rezultate mai bune testând pe imagini de dimensiuni uzuale celor produse de telefoane mobile sau camere foto.

Apoi, indexarea unui folder cu sute de fotografii durează zeci de secunde. Am testat pe GeForce RTX 3080 cu 10 GB VRAM și pe un AMD Ryzen 5800X și 32 GB RAM. Uneori indexarea aceasta nu se termină cu succes și n-am reușit să îmi dau seama dacă depinde de numărul fotografiilor, însă, în cele din urmă, poți hrăni AI-ul cu foarte multe imagini.

Și cum spuneam, funcționează de obicei bine. De exemplu, am indicat AI-ului un folder cu fotografii făcute acum câțiva ani într-un city break și apoi am început să-i pun întrebări. A recunoscut fotografiile cu mâncare:

Și, de altfel, dacă dai click pe una dintre ele ți-o deschide în viewerul default al sistemului, iar dacă dai click pe All matched images îți deschide un folder care include toate fotografiile cu mâncare pe care le-a găsit.

Metoda sa de lucru pare a fi una cu foldere, de fapt. Ia imaginile găsite și le copiază din folderul sursă într-un folder de lucru. Dacă pui altă întrebare, le șterge pe cele vechi și copiază în acel folder de lucru rezultatele pentru noua interogare.

“Pictures of people” a mers de asemenea bine, dar m-a surprins plăcut pentru ca la interogarea “pictures of people with red hair” mi-a arătat doar fotografii cu Matilda, așa cum și speram.

Modelul acesta din ChatRTX se pricepe binișor și la interpretat scene și obiecte. Am primit în general rezultatele dorite atunci când am cerut fotografii cu parcuri și apoi cu clădiri și cu mașini.

M-a surprins și mai mult când i-am cerut fotografii cu broaște țestoase și mi-a arătat exact acele imagini în care fotografiasem țestoase (și apoi similar cu umbrele). Cum spuneam, modelul este deja antrenat. Rezultatul este că, prin ChatRTX, poți avea aproape un Google Photos rulând local, pe fotografiile tale.

Are niște limitări. De exemplu, i-am cerut fotografiile făcute până în ora 13 și n-a știut ce să-mi răspundă. Asta este pentru că nu poate citi EXIF-ul pentru data și ora fotografiei, ci analizează doar conținutul ei. În schimb, o căutare după “pictures taken in the evening” mi-a arătat foarte bine doar fotografiile făcute seara pentru că a recunoscut în ele cum arată un apus de soare sau atmosfera generală de sfârșit de zi.

Uneori dă rateuri. La “pictures of people” îmi arăta și niște fotografii cu… gresie. Totuși, când am accesat toate rezultatele, acelea erau de fapt singurele erori, în rest dându-mi înapoi un folder plin de fotografii cu oameni.

Singura problemă reală a fost că rezultatele nu sunt exhaustive. Îți arată fotografii cu mâncare și cu persoane, dar nu fiecare fotografie în care apare ceva de mâncat sau un om. Altfel spus, nu este 100% precis, dar chiar și așa tot mi se pare că aplicația depășește scopul său inițial de a fi o demonstrație tehnologică.

Pentru mine, fotografiile sunt foarte importante, la fel și managementul lor. Ca idee, deși folosesc diverse software-uri pentru managementul fotografiilor, nu am niciunul în prezent care să recunoască și conținutul imaginilor pe care le indexează. Dacă vreau să găsesc o poză cu pizza, fac scroll și scroll și scroll până dau de una (sau folosesc Google Photos, dar nu am toate imaginile mele acolo).

Dacă mi-ați fi spus acum câțiva ani că o aplicație ca ChatRTX va fi disponibilă gratuit, n-aș fi crezut. Și după ce AI-urile au venit în atenția noastră, n-aș fi crezut nici că voi putea rula așa ceva local, în propriul PC, nu când uzual pe la știri auzi despre centre mari de date și reactoarele nucleare care le alimentează cu energie.

Acest NVIDIA RTX 3080 este în continuare o placă video performantă, dar a fost lansată acum 4 ani. Atunci când am luat-o, credeam că va fi utilă doar în jocuri și atât. Am râs singur de încântare când i-am cerut lui ChatRTX să-mi arate fotografii cu broaște țestoase și a făcut asta, totul alimentat de placa video.

MISTRAL

Am testat și modelul Mistral de text, chiar dacă eu personal credeam că n-am cum să-l folosesc în munca mea.

O mică problemă aici este că nu am avut multe seturi de date pe care să i le dau. Nu am multe fișiere PDF sau Word în engleză.

L-am hrănit însă cu seria Wheel of Time, scrisă de Robert Jordan, și apoi m-am jucat cerându-i lui ChatRTX informații din carte.

În general a răspuns bine:

 

Au fost și mici probleme. Au trecut mulți ani de când am citit cele 13 volume, dar nu știu cine este acel Ingtar dintre prietenii lui Rand al’Thor. Sunt destul de sigur că prietenii lui Rand sunt Merry și Pippin (glumesc!).

Alteori ne-am învârtit un pic în cerc. Eu voiam de fapt să aflu numele femeii care le conducea pe Aes Sedai. În apărarea lui Mistral, sunt 13 volume și vrăjitoarele au schimbat mai multe șefe de-a lungul lor.

Mă gândesc însă la potențialul de a hrăni modelul Mistral cu, să zicem, cursurile de la vreo materie. Sau de la toată facultatea, ca apoi să-i ceri să găsească informații de la materii studiate acum niște ani.

Și mai văd potențial și în alt scenariu de utilizare, motiv pentru care de fapt Mistral s-ar putea dovedi cel mai util model AI de acolo, chiar dacă am zis inițial că nu-l folosesc în muncă.

Uneori scriu articole care sunt documentate din tot felul de rapoarte sau white papers care au zeci sau chiar sute de pagini. Îmi ia enorm de mult să le citesc, chiar și pe sărite, pentru a ajunge la partea care mă interesează pe mine, de obicei ceva statistici.

Dacă dau acel fișier lui Mistral și apoi îi pot pune întrebări despre conținutul său, iar acesta îmi găsește direct răspunsul sau face paralelele necesare și îmi oferă “un platouaș” bun, munca mea se reduce doar la verificarea lor.

Simt că acest aspect ar putea fi util, de fapt, mult mai multor oameni. Având în vedere că toată procesarea ChatRTX este făcută local, îi poți da pentru analiză și fișiere de muncă sau orice alte date pe care poate că altfel nu le-ai transfera în cloud (desigur, câtă vreme ai o placă video NVIDIA compatibilă).

Așadar, aplicația ChatRTX o fi simplă ca interfață, dar s-ar putea dovedi de fapt chiar și mai utilă decât estimam inițial că va fi. Pe gratis. Mă gândeam chiar că, dacă NVIDIA îi adaugă niște quality of life features precum o bară de progresie pentru indexare, mesaje de eroare și posibilitatea de a analiza mii de fotografii, aș fi dispus să și plătesc pentru o soluție care rulează local.

Oricum, la final de an scriu câte un articol despre noile tehnologii (pentru mine) pe care le-am utilizat în acel an calendaristic. Acum pot adăuga și că am rulat două modele AI pe propria mea placă video și pe seturile mele de date.

 

Am uitat să zic despre controlul prin voce. Aplicația instalează și un modul numit Whisper, care înțelege ce-i spui în engleză. Apeși butonul de microfon, vorbești (eu am folosit microfonul webcam-ului), apeși Stop, iar caseta de text se populează cu cuvintele tale. 

asus s5507

    1 comentariu

  1. Pe 25 octombrie în jurul orei 13 a fost o problemă cu baza de date și s-a făcut un restore din cel mai recent backup. Din păcate, backup-ul era din 24 octombrie, ora 20 (ish), așa că articolele zilei de 25 octombrie s-au pierdut.

    Le repostez eu acum. Comentariile voastre la ele s-au pierdut, însă. Îmi pare rău că a apărut această problemă. Partea bună este că a fost doar o simplă pierdere de date, nu hacking sau altceva.

      (Citează)

    Alătură-te discuției, lasă un mesaj

    E-mail-ul nu va fi publicat. Fără înjurături și cuvinte grele, că vorbim prietenește aici. Gândiți-vă de două ori înainte de a publica. Nu o luați pe arătură doar pentru că aveți un monitor în față și nu o persoană reală.

    Apăsați pe Citează pentru a cita întreg comentariul cuiva sau selectați întâi anumite cuvinte și apăsați apoi pe Citează pentru a le prelua doar pe acelea. Link-urile către alte site-uri, dar care au legătură cu subiectul discuției, sunt ok.


    Prin trimiterea comentariului acceptați politica de confidențialitate a site-ului.



    Vreți un avatar în comentarii? Mergeți pe gravatar.com (un serviciu Wordpress) și asociați o imagine cu adresa de email cu care comentați.

    Dacă ați bifat să fiți anunțați prin email de noi comentarii sau posturi, veți primi inițial un email de confirmare. Dacă nu validați acolo alegerea, nu se va activa sistemul și după un timp nu veți mai primi nici alte emailuri

    Comentariile nu se pot edita ulterior, așa că verificați ce ați scris. Dacă vreți să mai adăugați ceva, lăsați un nou comentariu.

sus