un blog de Radu Dumitru

asus s5507

►► Ofertele continuă la: eMAGFashion DaysFinestoreDysonFlip. 📺 YouTube: youtube.com/NwraduBlog ◄◄

asus s5507

Lumea roboților: cum am folosit AI-ul Gemini pentru a procesa catalogul de Black Friday

14 Nov 2024  ·

TEHNOLOGIE  ·

16 comentarii

Un catalog eMAG pentru Black Friday a scăpat pe net în acest an, cu o zi mai devreme, fiind publicat de cineva pe Softpedia și apoi pe Reddit în jurul orei 14 sau 15.

Vreo 8 ore mai târziu, un prieten mi l-a arătat și mie. Eu cred că un astfel de catalog are valoare pentru cititori doar dacă reușești să transformi fiecare produs din el într-un link, astfel încât omul să se ducă pe pagina respectivă, să vadă poze, review-urile altora, să-l discute cu nevasta sau să îl pună în favorite.

Am vrut mai mult decât “uitați-vă voi la aceste poze”. Problema este că acolo erau în jur de 120 de produse și să le scrii manual pe fiecare cu nume, preț redus și preț inițial, cum fac eu de obicei, apoi să le găsești și în magazin, este treabă de multe ore.

Am arătat imaginile altui prieten. El mi-a demonstrat că le-aș putea procesa cu un AI. Nu mă gândisem la asta.

Imaginile respective erau la rezoluție foarte proastă. Iată una full, are 444 pixeli pe orizontală. Se înțelege ce scrie în ea, dar destul de pixelat.

Cu toate acestea, Gemini sau ChatGPT nu au probleme în a recunoaște textul din imaginea respectivă. Eu am acces la Gemini Advanced și i-am dat o imagine ca să încerce. Am început cu prompt-ul “can you make a list of the products in the image?” pentru că inițial am uitat că îi pot scrie în română ceea ce vreau.

Rezultatul a fost bun și a devenit clar că Gemini este capabil să mă ajute, trebuie doar să-i spun bine ce vreau.

A urmat un șir de query-uri în care i-am zis pe rând să scoată toate informațiile din imagine și le-a scos cu liniuță. I-am zis să scoată liniuțele și mi-a dat un text dump.

Rezultatul a început să fie bun când am început să-i cer cu precizie mare ce vreau: “poți să faci lista de produse cu bullet points, păstrând doar numele produsului și apoi cratimă și prețul său redus?”. Și a făcut asta, apoi i-am cerut să adauge și prețul inițial în paranteze.

 

Rezultatul final a apărut când i-am cerut “extrage din imagine numele fiecărui produs, iar după cratimă pune pretul său redus și în paranteză prețul inițial, într-o listă cu bullet points” și apoi “în loc de prețul din paranteze, poți să-l scrii de forma “redus de la ” și prețul acela?”

Și a fost bine.

Am urcat apoi încă o imagine și i-am spus “fă și pe imaginea asta același lucru” și pe rând ulterior cu toate.

Concluzia importantă: este bine să-i ceri cu precizie mare cum vrei să arate rezultatul final. Este aproape ca în programare, unde scrii tu exact șablonul dorit și introduci variabilele unde este cazul să fie completate automat.

Acțiunea cu Gemini s-a încheiat aici pentru că nu poate face mai mult. ChatGPT este mai complex. Dacă ai planul pe bani, are acces și la Internet. Îi poți da lista de produse eMAG, cea text de mai sus, și să-i ceri să găsească linkurile acelor produse și să le scrie sub fiecare.

În practică, treaba asta cu linkurile nu merge prea bine. De exemplu, în catalog scrie “mașină de spălat Samsung” sau “iPhone 14 256 GB”, dar în magazine sunt listate zeci de mașini de spălat Samsung, diverse modele, și chiar și iPhone are mai multe culori disponibile.

Așa că am făcut-o manual, cum am făcut în fiecare an, identificând produsele pe baza imaginii lor micuțe din catalog. A mers însă repede pentru că puteam da copy-paste în search-ul eMAG la denumirea generică și nu mai tastam eu literă cu literă.

În total, totul a durat de pe la ora 22 până la ora 1 noaptea. Fără AI, probabil ar fi fost 3 noaptea. I call that a win.

 

O altă concluzie este că Gemini și ChatGPT pot recunoaște foarte bine textul dintr-o imagine. Îl puteți folosi în acest scop pe diverse imagini, poate un screenshot, poate o fotografie făcută unui text sau unui ecran la o conferință sau, de altfel, pe orice altceva.

 

HALUCINAȚII

Au fost două probleme. Prima a apărut când, din greșeala mea, i-am dat de două ori la rând aceeași imagine. Nu doar că nu a scos același rezultat ca prima oară, dar a inventat complet de la zero toate produsele din ea, cu prețuri și denumiri.

Acele produse Kring de mai sus nu există. Și dacă vă uitați la thumbnail-ul care se vede acolo, e cu televizoare și aspiratoare. Nici nu știu de unde a inventat atâtea produse.

 

Altă problemă a apărut pentru că una dintre imagini era tăiată prea scurt și prețurile reduse nu intrau în ea pentru cele trei produse aflate pe rândul cel mai de jos. Nu-i nimic, le-a știut Gemini oricum, mi-a dat trei prețuri și pentru acele produse, dar noroc că am verificat manual totul și am observat că le-a scos din silicon.

Au mai fost probleme la câteva prețuri, dar pentru că recunoașterea de imagini nu este perfectă. Cifra 1 tăiată seamănă uneori cu 4. Un 8 tăiat seamănă cu un 9 tăiat pe acel font. În 90% din cazuri, însă, nu am avut nimic de corectat.

asus s5507

    16 comentarii

  1. A, eu fix partea cu linkurile speram sa o vad facuta cu AI, ca aia mi se pare consumatoare de timp
    Transcrierea manuala a textului din poze nu cred ca iti lua mai mult de 10-15 minute, si o puteai face oricum in paralel cu cautatul produselor (citeai textul din poza si il scriai direct in search pe emag)
    Dar interesant ca experiment

      (Citează)

  2. Ai-ul e un monstrulet care consuma foarte multa energie iar folosirea lui in chestii de genul nu aduce plus valoare.

      (Citează)

    • Tocmai ți-a zis Radu că probabil a economisit 2 ore folosindu-l. Cum nu e asta plus valoare?

        (Citează)

    • Aduce o groaza de valoare prin timpul castigat – mai ales cand este o munca repetitiva si iti poate genera rezumat, bullet points si links la produse, iti poate calcula instant cat la suta este reducerea, eventual si sa iti puna reviewurile fiecarui produs + sa iti gaseasca cate alte 2-3 produse asemanatoare… posibilitatile sunt endless iar rezultatele sunt livrate in cateva secunde…

        (Citează)

    • bbcversus: iti poate calcula

      tocmai, nu prea poate calcula.
      ghiceste si o spune cu incredere :)
      de asta e dificil sa iti dai seama daca e corect ce face / spune si timpul economisit la crearea materialului il platesti inapoi la verificarea lui (uneori ramai cu profit, alteori iesi in minus, dar de fiecare data trebuie sa verifici daca vrei rezultate cat de cat corecte).

      da exista extensii gen wolfram alpha care pot fi integrate, dar lucrurile devin complexe / complicate / scumpe / etc.
      evident ca sunt situatii in care merita automatizarea cu ai, dar sunt si multe cazuri in care mai mult incurca (sau macar nu descurca pe masura efortului adaugat).

        (Citează)

    • @john2381, am vazut ca dintre toate AI-urile astea care sunt pe val acum, cel care halucineaza cel mai putin ar fi Claude.Ai.
      De cateva ori chiar mi-a raspuns ca nu are destule informatii despre un anumit subiect si nu ar vrea sa-mi ofere un raspuns gresit.

        (Citează)

  3. ChatGPT pe bani e fantastic – nu cred ca as putea renunta la el. Merita cu varf si indesat cei 23,8 $/luna.

      (Citează)

  4. Eu cred că un astfel de catalog are valoare pentru cititori doar dacă reușești să transformi fiecare produs din el într-un link

    Ai scris gresit “pentru mine”

      (Citează)

    • alex: Ai scris gresit “pentru mine”

      Cred ca e pentru ambele parti.
      Cititorii ajung usor la produs printr-un singur click. Radu primeste niste afiliere. Pana la urma trebuie sa existe si pentru Radu beneficii.

        (Citează)

  5. Bobses:
    ChatGPT pe bani e fantastic – nu cred ca as putea renunta la el. Merita cu varf si indesat cei 23,8 $/luna.

    Cât?!

      (Citează)

  6. Andrei:
    Daca munceste in locul tau la birou, merita.

    Doar că nu muncește:)

    Sunt surprins de incercarile și erorile lui Radu până să ajungă la forma finala. Dacă era absolvent de litere mai intelegeam dar a terminat politehnica, nu? 🤪
    Încearcă să folosești un template:
    Extrage info BLA BLA și folosește următorul template
    Nume produs – redus de la
    Partea cu linkul ar fi fost cea mai mișto

    Later edit: am incercat sa formatez temolateul, nu apare ok, îl las cum vrea….

      (Citează)

  7. Ai idee de o comparatie pertinenta intre Gemini, ChatGPT si Grok? Multumesc

      (Citează)

  8. Mi se pare excelent de folosit pentru task-uri time consuming de baza !

      (Citează)

    Alătură-te discuției, lasă un mesaj

    E-mail-ul nu va fi publicat. Fără înjurături și cuvinte grele, că vorbim prietenește aici. Gândiți-vă de două ori înainte de a publica. Nu o luați pe arătură doar pentru că aveți un monitor în față și nu o persoană reală.

    Apăsați pe Citează pentru a cita întreg comentariul cuiva sau selectați întâi anumite cuvinte și apăsați apoi pe Citează pentru a le prelua doar pe acelea. Link-urile către alte site-uri, dar care au legătură cu subiectul discuției, sunt ok.


    Prin trimiterea comentariului acceptați politica de confidențialitate a site-ului.



    Vreți un avatar în comentarii? Mergeți pe gravatar.com (un serviciu Wordpress) și asociați o imagine cu adresa de email cu care comentați.

    Dacă ați bifat să fiți anunțați prin email de noi comentarii sau posturi, veți primi inițial un email de confirmare. Dacă nu validați acolo alegerea, nu se va activa sistemul și după un timp nu veți mai primi nici alte emailuri

    Comentariile nu se pot edita ulterior, așa că verificați ce ați scris. Dacă vreți să mai adăugați ceva, lăsați un nou comentariu.

sus