Az OpenAI bemutatta az MI-ügynökét, ami helyettünk használja az internetet

Az Nvidia elég sok mindent mutatott be az idei CES-en, többek közt egy hozzájuk képest meglepően olcsó videókártyát is, de igazából még a gémereknek szánt hardvernél is a mesterséges intelligencia (MI) volt a fókuszban. Máshol meg aztán pláne, és elég sok szó esett az MI-ügynökökről, vagyis azokról az MI-alapú asszisztensekről, amelyek autonóm módon végre tudnak hajtani mindenféle feladatokat. Az MI-vel foglalkozó fejlesztők már hónapok óta használhattak különféle modelleket,

a héten azonban több olyan bejelentés is érkezett, amelyek az átlagembereknek is elérhetővé tették a technológiát.

Az egyik ilyen az volt, mikor a Google bejelentette, hogy saját, Gemini nevű asszisztense telefonon már képes komplexebb, alkalmazásokon átívelő feladatok megoldására. A másik csütörtökön futott be az OpenAI-tól, akik egy még ambiciózusabb megoldást jelentettek be. Ez az Operator nevű MI-ügynök, amelyet lényegében azzal tudunk megbízni, hogy internetezzen helyettünk, ezzel megspórolva nekünk azt az időt, amit például jegyek megvételével vagy a bevásárlás összerakásával töltenénk.

Az OpenAI egyelőre csak egy limitált verziót tett elérhetővé, és azt is csak a havi 200 dollárt (78 ezer forintot) fizető Pro-felhasználóknak, de a tervek szerint fokozatosan lecsorog majd a Plust használókhoz és végül mindenki máshoz is. A fejlesztők a következő hetekben férhetnek majd hozzá az Operatorhoz a cég alkalmazásprogramozási interfészén (API-ján) keresztül. Az elérhetőség mellett a technikai paraméterekről is beszélt a cég: az ügynököt egy Computer-Using Agent (CUA) nevű új modell hajtja, amely a vizuális inputok befogadására is képes GPT-4o-t házasítja össze egy, az eddiginél fejlettebb gondolkodási képességgel.

A CUA-t kifejezetten arra találták ki, hogy az emberi felhasználókra szabott grafikus kezelőfelületekkel lépjen interakcióba úgy, hogy arról képernyőképeket készít, aztán a billentyűzettel és az egérrel végrehajtja a rá kiszabott feladatokat. A folyamat úgy néz ki, mint amikor a ChatGPT-t kérjük meg valamire, csak itt az Operator fogja magát, és a saját böngészőjében végig is csinálja az egész feladatot ahelyett, hogy egyszerűen csak leírná a menetét. Közben át lehet venni az irányítást, és néha át is kell, például ha az ügynök captchába fut, be kell jelentkezni egy oldalra, vagy fizetési adatokat kell megadni.

A gyakorlatban nagyjából így néz ki a dolog:

A fenti videóban konkrét példák is láthatóak: az Operator el tudja intézni az online bevásárlást, tud jegyet venni egy Golden State Warriors–Los Angeles Lakers kosármeccsre, és asztalt is foglal egy étteremben, ha arra kérjük. Az viszont már a hivatalos demóban is látszik, hogy annyira azért még nem gördülékeny a dolog – a StubHub nevű jegyértékesítő oldalra egy hibás átirányítás miatt fel sem tudott menni, mert nagyon helyesen le volt tiltva a céges hálózaton a nem biztonságos protokoll, szóval itt rögtön bele is kellett nyúlni a folyamatba.

A demó persze ezzel együtt is elég impresszív volt, de a platformeres Casey Newton saját tesztjei alapján azért bőven van még hova fejlődni. Szerinte az Operatort egyelőre sokkal macerásabb használni, mint ha simán csak megcsinálnánk a feladatot – ez mondjuk általánosan is elég sokszor igaz az MI-re, pláne, ha olyat kérünk tőle, amihez mi magunk nem értünk –, és az olyan feladatokban, ahol mondjuk egy listát kellett összeállítania London legjobb városnéző túráiról, lassabban is teljesített, mint a ChatGPT, ami nem kattintgatja végig a szemünk láttára a TripAdvisort.

Newton szerint az is nyilvánvaló, hogy bár biztonsági szempontból érthető, hogy az Operator egy saját, teljesen szűz böngészőt használ, ez azt is jelenti, hogy a saját böngészőnk kényelme helyett minden egyes alkalommal be kell jelentkeznünk mindenhova, és újra be kell írnunk a fizetési adatainkat, ami eléggé lelassítja a használatot. Egy másik tesztelő szerint az Operator egy csomó oldalról ki is van tiltva, szóval a YouTube-ra vagy a Redditre például nem lehet felküldeni.

Ezek miatt jelenlegi állapotában nem reális, hogy valaki a mindennapokban elkezdje használni az Operatort, egyszerűen túl körülményes az egész ahhoz képest, amilyen egyszerű megcsinálni ezeket az egyszerű feladatokat a saját böngészőnkben. Az viszont már most is látszik, hogy a koncepció ígéretes, és a jövőben lehet belőle olyan termék, amelyre már tényleg rá lehet bízni a bevásárlást.

Állj ki a szabad sajtóért!

A Transtelex az olvasókból él. És csak az olvasók által élhet túl. Az elmúlt három év bizonyította, hogy van rá igény. Most abban segítsetek, hogy legyen hozzá jövő is. Mert ha nincs szabad sajtó, nem lesz, aki kérdezzen. És ha nem lesz, aki kérdezzen, előbb-utóbb csend lesz, holott tudjuk, a hallgatás nem opció.

Támogatom!
Kedvenceink
Kövess minket Facebookon is!