Az OpenAI bemutatta az MI-ügynökét, ami helyettünk használja az internetet
2025. január 24. – 09:51
Az Nvidia elég sok mindent mutatott be az idei CES-en, többek közt egy hozzájuk képest meglepően olcsó videókártyát is, de igazából még a gémereknek szánt hardvernél is a mesterséges intelligencia (MI) volt a fókuszban. Máshol meg aztán pláne, és elég sok szó esett az MI-ügynökökről, vagyis azokról az MI-alapú asszisztensekről, amelyek autonóm módon végre tudnak hajtani mindenféle feladatokat. Az MI-vel foglalkozó fejlesztők már hónapok óta használhattak különféle modelleket,
a héten azonban több olyan bejelentés is érkezett, amelyek az átlagembereknek is elérhetővé tették a technológiát.
Az egyik ilyen az volt, mikor a Google bejelentette, hogy saját, Gemini nevű asszisztense telefonon már képes komplexebb, alkalmazásokon átívelő feladatok megoldására. A másik csütörtökön futott be az OpenAI-tól, akik egy még ambiciózusabb megoldást jelentettek be. Ez az Operator nevű MI-ügynök, amelyet lényegében azzal tudunk megbízni, hogy internetezzen helyettünk, ezzel megspórolva nekünk azt az időt, amit például jegyek megvételével vagy a bevásárlás összerakásával töltenénk.
Az OpenAI egyelőre csak egy limitált verziót tett elérhetővé, és azt is csak a havi 200 dollárt (78 ezer forintot) fizető Pro-felhasználóknak, de a tervek szerint fokozatosan lecsorog majd a Plust használókhoz és végül mindenki máshoz is. A fejlesztők a következő hetekben férhetnek majd hozzá az Operatorhoz a cég alkalmazásprogramozási interfészén (API-ján) keresztül. Az elérhetőség mellett a technikai paraméterekről is beszélt a cég: az ügynököt egy Computer-Using Agent (CUA) nevű új modell hajtja, amely a vizuális inputok befogadására is képes GPT-4o-t házasítja össze egy, az eddiginél fejlettebb gondolkodási képességgel.
A CUA-t kifejezetten arra találták ki, hogy az emberi felhasználókra szabott grafikus kezelőfelületekkel lépjen interakcióba úgy, hogy arról képernyőképeket készít, aztán a billentyűzettel és az egérrel végrehajtja a rá kiszabott feladatokat. A folyamat úgy néz ki, mint amikor a ChatGPT-t kérjük meg valamire, csak itt az Operator fogja magát, és a saját böngészőjében végig is csinálja az egész feladatot ahelyett, hogy egyszerűen csak leírná a menetét. Közben át lehet venni az irányítást, és néha át is kell, például ha az ügynök captchába fut, be kell jelentkezni egy oldalra, vagy fizetési adatokat kell megadni.
A gyakorlatban nagyjából így néz ki a dolog:
A fenti videóban konkrét példák is láthatóak: az Operator el tudja intézni az online bevásárlást, tud jegyet venni egy Golden State Warriors–Los Angeles Lakers kosármeccsre, és asztalt is foglal egy étteremben, ha arra kérjük. Az viszont már a hivatalos demóban is látszik, hogy annyira azért még nem gördülékeny a dolog – a StubHub nevű jegyértékesítő oldalra egy hibás átirányítás miatt fel sem tudott menni, mert nagyon helyesen le volt tiltva a céges hálózaton a nem biztonságos protokoll, szóval itt rögtön bele is kellett nyúlni a folyamatba.
A demó persze ezzel együtt is elég impresszív volt, de a platformeres Casey Newton saját tesztjei alapján azért bőven van még hova fejlődni. Szerinte az Operatort egyelőre sokkal macerásabb használni, mint ha simán csak megcsinálnánk a feladatot – ez mondjuk általánosan is elég sokszor igaz az MI-re, pláne, ha olyat kérünk tőle, amihez mi magunk nem értünk –, és az olyan feladatokban, ahol mondjuk egy listát kellett összeállítania London legjobb városnéző túráiról, lassabban is teljesített, mint a ChatGPT, ami nem kattintgatja végig a szemünk láttára a TripAdvisort.
Newton szerint az is nyilvánvaló, hogy bár biztonsági szempontból érthető, hogy az Operator egy saját, teljesen szűz böngészőt használ, ez azt is jelenti, hogy a saját böngészőnk kényelme helyett minden egyes alkalommal be kell jelentkeznünk mindenhova, és újra be kell írnunk a fizetési adatainkat, ami eléggé lelassítja a használatot. Egy másik tesztelő szerint az Operator egy csomó oldalról ki is van tiltva, szóval a YouTube-ra vagy a Redditre például nem lehet felküldeni.
Ezek miatt jelenlegi állapotában nem reális, hogy valaki a mindennapokban elkezdje használni az Operatort, egyszerűen túl körülményes az egész ahhoz képest, amilyen egyszerű megcsinálni ezeket az egyszerű feladatokat a saját böngészőnkben. Az viszont már most is látszik, hogy a koncepció ígéretes, és a jövőben lehet belőle olyan termék, amelyre már tényleg rá lehet bízni a bevásárlást.
Adó 3,5%: ne hagyd az államnál!
Köszönjük, ha idén adód 3,5%-ával a Transtelex Média Egyesületet támogatod! A felajánlás mindössze néhány percet vesz igénybe oldalunkon, és óriási segítséget jelent számunkra.
Irány a felajánlás!