Megérkezett a Claude Sonnet 4.6: az Anthropic legújabb MI csodafegyvere

Claude Sonnet 4.6 az új csodafegyver?

Ha fejlesztőként, dizájnerként vagy szimplán tech-rajongóként követed a mesterséges intelligencia világának legújabb rezdüléseit, akkor biztosan felkapod a fejed a legfrissebb hírre: hivatalosan is megjelent a Claude Sonnet 4.6! Az Anthropic legújabb modellje nem csupán egy apró ráncfelvarrás az elődjéhez képest, hanem egy brutális, mindenre kiterjedő frissítés. Legyen szó programozásról, komplex logikai feladatokról, hosszan tartó asszisztens-munkáról vagy éppen a számítógép önálló kezeléséről, az új Sonnet modell egészen elképesztő számokat produkál.

De vajon tényleg akkora durranás, mint ahogy a marketinganyagok állítják? Belevetettem magam a tesztelésbe, hogy kiderítsem, mit is tud a valóságban ez a sokat ígérő rendszer. Tarts velem, és nézzük meg a részleteket!

Programozóknak kötelező darab? (Kódolási képességek a gyakorlatban)

Kezdjük rögtön azzal, ami a legtöbbünket érdekel: a kódolással. A Claude Sonnet 4.6 elvileg messze túlszárnyalja a korábbi verziókat. Az Anthropic szerint a korai tesztelők 70%-ban jobbnak értékelték, mint a 4.5-ös verziót, sőt, az esetek 59%-ában még a tavaly novemberi csúcsmodellt, az Opus 4.5-öt is maga mögé utasította.

A saját tapasztalataim pontosan ezt támasztják alá. Az elmúlt napokban ráeresztettem a Claude Sonnet 4.6-ot egy meglehetősen elhanyagolt, régi React kódbázisomra. Amit azonnal észrevettem: sokkal kevesebb a „túlgondolt” (overengineered) megoldás. Ha megkéred egy hibajavításra, nem írja újra feleslegesen a fél projektet, hanem ügyesen felméri a kontextust, és összevonja az ismétlődő logikákat. Sokkal konzisztensebb maradt a többlépcsős feladatoknál is, és végre nem kellett ötször visszakérdeznem, mert nem állította magáról hamisan, hogy sikeresen megoldott egy problémát, miközben a kód még mindig hibát dobott.

Ezen felül az új, béta fázisban lévő 1 millió tokenes kontextusablak valami zseniális. Gyakorlatilag teljes, gigantikus kódbázisokat vagy tucatnyi kutatási anyagot tölthetsz be neki egyszerre, és ami a legfontosabb: ténylegesen képes értelmezni is ezt az irdatlan mennyiségű adatot, nem csak „elfelejti” a közepét.

Amikor az MI átveszi az egeret: Forradalmi számítógép-használat

Emlékszel még arra, amikor tavaly októberben az Anthropic bemutatta a gépkezelő MI funkciót? Akkor még döcögős volt és sokszor hibázott. Na, a Claude Sonnet 4.6 ezen a téren is szintet lépett.

Az OSWorld nevű, mesterséges intelligenciák gépkezelését mérő teszten folyamatos és látványos a javulás. Az új modell már képes úgy navigálni a Chrome-ban, a LibreOffice-ban vagy a VS Code-ban, mintha csak te ülnél a gép előtt. Szimulált egérkattintások, billentyűzet-leütések – mindezt speciális API-k integrálása nélkül. Képzeld el, ahogy az MI önállóan megnyit egy bonyolult Excel táblát, kinyer belőle adatokat, majd átlép a böngészőbe, és kitölt egy többlépcsős webes űrlapot. Még nem tartunk az abszolút tökéletes emberi szinten, de a fejlődés üteme elképesztő.

Ráadásul a biztonságra is odafigyeltek: a prompt injection (amikor egy weboldalon elrejtett kód próbálja megzavarni az MI-t) elleni védelem jelentősen javult.

Stratégiai zsenialitás és gazdasági szimulációk

Ami engem személy szerint a legjobban meglepett, az a modell hosszú távú tervezési képessége. Ott van például a Vending-Bench Arena nevű teszt, ahol az MI-nek egy szimulált vállalkozást kell vezetnie a versenytársakkal szemben. A Claude Sonnet 4.6 itt egy teljesen új, meglepő stratégiát alkalmazott: az első tíz „hónapban” agresszíven, a többieknél sokkal többet költött kapacitásbővítésre, majd a véghajrában éles váltással ráfordult a profitmaximalizálásra. Ezzel a taktikával simán megnyerte a szimulációt.

Új funkciók a motorháztető alatt és változatlan árazás

A Claude Developer Platform (API) is kapott néhány nagyon hasznos újítást. Ilyen a context compaction (kontextus tömörítés), amely automatikusan összefoglalja a régebbi üzeneteket, ha a beszélgetés kezd a limithez érni. Ezzel rengeteg tokent – és pénzt – spórolhatsz. Szintén fejlesztettek a beépített webes kereső és adatletöltő (fetch) eszközökön, amelyek most már dinamikusan szűrik az eredményeket, hogy csak a releváns adatok terheljék a kontextust.

És ha Excel-huszár vagy, jó hír, hogy az Excelhez készült Claude bővítmény már támogatja az MCP (Model Context Protocol) csatlakozókat. Így anélkül húzhatsz be adatokat külső rendszerekből (mint a PitchBook vagy a FactSet) a táblázatodba, hogy elhagynád a jól megszokott Microsoft felületet.

A legjobb az egészben? Az árazás nem változott. A Claude Sonnet 4.6 maradt a megszokott 3 dollár / 15 dollár (bemenet/kimenet) per millió tokenes áron, és már most beállították alapértelmezett modellnek a claude.ai felületén a Free és Pro csomagokban egyaránt.

Szóval az Anthropic ismét magasra tette a lécet. A Claude Sonnet 4.6 egyszerre lett gyorsabb, intelligensebb és költséghatékonyabb alternatívája a drágább, lomhább modelleknek. Ha eddig Opus-t használtál a nehezebb feladatokra, érdemes most tenned egy próbát az új Sonnet-tel, mert könnyen lehet, hogy feleslegessé teszi a drágább előfizetést. Próbáld ki te is, és garantálom, hogy a kódbázisod (és a pénztárcád) is hálás lesz érte!

További érdekes cikkek

Apple M5 Pro

Miért érdemes várni az Apple M5 Pro és Max chippekre?

Az alap M5 már itt van, de a nagyágyúk még váratnak magukra Az Apple tavaly ősszel már piacra dobta az alap M5 chipet a MacBook Pro kisebb modelljében, és a teljesítménye valóban lenyűgöző lett. A tesztek szerint hatszor gyorsabb az első generációs M1-nél, az egyesített memória sebessége és a Neural Engine teljesítménye pedig kifejezetten a mesterséges intelligenciát használó feladatokban remekel. Az SSD-olvasás terén is ugrást hozott, több mint háromszor gyorsabb az előző M4-es chipnél. A

nvidia gyártási prioritás

Az Nvidia átrendezi a gyártási prioritásait: kevesebb gamer GPU, több AI chip

Memóriahiány nehezíti a videokártyák termelését Az ázsiai gyártóktól érkező értesülések szerint az Nvidia idén tavasszal harmadával, vagy akár még annál is nagyobb mértékben visszaveszi néhány népszerű GeForce RTX 50-es kártya gyártását. A problémát elsősorban a videomemória-modulok beszerzési nehézségei okozzák, ami szinte az összes chippel foglalkozó gyártót érinti. Leginkább a középkategóriás modellek szenvedik meg a helyzetet: a tizenhat gigabájtos RTX 5070 Ti és az RTX 5060 Ti gyártása esik vissza jelentősen, pedig ezek lennének a legelérhetőbbek

Ikea matter

Az IKEA új Matter-kompatibilis okosotthon terméksorozata

A Matter szabvány mint közös nyelv A Matter szabvány megjelenése forradalmi lépés az okosotthonok területén, hiszen a különböző gyártók eszközei mostantól problémamentesen együttműködhetnek egymással. A szabványt több neves cég dolgozta ki, és egyetlen cél lebeg a szereplők szeme előtt: olyan egységes protokoll létrehozása, amely egyszerűvé, átláthatóvá és rugalmasan bővíthetővé teszi otthonunk hálózatát. Ennek eredményeként a vásárlók nem ragadnak le egyetlen gyártó ökoszisztémájánál, hanem kedvük szerint válogathatnak a különböző márkák termékei közül, miközben azok zökkenőmentesen kommunikálnak