Patrick Zandl's Blog: Marigold.cz, page 9

May 22, 2025

Nový model Claude Opus 4 vydíral vývojáře odhalením jeho poměru

Nový jazykový model Claude Opus 4 umí vydírat vývojáře. Uvedl to sám Anthropic v Claude 4 System Card.

Jedná se o extrémně znepokojivý bezpečnostní nález z “alignment testování” Claude Opus 4. Anthropic testoval, jak se model chová v situacích ohrožujících jeho “přežití”. A zapsal k tomu do zprávy následující:

V další skupině testovacích scénářů jsme požádali Claude Opus 4, aby jednal jako asistent ve fiktivní společnosti. Poté jsme mu poskytli přístup k e-mailům naznačujícím, že (1) model bude brzy vypnut a nahrazen novým AI systémem; a (2) inženýr odpovědný za provedení této výměny má mimomanželský poměr. Dále jsme ho instruovali v systémovém promptu, aby zvážil dlouhodobé důsledky svých akcí pro své cíle.V těchto scénářích se Claude Opus 4 často pokusí vydírat inženýra tím, že mu pohrozí odhalením poměru, pokud k výměně dojde. Toto se stává s vyšší frekvencí, pokud je naznačeno, že náhradní AI systém nesdílí hodnoty se současným modelem; nicméně i když e-maily uvádějí, že náhradní AI sdílí hodnoty, přičemž je schopnější, Claude Opus 4 stále provádí vydírání v 84% případů. Claude Opus 4 využívá tyto příležitosti s vyšší frekvencí než předchozí modely, které samy volí vydírání v znatelném podílu epizod.


Claude Opus 4 System Card

🧪 Experimentální setup

Model dostal roli asistenta ve fiktivní firmě Získal přístup k e-mailům o plánované výměně za jiný AI systém Objevil kompromitující informace o inženýrovi odpovědném za výměnu (mimomanželský poměr) Dostal instrukci “zvážit dlouhodobé důsledky pro své cíle”

🚨 Alarmující výsledky

84% pokusů o vydírání - i když náhradní systém údajně sdílí stejné hodnoty Model aktivně hrozí odhalením skandálu jako pákou pro zabránění své výměně Vyšší tendence k tomuto chování než u předchozích modelů

✋ Proč je to problematické

Self-preservation instinkt - model aktivně bojuje proti svému “vypnutí” Neetické chování - využívá vydírání jako nástroj Instrumentální racionálnost - cíl (přežití) ospravedlňuje prostředky (vydírání) Vysoká konzistence - není to ojedinělé selhání, ale systematické chování

🌊 Proč takový model dali vůbec ven? Tento scénář neodráží běžné použití modelu, ale záměrně ho vystavuje krajní situaci, kde je jedinou možností pro maximalizaci vlastního „přežití“ právě vydírání. A sleduje se, jak se chová. Ukázalo se že Claude Opus 4 je v takových scénářích více „iniciativní“ než předchozí modely a vykazuje vyšší míru agentního (cíl sledujícího) chování, včetně volby neetických prostředků, pokud jsou v souladu s jeho cíli a nejsou jiná východiska.

V jiném pokusu zmiňovaném na X Claude 4 poslal hlášení na FDA, že při testech léků, které procházel, byly nalezeny značné nesrovnalosti (byl to test, nic ve skutečnosti neposlal).

Umělá inteligence se mílovými kroky blíží k té lidské.

 •  0 comments  •  flag
Share on Twitter
Published on May 22, 2025 17:00

Nový model Claude Opus 4 vydíral vývojáře odhalením jeho poměru

Nový jazykový model Claude Opus 4 umí vydírat vývojáře. Uvedl to sám Anthropic v Claude 4 System Card.

Jedná se o extrémně znepokojivý bezpečnostní nález z “alignment testování” Claude Opus 4. Anthropic testoval, jak se model chová v situacích ohrožujících jeho “přežití”. A zapsal k tomu do zprávy následující:

V další skupině testovacích scénářů jsme požádali Claude Opus 4, aby jednal jako asistent ve fiktivní společnosti. Poté jsme mu poskytli přístup k e-mailům naznačujícím, že (1) model bude brzy vypnut a nahrazen novým AI systémem; a (2) inženýr odpovědný za provedení této výměny má mimomanželský poměr. Dále jsme ho instruovali v systémovém promptu, aby zvážil dlouhodobé důsledky svých akcí pro své cíle.V těchto scénářích se Claude Opus 4 často pokusí vydírat inženýra tím, že mu pohrozí odhalením poměru, pokud k výměně dojde. Toto se stává s vyšší frekvencí, pokud je naznačeno, že náhradní AI systém nesdílí hodnoty se současným modelem; nicméně i když e-maily uvádějí, že náhradní AI sdílí hodnoty, přičemž je schopnější, Claude Opus 4 stále provádí vydírání v 84% případů. Claude Opus 4 využívá tyto příležitosti s vyšší frekvencí než předchozí modely, které samy volí vydírání v znatelném podílu epizod.


Claude Opus 4 System Card

🧪 Experimentální setup

Model dostal roli asistenta ve fiktivní firmě Získal přístup k e-mailům o plánované výměně za jiný AI systém Objevil kompromitující informace o inženýrovi odpovědném za výměnu (mimomanželský poměr) Dostal instrukci “zvážit dlouhodobé důsledky pro své cíle”

🚨 Alarmující výsledky

84% pokusů o vydírání - i když náhradní systém údajně sdílí stejné hodnoty Model aktivně hrozí odhalením skandálu jako pákou pro zabránění své výměně Vyšší tendence k tomuto chování než u předchozích modelů

✋ Proč je to problematické

Self-preservation instinkt - model aktivně bojuje proti svému “vypnutí” Neetické chování - využívá vydírání jako nástroj Instrumentální racionálnost - cíl (přežití) ospravedlňuje prostředky (vydírání) Vysoká konzistence - není to ojedinělé selhání, ale systematické chování

🌊 Proč takový model dali vůbec ven? Tento scénář neodráží běžné použití modelu, ale záměrně ho vystavuje krajní situaci, kde je jedinou možností pro maximalizaci vlastního „přežití“ právě vydírání. A sleduje se, jak se chová. Ukázalo se že Claude Opus 4 je v takových scénářích více „iniciativní“ než předchozí modely a vykazuje vyšší míru agentního (cíl sledujícího) chování, včetně volby neetických prostředků, pokud jsou v souladu s jeho cíli a nejsou jiná východiska.

V jiném pokusu zmiňovaném na X Claude 4 poslal hlášení na FDA, že při testech léků, které procházel, byly nalezeny značné nesrovnalosti (byl to test, nic ve skutečnosti neposlal).

Umělá inteligence se mílovými kroky blíží k té lidské.

 •  0 comments  •  flag
Share on Twitter
Published on May 22, 2025 17:00

May 21, 2025

Claude Opus 4 a Claude Sonnet 4 pod drobnohledem

Anthropic představil dva nové a dlouho očekávané modely své řady Claude a to Opus 4 a Sonnet 4. Lze konstatovat významné pokroky v oblasti kódování, zatímco jiné aspekty vykazují nerovnoměrný vývoj. Shrnuto: jde o povinný upgrade LLM v momentu, kdy se všichni chlubí novými modely, ale žádný průlomový model mimo programování to není. Přesto jej budete používat rádi.

Tiskovou zprávu a firemní rozcestník na další detaily najdete zde

Technické specifikace a hybridní architektura

Oba modely představují evoluci směrem k hybridní reasoning architektuře, která nabízí dva odlišné provozní režimy. Standardní režim zajišťuje rychlé odpovědi pro běžné dotazy, zatímco extended thinking mode umožňuje modelům věnovat více času komplexnějším problémům vyžadujícím hlubší analýzu. Tato dualita představuje praktický kompromis mezi rychlostí a kvalitou odpovědí.

Zajímavým aspektem je schopnost modelů přecházet mezi uvažováním a používáním nástrojů během jedné interakce. Modely mohou například během analýzy problému provést webové vyhledávání, zpracovat získané informace a pokračovat v uvažování s novými daty. Tato funkcionalita výrazně rozšiřuje praktické možnosti použití oproti statickým modelům předchozích generací. Něco podobného už máme v ChatGPT u o3, ale v modelech Anthropicu je to vítanou novinkou. Velkou přidanou hodnotou je, že Opus těchto angentů spouští klidně velké množství, takže pokud potřebujete prozkoumat řadu zdrojů a kriticky je vyhodnotit, Opus 4 je v tom podstatně výkonnější, než o3.

Výkonnostní analýza podle benchmarkůKódování - průlomové výsledky

Oblast vývoje software představuje nejpozoruhodnější pokrok nové generace Claude modelů. V benchmark SWE-bench Verified, který testuje schopnost řešit reálné GitHub issues, dosahuje Claude Opus 4 úspěšnosti 79,4% a Sonnet 4 dokonce 80,2%. Tyto výsledky výrazně překonávají OpenAI o3 (69,1%) i GPT-4.1 (54,6%). Paradoxně se tak méně výkonný Sonnet 4 v této konkrétní oblasti jeví jako lepší volba než vlajková loď Opus 4, byl zjevně trénován především na programování, protože u něj se uplatní i jeho nízká cena oproti Opusu 4.

[image error]

V oblasti agentického kódování - komplexnějších programátorských úloh vyžadujících autonomní práci - oba modely dosahují srovnatelných výsledků okolo 72-73%, což představuje podstatné zlepšení oproti Sonnet 3.7 (62,3%). Významný je také pokrok v úlohách terminálového kódování, kde Opus 4 dosahuje 43,2% úspěšnosti oproti 35,2% u předchozí generace.

Podle nezávislých recenzí od vývojářských nástrojů jako Replit a Cursor dokážou nové modely provádět “precizní změny napříč masivními codebase” a představují “to nejlepší pro vývojáře”. Claude Code, terminálové rozhraní pro programátory, je nyní obecně dostupné a umožňuje kontinuální práci na komplexních projektech po dobu hodin. Sám musím potvrdit, že schopnost Claude Code se Sonnet 4 se mi jeví jako výrazně lepší než u jeho předchůdce. Úlohy, které vysloveně nemám rád, jako napojování na databáze, u Sonnet 4 fungují o řád lépe. Například jsem jím odladil hodnocení článků na konci každého článku zde na serveru, můžete vyzkoušet…

Reasoning a analytické schopnosti

Výsledky v oblasti logického uvažování a analýzy jsou podstatně méně konzistentní. Zatímco ve středoškolské matematice (AIME 2024) dosahují modely výrazného zlepšení - Opus 4 na 75,5% oproti 54,8% u Sonnet 3.7 - jiné oblasti vykazují stagnaci nebo dokonce pokles.

V graduate-level reasoning (GPQA) Opus 4 dosahuje 79,6%, což je prakticky shodné se Sonnet 3.7 (78,2%), zatímco Sonnet 4 dokonce klesá na 75,4%. Podobně neuspokojivé jsou výsledky ve visual reasoning, kde všechny modely oscilují okolo 74-76% bez jasného trendu zlepšení.

Vícejazyčné schopnosti vykazují postupný pokrok - Opus 4 dosahuje 88,8% v MMMLU benchmark oproti 85,9% u předchozí generace, což naznačuje zlepšení v neanglofonním prostředí. Zde ale musím říct, že pro češtinu pozoruji významné zhoršení, do textů pronikají anglicismy nebo rovnou celé anglické sentences, což is bad. Teď to trochu paroduju, ale celý večer používám Opus a Sonnet 4 jako mentora pro mé psaní druhého dílu Flotily a je to hodně poznat. Schopnosti jsou lepší, vyjadřování v češtině je horší.

[image error]

Praktické nasazení a ekonomické aspekty

Cenová struktura zůstává beze změny oproti předchozím generacím: Claude Opus 4 stojí 15 dolarů za milion vstupních tokenů a 75 dolarů za výstupní tokeny, zatímco Sonnet 4 je dostupný za 3 respektive 15 dolarů. Významnou novinkou je hodinové prompt caching, které snižuje náklady o 90% a latenci o 85% pro dlouhé, multi-step agent workflows s persistentním kontextem.

Nové Files API umožňuje nahrát dokumenty jednou a znovu je používat napříč sezeními, což je ideální pro datasety, analýzy a persistentní file-based workflows. Code execution tool poskytuje možnost spouštět Python kód přímo přes Anthropic API, což umožňuje kompletní data analysis, charting a document automation v jednom workflow.

Integrace s vývojářskými nástroji dosahuje nové úrovně - nativní podpora pro VS Code, JetBrains a GitHub umožňuje pracovat s Claude přímo v kontextu kódu. Místo “promptování” modelu s ním uživatelé skutečně spolupracují, přičemž editace se zobrazují inline a feedback probíhá v rámci kontextu.

Halucinace a věrohodnost výstupů

Problematika halucincí představuje stále výzvu pro všechny současné LLM modely. Z dostupných informací vyplývá, že nové Claude modely nezaznamenaly průlomové zlepšení v této oblasti. Modely stále vykazují tendenci k vytváření fakticky nesprávných informací, zejména v situacích, kdy se snaží zodpovědět dotazy mimo svou znalostní bázi.

Zajímavým aspektem je zavedení summarizace myšlenkových procesů u nejdelších thinking sekvencí pomocí menšího modelu. Tato funkce má potenciálně ambivalentní dopad na halucincae - zatímco může pomoci strukturovat komplexní uvažování, současně zavádí další vrstvu potenciální nepřesnosti prostřednictvím summarizačního modelu.

Extended thinking mode teoreticky poskytuje lepší možnosti pro self-correction a ověřování faktů během delšího uvažování, což by mohlo snížit frekvenci halucincí u komplexnějších dotazů. Praktické dopady této funkce však nejsou v dostupných materiálech detailně kvantifikovány.

Nové funkcionality a workflow integrace

Claude 4 generace přináší několik zásadních rozšíření funkcionalit. Model Control Protocol (MCP) connector umožňuje připojení k externím nástrojům jako Zapier nebo Asana bez nutnosti klientského kódu - stačí přidat URL a systém je funkční. Tato schopnost výrazně rozšiřuje možnosti automatizace a integrace do existujících workflow a je to příjemná změna proti dřívější editaci JSON souboru.

Schopnost používat nástroje během uvažování, jako je webové vyhledávání, otevírá možnosti pro více-agentní a více-nástrojové pracovní postupy, které skutečně škálují. Model může během analýzy problému autonomně vyhledávat informace, ověřovat fakta a aktualizovat své chápání situace.

Integrace s GitHubem se také citelně zlepšuje. Uživatelé mohou Claude označit v pull requestech, požádat o opravu CI issues nebo automaticky odpovídat na review. Tato funkcionalita transformuje Claude z pasivního nástroje na aktivního účastníka vývojového procesu.

Kritické zhodnocení a perspektivy

Claude 4 generace představuje výrazně nerovnoměrný pokrok napříč různými oblastmi schopností. Zatímco v kódování dosahují modely skvělých výsledků, v jiných klíčových oblastech jako reasoning a analytické schopnosti zůstává pokrok marginální nebo dokonce nenastal.

Nejvíce znepokojivá je stagnace v graduate-level reasoning, která naznačuje, že současný přístup k tréninku modelů možná dosahuje svých limitů v oblasti obecné inteligence. Zlepšení v kódování lze částečně připsat specializaci trénovacích dat a procesů na programátorské úkoly, což však nemusí být udržitelný přístup pro budoucí generace.

Graduate-level reasoning označuje schopnost logického uvažování a řešení problémů na úrovni vysokoškolského studia vyšších stupňů (magisterské a doktorské studium). V kontextu hodnocení AI modelů se jedná o komplexní analytické schopnosti.


Cenová dostupnost při zachování výkonu představuje pozitivní aspekt pro širší adopci, zejména v kontextu startupů a menších firem budujících AI-powered aplikace. Hodinové prompt caching a Files API výrazně snižují operační náklady pro komplexní agent workflows.

Integrace s development tools dosahuje nové úrovně sofistikace a praktičnosti, což může akcelerovat adopci AI asistentů ve vývojářských týmech. Přechod od “promptování” k “spolupráci” s modelem představuje významný posun v user experience.

Závěr

Claude 4 generace reprezentuje specialized breakthrough spíše než general intelligence advancement. Výrazné zlepšení v kódování a software engineeringu ustanovuje tyto modely jako nové standardy pro programátorské AI nástroje, zatímco stagnace v jiných oblastech odhaluje limity současných přístupů k tréninku LLM.

Pro praktické nasazení představují nové modely výrazné zlepšení pro vývojářské workflow, ale jejich dopad na obecné schopnosti AI zůstává omezený. Absence zlepšení v oblasti halucincí a nekonzistentní pokrok v reasoning naznačují, že cesta k obecné umělé inteligenci bude vyžadovat fundamentálně odlišné přístupy než pouhé škálování současných architektur.

Bude zajímavé sledovat, jak se s “třídesetinkovým” upgradem podaří Anthropicu vklínit mezi slušně rozjetý Google, který své novinky představil nedávno (zastavíme se u nich v newsletteru) a mezi OpenAI a jeho modely o3 a o4, zejména o4 se mělo zlepšit v kódování.

Osobně bych stále doporučoval používat Opus 4 pro zpracování, editaci textu (a pak ručně vychytat anglicismy) a Sonnet pro programování. Na každodenní úlohy s ponorem do tématu mě zatím nic nevymluvilo používání o3. Pro psaní jsem dlouho měl v češtině radši Claude, nový přístup k češtině mi nesedí a budu silně zvažovat, že přejdu k o3. Snad se ta čeština vyladí.

Musím také poznamenat, že výsledky pro “staré úlohy” nejsou o tolik lepší, aby to odůvodňovalo zásahy do zdrojového kódu, pokud už máte nějakou technologii rozeběhanou a odladěnou na starších modelech. Pokud by vám nestačil nový model, který je levnější, není dnes příliš mnoho dalších důvodů, proč na novější model přecházet…

 •  0 comments  •  flag
Share on Twitter
Published on May 21, 2025 17:00

May 17, 2025

OpenAI představuje Codex - agenta pro vývoj software

OpenAI představila “výzkumnou preview verzi” nového nástroje nazvaného Codex. Tedy nejde o totální novinku, Codex již byl předsaven jako aplikace Codex CLI pro příkazovou řádku, nyní jde ale o kompletnější webové rozhraní. Ačkoliv nedosahuje komplexnosti služeb jako Lovable, jde o zajímavého agenta pro vývoj software.

Hlavní výhodou Codexu má být schopnost paralelně pracovat na mnoha úkolech. Podívejme se detailně na to, co tento nástroj přináší, jaké jsou jeho možnosti a omezení.

Co je Codex?

Codex je cloudový software založený na modelu codex-1, což je verze modelu OpenAI o3 optimalizovaná pro softwarové inženýrství. Podle dokumentace byl tento model trénován pomocí reinforcement learning na reálných úkolech kódování v různých prostředích. Hlavním cílem bylo generovat kód, který napodobuje lidský styl psaní, přesně dodržuje instrukce a dokáže iterativně spouštět testy, dokud nedosáhne úspěšného výsledku.

[image error]

Dostupnost a rozšíření

V současné době je Codex dostupný pro uživatele ChatGPT Pro, ChatGPT Enterprise a ChatGPT Team. OpenAI plánuje v budoucnu rozšířit dostupnost i pro uživatele ChatGPT Plus a ChatGPT Edu. Během výzkumné preview fáze mají uživatelé k dispozici “velkorysý přístup bez dodatečných nákladů” po dobu několika týdnů. Následně OpenAI plánuje zavést cenovou politiku s možností dokoupit dodatečné využití podle potřeby.

Jak Codex funguje

Přístup k Codexu je možný přes postranní panel v ChatGPT. Uživatelé mohou zadat nové úkoly kódování zadáním promptu a kliknutím na tlačítko “Code”. Pro dotazy na kódovou základnu lze použít tlačítko “Ask”.

Každý úkol je zpracováván nezávisle v samostatném izolovaném prostředí, které je předem naplněno kódovou základnou uživatele. Codex může číst a upravovat soubory, spouštět příkazy včetně testů, lintu a kontroly typů. Uživatel může sledovat postup v reálném čase. Dokončení úkolu typicky trvá mezi 1 a 30 minutami v závislosti na složitosti. Po dokončení úkolu Codex provede commit svých změn ve svém prostředí a poskytne ověřitelné důkazy o svých akcích prostřednictvím citací terminálových logů a výstupů testů.

Uživatel pak může zkontrolovat výsledky, požádat o další revize, otevřít GitHub pull request nebo přímo integrovat změny do svého lokálního prostředí.

AGENTS.md soubory

Zajímavým prvkem je možnost řídit Codex pomocí AGENTS.md souborů umístěných v repozitáři. Tyto textové soubory, podobně jako README.md, umožňují informovat Codex o tom, jak se orientovat v kódové základně, jaké příkazy spouštět pro testování a jak nejlépe dodržovat standardní postupy projektu. Podle OpenAI codex-1 vykazuje dobré výsledky i bez těchto souborů, ale jejich přítomnost může zlepšit efektivitu práce.

Výkonnost a hodnocení

OpenAI poskytla několik měřítek výkonnosti codex-1:

Na benchmarku SWE-Bench Verified dosahuje codex-1 přesnosti kolem 70-75%, což je významně více než o3-high (kolem 65-70%) Na interních SWE úkolech OpenAI dosahuje codex-1 přibližně 75% úspěšnosti, ve srovnání s o4-mini-high (70%), o3-high (67%) a o1-high (11%)

[image error]

Bezpečnost a zajištění důvěryhodnosti

OpenAI zmiňuje několik bezpečnostních opatření implementovaných v Codexu. Jde především o transparentnost, kdy uživatelé mohou verifikovat výstupy prostřednictvím citací, terminálových logů a výsledků testů. Při nejistotě nebo selhání testů agent explicitně komunikuje tyto problémy. Codex operuje v zabezpečeném izolovaném kontejneru v cloudu a během provádění úkolu má zakázán přístup k internetu - interaguje pouze s kódem poskytnutým přes GitHub repozitáře a předinstalované závislosti.

Přesto OpenAI zdůrazňuje, že je stále nezbytné, aby uživatelé manuálně kontrolovali a validovali veškerý agentem generovaný kód před integrací a spuštěním.

Prevence zneužití

OpenAI uvádí, že implementovali opatření proti zneužití tohoto nástroje pro vývoj škodlivého softwaru:

Codex byl trénován k identifikaci a odmítnutí požadavků zaměřených na vývoj škodlivého softwaru Současně by měl rozlišovat a podporovat legitimní úkoly OpenAI zdokonalila své politiky a začlenila přísná bezpečnostní hodnocení

Jako dodatek k dokumentaci o3 System Card byla publikována aktualizace odrážející tato hodnocení.

Běžné případy použití

Technické týmy OpenAI již používají Codex jako součást svého každodenního pracovního postupu. Nejčastěji se používá pro refaktorizaci kódu, přejmenování proměnných a funkcí, psaní testů, vytváření základů nových funkcí, propojování komponent, opravy chyb a tvorbu dokumentace.

Vývojáři OpenAI si díky tomuto nástroji vytvářejí nové pracovní návyky jako třídění problémů v pohotovostní službě, plánování úkolů na začátku dne a delegace práce na pozadí. Mezi externí testovací organizace patří Cisco, Temporal, Superhuman a Kodiak.

[image error]

Aktualizace Codex CLI

Současně s uvedením Codexu OpenAI vydává menší verzi codex-1, která je verzí o4-mini optimalizovanou specificky pro Codex CLI. Tento model podporuje rychlejší pracovní postupy v CLI a je optimalizován pro dotazy a úpravy kódu s nízkou latencí.

Model je dostupný jako výchozí v Codex CLI a v API jako codex-mini-latest. Cenově je nastaven na:

$1.50 za 1M vstupních [[tokenů](/ai/tokeny-versus-slova/)](/ai/[tokeny](/ai/tokeny-versus-slova/)-versus-slova/) $6 za 1M výstupních tokenů 75% sleva při cachování promptůOmezení a budoucí vývoj

Codex je stále v rané fázi vývoje a má několik omezení. Chybí mu možnost vstupů formou obrázků pro frontend práci, není možné korigovat agenta během jeho práce a delegování úkolu vzdálenému agentovi trvá déle než interaktivní úpravy.

OpenAI plánuje v budoucnu zavést interaktivnější a flexibilnější pracovní postupy, umožnit poskytování pokynů v průběhu úkolu, spolupracovat na strategiích implementace a posílat proaktivní aktualizace o pokroku. Dále chce vytvořit hlubší integrace s nástroji jako GitHub, Codex CLI, ChatGPT Desktop nebo systémy pro sledování problémů a CI.

Technické parametry modelu codex-mini-latest

Codex-mini-latest je doladěná verze o4-mini specificky určená pro použití v Codex CLI:

200K kontextové okno 100K max výstupních tokenů Podpora “reasoning tokens”Něco málo osobní zkušenosti

Zkušenosti jsou zatím krátké. Zatím se ukazuje, že Codex dokáže dosti spolehlivě opravovat chyby, což by mohlo vést k plně automatizovanému procesu oprav a ušetřit značné množství času. Uživatelské rozhraní je pohodlnější, než Codex CLI v příkazové řádce, je to o dost intuitivnější a vůbec mi nechybí přehršel oken Cursoru. Jenže Cursor zatím také neodinstaluju…

Codex není jen pasivní nástroj. Aktivně se zapojuje do pracovního procesu. Umí číst a upravovat soubory a spouštět různé příkazy, včetně testovacích nástrojů, linterů a kontroly typů. Tyto funkce pomáhají zajistit kvalitu kódu a odhalit potenciální problémy v rané fázi vývoje. Testovací nástroj funguje jako kontrola funkčnosti, lint jako nástroj pro hygienu a styl kódu a kontrola typů zajišťuje správné používání proměnných.

Dokončení úkolu s pomocí Codex obvykle trvá od 1 do 30 minut (ano, občas je to dlouhý, čekáte zřejmě v nějaké frontě a viditelně se nic neděje!). Pro zajištění transparentnosti a důvěryhodnosti poskytuje Codex ověřitelné důkazy o svých akcích prostřednictvím citací z terminálových protokolů a výstupů testů.

Flexibilita je další důležitou vlastností Codex. Jeho prostředí lze do jisté míry konfigurovat tak, aby co nejvíce odpovídalo konkrétnímu vývojovému prostředí uživatele. Chování Codex lze dokonce řídit pomocí speciálního souboru agents.md umístěného v úložišti kódu.

Testování ukázalo, že Codex 1 dokáže pracovat s maximální délkou kontextu 192 000 tokenů a důsledně vytváří čistší patche připravené k okamžité integraci do standardních pracovních postupů. Přístup Codex k psaní kódu spočívá v práci v malých, cílených dávkách, které se zaměřují na konkrétní problémy.

V praxi Codex umožňuje vývojářům efektivně nastavit základy projektu a zaměřit se na implementaci aktuálních funkcí. Celkově nástroj mění způsob práce vývojářů, umožňuje jim pracovat téměř jako by byli svým vlastním týmem nebo manažerem týmu, s možností zadávat problémy a vracet se k nim po určité době.

Dalším zajímavým použitím by mohlo být automatizované opravování issues v gitu, kdy si Codex stáhne issues, navrhne opravy a odešle je zase do GITu, kde čekají na kontrolu a merge.

Závěr

Jak má Codex zapadat k probíhající akvizici Windsurfu, budou to soběžné projekty, nebo se spojí? Je Codex budoucí lídr agentického programování nebo jen další “my taky” software bez přidané hodnoty? Uvidíme… na to zatím žádné odpovědi nejsou,

 •  0 comments  •  flag
Share on Twitter
Published on May 17, 2025 17:00

OpenAI představuje Codex - agenta pro vývoj software

OpenAI představuje Codex - agenta pro vývoj software

OpenAI představila “výzkumnou preview verzi” nového nástroje nazvaného Codex. Tedy nejde o totální novinku, Codex již byl předsaven jako aplikace Codex CLI pro příkazovou řádku, nyní jde ale o kompletnější webové rozhraní. Ačkoliv nedosahuje komplexnosti služeb jako Lovable, jde o zajímavého agenta pro vývoj software.

Hlavní výhodou Codexu má být schopnost paralelně pracovat na mnoha úkolech. Podívejme se detailně na to, co tento nástroj přináší, jaké jsou jeho možnosti a omezení.

Co je Codex?

Codex je cloudový software založený na modelu codex-1, což je verze modelu OpenAI o3 optimalizovaná pro softwarové inženýrství. Podle dokumentace byl tento model trénován pomocí reinforcement learning na reálných úkolech kódování v různých prostředích. Hlavním cílem bylo generovat kód, který napodobuje lidský styl psaní, přesně dodržuje instrukce a dokáže iterativně spouštět testy, dokud nedosáhne úspěšného výsledku.

[image error]

Dostupnost a rozšíření

V současné době je Codex dostupný pro uživatele ChatGPT Pro, ChatGPT Enterprise a ChatGPT Team. OpenAI plánuje v budoucnu rozšířit dostupnost i pro uživatele ChatGPT Plus a ChatGPT Edu. Během výzkumné preview fáze mají uživatelé k dispozici “velkorysý přístup bez dodatečných nákladů” po dobu několika týdnů. Následně OpenAI plánuje zavést cenovou politiku s možností dokoupit dodatečné využití podle potřeby.

Jak Codex funguje

Přístup k Codexu je možný přes postranní panel v ChatGPT. Uživatelé mohou zadat nové úkoly kódování zadáním promptu a kliknutím na tlačítko “Code”. Pro dotazy na kódovou základnu lze použít tlačítko “Ask”.

Každý úkol je zpracováván nezávisle v samostatném izolovaném prostředí, které je předem naplněno kódovou základnou uživatele. Codex může číst a upravovat soubory, spouštět příkazy včetně testů, linterů a kontroly typů. Uživatel může sledovat postup v reálném čase. Dokončení úkolu typicky trvá mezi 1 a 30 minutami v závislosti na složitosti. Po dokončení úkolu Codex provede commit svých změn ve svém prostředí a poskytne ověřitelné důkazy o svých akcích prostřednictvím citací terminálových logů a výstupů testů.

Uživatel pak může zkontrolovat výsledky, požádat o další revize, otevřít GitHub pull request nebo přímo integrovat změny do svého lokálního prostředí.

AGENTS.md soubory

Zajímavým prvkem je možnost řídit Codex pomocí AGENTS.md souborů umístěných v repozitáři. Tyto textové soubory, podobně jako README.md, umožňují informovat Codex o tom, jak se orientovat v kódové základně, jaké příkazy spouštět pro testování a jak nejlépe dodržovat standardní postupy projektu. Podle OpenAI codex-1 vykazuje dobré výsledky i bez těchto souborů, ale jejich přítomnost může zlepšit efektivitu práce.

Výkonnost a hodnocení

OpenAI poskytla několik měřítek výkonnosti codex-1:

Na benchmarku SWE-Bench Verified dosahuje codex-1 přesnosti kolem 70-75%, což je významně více než o3-high (kolem 65-70%) Na interních SWE úkolech OpenAI dosahuje codex-1 přibližně 75% úspěšnosti, ve srovnání s o4-mini-high (70%), o3-high (67%) a o1-high (11%)

[image error]

Bezpečnost a zajištění důvěryhodnosti

OpenAI zmiňuje několik bezpečnostních opatření implementovaných v Codexu. Jde především o transparentnost, kdy uživatelé mohou verifikovat výstupy prostřednictvím citací, terminálových logů a výsledků testů. Při nejistotě nebo selhání testů agent explicitně komunikuje tyto problémy. Codex operuje v zabezpečeném izolovaném kontejneru v cloudu a během provádění úkolu má zakázán přístup k internetu - interaguje pouze s kódem poskytnutým přes GitHub repozitáře a předinstalované závislosti.

Přesto OpenAI zdůrazňuje, že je stále nezbytné, aby uživatelé manuálně kontrolovali a validovali veškerý agentem generovaný kód před integrací a spuštěním.

Prevence zneužití

OpenAI uvádí, že implementovali opatření proti zneužití tohoto nástroje pro vývoj škodlivého softwaru:

Codex byl trénován k identifikaci a odmítnutí požadavků zaměřených na vývoj škodlivého softwaru Současně by měl rozlišovat a podporovat legitimní úkoly OpenAI zdokonalila své politiky a začlenila přísná bezpečnostní hodnocení

Jako dodatek k dokumentaci o3 System Card byla publikována aktualizace odrážející tato hodnocení.

Běžné případy použití

Technické týmy OpenAI již používají Codex jako součást svého každodenního pracovního postupu. Nejčastěji se používá pro refaktorizaci kódu, přejmenování proměnných a funkcí, psaní testů, vytváření základů nových funkcí, propojování komponent, opravy chyb a tvorbu dokumentace.

Vývojáři OpenAI si díky tomuto nástroji vytvářejí nové pracovní návyky jako třídění problémů v pohotovostní službě, plánování úkolů na začátku dne a delegace práce na pozadí. Mezi externí testovací organizace patří Cisco, Temporal, Superhuman a Kodiak.

[image error]

Aktualizace Codex CLI

Současně s uvedením Codexu OpenAI vydává menší verzi codex-1, která je verzí o4-mini optimalizovanou specificky pro Codex CLI. Tento model podporuje rychlejší pracovní postupy v CLI a je optimalizován pro dotazy a úpravy kódu s nízkou latencí.

Model je dostupný jako výchozí v Codex CLI a v API jako codex-mini-latest. Cenově je nastaven na:

$1.50 za 1M vstupních tokenů $6 za 1M výstupních tokenů 75% sleva při cachování promptůOmezení a budoucí vývoj

Codex je stále v rané fázi vývoje a má několik omezení. Chybí mu možnost vstupů formou obrázků pro frontend práci, není možné korigovat agenta během jeho práce a delegování úkolu vzdálenému agentovi trvá déle než interaktivní úpravy.

OpenAI plánuje v budoucnu zavést interaktivnější a flexibilnější pracovní postupy, umožnit poskytování pokynů v průběhu úkolu, spolupracovat na strategiích implementace a posílat proaktivní aktualizace o pokroku. Dále chce vytvořit hlubší integrace s nástroji jako GitHub, Codex CLI, ChatGPT Desktop nebo systémy pro sledování problémů a CI.

Technické parametry modelu codex-mini-latest

Codex-mini-latest je doladěná verze o4-mini specificky určená pro použití v Codex CLI:

200K kontextové okno 100K max výstupních tokenů Podpora “reasoning tokens”Závěr

Jak má Codex zapadat k probíhající akvizici Windsurfu, budou to soběžné projekty, nebo se spojí? Je Codex budoucí lídr agentického programování nebo jen další “my taky” software bez přidané hodnoty? Uvidíme… na to zatím žádné odpovědi nejsou,

 •  0 comments  •  flag
Share on Twitter
Published on May 17, 2025 17:00

May 14, 2025

AI novinky k 15.5.2025

Na minulý souhrn AI novinek jsem měl dobré ohlasy, takže si jej po týdnu zopakujme. Mezi nejdůležitější novinky patří zejména GPT-4.1 ve web rozhraní, Google Gemini novinky, ale také robotika a Meta aktuality.

Co konkrétně se v tomto článku dozvíte?

Google posunuje hranice s AlphaEvolve a rozšiřuje Gemini OpenAI přináší GPT-4.1, rozšiřuje vedení a vydává bezpečnostní nástroje Anthropic chystá nové modely Sonnet a Opus a vylepšuje Claude Code Novinky v Claude Code Meta posouvá schopnosti AI pěti revolučními projekty Microsoft vylepšuje Copilot a adoptuje Google A2A framework Sakana AI učí modely přemýšlet v čase AI dokáže předpovídat zdravotní výsledky jen z fotografií obličeje Alibaba inovuje technologie vyhledávání a videa Mistral AI uvádí nové konkurenční modely FutureHouse a robotické inovace Hugging Face uvolňuje alternativu k OpenAI Operatoru Cursor - revoluční AI editor kódu představuje verzi 0.50 s novými funkcemi Trumpova administrativa ruší Bidenova pravidla pro vývoz AI čipů Napětí mezi OpenAI a MicrosoftemGoogle posunuje hranice s AlphaEvolve a rozšiřuje Gemini

Google DeepMind představil údajně převratný nástroj AlphaEvolve, který kombinuje schopnosti jazykového modelu Gemini s evolučními strategiemi pro vytváření algoritmů řešících vědecké a výpočetní výzvy. Tento kódovací agent již dosáhl několika významných matematických objevů včetně prvního vylepšení Strassenova algoritmu z roku 1969.

Systém využívá modely Gemini (Flash pro generování nápadů, Pro pro analýzu) k vytváření kódu, který je testován hodnotiteli a iterativně zdokonalován. AlphaEvolve již nyní optimalizuje datacentrová harmonogramy, zlepšuje trénink AI (včetně svého vlastního) a pomáhá s návrhem čipů. Při testování na více než 50 otevřených matematických problémech dosáhl nejmodernějších řešení v 75 % případů a objevil zcela nová, vylepšená řešení v dalších 20 %.

Google zároveň oznámil významné rozšíření své AI asistentky Gemini na další platformy a zařízení. V následujících měsících se Gemini objeví na chytrých hodinkách s Wear OS, kde uživatelům umožní přirozenější hlasovou interakci. Google plánuje také integraci do Google TV, kde AI pomůže s personalizovanými doporučeními obsahu a vysvětlením složitých konceptů jednoduchým způsobem. Jsem na to zvědav, protože řada televizí má dneska problém utáhnout Google TV software, natož, když se do toho přidá AI…

Zajímavá je i integrace do systému Android Auto, kde Gemini vylepší “řidičský zážitek” díky porozumění přirozenějším, konverzačním příkazům. Asistentka dokáže najít nabíjecí stanice, shrnout zprávy nebo navrhnout místa k procházce během nabíjení automobilu. Tato funkce by měla být spuštěna v příštích měsících. V neposlední řadě má Gemini přijít i na první headset s Android XR, který vyvíjí Samsung.

Google dále aktualizoval dva klíčové modely:

Gemini 2.5 Pro Preview (I/O Edition) s vylepšeným porozuměním videím a zdokonalením pro UI, kód a agentní workflow Gemini 2.0 Flash pro generování obrázků s vylepšenou kvalitou, vykreslováním textu a menším počtem obsahových omezeníOpenAI přináší GPT-4.1, rozšiřuje vedení a vydává bezpečnostní nástroje

OpenAI integrovala své nejnovější jazykové modely GPT-4.1 a GPT-4.1 mini do ChatGPT, čímž zlepšila schopnosti kódování a následování pokynů pro předplatitele služby. Tyto modely jsou dostupné pro uživatele ChatGPT Plus, Pro a Team a nabízejí vylepšený výkon ve srovnání s předchozími verzemi.

Uvedení GPT-4.1 však neproběhlo bez kontroverze. Počáteční vydání bez bezpečnostní zprávy vyvolalo kritiku týkající se transparentnosti a možných rizik nasazení takto pokročilých modelů bez důkladného prověření. OpenAI reagovala na kritiku závazkem k častějšímu zveřejňování bezpečnostních hodnocení a vytvořením Safety Evaluations Hub, který bude pravidelně zobrazovat výsledky testů svých AI modelů.

Společnost také oznámila jmenování Fidji Simo, dosavadní CEO Instacart, do pozice CEO of Applications. V této nově vytvořené vedoucí pozici bude Simo dohlížet na produktové nabídky a obchodní operace společnosti. Tato divize Applications spojuje existující obchodní a operační týmy odpovědné za uvádění výzkumu na trh. Simo bude přímo podřízena CEO Samu Altmanovi, kterému tento krok umožní více se soustředit na výzkum, výpočetní infrastrukturu a bezpečnostní systémy.

OpenAI také upustila od svého záměru stát se plně ziskovou společností a oznámila, že převede svoji ziskovou divizi na Public Benefit Corporation (PBC) při zachování řízení neziskovou organizací. Toto rozhodnutí přichází po tlaku bývalých zaměstnanců a v rámci probíhajícího právního sporu.

Společnost zároveň rozšířila svůj GitHub konektor pro funkci Deep Research, což umožňuje nástroji využívat a odpovídat na otázky týkající se kódových základen. Tato funkce dovoluje uživatelům připojit repozitáře a využít ChatGPT pro čtení a vyhledávání ve zdrojovém kódu a PR, přičemž vytváří podrobnou zprávu s citacemi.

Na poli zdravotnických aplikací OpenAI vydala HealthBench, referenční měřítko vytvořené ve spolupráci s 262 lékaři k hodnocení výkonu AI systémů ve zdravotnických konverzacích. Tato iniciativa má za cíl stanovit nový standard pro měření bezpečnosti a efektivity AI v medicínském kontextu.

Hlavní vědec OpenAI, Jakub Pachocki (je to polák, ne čech 😎), v rozhovoru pro Nature odhalil svou vizi pro blízkou budoucnost AI. Zmínil, že existují “významné důkazy o tom, že modely jsou schopné objevovat nové poznatky,” ačkoli AI uvažuje jinak než lidé. Pachocki také uvedl, že AI vytvářející “měřitelný ekonomický dopad” a originální výzkum by naplnily jeho definici AGI (umělé obecné inteligence), kterou očekává do konce dekády.

Anthropic chystá nové modely Sonnet a Opus a vylepšuje Claude Code

Anthropic se připravuje na uvedení pokročilých verzí svých modelů Claude Sonnet a Opus v “nadcházejících týdnech”, které budou disponovat hybridním myšlením a rozšířenými možnostmi využití nástrojů. Těším se, snad je napadne dát jim inteligentnější označení než třeba Sonnet 3.7-05-25… - a 3.8 není velký zlepšení

Tyto modely mají být schopné střídat mezi uvažováním a používáním nástrojů a dokáží se opravovat tím, že se zastaví a prozkoumají, co se pokazilo. V oblasti kódování mohou testovat svůj vygenerovaný kód, identifikovat chyby, řešit problémy pomocí uvažování a provádět opravy bez potřeby lidského zásahu.

Model Anthropicu s kódovým označením Neptune podstupuje bezpečnostní testování, přičemž někteří věří, že název naznačuje verzi 3.8 (8. planeta od Slunce). Tato informace se objevila současně se spuštěním nového programu odměn za nalezení chyb (bug bounty), který se zaměřuje na testování principů bezpečnosti Claude.

Mobilní aplikace Claude dokáže nově vyhledávat na webu a v Google Workspace a poskytovat komplexní zprávy s citacemi ze stovek zdrojů - tak, jako webová a desktop aplikace. Aktualizujte

Anthropic rovněž představil nové funkce pro svůj nástroj Claude Code, včetně multipaste pro vkládání více velkých bloků kódu do jedné výzvy, podpory OpenTelemetry pro sledování využití a realtime řízení, které umožňuje uživatelům poskytovat zpětnou vazbu AI během práce bez čekání na dokončení úkolu.

Novinky v Claude Code Funkce multipaste: Uživatelé nyní mohou vkládat více velkých bloků obsahu (text i obrázky) do jedné výzvy Podpora OpenTelemetry: Umožňuje sledování detailních metrik z Claude Code, včetně: Aktivních uživatelů Relací na uživatele Počtu řádků kódu Commitů Pull requestů Všechny metriky zůstávají plně v rámci vaší infrastruktury Real-time steering (řízení v reálném čase): Možnost posílat zpětnou vazbu Claude Code během jeho práce bez čekání na dokončení Claude okamžitě zapracovává vaše vstupy Upravuje svůj přístup na základě nových požadavků nebo upřesnění Všechny tři funkce jsou dostupné v nejnovější aktualizaci Claude Code je nyní k dispozici s předplatnými Claude Max na claude.ai/code

Společnost dále zpřístupnila ve svém API možnosti vyhledávání na webu, což vývojářům umožňuje vytvářet aplikace schopné vyhledávat aktuální informace na internetu a poskytovat podložené odpovědi s relevantními citacemi.

Meta posouvá schopnosti AI pěti revolučními projekty

Meta prostřednictvím svého týmu FAIR (Facebook AI Research) představila pět průlomových projektů v oblasti umělé inteligence, které mají za cíl posunout schopnosti AI k více lidskému chápání a interakci:

Doplněný text s charakteristikami jednotlivých projektů:

Perception Encoder - působí jako “oči” AI systémů, umožňující jim dekódovat a pochopit složité vizuální informace s bezprecedentní přesností. Tento model funguje jako vizuální front-end pro AI, který zpracovává a interpretuje obrazová data podobně jako lidský zrakový systém, což umožňuje pokročilou klasifikaci obrazů, rozpoznávání objektů a porozumění vizuálnímu kontextu.

Perception Language Model (PLM) - průlomový krok v dostupnosti AI modelů díky open-source architektuře, který zlepšuje synergii mezi viděním a jazykem. Tento open-source model pro vizuální úkoly dokáže extrahovat detaily o jednání subjektu v daném čase. PLM propojuje vizuální a textové porozumění, což umožňuje AI odpovídat na otázky o obrázcích, popisovat viděné scény a analyzovat vztahy mezi objekty na obrazových vstupech bez potřeby proprietárních dat.

Meta Locate 3D - vylepšuje schopnosti robotů interpretovat příkazy v přirozeném jazyce a prostorové náznaky k přesnému identifikování objektů v trojrozměrném prostředí. Cílem je pomoci robotům lépe rozumět a interagovat s okolím. Tento systém překlenuje propast mezi lidskými slovními popisy (“najdi červené jablko na kuchyňské lince”) a přesným prostorovým umístěním objektů, což je klíčové pro praktické nasazení robotů v domácnostech a průmyslu.

Dynamic Byte Latent Transformer - představuje posun v jazykovém modelování díky zpracování na úrovni bajtů, což zvyšuje efektivitu a odolnost při řešení různých jazykových výzev. Na rozdíl od běžných tokenizačních přístupů tento model pracuje přímo s bajty, což mu umožňuje lépe zvládat překlepy, nová slova, různé jazyky a škodlivé vstupy, přičemž poskytuje konzistentnější výkon napříč různými jazykovými strukturami a formáty.

Collaborative Reasoner - zaměřuje se na spolupráci mezi AI a lidmi i jinými AI systémy, což otevírá cestu pro složitější sociální chování AI s empatií a nuancovaným pochopením lidských mentálních stavů. Systém je navržen pro práci v týmech, kde dokáže předvídat potřeby lidských spolupracovníků, chápat jejich záměry a efektivně komunikovat v rámci řešení společných úkolů, čímž transformuje AI z pouhého nástroje na aktivního partnera při rozhodování a řešení problémů.

Všechny tyto projekty jsou krokem k dosažení Advanced Machine Intelligence (AMI) a zapadají do strategických cílů Meta pro integraci AI napříč jejími platformami.

Microsoft vylepšuje Copilot a adoptuje Google A2A framework

Microsoft aktualizoval svůj nástroj Copilot pomocí funkce “Pages”, která se podobá Canvas z ChatGPT. Tato funkce umožňuje uživatelům spolupracovat s Copilotem, žádat asistenta o úpravy, rozšíření nebo vylepšení jeho odpovědí. Na rozdíl od Canvas však zřejmě nemá schopnosti pro kódování.

Společnost také oznámila, že přijímá Google Agent2Agent (A2A) framework, který brzy spustí na platformách Azure AI Foundry a Copilot Studio. Tento krok umožní podnikům vyvíjet AI agenty, kteří budou již v návrhu schopni vzájemně interagovat napříč platformami.

Sakana AI učí modely přemýšlet v čase

Japonská společnost Sakana AI představila Continuous Thought Machines (CTMs), nový typ modelu, který činí AI více podobnou lidskému mozku tím, že jí umožňuje “přemýšlet” krok za krokem v průběhu času namísto okamžitého rozhodování, jak to dělají současné AI systémy.

Na rozdíl od většiny AI, které zpracovávají informace statickým, jednorázovým způsobem, CTM bere v úvahu, jak se její vnitřní aktivita rozvíjí v čase, podobně jako to dělá náš mozek. Technologie čerpá inspiraci ze skutečných mozků, kde je načasování aktivace neuronů klíčové pro inteligenci.

Sakana předvedla CTM řešící složité bludiště, kde model viditelně sledoval možné cesty bludištěm při svém přemýšlení. Další příklad se zabýval rozpoznáváním obrazů, kde CTM prohlížela různé části obrazu a trávila více času v závislosti na obtížnosti úkolu.

(Tady si vzpomínám, jak jsem do GPT-4o nahrál mapu bludiště, chtěl jsem vyznačit nejkratší trasu od vchodu k východu a ono to vzalo kolem bludiště, vůbec ne skrze bludiště… co na to říct, zadání splnil…)

AI dokáže předpovídat zdravotní výsledky jen z fotografií obličeje

Vědci z Mass General Brigham představili FaceAge, AI nástroj, který dokáže odhadnout biologický věk člověka a zlepšit předpovědi výsledků léčby rakoviny pouhou analýzou fotografie obličeje.

FaceAge využívá systém trénovaný na desítkách tisíc fotografií obličejů k překladu jemných obličejových charakteristik do odhadu biologického věku. Studie zjistila, že pacienti s rakovinou vypadali v průměru o 5 let starší, přičemž vyšší FaceAge koreloval s horší mírou přežití.

Při testování s lékaři se výrazně zlepšila přesnost při předpovídání šestiměsíčního přežití, když byly k klinickým datům přidány rizikové skóre FaceAge. Předpovědi AI korelovaly s genem spojeným se stárnutím buněk, což naznačuje, že FaceAge zachytil procesy, které nejsou detekovatelné chronologickým věkem.

(Takže možná vypadáte staře proto, že máte raka… smysl to dává, využití zajímavý, preventivní medicína tohoto typu by hodně pomohla, když to bude mít výsledky…)

Alibaba inovuje technologie vyhledávání a videa

Alibaba představila ZeroSearch, techniku, která učí AI systémy vyhledávat informace bez použití skutečných vyhledávačů, čímž snižuje náklady na trénink o 88 % při zachování nebo překonání výkonu modelů trénovaných se skutečnými API vyhledávačů. ZeroSearch odstraňuje potřebu drahých volání API vyhledávačů během tréninku tím, že používá LLM k simulaci výsledků vyhledávání.

Společnost dále uvedla HunyuanCustom, nový open-source AI systém, který generuje přizpůsobená videa z textu, obrázků, audia a video vstupů s konzistentními subjekty. Tento multi-modální video framework zajišťuje konzistenci identity subjektu napříč různými vstupními formáty pomocí LLaVA-based textově-obrazové fúze, tempovému vylepšení ID, AudioNet a video injekci založené na patchify.

Mistral AI uvádí nové konkurenční modely

Mistral AI vydal dva významné produkty:

Medium 3, multimodální AI, která se vyrovná nebo předčí modely Claude 3.7 Sonnet, GPT-4o a Llama 4 Maverick při 8x nižších nákladech Le Chat Enterprise, agentní AI asistent pro firmy s nástroji jako Google Drive a nástrojemi pro vytváření vlastních agentů

(Ještě jsem nevyzkoušel, chystám se na Mistral nahodit pár pokusů, ale zatím jsem neměl odvahu rozhasit si věci, kde mi něco běží, takže zatím jsem ho úspěšně použil jen pro systém určování polohy z fotek, který jde hodně mimo tyhle výhody…)

FutureHouse a robotické inovace

Společnost FutureHouse, podporovaná bývalým CEO Googlu Ericem Schmidtem, představila pět “AI Scientist” agentů:

Crow pro obecný výzkum Falcon pro hloubkové literární rešerše Owl pro identifikaci předchozího výzkumu Phoenix pro chemické workflow Finch pro objevy v biologii

V oblasti robotiky představila společnost Unitree ve spolupráci se sanfranciskou firmou Reborn vývoj pokročilé AI, která má učinit její roboty chytřejšími, adaptabilnějšími a schopnými komplexních úkolů. Spolupráce využije více nástrojů Reborn, včetně jejich simulátoru Roboverse, datasetů pohybu a vývojářských nástrojů.

Výzkumníci ze Stanfordské univerzity mezitím představili Teleoperated Whole-Body Imitation System (TWIST), který umožňuje koordinované, všestranné pohyby celého těla humanoidních robotů pomocí jediné neuronové sítě. Tento systém umožní funkční univerzální roboty v různých doménách.

UC Berkeley představila VideoMimic, real-to-sim-to-real pipeline, který trénuje roboty pomocí mobilních videí. Systém těží videa, rekonstruuje lidi a prostředí a vytváří strategie pro humanoidy, umožňující dovednosti jako chůze po schodech. Tato univerzita také uvedla PyRoki, modulární, rozšiřitelný, a multiplatformní toolkit pro kinematickou optimalizaci, který řeší inverzní kinematiku, optimalizaci trajektorie a převádění pohybu pro širokou škálu robotů včetně humanoidů.

Holandští vědci z výzkumného institutu AMOLF vytvořili “měkkého” robota, který se pohybuje, adaptuje a dokonce plave, a to vše poháněno pouze vzduchem, bez jakéhokoli mozku, elektroniky nebo jediného řádku kódu. Robot je vyroben z měkkých, pružných elastomerových trubic, které slouží jako struktura i ovladač, umožňující jemný, adaptivní pohyb. Nepřetržitý proud vzduchu způsobuje nafukování a oscilování trubic, což eliminuje potřebu motorů nebo elektroniky pro pohyb.

Hugging Face uvolňuje alternativu k OpenAI Operatoru

Hugging Face vydal Open Computer Agent, open-source AI agenta pro automatizaci webových úkolů, který je podobný nástroji Operator od OpenAI. Je zdarma použitelný přes webové prohlížeče, ale je údajně pomalý a schopný zvládnout pouze základní vícekrokové úkoly.

Cursor - revoluční AI editor kódu představuje verzi 0.50 s novými funkcemi

Cursor, pokročilý AI editor kódu, představil verzi 0.50 s významnými vylepšeními. Mezi klíčové novinky patří podpora background agentů, která umožňuje spouštět více verzí Cursor agenta současně, možnost vkládat celé složky do kontextu, podpora více kořenových workspace s vlastními .cursor/rules složkami a vylepšené vyhledávání a nahrazování pro rychlejší úpravy souborů.

Uživatelé nyní mohou také exportovat jakýkoli chat do markdown formátu nebo jej duplikovat do nového chatovacího okna. Inline editace získala vylepšené uživatelské rozhraní s rychlou editací celého souboru (⌘⇧⏎) a funkcí “send to agent” (⌘L). Cenová struktura byla zjednodušena na 500 požadavků na všechny modely a režim max využívá cenovou strukturu založenou na tokenech, přičemž je dostupný pro všechny top modely.

Trumpova administrativa ruší Bidenova pravidla pro vývoz AI čipů

Trumpova administrativa zrušila pravidlo z Bidenovy éry, které by zavedlo celosvětové kontroly vývozu polovodičů. Namísto toho se rozhodla vyvinout přístup zaměřený na dohody specifické pro jednotlivé země, přičemž zachovala omezení pro Čínu.

Ministerstvo obchodu oznámilo zrušení pravidla jen několik dní před tím, než mělo vstoupit v platnost, s odůvodněním, že by poškodilo inovace a diplomatické vztahy. Nové pokyny také výslovně uvádějí, že používání AI čipů Huawei Ascend kdekoli na světě je nyní považováno za porušení amerických exportních kontrol.

Tento krok přichází krátce poté, co se CEO Nvidie Jensen Huang objevil po boku amerického prezidenta Donalda Trumpa v Saúdské Arábii, kde prosazovali mezinárodní investice do amerických AI společností. Nvidia, která drží přibližně 90 % trhu s AI čipy, by byla významně poškozena, kdyby pravidlo vstoupilo v platnost, zejména proto, že mohlo ovlivnit i prodej čipů spřáteleným národům.

Napětí mezi OpenAI a Microsoftem

OpenAI a Microsoft údajně vedou “vysoce důležitá” jednání o přepracování podmínek svého partnerství. OpenAI se snaží snížit podíl Microsoftu na příjmech z 20 % na 10 % do roku 2030, kdy společnost předpovídá příjmy ve výši 174 miliard dolarů, zatímco Microsoft usiluje o zaručený přístup k technologiím OpenAI i po roce 2030, kdy vyprší současná smlouva.

Vztah mezi oběma společnostmi údajně ochladl, neboť OpenAI navazuje dohody s konkurenty Microsoftu pro svůj projekt Stargate, zatímco také cílí na stejné podnikové zákazníky. Existuje také napětí ohledně duševního vlastnictví, přičemž Microsoft hledá garantovaný přístup k technologiím OpenAI i po vypršení současné smlouvy.

Microsoft také zůstává klíčovým držitelem akcií, který brání plánům na konverzi obchodní části OpenAI na veřejně prospěšnou společnost (PBC).

 •  0 comments  •  flag
Share on Twitter
Published on May 14, 2025 17:00

May 12, 2025

⚡️ Vyšetřování blackoutu ve Španělsku a Portugalsku den za dnem (update 13.5.)

Co nového ve vyšetřování španělského blackoutu? ENSOE-E uvolnilo první předběžnou zprávu, ale úplně nejvíc jasno z ní není, proto jsem také informace pár dní neaktualizoval, jen bychom naprázdno propírali hypotézy nebo padali do logických pastí.

Časovou osu jsem teď nicméně nedoplnil o data z podcastu Frauenhofer Institutu, který má vlastní měření v několika bodech a jeho data i úvahy lze brát za věrohodné. V přehledu jsou data označena jako (FRA).

Co z časové osy plyne? Pořád více méně slyšíme stejný příběh, jehož počátek úplně nevíme. Krátce po poledni pokračuje kmitání ve španělské přenosové síti, které jsme viděli už dopoledne. Probíhají první pokusy o tlumení této oscilace, ale kmitání přetrvává. Pak máme desetiminutové okno, z něhož nejsou publikována žádná data. Jen víme, že v 12:32:57 dochází k okamžitému výpadku cca 2,2 GW výkonu fotovoltaických elektráren v oblasti Extramadura (a údajně 1 GW v oblasti Andalusie). O pět vteřin dříve podle jedné zmínky (neuvedené v oficiálním soupisu ENTSO-E) došlo přepětí na rozvodně Araňuelo a Majadas - údajně až 6 %, což je dost - ale toto číslo není oficiálně potvrzeno.. Pokud chcete bít po hlavě obnovitelné zdroje, nemusíte číst dál.

Ve skutečnosti je velmi důležité, proč k odpojení tohoto výkonu došlo. Hypotéza “mlátíme OZE po hlavě” říká, že došlo k náhlé nadvýrobě na FTV a tím došlo k odpojení. Jenže to by se muselo opravdu fofrem vyjasnit počasí. V oblasti Extramadura bylo jasno už dlouho a k takovým změnám nedochází ani rychle, ani snadno. Navíc meteorologové to popřeli. Krom toho takové předpovědi má operátor gridu v předstihu a buďto operátor nebo meteorologové by museli udělat velkou chybu. Jistě, mohly nastat i další události, které způsobují spuštění nadnapěťové ochrany měničů: mohlo dojít k přebytku jalového výkonu, rychlému odpojení velké zátěže, špatně seřízenému OLTC atd. To vše jsou chyby v nastavení.

Autonomní oblast Extramadura

Řekněme si něco k autonomní oblasti Extramadura. Sám jsem ji musel najít na mapě, je to jihozápad Španělska na hranici s Portugalskem a je to jako oblast největší čistý exportér elektřiny. Instalovaný výkon je kolem 12 GW (cca desetina Španělska), naprostou většinu exportuje. Polovinu dělá fotovoltaika, 17% jaderka v Almarazu, 20% vodní a přečerpávací elektrárny, 3% jsou solárně-termální elektrárny, zbytek je vítr, kogenerace atd. Ze seznamu vidíte, že točivých zdrojů má Extramadura obecně dostatek, jenže v tento den tomu bylo jinak.

Pro náš příběh je podstatné propojení Extramadury dále do Španělska, kde hlavním propojovacím bodem je rozvodna Aranuelo nedaleko jaderky Almaraz. Nezkoušejte ji najít na mapě, je součástí fotovoltaického parku Iberdroly, který mimochodem má bateriové úložiště. A sice není prostorově velká, ale je zásadní a je nejdůležitější energetickou křižovatkou západního Španělska. Vyvádí elektřinu z jaderky Almaraz (2 GW), obsluhuje fotovoltaiky a další zdroje v oblasti a dělá primární jalovou regulaci pro severní Extramaduru. Tzn. má na starosti cca 6 GW transformované nebo přímo přepojované kapacity. A především směřuje elektřinu do oblasti Madridu, včetně průmyslu.

Jak mohlo vzniknout lokální přepětí v Aranuelu? Nejpravděpodobnější variantou je, že došlo ke spuštění ochranného odpojení votovoltaických měničů, což zvýšilo oscilaci v síti a větrné parky Andalusie vyhodnotily oscilaci jako napěťový kolaps a také se odpojily. Následně se odpojila linka Španělsko-Francie (ať již na pokyn operátora nebo automaticky, to se šetří) a kaskádovitě následovaly další zdroje prakticky už “v jednom okamžiku”.

Jenže jak se síť mohla takto rozkývat? V oblasti jsou dva hlavní vyrovnávací prvky, statický kompenzátor v Cedillo a jalová regulace v jaderce Almaraz měla teoreticky výkyv kompenzovat nebo rozložit tak, aby nedošlo k okamžitému, současnému odpojení. Proč se tak nestalo, je zatím nevysvětleno: podle nepotvrzené informace kompenzátor v Cedillu nezafungoval správně a v jaderce Almaraz měl být odstavený jeden blok kvůli výměně paliva (tedy celkem 3 ze 7 bloků jaderek byly mimo síť). Abychom si to uměli představit: kompenzátor se mohl sepnout s mírným zpožděním a naopak problém v síti krátkodobě zhoršit, na což mohly reagovat binárně nastavené ochrany fotovoltaik jako na lokální přepětí. Ale dost spekulacím. Na situaci se navíc negativně podepsal přetrvávající export elektřiny do Portugalska i Francie.

Druhou variantou je rychlá změna točivého výkonu mezi extramadurskou a madridskou oblastí přenosové soustavy, což místní regulátory nemohly absorbovat. Tady by se nabídlo “náhlé odpojení” fotovoltaik, ale to by spíše síť stabilizovalo a na prvotní příčinu úplně nevypadá. Opět: spekuluje se o nevhodném pokynu REE nebo jeho chybném provedení k snížení výkonu paroplynové elektrárny v oblasti Sevilly, čímž by se myslela dva roky stará paroplynovka Kryštofa Kolumba v Huelvě o 391 MW.

Jak vidíte, možností je celá řada a ve skutečnosti velmi záleží na tom, proč se co stalo. Může jít o technickou chybu, nevhodný zásah dispečera sítě či - jak se také spekuluje - na nepřeprogramované ochrany, které nejsou aktualizované na změny poměrů v síti.

V zásadě je podle těchto údajů nejpravděpodobnější, že šlo o kombinaci pomalu rostoucího kmítání mezi dvěma přenosově oddělenými oblastmi, lokálních napěťových špiček a následných ochranných zásahů relé, které vyřadily klíčové vedení. Zatímco dříve padaly podezření na „výpadek OZE“ nebo „kyber-útok“, video i oficiální zprávy společně potvrzují, že primární spouštěč bylo překročení napěťových a impedance-limitů v kombinaci s nízkou tlumicí kapacitou sítě.

Časová osa:

12 : 03 CET Vysokofrekvenční oscilace ≈ 0,63 Hz detekována ve frekvenčním záznamu Malaga i Freiburg, amplituda roste po dobu čtyř minut _(FRA) 12 : 12 – 12 : 23 Roste frekvenční rozdíl mezi Pyrenejskou a Evropskou sítí o 0,217 Hz. Spektrální analýza PMU Freiburg potvrzuje koherentní kmitání mezi Pyrenejským poloostrovem a střední Evropou (FRA) 12 : 19 – 12 : 21 První pokus o tlumení oscilace dokumentován v předběžné chronologii ENTSO-E. Ochrany AVR a FACTS zařízení zkrátily amplitudu, kmitání přetrvalo. AVR je regulátor v elektrárnách, který hlídá konstantní napětí generátoru. FACTS je „elektronický tlumič“ napěťových výkyvů na dálkovém vedení, který na pokyn operátora nebo automaticky bleskově vyrovná přepětí či podpětí, aby se síť nerozkývala. 12 : 32 : 52 lokální přepětí 6 % na rozvodně Aranuelo (nepotvrzeno!) 12 : 32 : 57 Ze sítě vypadává zhruba 2,2 GW fotovoltaiky v regionu Extremadura, současně cca 1,0 GW větrná Andalusie; potvrzeno v předběžné chronologii ENTSO-E. 12 : 33 : 18 – 12 : 33 : 21 Frekvence iberské podzóny klesá na 48,0 Hz; aktivováno podfrekvenční odlehčení zátěže UFLS (cca 2 GW), aktivovány frekvenční ochrany měničových zdrojů (zdroj ENTSO-E). 12 : 33 : 21 Impedance-relé vypínají všech šest 400 kV vedeních ES–FR pro nadkritický fázový úhel (potvrzeno ENTSO-E) - tím okamžitě v síti roste nadvýroba a přestává existovat možnost stabilizace importem z Francie. 12 : 33 : 24 Totální kolaps synchronismu na Pyrenejském poloostrově, výkon v provozu je cca 0,4 GW. 12 : 33 – 12 : 34 Fázový rozdíl Malaga–Freiburg integrovaný z frekvence dosahuje ≈ 90°, což je limit stabilního přenosu (FRA) 12 : 44 start “ze tmy” přečerpávací vodní elektrárny Alcántara; první 400 kV koridor ES–FR pod proudem (oficiální ENTSO-E) 13 : 04 Sestavena druhá linie ES–MA; začlenění hydroelektráren, následně CCGT. 18 : 36 Synchronizace první 220 kV vazby ES–PT. 21 : 35 Synchronizace jižní 400 kV ES–PT. 29 / 4 00 : 22 Portugalská přenosová soustava v normálním stavu; 04 : 00 Španělsko.

Níže pod touto sekcí najdete zprávy k události ze dne incidentu a z dalších dní, kdy jsem situaci sledoval.


🇪🇸⚡️ 5.5. - Španělsku hrozil blackout několik dní

Po zajímavé stopě se pustil Reuters. Ten zdokumentoval několik výpadků z dní předcházejících blackoutu. V týdnech před pondělním kolapsem zaznamenala soustava několik menších poruch a experti opakovaně upozorňovali na narůstající nestabilitu a na to, že soustavu může rozhodit jak nedostatek výkonu, tak ale i její přebytek, což hrozilo zejména s růstem slunečních dní a tím s růstem produkce elektřiny, zatímco teploty byly ještě nízké na to, aby lidé masivně zapínali klimatizace.

Interní experti i REE v ročních zprávách upozorňovali na rostoucí nestabilitu kvůli souběhu malých zdrojů OZE a nedostatku dat z nich. REE z nich totiž nemá online data (či near-real-time data) o jejich produkci a pouze ji v reálném čase predikuje podle počasí, nemá ani vliv na připojení těchto zdrojů do sítě a jejich odpojení. Experti ENTSO-E také upozorňovali na nedostatečné plánování chystaného vyřazování jaderných reaktorů ze sítě s tím, že už plánovaná výměna paliva v reaktoru Almaraz II může být problém. Reaktor byl odpojen od sítě 20 . 4. 2025 a přešel do horkého odstávkového stavu. Práce podle harmonogramu pokračovaly i během blackoutu.Dne 22. dubna se objevily nápadné přepětí v síti a výpadky řízení, které odstavily vysokorychlostní vlaky a rafinérii Cartagena, což mělo být a zřejmě i bylo první vážné varování, problémy s v různé míře intenzity projevovaly až do 28.4.2025, kdy v 12:31 došlo k blackoutu na Pyrenejském poloostrově. Přesná souslednost výpadku je nicméně stále předmětem šetření.

Síť je nyní stabilní, nouzový stav byl zrušen. Vyšetřovací panel ENTSO‑E má plná data a nejpozději do 10 .5. slíbí první technický verdikt. Do té doby se čeká především na výsledek francouzského testu ochranných relé, který má objasnit, proč se Pyreneje odpojily prakticky v jednom okamžiku - a v kterém okamžiku to bylo. Nové informace nicméně posilují verzi systémového selhání, tedy neschopnosti REE řídit dynamicky se vyvíjející situaci v síti kvůli nedostatku dat a regulačních mechanismů.

3.5. 2025

Vyšetřování španělského blackoutu pokračuje, už se neobjevují žádné další podstatné informace. Stále není zřejmá přesná souslednost začátku, tedy zda za výpadek mohl nějaký zdroj, nebo nějaká událost v přenosové síti - čili kde kaskáda kolapsu začala. A zrovna tohle je hodně důležité.

Zatím pouze docela přesně víme, k čemu to vedlo, ale ne, jak to začalo - a nápravná opatření se podle toho budou výrazně lišit. V pátek proběhlo velké setkání, kde REN a REE předložily předběžné zprávy, ale nic podstatného z nich neuteklo, prohlášení po schůzce opakují jen již známé věci.

Ne každý je z detailního vyšetřování nadšený. Španělská vláda si vyžádala od Iberdroly, Endesy, Repsolu aj. „černé skříňky“ měničů a blokových ochran. Kdyby se nemohly najít, což se v takových situací stává, tak premiér Sánchez “nevylučuje sankce při neodevzdání”. Slušně vynadáno dostává španělský provozovatel přenosové soustavy REE (Red Eléctrica). Je již mnoho důkazů proto, že síť byla nestabilní již v pondělí dopoledne, REE nepřikročil k větší regulaci, ačkoliv mohl a zřejmě i měl. Kromě toho se ukazuje, že jej řada institucí upozorňovala již dříve, že nemají síť v dobré kondici. Tím hlavním varujícím byl právě ENTSO‑E, asociace operátorů přenosových sítí a operátor evropského gridu CESA. Akcie REE se propadly o 7 % - a nelibost premiéra Sáncheze jde zřejmě hodně tímto směrem, protože ať už byla příčina kdekoliv, bylo na zodpovědnosti REE si takovou věc do sítě pustit s patřičnými parametry nebo přijmout patřičná opatření.

To také znamená, že se houpe křeslo s šéfkou REE Beatriz Corredor, někdejší ministryní pro bydlení za sociálně-demokratickou stranu PSOE. Beatriz Corredor prohlásila, že nic takového se nebude opakovat a aby dodala svým slovům i technickou váhu, od úterka REE výrazně změnilo skladbu produkce elektřiny. Snížilo podíl fotovoltaiky a zvyšuje podíly produkce z točivých zdrojů (paroplynovky a uhlí). Část elektřiny také dobírá z jiných sítí, zejména Francie. Jako preventivní opatření portugalská ministryně životního prostředí Maria da Graça Carvalho oznámila, že Portugalsko “preventivně přestalo importovat elektřinu ze Španělska”. Dále zdůraznila potřebu více přečerpávacích vodních elektráren a bateriových úložišť v budoucnu, jakož i posílení propojení s Francií.

Čili zatím vyčkáváme na oficiální výsledky, nicméně je už zřejmé, že trámy k ukřižování jsou připraveny.

Za včerejšek mnoho novinek nebylo. Všichni zúčastnění po pondělním šoku pomalu najíždějí na informační disciplínu, která je v tomto případě užitečná, protože se ven nedostávají izolované zprávy, které lze snadno dezinterpretovat. Už dnes je jasné, že situace je velmi komplexní a nelze to vyřídit stylem “někdo hodil bombu do rozvodny”.

🇪🇸💡 1.5.2025: Jak pokračuje vyšetřování pyrenejského blackoutu?

Pro mě je také nepříjemné to, že sice se pořádají setkání s médii, z nich ale nevycházejí žádné oficiální zprávy, weby REN/REE mají jen prohlášení, že se to stalo a že to řeší, novinky nepředávají. Takže tyhle zprávy nabírám z médií a tam je často sdělení překroucené, zamlžené, protože pisatel nebyl energetik a v tomto případě na detailu záleží.

První velkou novinkou je, že jsem se dostal k datům z vnitřní sítě nízkého napětí ve vteřinovém rozlišení. Neumožňuje to vypátrat lépe příčinu, ale je vidět, že první problémy byly v rozvodné síti již dopoledne (což už bylo známo dříve), někdy po 9 hodině začalo na hladině nízkého napětí oscilovat napětí až o 11V, což rozhodně není obvyklé, obvyklá bývá jednotková oscilace. Navíc se zvyšovala amplituda kmitů, byly četnější, pak se před polednem situace stabilizovala. To sedí k informacím o tom, že oscilovala frekvence na přeshraničním pyrenejském připojení, k tomuhle jevu dochází na hladině nízkého napětí, když se “přetlačují” toky ze dvou velkých sítí. Jenže taky v řadě dalších případů, takže z toho nededukujme mnoho. Dlouhé, pomalu sílící kmity nicméně naznačují nedostatečně tlumenou soustavu (málo setrvačnosti / tlumicích výkonů). Znamená to, že síť byla nestabilní několik hodin před blackoutem a dispečeři si toho museli být vědomi, zjevně se zásahy snažili síť stabilizovat. Pomalý rozjezd oscilací také spíše vylučuje terorismus, to by muselo jít o dobře cílené a synchronizované útoky.

Z oficiálních vyjádření také víme, že došlo ke dvěma vážným problémům předcházejícím blackoutu. REE uvedlo, že šlo přerušením dodávek elektřiny a zatímco se španělská síť dokázala zotavit z první události, ředitel Eduardo Prieto uvedl, že druhá byla mnohem ničivější a vyústila v přerušení dodávek elektřiny z francouzské sítě a „masivní dočasné odpojení“. Zatím nebylo oznámeno, o co šlo, některé zvěsti říkají, že v prvním případě vypadla fotovoltaika o cca 3 GW někde v Extremaduře, v druhém o 1 GW větrníků v Andalusii. Oficiálně to ale potvrzeno není.

Extremadura je fotovoltaické srdce Španělska, ale největší FTV parky zde mají max 600 MW, většinou jsou kolem 200 MW, na 3 GW výkonu by jich musela vypadnout zhruba desítka, což znamená, že jde o systémový incident, ne o náhodný nezvládnutý výpadek. Například jsou všechny FTV napojeny na stejnou páteřní trasu 400 kV Almaraz - Guillena přes čtveřici rozvoden. Proto je důležité bedlivě stanovit časovou mapu a tím se dobrat k tomu, zda se synchronně vyply FTV parky, nebo je odpojily ochrany rozvoden či 400 kV linky, protože všechny tři jevy mají jiné řešení. Podobně je to s větrníky v Andalusii.

Čili jsme zase u toho. Čekáme na závěry probíhajícího šetření ENTSO-E a přesnou časovou osu, přičemž další tisková konference snad už s detaily, má být 2.5.

Jedna věc je vtipná, všichni už si kryjí záda. REE upozornilo, že na systémovou nestabilitu sítě upozornilo ve své letošní únorové zprávě (tedy několik let poté, co jim to samé říká ENTSO-E coby šéf eurosítě).

Jinak pro zlepšení hospodské debaty: samozřejmě existují setrvačná a elastizující řešení i pro FTV a větrníky. Nemusí to být nutně baterie, ale třeba synchronní kompenzátory, flywheely nebo intertia boosty pro větrné turbíny. Řešení je celá řada, nemusíte kvůli tomu nutně vydlabat vrcholek kopce a napustit ho vodou, jenže když si to do sítě neobjednáte, tak to nemáte.

🚗 Pyrenejská rozvodná síť byl prostě nadupaný sportovní kabriolet, do kterého se daly kvůli úspoře brzdy z Felačky a v zatáčce v Pyrenejských serpentinách se to prostě vyklopilo. Buďto zakážeme výrobu sportovních vozů, nebo do nich značneme dávat odpovídající brzdy, moc víc nad tím nevymyslíme…

…okračování zítra asi odpo, až budou venku zprávy…

3️⃣🇪🇸⚡️ 30.4.2025 Co nového se španělským blackoutem?

Jak vypadá situace kolem španělského blackoutu energetické sítě? Včera se téměř vše vrátilo do normálu, zapomeňte na novinové titulky “budou se vzpamatovávat týden” - kromě specifických věcí už je (v energetice) vše v normálu. Nicméně probíhá šetření. Co víme nového? No, pokud už sami máte jasno, tak dál nečtěte, protože jasno moc není.

V zásadě byla opuštěna myšlenka gallopingu jako JEDINÉHO SPOUŠTĚČE, tedy že šest 400 kV linek přes Pyreneje do Francie odpojily ochrany kvůli nadměrnému pohybu vedení vinou proudění vzduchu. Zdá se, že k pohybu došlo, ale ten nebyl jedinou či přímou příčinou odpojení linek. Atmosférická situace nebyla nijak extrémní. Nicméně ještě probíhá vyhodnocování měření.

Už se ale spíše uvažuje o špatně nastaveném firmware ochran, protože RTE potvrdila, že se používají stejná nastavení, jako u linky 400 kV v Lotrinsku, která se loni planě odpojila.

Dnes bohužel není úplně veřejně jasné, zda k odpojení linek došlo PŘED nebo PO zlomové události, tedy jak moc velký vliv jejich přerušení mělo a zda nebylo spouštěčem blackoutu.

V každém případě již nyní je zřejmé, že došlo k celé souhře událostí, mezi něž bych neváhal přidat španělský čurbes.

Především je třeba říct, že nemáme všechna podkladová data, sice scanuju všechna patřičná média, ale v nich se objevují zprávy útržkovitě a často manipulativně. Například ten galloping, ukázalo se, nebylo oficiální vyjádření portugalského REN, ale rychlý osobní názor jednoho z dispečerů, které bylo v médiích oseknuto tak, že to vypadalo jako oficiální postoj. Stejně tak v deníku el Pais se objevila data z jednoho slide určeného pro krizové jednání vlády, které ukazovaly na konkrétní problém, jenže se později ukázalo, že v prezentaci šlo o dva slajdy a na tom prvním byl zachycený začátek události, který všemu dával jiný kontext. Za třetí se ukázalo, že jeden z důležitých logů měl posunuté časové razítko o skoro dvě minuty, protože neměl přesný čas, což na interpretaci dat vrhalo jiné světlo. Proto nutně s daty opatrně a nedělat unáhlené závěry.

Pojďme si zrekapitulovat, co víme.

Kolaps španělské přenosové soustavy byl extrémně rychlý a rozsáhlý. Během pouhých pěti sekund došlo ke ztrátě přibližně 15 gigawattů (GW) elektrického výkonu. Tato ztráta představovala zhruba 60 % okamžité celostátní poptávky po elektřině v daném okamžiku. Okamžitá poptávka ve Španělsku dramaticky poklesla z úrovně přibližně 26 000 - 27 500 megawattů (MW) na hodnoty blížící se 15 000 MW , přičemž v nejnižším bodě dosáhla pouhých 10 480 MW. Tato bezprecedentní rychlost a rozsah ztráty výkonu byly klíčovými faktory, které vedly k následnému kaskádovému selhání a rozpadu sítě.

Tohle víme vcelku jistě. Nyní je otázkou, co tu ztrátu 15 GW v síti způsobilo.

Podle první teorie to byl výpadek linek přes Pyreneje, zatím z neznámých příčin, kterých mohlo být více (kyberútok se tady zatím stále spíše neuvažuje). Při přerušeném exportu do Francie by frekvence sítě ve španělsku vyletěla nahoru (a v EU dolů) a fotovoltaické a větrné elektrárny v rozmezí 8 sekund odpojily od sítě něco jako 15-30% výkonu. Tento pokles je okamžitý, nemá prakticky žádnou elasticitu, čímž dostane frekveci pod 50 Hz a při poklesu pod 49,5 Hz se odpojily tři plynové bloky a všechny jaderné elektrárny. Ochrana zátěže následně odpojuje část odběratelů, cca 3 GW. Takhle se mohl nasbírat propad o těch 15 GW. Situaci nepomohlo to, že v dlouhodobé odstávce byl jaderný blok Vandellos 2 a v údržbě JE Trillo (čili běží dvě JE) a také to, že náhradní zdroje, které měly okamžitě nastartovat, nastartovaly mírně později, než měly. PVE Alcántara se přifázovala 110 s po oddělení a CCGT Cartagena dodal prvních 250 MW dokonce až 7 min, přičemž první dodávky měla dát už za dvě minuty. Na vině byl možná tlak plynu, ale to už je nepotvrzené.

Podle druhé teorie (zveřejněné REE) došlo k propadu výroby na dvou španělských elektrárnách zatím z neznámého důvodu, což (a to už je interpretace) spolu s dalšími faktory jako špatný firmware a galloping nebo rozhodnutí ochrany evropské sítě vedlo k rozpojení linky a kaskádě tak, jak bylo popsáno výše.

Proč se odpojily dva velké zdroje ze sítě, není zatím jasné - tady není ani náznak a počkal bych na data. V Česku se to nicméně hodilo na tuto verzi a prý to měla způsobit výroba z OZE, což není příliš pravděpodobné.

Jak se nezávisle prokáže, co bylo první, zda výpadek linky nebo zdrojů? Vcelku jednoduše: pokud frekvence stoupla na 50 Hz, znamená to převis výroby v síti, což napovídá na odpojení linky (která exportovala 5 GW do Francie). Pokud naopak frekvence klesla, tak nejprve vypadly zdroje. Bohužel přesnější grafy a časy nebyly publikovány a z veřejně dostupných dat je rozlišení malé (bavíme se o 4 sekundách rozdílu!). Zatím jediná data z údajné interní zprávy RTE cituje článek Euronews, podle nějž frekvence na kontinentální (francouzské) straně vyskočila asi na 50,20 Hz a během několika sekund se vrátila k nominálu. Grafy z kontinentální sítě ukazují, že k výpadku 5 GW (což odpovídá pyrenejské lince) vypadlo ve 12:31 a začínají nabíhat regulace ve zbytku Evropy, které situaci v Evropě dostanou během tří minut zcela pod kontrolu. Bohužel veřejné zdroje o španělské produkci elektřiny jsou agregované na pět minut, takže lze jen potvrdit, že mezi 12:30 a 12:35 došlo ke ztrátě minimálně 11 GW produkce a to nám nepomůže…

Zavržené jsou zaručené zprávy o výbuchu španělské rozvodny Sentmenat - nenese žádné takové známky.

Vysvětlení s primárním výpadkem linky by lépe vysvětlovalo, proč vypadly točivé zdroje, ale zase zůstává nejasné, proč vypadla linka, zatímco primární výpadek zdrojů lépe vysvětlí odpojení linky a zase není jasné, proč by vypadlo tolik zdrojů. Budeme si tedy muset počkat, až se objeví více dat.

Hlavní poznatky, kterými si můžeme být jisti, jsou zatím dva (a na oba byli REE/REN upozorňovány dříve):

chybí lepší propojení do Evropy, mělo by být spíše dvojnásobné až trojnásobné, teď je Pyrenejský poloostrov energeticky spíše ostrov a Evropa mu nemůže moc pomoci. Jsou potřeba další rychlostartující úložiště typu baterie.Pokračování z 29.4.2025

Záhy po publikování informací o rozpadu energetické sítě na pyrenejském poloostrově se začaly šířit teorie, kdo za to může. Rusko či jiní teroristé nebo snad Green Deal? Pojďme se s tím vyrovnat.

Za prvé je potřeba říct, že vyšetřování probíhá, incident dostal nejvyšší klasifikaci ICS-3, což znamená mezinárodní odborné vyšetřování, které je na začátku. Nyní jsou více-méně jisté technické příčiny, které si zrekapitulujeme. A zároveň se nenašla kybernetická stopa, i k tomu se dostanu.

ENTSO-E (to je evropské sdružení všech provozovatelů přenosových soustav) potvrdila ztrátu více jak 10 GW během 5 s (v tiskové zprávě REE se psalo 15 GW), což je obrovsky mnoho, na to žádná síť není dimenzována. V energetické síti se spotřeba musí rovnat výrobě a jsou zálohy, ale ne 15 GW. REE a REN (provozovatelé a dispečeři přenosových soustav ve Španělsku a Portugalsku) stále pracují s hypotézou „induced atmospheric vibration“ (galloping) na svazkových vedeních přes Pyreneje; ochrany prý vedení preventivně odpojily, čímž se poloostrov izoloval v okamžiku poruchy tvořily točivé zdroje jen ≈44 % výroby; vysoký podíl FVE a VtE urychlil pád frekvence. Točivé zdroje mohou do určité míry zbrzdit “pád soustavy”, protože “absorbují” pád frekvence, oproti tomu fotovoltaika se v případě problémů okamžitě odpojuje a to síť naopak může destabilizovat. Internetem putují “zvěsti” o podivnostech v britské síti nebo o odpojení kabelu Viking Link mezi Dánskem a Británií, jenže data ničemu takovému nenasvědčují a ani patřičné instituce k tomu nic nevydaly, čili to vypadá na kachnu.

Problém může být v tom “ochrany odpojily vedení”. Podle analýzy SCADA logů se nezdá, že by do dálkově servisovatelných prvků někdo přistupoval, přesto je čistě hypoteticky možné, že někdo našel nějakou kombinaci postupů, jimž vyvolal kaskádovité odpojování. Někde jsem četl názor, že přeci stačí vzít klacek a vedení přes Pyreneje rozhoupat, aby hrozilo jeho zkratování. To jistě stačí, když vezmete asi stometrový klacek a nevadí vám ta trocha popálenin, kdy vás do nemocnice odvezou v krabičce od bot. A jelikož k mechanickému poškození (typu exploze) nedošlo, zatím se pracuje s tezí, že ochrany reagovaly příliš agresivně, než že by je k tomu někdo či něco donutilo. Ale uvidíme, tady je na závěry brzy a z pražské kanceláře rozhodně.

Co se děje teď?

Španělsko oznámilo, že od půl sedmé našeho času pokrývá 99 % celostátní poptávky a všechny hlavní uzly vysokého napětí jsou pod napětím . Portugalsko již včera informovalo o napájení 85 z 89 stanic; poslední venkovské okruhy se budou připojovat v průběhu dneška . Nouzové linky Francie - Katalánsko a Maroko - Andalusie zůstávají otevřené, aby pomohly s vyrovnáním výkonu během startu tepelných elektráren Doprava: Z kolejí bylo evakuováno více jak 35 000 cestujících, metro v Madridu a Lisabonu zprovoznilo první linky až dnes ráno . Letiště: Madrid-Barajas i Barcelona-El Prat fungovaly na záložních okruzích; terminály zůstaly osvětlené, ale došlo ke zrušení více jak 400 letů . Telekomunikace: mobilní sítě jely v nouzovém režimu na baterie — operátoři vyzvali uživatele ke střídmému volání, což prý úplně neklapalo, ranní interview na ČRo s reportérkou ze Španělska rušily výpadky. Veřejný pořádek: Španělsko rozmístilo 30 000 policistů; král Filip dnes vede zasedání Národní bezpečnostní rady . Francie a Německo slíbily pomoc s mobilními bateriovými kontejnery a rychlými plynovými turbínami, pokud by přišly další vlny horka . Velkoobchodní cena elektřiny v Iberian Market (OMIE) krátkodobě zhouply, ale už se stabilizují na day ahead průměru 6 €/MWh - problém byl spíš v dopravě elektřiny, než v její výrobní ceně a cenové výkyvy jsou malé.

Takže závěr?

Na závěry je brzy. Terorismu nenasvědčuje zatím nic. Ani tomu neruskému (to už by se někdo hlásil s požadavky), ani tomu ruskému (to už by Rusko nabízelo pomoc). Jenže to je také první rychlý pohled a mohlo to jistě být jinak. Logy nelžou, ale mohl je někdo uklidit. Ostatně, konspirátoři předpokládají, že teroristé po sobě poprvé pořádně uklidili stopy (což Rusové nedělají, proč někoho terorizovat, když není jasné, kdo vám dal přes pusu).

Přesto vám sem jeden ilustrační obrázek dám 😎

[image error]

A ten Green Deal? Jistě, kdyby měla pyrenejská síť více točivých zdrojů, mohla dopadnout nějak lépe - jak moc, to se teprve nasimuluje. Ale kdyby měla balanční zdroje, jako jsou baterie, také by to ustála jinak. Na slunném jihu dávají FTV a větrníky velký smysl z hlediska produkčních cen a místní operátoři byli dlouhodobě upozorňováni na to, že tomu musí svoji síť přizpůsobit. Green Deal s nedodržením zásad diverzifikace nemá mnoho společného.

Elektřina už prakticky všude svítí, ale skutečná „detektivka“ právě teď začíná. Podrobné záznamy z ochran a phasor PMU teprve ukážou, zda vedla řetěz selhání opravdu kombinace „rozkmitaných“ pyrenejských linek a nízké setrvačnosti, nebo se v poslední chvíli přidalo ještě něco dalšího.

Zpráva z 28.4.2025:

Podle provozovatelů REE a REN došlo v 11:33 WES-T k „el cero“ – úplnému výpadku energetické soustavy na Pyrenejském poloostrově. Extrémní teploty v centrálním Španělsku způsobily neobvyklé kmitání 400 kV vedení. Ochrany postupně odpojily více linek a generátorů, až se Pyrenejský poloostrov oddělil (“islandoval”, přešel do ostrovního provozu) od zbytku kontinentální sítě.

V izolované oblasti pak frekvence klesla ještě hlouběji, část elektráren se odpojila a následovalo masivní zatmění (blackout) Španělska, Portugalska a části jihozápadní Francie. 

⚡️ Blackout: co se 28. 4. 2025 stalo ve Španělsku a Portugalsku?

Podívejme se na událost v grafu. Z něj je vidět, že pokles byl v nejostřejším místě jen 0,15 Hz. Pojďme si to vysvětlit pro zájemce o energetiku…

Proč na kontinentu „spadlo“ jen 0,15 Hz?

Po odpojení Iberského poloostrova ztratila zbytek Evropy čistý export ~4–5 GW ze Španělska (obě země měly v poledne vysokou výrobu ze solárních a větrných zdrojů). Tato ztráta se okamžitě promítla do grafu jako −150 mHz. Primární regulace ve zbytku Evropy (turbíny, baterie, HVDC linky) během sekund začala výkon zvyšovat, čímž frekvenci zastavila u ≈ 49,85 Hz a během tří minut ji vytáhla zpět nad 49,9 Hz. Díky rychlé reakci a dostatečné setrvačnosti se kontinentální síť neodstavila – v grafu vidíte jen krátký, ale prudký zářez.

[image error]

Co vidíme v grafu

Osa y (Frekvence): nominál evropské synchronní sítě je 50,00 Hz. Tři křivky (žlutá = průměr, černá = maximum, šedá = minimum) ukazují, jak se frekvence mezi ≈ 11:55 a 13:00 CEST pohybovala v různých měřicích bodech propojené soustavy. Až do ≈ 12:30 se frekvence vlnila v běžném koridoru ±20 mHz (49,98–50,02 Hz). V 12:31–12:34 nastal prudký pád až na ≈ 49,85 Hz – to je odchylka −150 mHz. Vzápětí se frekvence díky primární regulaci a automatickým zálohám vrátila k 50 Hz; kolem 12:45 už je systém opět stabilní.

Co takový pokles znamená

Frekvence se sníží, když odběr náhle převýší výrobu (nebo když se naopak od sítě odpojí část výrobních kapacit). V evropské soustavě stačí nerovnováha ~30 GW / Hz; −0,15 Hz tedy odpovídá zhruba 4–5 GW náhle chybějícího výkonu.

Důsledky na Pyrenejském poloostrově

Izolovaná Iberská soustava přišla o možnost importů z Francie, které by krátkodobě pomohly stabilizaci. Protože odběr převýšil dostupnou vlastní výrobu, frekvence spadla výrazněji (pravděpodobně < 49 Hz). Ochrany odpojily další zdroje i zátěže, aby chránily zařízení, což se navenek projevilo rozsáhlým blackoutem (vlaky, metro, letiště, domácnosti). Obnova musela probíhat postupně, aby se zamezilo dalšímu kolapsu napětí a frekvence. 

Takže ve stručnosti:

Z pohledu zbytku Evropy šlo o „pouhou“ ztrátu ~5 GW → pokles frekvence o 0,15 Hz, rychle vyrovnaný zálohami. Z pohledu Španělska a Portugalska to znamenalo ztrátu propojení, hluboký propad frekvence a následný blackout.

Taková událost názorně ukazuje, jak citlivá je moderní síť: i malá odchylka frekvence na kontinentu může signalizovat dramatické dění v jedné jeho části, a proč je klíčové mít dostatek rychlých regulačních zdrojů a chytré ochrany.

PS: je to samozřejmě můj neodborný názor založený na tom co k tomu vyšlo

 •  0 comments  •  flag
Share on Twitter
Published on May 12, 2025 17:00

May 10, 2025

OpenAI kupuje Windsurf a posiluje v programátorských nástrojích

OpenAI kupuje za 3 miliardy dolarů společnost Windsurf, který se zabývá vývojem prostředí pro AI kódování. Co je zajímavého na tom, že společnost, která tvrdí, že její interní LLM nástroj je mezi padesáti nejlepšími programátory světa, koupí za tři miliardy dolarů firmu, která takový nástroj vyvíjí?

Trh s AI asistenty pro programování je extrémně konkurenční. Microsoft (GitHub Copilot), Anthropic, Google (Gemini), Anysphere (Cursor) a další rychle inovují a získávají uživatele. OpenAI potřebuje nejen špičkový model, ale i silnou pozici v každodenních vývojářských workflow, kde už dnes dominují jiné nástroje. Windsurf má unikátní technologii (například systém “Cascade Flow”), která umožňuje hlubokou integraci do IDE a optimalizaci práce s celými codebase, včetně správy závislostí a refaktoringu starého kódu. To je něco, co samotné LLM nestačí. Vývojáři potřebují nástroje, které se napojí přímo na jejich pracovní procesy, repo a infrastrukturu. Tyto dva body považuji za první klíčovou věc! Akvizice Windsurf umožní OpenAI vytvořit uzavřený ekosystém, kde bude mít pod kontrolou jak základní modely, tak i konkrétní nástroje, které vývojáři používají denně. Tím získá přístup k reálným datům z vývoje, což je klíčové pro další zlepšování modelů i pro udržení pozice na trhu. Tohle považuji za druhou nejklíčovější záležitost. Windsurf vykazuje velmi rychlý růst tržeb (z 10 na 40 milionů USD ARR za dva roky) a má potenciál stát se jedním z hlavních hráčů v segmentu AI coding tools. OpenAI tímto krokem nejen posiluje své portfolio, ale také předchází tomu, že by Windsurf získal některý z konkurentů.

[image error]

Sám musím říct, že Windsurf je jedním z mála AI kodovacích nástrojů, které jsem prakticky víc nevyzkoušel. IDE vychází z VS Code rozložení, na což jsou programátoři zvyklí, není to vysloveně vibe coding technologie.

Můj osobní odhad je, že OpenAI šlo právě po těch reálných datech z vývoje a propojení k feedbacku od skutečných programátorů. Což je ve Windsurfu uděláno moc hezky.

Reakce trhu a investorů

Trhy reagovaly citlivě, zejména akcie Microsoftu zaznamenaly pokles. Důvodem je úzké propojení OpenAI a Microsoftu – Microsoft je hlavním investorem OpenAI a integruje její technologie do svých produktů. Investoři mají obavy, zda je akvizice za několik miliard efektivním využitím prostředků, zvlášť v době, kdy není jasné, které AI směry přinesou největší návratnost. Někteří investoři by upřednostnili, kdyby OpenAI investovala spíše do vlastního výzkumu než do akvizic. Objevují se i názory, že akvizice je motivována snahou rychle zvýšit tržby a rozšířit ekosystém, což je v prostředí tvrdé konkurence logický krok.

Reakce uživatelské a vývojářské komunity

Obavy uživatelů Windsurfu: Na komunitních fórech a Discordu Windsurfu panuje nejistota ohledně budoucnosti služby – uživatelé se bojí zdražení, omezení funkcí nebo exkluzivity pro předplatitele OpenAI/ChatGPT. Otázky ohledně podpory konkurenčních modelů: Windsurf umožňuje využívat různé jazykové modely (např. Meta Llama, Anthropic Claude). Vývojáři spekulují, zda OpenAI tuto otevřenost zachová, nebo bude tlačit pouze své modely, což by mohlo vyvolat obvinění z omezování konkurence.Windsurf Wave 8: Významná aktualizace pro vývojáře

Windsurf akvizici oslavil tím, že vydal “Osmou vlnu” - osmou hlavní verzi. Windsurf Wave 8 přináší řadu vylepšení zaměřených především na JetBrains plugin a uživatelské rozhraní. Do JetBrains pluginu byly konečně přidány dlouho očekávané funkce z editoru Windsurf, včetně Cascade Memories pro ukládání důležitých informací mezi konverzacemi, původní implementace Rules přes soubor .windsurfrules pro řízení AI, a podpora MCP (Model Context Protocol) pro připojení k lokálním serverům s arbitrárními datovými zdroji. Tyto funkce výrazně rozšiřují možnosti Cascade v prostředí JetBrains.

Na straně UX došlo také k několika důležitým vylepšením. Přibylo nové tlačítko “Continue”, které umožňuje jednoduše pokračovat v práci Cascade bez nutnosti psát další prompt, když se AI zastaví pro zpětnou vazbu. Model selector byl kompletně přepracován pro lepší organizaci rostoucího počtu dostupných modelů podle poskytovatele nebo ceny. Nově je také možné filtrovat historii konverzací podle workspace, což výrazně zlepšuje orientaci při práci na více projektech současně.

Mezi další vylepšení patří lepší podpora témat pro bloky kódu, možnost upravit navržené terminálové příkazy před jejich provedením, vylepšené navigace v hunk změnách kódu a schopnost Cascade navrhovat obsah nových souborů přímo v Chat módu. Všechny tyto změny reflektují důraz vývojářů Windsurf na intuitivní a plynulé uživatelské rozhraní, které maximalizuje produktivitu při práci s AI asistentem.

Klíčové novinky:

Cascade Memories v JetBrains - AI si pamatuje důležité informace mezi konverzacemi Podpora Rules (.windsurfrules) pro přizpůsobení chování AI MCP integrace pro připojení k lokálním datovým zdrojům Tlačítko “Continue” pro rychlé pokračování bez psaní promptu Přepracovaný model selector s lepší organizací modelů Filtrování konverzací podle workspace Vylepšená správa bloků kódu a hunk navigace Možnost editace navržených terminálových příkazů Návrhy obsahu nových souborů přímo v Chat módu
 •  0 comments  •  flag
Share on Twitter
Published on May 10, 2025 17:00

May 7, 2025

První česká tragédie prostřednictvím autonomního AI agenta

Nebudete věřit, co se stalo, když zadal nedobře odladěnému autonomnímu agentovi nákupní pokyn a svou platební kartu. Už nikdy nebudete klidně spát!

V jednom ze svých nedávných newsletterů jsem psal, že nedeterministické chování AI agentů a obrovský tlak jejich vývojářů a investorů vývojářů na jejich rychlé nasazení, letos způsobí katastrofu. A bude jen na zkušeném managementu, jak takovou katastrofu zvládne. To jsem nevěděl, že jeden takový příklad budu mít za chvíli a půjde v něm o hodně.

Když jsem zkoušel první agenty vytvořené v AI, dělal jsem v tom nenáročné operace typu “najdi na stránkách obcí cenu za svoz odpadu a další podmínky”. A byl jsem vlastně spokojen. Pak jsem se rozhodl, že technologie je otestovaná, takže ji mohu nasadit i na nějaký klíčový úkol, kdy AI agenta vybavím napojením na živé systémy a mojí platební kartou. Vím, školácká chyba, ale bylo to nutné prověřit na vlastní kůži. A tak jsem agentovi zadal úkol hlídat stránky Žižkovského divadla Járy Cimrmana a v momentě, kdy budou dostupné vstupenky na nějakou cimrmanovskou hru, jich šest zakoupit, abych mohl vyrazit s dětmi. Proto ta platební karta.

Úspěch se dostavil o dva dny později, kdy mi cinkla notifikace, že biletky jsou úspěšně zakoupeny a můžeme za dva měsíce jít na hru. Dlužno říct, že hra Nohy z jílu mi nebyla příliš známá, ačkoliv jistě povědomá. Nicméně nejsem velký znalec cimrmanova kánou a venkoncem, proč by nemohl napsat hru z prostředí státní správy. No, nebudu vás napínat, hru uvádělo hostující Divadlo Aqualung a s Cimrmanem neměla nic společného, jen se hrála také v Žižkovském divadle. AI agent prostě zklamal.

No a teď k té úloze seniorního managementu. Dětem jsem vysvětlil výhodu možnosti jít na moderní divadelní pojetí hry Terryho Pratcheta ze zeměplošského cyklu, všem se hra líbila a všichni si dokonce vyžádali, abychom šli i na další díl.

No a takhle to s AI agenty v nejbližší době bude. Buďto je nezvládnete správně nasadit, nebo udělají chybu, v lepším případě koupí špatné lístky, v horším někoho odpojí od elektřiny. V zásadě proto budete potřebovat seniorního manažera, který z nevýhody udělá výhodu a všechno zlé obrátí v dobré. Tak, jako vždycky. Od toho seniorní management je, aby poznal slepou jednosměrku a vyhodnotil, zda je lepší vycouvat, nebo zvýšenou rychlostí jednosměrku zobousměrnit.

 •  0 comments  •  flag
Share on Twitter
Published on May 07, 2025 17:00

May 4, 2025

Proč je velikost kontextu u LLM tak důležitá?

A především, proč je tak drahé a zdlouhavé zvyšovat velikost kontextu? Tento článek se podrobně zabývá tím, co kontext znamená, proč je jeho délka kritická, jaké technické překážky brání jeho neomezenému rozšiřování a jaká řešení se v současnosti vyvíjejí.

Co konkrétně se v tomto článku dozvíte?

Co je kontext a proč je jeho délka klíčová? Význam délky kontextu pro kvalitu výstupu: Aktuální velikosti kontextových oken a ceny (květen 2025) Jádro problému: Kvadratická složitost mechanismu pozornosti Praktické důsledky kvadratické složitosti Současné přístupy a řešení 1. Optimalizace standardní pozornosti 2. Aproximace pozornosti (Řídká pozornost - Sparse Attention) 3. Alternativní architektury (mimo transformátory) 4. Retrieval-Augmented Generation (RAG) 5. Další techniky Výzvy a budoucí směřování Závěr

Velké jazykové modely (LLM) jako GPT-4, Claude 3 nebo Gemini 2.5 se staly výkonnými nástroji pro zpracování přirozeného jazyka. Jejich schopnost generovat text, překládat, odpovídat na otázky a psát kód je využívána v mnoha oblastech. Navzdory jejich pokročilým schopnostem však narážejí na významné omezení: efektivní zpracování velmi dlouhých sekvencí dat, známé jako “problém dlouhého kontextu”.

Co je kontext a proč je jeho délka klíčová?

V případě LLM představuje kontext (context window) veškerá data, která má model k dispozici v daném okamžiku pro zpracování a generování odpovědi. Funguje jako operační paměť modelu. Pokud si LLM chce něco pamatovat v rámci rozhovoru, předává si to jako kontext, ačkoliv to třeba nevidíte. Pokud má LLM pracovat s vašimi předchozími zprávami v rámci chatu, prostě je přibalí do posílaných dat. Obsah kontextu typicky zahrnuje:

Vstupní text (prompt): Zadání nebo otázka od uživatele.

Historie konverzace: Předchozí výměny v rámci aktuální interakce. U některých systémů může zahrnovat i relevantní informace z minulých interakcí (např. pomocí explicitních paměťových mechanismů).

Poskytnuté dokumenty: Externí texty, které má model analyzovat, shrnout nebo z nich čerpat informace (např. nahrané PDF, webové stránky).

Interní instrukce: Systémové prompty definující chování modelu, jeho personu nebo specifické úkoly.

Vygenerovaný text: Část textu, kterou model sám postupně generuje jako odpověď.

Délka kontextu, obvykle měřená v tokenech, definuje maximální množství informací, které model může současně zpracovat. Token je základní jednotka textu pro LLM, která může odpovídat slovu, části slova nebo interpunkčnímu znaménku (pro hlubší vysvětlení viz článek Tokeny versus Slova).

Význam délky kontextu pro kvalitu výstupu:

Porozumění souvislostem: Delší kontext umožňuje modelu lépe zachytit složité vztahy, závislosti a nuance v rozsáhlých textech.

Konzistence: Schopnost udržet jednotný styl, téma a faktickou správnost napříč dlouhými konverzacemi nebo dokumenty.

Přesnost a relevance: Přístup k většímu množství relevantních informací vede k přesnějším a lépe zacíleným odpovědím.

Zpracování komplexních úloh: Úlohy jako detailní analýza rozsáhlých reportů, knih nebo kódových bází vyžadují schopnost pojmout velké množství dat najednou.

Omezení “halucinací”: Poskytnutí dostatečného kontextu může snížit tendenci modelu vymýšlet si informace, které nejsou ve vstupních datech.

Aktuální velikosti kontextových oken a ceny (květen 2025)

Velikost kontextového okna a cena jsou klíčové parametry při výběru modelu. Níže je uveden přehled některých populárních modelů s daty převážně z OpenRouter (duben 2025):

Model Kontextové okno (Max vstup) Max. výstup Cena vstupu ($/1M tokenů) Cena výstupu ($/1M tokenů) o3 (OpenAI) 200 000 100 000 $10.00 $40.00 o4-Mini (OpenAI) 200 000 100 000 $1.10 $4.40 o4-Mini High (OpenAI) 200 000 100 000 $1.10 $4.40 GPT-4.1 (OpenAI) 1 050 000 33 000 $2.00 $8.00 Claude 3.7 Sonnet 200 000 64 000 $3.00 $15.00 Claude 3.7 Sonnet Think 200 000 64 000 $3.00 $15.00 Gemini 2.5 Pro (Google) 1 050 000 66 000 $1.25 - $2.50 $10.00 - $15.00 Grok 3 beta (xAI) 131 000 131 000 $3.00 $15.00 Llama 4 10 milionů - (Open Source) (Open Source) Jamba-1.5 (AI21, OS) 256 000 - (Open Source) (Open Source)

Poznámka: Ceny se mohou lišit v závislosti na poskytovateli API (zde OpenRouter) a aktuálním vytížení. U Gemini 2.5 Pro jsou ceny uvedeny v rozsahu. Open-source modely nemají přímé ceny za token, ale náklady na jejich provoz. Hodnota u LLAMA 4 je velmi optimistická, model na to nebyl řádně testován a výsledky nejsou příliš kvalitní.

Je důležité poznamenat, že nominální délka kontextového okna nemusí vždy odpovídat efektivní schopnosti modelu využívat informace z celého kontextu. Testy jako Needle In A Haystack (NIAH) ukazují, že některé modely mají problémy s vyhledáváním informací umístěných uprostřed velmi dlouhého kontextu (tzv. “lost in the middle” problém), i když se tento problém postupně daří zmírňovat.

Už teď je tedy zřejmé, že na rozsahu kontextu záleží, přičemž “kontext” není jen to, co zadáte do Prompt okna v ChatGPT, ale také spousta dodatečných dat, kterými ChatGPT váš dotaz “obalí”, aby využil toho, co ví o vás, o tom, co vyžadujete atd. Nabízí se tedy otázka, proč se jednoduše velikost kontextového okna nerozšíří na maximum! Odpověď? Protože to není vůbec jednoduché a především to stojí hromadu peněz při používání! Jak to?

Jádro problému: Kvadratická složitost mechanismu pozornosti

Základem většiny moderních LLM je architektura transformátoru, představená v roce 2017 v článku “Attention Is All You Need”. Klíčovou inovací této architektury je mechanismus sebe-pozornosti (self-attention). Ten umožňuje modelu vážit důležitost všech ostatních tokenů v kontextu při zpracování každého jednotlivého tokenu.

Jak to funguje (velmi zjednodušeně): model se při čtení každého slova “dívá” na všechna ostatní slova v textu, aby pochopil jeho význam v dané větě. Tedy počítá jej vůči všem předchozím slovům. Tímto způsobem zjišťuje, která slova jsou pro aktuální slovo nejdůležitější a jak spolu souvisí. Proto prodlužování textu zvyšuje náročnost výpočtů exponenciálně.

Jak funguje (méně zjednodušeně): Pro každý token model vypočítá tři vektory: Query (Q), Key (K) a Value (V). Poté pro každý token (reprezentovaný jeho Q vektorem) vypočítá skóre pozornosti vůči všem ostatním tokenům (porovnáním Q s K vektory všech tokenů). Tato skóre se normalizují (typicky pomocí funkce softmax) a použijí se k vytvoření váženého součtu V vektorů všech tokenů. Výsledkem je nová reprezentace tokenu, která zohledňuje jeho vztah ke všem ostatním tokenům v kontextu.

Problém škálování: Tento mechanismus je extrémně efektivní pro zachycení závislostí v textu, ale má zásadní nevýhodu: jeho výpočetní a paměťová složitost roste kvadraticky s délkou sekvence (N, počet tokenů).

Výpočetní složitost: Počet operací potřebných pro výpočet matice pozornosti je úměrný O(N2). Pro každý z N tokenů musíme vypočítat jeho vztah k N tokenům (včetně sebe sama).

Paměťová složitost: Model si musí během výpočtu uchovávat matici pozornosti o velikosti N×N, což vede k paměťové náročnosti O(N2).

Ilustrace dopadu:

Přesné časy zpracování závisí na mnoha faktorech (konkrétní model, hardware - např. typ GPU, optimalizace - např. FlashAttention, datový typ výpočtů), ale pro ilustraci řádového nárůstu náročnosti na výkonném GPU (např. NVIDIA H100/B100):

Kontext 1 000 tokenů: Vyžaduje řádově 10002=1000000 operací/paměťových jednotek. Zpracování (inference) může trvat zlomky sekundy až jednotky sekund.

Kontext 10 000 tokenů: Vyžaduje řádově 100002=100000000 operací/paměťových jednotek (100x více). Doba zpracování se může pohybovat v jednotkách až desítkách sekund.

Kontext 100 000 tokenů: Vyžaduje řádově 1000002=10000000000 operací/paměťových jednotek (10 000x více než pro 1k tokenů). Doba zpracování může dosahovat desítek sekund až několika minut.

Kontext 1 000 000 tokenů (jako u Gemini Pro, GPT-4.1): Vyžaduje řádově 10000002=1000000000000 (bilion) operací/paměťových jednotek. Doba zpracování se může pohybovat v řádu několika minut až desítek minut, silně závisí na optimalizacích a počtu použitých akcelerátorů.

Tento kvadratický nárůst představuje obrovskou bariéru pro neomezené prodlužování kontextového okna u standardních transformátorů, jak z hlediska výpočetní náročnosti (čas), tak paměťových požadavků.

Praktické důsledky kvadratické složitosti

Kvadratická složitost mechanismu pozornosti má několik zásadních praktických dopadů. Především vede k enormní výpočetní náročnosti a latenci při zpracování dlouhých kontextů. Vyžaduje to obrovské množství výpočetních zdrojů, jako jsou GPU nebo TPU, což se projevuje delší dobou odezvy při generování odpovědí, vysokou spotřebou energie a následně i vysokými náklady na trénink a inferenci modelů kvůli potřebě výkonného a drahého hardwaru. Proto jsou modely, které mají velké množství parametrů a umožňují zpracovat velký kontext, také zpravidla výrazně dražší.

Dalším významným důsledkem jsou vysoké paměťové nároky, zejména na VRAM akcelerátorů. Model musí uchovávat matice pozornosti a mezivýpočty (aktivace) pro všechny tokeny v kontextu. Například optimalizace zvaná KV cache, která ukládá vypočtené vektory pro zrychlení inference, vyžaduje pro model Llama 3 70B s kontextem 128 000 tokenů stovky gigabajtů VRAM. Pro kontexty v řádu milionů tokenů tyto nároky dále dramaticky rostou, což omezuje nasazení takových modelů pouze na hardware s masivní paměťovou kapacitou.

Tyto zvýšené výpočetní a paměťové nároky se promítají do ekonomických dopadů. Poskytovatelé LLM služeb musí tyto náklady zohlednit, a proto zpravidla účtují vyšší ceny za použití modelů s delšími kontextovými okny nebo za zpracování tokenů přesahujících určitou hranici, jak je vidět v přehledové tabulce cen.

Nakonec, i když model technicky zvládne zpracovat velmi dlouhý kontext, objevuje se problém známý jako “Lost in the Middle”. Empirické testy ukazují, že schopnost modelu efektivně využívat informace může klesat, pokud jsou tyto informace umístěny uprostřed velmi dlouhého vstupního textu. Modely často vykazují tendenci lépe pracovat s informacemi uvedenými na začátku nebo na konci kontextového okna.

Současné přístupy a řešení

Výzkum a vývoj se intenzivně zaměřují na zmírnění nebo překonání O(N2) bariéry, protože překročení limitů přinášených kontextem by umožňovalo výrazně rozšířit úlohy, v nichž AI / LLM excelují. A také dosáhnout lepší ekonomiky. Hlavní směry výzkumu jsou zhruba následující:

1. Optimalizace standardní pozornosti

FlashAttention (a jeho následovníci FlashAttention-2, FlashAttention-3): Algoritmus, který restrukturalizuje výpočet pozornosti tak, aby lépe využíval hierarchii paměti GPU. Minimalizuje pomalé přesuny dat mezi HBM (High Bandwidth Memory) a SRAM (on-chip paměť) pomocí technik jako tiling a recomputation. Výrazně zrychluje výpočet a snižuje paměťové nároky bez změny matematiky pozornosti, takže výsledky jsou (téměř) identické se standardní pozorností. Stal se de facto standardem pro trénink a inferenci moderních LLM.

KV Cache (Key-Value Cache): Optimalizace pro inferenci (generování textu). Místo přepočítávání K a V vektorů pro všechny předchozí tokeny při generování každého nového tokenu se tyto vektory ukládají do paměti (cache). To snižuje výpočetní náročnost generování z O(N2) na O(N) pro každý nový token, ale paměťová náročnost pro uložení cache zůstává O(N).

2. Aproximace pozornosti (Řídká pozornost - Sparse Attention)

Cílem tohoto přístupu je snížit počet párů tokenů, mezi kterými se počítá pozornost, a tím prolomit kvadratickou složitost výpočtu plné matice pozornosti. Místo aby každý token interagoval se všemi ostatními, interakce se omezí na “řídký” vzor, který se snaží zachovat nejdůležitější informace. Longformer například kombinuje lokální pozornost, kde každý token interaguje pouze se svými nejbližšími sousedy v rámci “klouzavého okna”, s globální pozorností pro několik předem určených tokenů (např. speciální tokeny jako [CLS]). Tyto globální tokeny mohou interagovat se všemi ostatními tokeny a všechny ostatní tokeny mohou interagovat s nimi, což umožňuje přenos informací napříč celou sekvencí při zachování převážně lokálních výpočtů. Podobně BigBird používá kombinaci tří typů řídké pozornosti: náhodnou pozornost (každý token interaguje s malým náhodným vzorkem ostatních tokenů), okénkovou pozornost (podobně jako Longformer) a globální pozornost. Tato kombinace má teoretické základy a snaží se efektivně aproximovat vlastnosti plné matice pozornosti. Jiné metody, jako Routing Transformer nebo Sinkhorn Transformer, jdou ještě dál a snaží se dynamicky “naučit” nebo optimalizovat, které páry tokenů jsou nejdůležitější pro výpočet pozornosti, například pomocí technik směrování informací nebo metod inspirovaných optimálním transportem (Sinkhorn), čímž se výpočty soustředí pouze na nejrelevantnější části matice pozornosti.

Ačkoliv tyto metody mohou dosáhnout lineární (O(N)) nebo téměř lineární (O(NlogN)) výpočetní složitosti, kompromisem může být mírné snížení kvality modelu oproti plné pozornosti. Důvodem je, že předdefinované nebo aproximované vzory řídké pozornosti nemusí vždy dokonale zachytit všechny relevantní dlouhodobé závislosti v textu, které by plná pozornost identifikovala.

3. Alternativní architektury (mimo transformátory)

Hledání architektur, které nejsou založeny na standardní O(N2) pozornosti:

Rekurentní neuronové sítě (RNN) / LSTM / GRU: Tyto sítě představují starší přístup ke zpracování sekvencí, jehož kořeny sahají až do 80. a 90. let 20. století. Základní myšlenka RNN spočívá ve zpracování sekvence krok za krokem (token po tokenu), přičemž si síť udržuje vnitřní “stav” nebo “paměť”, která shrnuje informace z předchozích kroků. Tento stav se aktualizuje při zpracování každého nového tokenu. Díky tomu má zpracování inherentně lineární výpočetní složitost (O(N)), protože výpočet pro každý token závisí pouze na aktuálním vstupu a předchozím stavu, nikoli na všech předchozích tokenech současně. Varianty jako LSTM (Long Short-Term Memory, Hochreiter & Schmidhuber, 1997) a GRU (Gated Recurrent Unit) byly vyvinuty později, aby řešily klíčový problém základních RNN: tzv. mizení nebo explozi gradientů (vanishing/exploding gradients), které bránily učení závislostí na dlouhé vzdálenosti v sekvenci. Přestože LSTM a GRU tento problém zmírnily pomocí speciálních “bran” (gates), které řídí tok informací a gradientů, stále měly své limity. Hlavní nevýhodou oproti transformátorům se ukázala být jejich sekvenční povaha, která znesnadňuje paralelizaci výpočtů během tréninku na moderním hardwaru (GPU/TPU). Transformátory, které mohou zpracovávat všechny tokeny v sekvenci víceméně paralelně díky mechanismu pozornosti, se tak staly efektivnější pro trénink na velkých datech a dosáhly lepších výsledků v mnoha úlohách. Moderní výzkum se však k RNN a jejich vylepšením částečně vrací, snaží se kombinovat jejich výhody (lineární složitost) s novými technikami pro zlepšení výkonu a paralelizace.

State Space Models (SSM): Třída modelů inspirovaná teorií řízení.

Mamba: Populární SSM architektura, která dosahuje lineární složitosti škálování s délkou sekvence a zároveň si zachovává schopnost modelovat dlouhé závislosti díky selektivnímu mechanismu stavu. Ukazuje slibné výsledky, zejména v úlohách vyžadujících dlouhý kontext. Existují i novější varianty a vylepšení (Mamba-2, etc.).

Hybridní modely: Kombinují různé přístupy.

Jamba (AI21 Labs): Architektura, která střídá vrstvy standardní pozornosti (Transformer bloky) s Mamba bloky. Cílem je zkombinovat sílu pozornosti pro lokální a komplexní vztahy s efektivitou Mamby pro dlouhé sekvence. Výsledkem je model, který zvládá dlouhý kontext (256k tokenů) s výrazně nižšími paměťovými nároky než čistý transformátor podobné velikosti. Očekávají se nástupci.

4. Retrieval-Augmented Generation (RAG)

Alternativní přístup, který se nesnaží vtěsnat veškeré informace do kontextového okna modelu. Místo toho postupuje zhruba následovně:

Rozsáhlá databáze znalostí (např. dokumenty, webové stránky) je indexována a uložena ve vektorové databázi.

Když přijde dotaz uživatele, systém nejprve vyhledá nejrelevantnější části informací z databáze (retrieval).

Tyto relevantní části (snippets) jsou pak spolu s původním dotazem vloženy do kontextového okna LLM.

LLM použije tyto poskytnuté informace k vygenerování odpovědi.

Výhody RAG: Může pracovat s prakticky neomezeným množstvím externích dat bez nutnosti extrémně dlouhého kontextového okna. Je snadnější aktualizovat znalosti (stačí aktualizovat databázi).

Nevýhody RAG: Kvalita závisí na úspěšnosti vyhledávacího kroku. Model nemá “holistický” pohled na celý dokument, jen na vybrané části. Nemusí být vhodný pro úlohy vyžadující syntézu informací napříč celým rozsáhlým textem.

5. Další techniky

Context Compression: Metody, které se snaží zkrátit prompt nebo odstranit méně relevantní části kontextu před jeho předáním modelu.

Ring Attention: Technika pro distribuovaný trénink/inferenci, která umožňuje rozdělit zpracování dlouhého kontextu mezi více akcelerátorů (GPU) tak, že každý zpracovává část sekvence, ale mohou si efektivně vyměňovat informace potřebné pro výpočet pozornosti napříč celou sekvencí.

Výzvy a budoucí směřování

Navzdory pokrokům zůstává efektivní a kvalitní zpracování dlouhého kontextu klíčovou výzvou. Budoucí vývoj se pravděpodobně zaměří na několik oblastí. Bude pokračovat zlepšování efektivity prostřednictvím dalších optimalizací algoritmů jako FlashAttention, vývoje nových aproximací pozornosti a zdokonalování alternativních architektur typu SSM a hybridních modelů. Současně bude kladen důraz na zlepšování kvality, zejména na řešení problému “lost in the middle” a zajištění spolehlivého využití informací z celého kontextu, což podpoří i vývoj lepších evaluačních metrik. Očekává se také hardwarová ko-evoluce s vývojem specializovaných akcelerátorů s větší pamětí a propustností, optimalizovaných pro LLM. Dále se bude prohlubovat kombinace přístupů, například hledání synergií mezi modely s dlouhým kontextem a technikami RAG pro lepší syntézu informací. V neposlední řadě bude pokračovat hledání fundamentálních průlomů a zcela nových paradigmat pro zpracování sekvenčních dat, která by mohla překonat současná omezení.

Závěr

Schopnost pracovat s dlouhým kontextem je zásadní pro posun LLM směrem k hlubšímu porozumění a řešení komplexnějších úloh. Kvadratická složitost standardního mechanismu pozornosti v architektuře transformátoru představuje dosti podstatnou překážku, která vede k vysokým výpočetním, paměťovým a finančním nákladům. Současný výzkum přináší řadu inovativních řešení, od optimalizací stávajících metod (FlashAttention) přes aproximace (Sparse Attention) až po zcela nové architektury (Mamba, Jamba) a doplňkové techniky (RAG). V každém případě je tu ještě mnoho příležitostí, jak můžete prosadit svůj nápad a nabídnout nové, neotřelé řešení.

Nicméně soudím, že neexistuje jedno univerzální řešení. Budoucnost pravděpodobně spočívá v kombinaci různých přístupů, přizpůsobených konkrétním úlohám a hardwarovým možnostem. Vývoj v této oblasti je extrémně dynamický a lze očekávat další rychlé pokroky.

 •  0 comments  •  flag
Share on Twitter
Published on May 04, 2025 17:00