Patrick Zandl's Blog: Marigold.cz, page 5

June 10, 2025

OpenAI snížila cenu modelu o3 o 80 % a představila o3-Pro

OpenAI oznámila výrazné snížení ceny svého modelu o3 o 80 procent spolu s uvedením nové varianty o3-Pro. Model o3 nyní stojí 2 dolary za milion vstupních tokenů a 8 dolarů za milion výstupních tokenů, zatímco dříve byla cena 10 a 40 dolarů. Současně byla představena výkonnější varianta o3-Pro.

Nový model o3-Pro je dostupný zatím jen přes API, tedy ne přes aplikaci nebo ChatGPT.com. Cena za použití je 20 dolarů za vstupní a 80 dolarů za výstupní tokeny, což představuje 87procentní snížení oproti předchozímu modelu o1-Pro. I tak je to ale dost vysoká cena. Tomu odpovídají smíšené reakce vývojářů a uživatelů. Zatímco mnozí oceňují zvýšenou dostupnost, kritici poukazují na stále vysoké ceny ve srovnání s konkurencí.

Technické pozadí snížení cen

Snížení ceny modelu o3 bylo dosaženo optimalizací inference stacku, systému zpracovávajícího požadavky na model. OpenAI zdůraznila, že se jedná o stejný model bez jakýchkoliv úprav výkonu - nebyly tedy použity techniky jako destilace nebo kvantizace, které by mohly snížit kvalitu výstupů. Tato optimalizace představuje významný technologický pokrok, když si uvědomíme, že původní testy modelu na benchmarku ARC-AGI stály OpenAI stovky tisíc dolarů za jeden běh.

Inference stack optimalizace zahrnuje zlepšení způsobu, jakým jsou požadavky zpracovávány na serverové infrastruktuře, aniž by byl ovlivněn základní model nebo jeho schopnosti. Tento přístup umožňuje společnosti nabídnout stejnou kvalitu služby za výrazně nižší cenu, což je klíčové pro konkurenceschopnost na trhu jazykových modelů.

Specifikace a možnosti o3-Pro

Model o3-Pro využívá stejný základní model jako standardní o3, ale s rozšířenými nástroji a delším časem na “přemýšlení”. Mezi jeho hlavní funkce patří podpora pro Python, prohlížení webu, zpracování obrazových vstupů, volání funkcí a strukturované výstupy. Model je navržen pro řešení složitých problémů a některé požadavky mohou trvat několik minut, proto OpenAI zavedla nový background mode v Responses API pro předcházení timeoutům.

V benchmarkových testech dosahuje o3-Pro 64 % úspěšnosti ve srovnání se základním modelem o3 podle hodnocení lidských testerů. Nejvyšší výkon vykazuje v oblastech matematiky, kompetitivního kódování, vědeckých úloh a komplexního psaní. Model je dostupný jako ‘o3-pro-2025-06-10’ v Responses API a je optimalizován pro agentic tool calling a instruction following.

💡 Agentic tool calling je schopnost AI modelu samostatně rozhodovat o tom, které externí nástroje nebo funkce použije k vyřešení konkrétního úkolu, a následně je aktivně volat v průběhu zpracování požadavku. Na rozdíl od tradičního function callingu, kde model pouze navrhne použití funkcí, agentic přístup umožňuje modelu vytvořit kompletní plán řešení, postupně volat různé nástroje podle potřeby, vyhodnocovat jejich výsledky a na základě toho upravovat svou strategii. Model tak může například při analýze dat automaticky načíst soubor, provést výpočty pomocí matematických funkcí, vyhledat dodatečné informace online a výsledky zkombinovat do finální odpovědi - vše bez nutnosti lidského zásahu mezi jednotlivými kroky.


Srovnání s konkurencí Model Vstupní tokeny ($/1M) Výstupní tokeny ($/1M) Poskytovatel o3 2 8 OpenAI o3-Pro 20 80 OpenAI GPT-4.1 2 8 OpenAI GPT-4o vyšší než o3 vyšší než o3 OpenAI Gemini 2.5 Pro konkurenční cena konkurenční cena Google Deepseek R1 nižší než o3 nižší než o3 Deepseek

Přestože OpenAI snížila ceny, model o3 zůstává dražší než některé alternativy, zejména open-source řešení jako Deepseek R1. Cena o3 je nyní shodná s GPT-4.1 za vstupní tokeny, ale výrazně levnější než GPT-4o, což ho činí atraktivní volbou pro kódování a úkoly vyžadující agentic tool calling.

Reakce vývojářské komunity

Vývojáři a malé firmy reakci na snížení cen přivítali pozitivně. Mnoho z nich uvedlo, že nižší ceny jim umožní více experimentovat s modelem pro úkoly, které byly dříve finančně nedostupné, jako je shrnování obsahu nebo pokročilé kódování. Tvůrci služeb jako Websim AI nebo Cursor již oznámili plány na integraci modelu o3 do svých nástrojů.

Kritické hlasy však poukazují na několik problémů. Uživatelé na platformách jako Reddit označují model o3 za “přeceněný” vzhledem k jeho výkonu a upozorňují, že i po snížení zůstává dražší než konkurenční řešení. Někteří skeptici se ptají, zda snížení ceny neovlivnilo kvalitu modelu, ačkoliv OpenAI toto popírá.

Strategické důvody změn

Snížení cen je interpretováno jako reakce na rostoucí konkurenční tlak ze strany modelů jako Gemini 2.5 Pro od Google DeepMind a Claude Opus 4 od Anthropic. Trh s velkými jazykovými modely se rychle vyvíjí a cenová konkurenceschopnost se stává klíčovým faktorem pro udržení tržního podílu.

OpenAI čelí také tlaku ze strany open-source alternativ, které nabízejí podobné schopnosti za výrazně nižší ceny. Deepseek R1 a další open-weight modely představují vážnou konkurenci, zejména pro nákladově citlivé projekty a startupy s omezenými rozpočty.

Uvedení o3-Pro lze chápat jako snahu diferencovat produktovou řadu a nabídnout prémiové řešení pro náročné úkoly, zatímco standardní o3 se stává dostupnějším pro běžné použití. Tato strategie následuje model freemium, kde základní funkcionalita je cenově dostupná a pokročilé funkce jsou zpoplatněny premium cenou.

Technické využití a doporučení

OpenAI doporučuje model o3 především pro kódování, kde nyní nabízí stejnou cenu za token jako GPT-4.1, ale s lepším výkonem. Model je také vhodný pro úkoly vyžadující agentic tool calling, function calling a přesné následování instrukcí. Optimalizovaný inference stack činí o3 praktickou volbou pro produkční nasazení, kde byla dříve cena překážkou.

Model o3-Pro je určen pro komplexní problémy vyžadující delší čas na zpracování a vyšší výpočetní výkon. Jeho použití je ekonomicky opodstatněné pro kritické úkoly v oblasti výzkumu, pokročilého kódování a vědeckých aplikací, kde je kvalita výstupu důležitější než rychlost nebo cena.

Background mode v Responses API řeší praktický problém s timeouty při používání o3-Pro, což umožňuje zpracování komplexních požadavků bez rizika přerušení spojení. Tato funkce je klíčová pro integraci modelu do produkčních systémů, kde spolehlivost je prioritou.

Pro vývojáře je snížení cen za model o3 velmi atraktivní, protože je obecně chápán jako jeden z nejlepších modelů a pro řadu úloh by byl primární volbou, kdyby nebyl tak drahý - a to se nyní mění.

 •  0 comments  •  flag
Share on Twitter
Published on June 10, 2025 17:00

June 9, 2025

Mistral AI představil Magistral, svůj první model pro logické uvažování

Francouzská společnost Mistral AI uvedla svůj první specializovaný model pro logické uvažování nazvaný Magistral. Model je dostupný ve dvou variantách - open-source verzi Magistral Small s 24 miliardami parametrů a komerční verzi Magistral Medium.
 •  0 comments  •  flag
Share on Twitter
Published on June 09, 2025 17:00

Mistral AI představil Magistral, svůj první model pro logické uvažování

Francouzská společnost Mistral AI uvedla svůj první specializovaný model pro logické uvažování nazvaný Magistral. Model je dostupný ve dvou variantách - open-source verzi Magistral Small s 24 miliardami parametrů a komerční verzi Magistral Medium.

Magistral je zaměřen na transparentní uvažování v mnoha jazycích a dosahuje 73,6% úspěšnosti v matematickém benchmarku AIME2024. Model přináší údajně desetkrát vyšší rychlost (tvrdí Mistral) zpracování než konkurence a cílí na profesionální využití v regulovaných odvětvích, kde je nutná sledovatelnost rozhodovacích procesů.

Technické parametry a výkonnost

Magistral Small obsahuje 24 miliard parametrů a je dostupný pod licencí Apache 2.0 pro volné použití. Jen pro jistoti připomínám, že váhy většího modelu nejsou otevřeně vydány a to je velká škoda.

Komerční verze Magistral Medium nabízí vyšší výkonnost pro podnikové nasazení. Na matematickém benchmarku AIME2024 dosahuje Magistral Medium 73,6% úspěšnosti při jednotlivém pokusu a 90% při většinovém hlasování ze 64 pokusů. Menší model Magistral Small dosahuje 70,7% a 83,3% v týchž testech.

Srovnání s konkurencí ukazuje nadprůměrné výsledky napříč různými benchmarky. Na testu GPQA Diamond dosahuje Magistral Medium 70,8% úspěšnosti, na LiveCodeBench 59,4% a na Aider Polyglot 47,1%. Model překonává některé etablované modely jako GPT-4 nebo Claude v určitých kategoriích testů. Tady je pár podrobností, ale počkal bych si na nezávislé specializované testy.

[image error]

Vícejazyčné schopnosti

Magistral je navržen pro nativní uvažování v různých jazycích bez nutnosti překladu do angličtiny. Model dokáže udržet vysokou kvalitu logického uvažování v angličtině, francouzštině, španělštině, němčině, italštině, arabštině, ruštině a zjednodušené čínštině. Tato schopnost představuje pokrok oproti současným modelům, které často degradují při práci v jiných jazycích než angličtině.

Řetězec myšlení CoT (chain-of-thought) funguje přirozeně napříč globálními jazyky a alfabety, což umožňuje uživatelům sledovat rozhodovací proces modelu v jejich rodném jazyce. Pro uživatele v Česku to znamená možnost budoucí podpory češtiny, ačkoliv čeština není mezi explicitně podporovanými jazyky zmíněna.

Rychlost a optimalizace

Funkcionalita Flash Answers v chatovací aplikaci Le Chat umožňuje Magistral Medium údajně dosahovat až desetkrát vyšší rychlosti zpracování tokenů než většina konkurence. Tato optimalizace činí model použitelným pro aplikace vyžadující odpovědi v reálném čase a umožňuje zpětnou vazbu od uživatelů ve velkém měřítku.

Rychlostní srovnání s ChatGPT ukazuje významnou převahu Magistralu v chatovacím rozhraní Le Chat. Model je také dostupný přes API na platformě La Plateforme, což umožňuje integraci do vlastních aplikací.

Průmyslové aplikace

Magistral cílí na profesionály v právnictví, financích, zdravotnictví a veřejné správě. Model poskytuje sledovatelné uvažování, které splňuje požadavky na “compliance” - tedy regulatorní soulad s podmínky v odvětví. Každý závěr lze zpětně vysledovat přes logické kroky, což poskytuje auditovatelnost pro prostředí s vysokými nároky na spolehlivost.

Transparentnost rozhodovacího procesu je klíčová pro odvětví, kde jsou rozhodnutí podrobována regulatornímu dohledu. Model umožňuje verifikaci postupu uvažování, což je nezbytné pro právní analýzy nebo finanční modelování.

Softwarové inženýrství

V oblasti vývoje softwaru Magistral vylepšuje plánování projektů, návrh backendové architektury, frontend design a datové inženýrství prostřednictvím sekvenovaných, vícekrokových akcí zahrnujících externí nástroje nebo API. Model významně překonává běžné jazykové modely bez schopnosti uvažování v programátorských úlohách.

Přiznám se ale, že zatím neznám nikoho, kdo by používal Mistral modely v kódování, musím to sám vyzkoušet - Mistral Code

Dostupnost a nasazení

Magistral Small je dostupný zdarma na platformě Hugging Face pro vlastní nasazení. Magistral Medium lze vyzkoušet v preview verzi v aplikaci Le Chat nebo přes API na La Plateforme. Komerční verze bude dostupná na Amazon SageMaker a v budoucnu na IBM WatsonX, Azure AI a Google Cloud Marketplace.

Pro podnikové zákazníky a vlastní řešení včetně on-premises nasazení nabízí Mistral AI kontakt s obchodním týmem. Model je také podporován vědeckou publikací pokrývající evaluace, trénovací infrastrukturu a algoritmy pro posilované učení.

Technologické pozadí

Magistral využívá pokročilé algoritmy posilovaného učení optimalizované pro trénování uvažujících modelů. Architektura je speciálně navržena pro vícekrokovou logiku na rozdíl od univerzálních modelů. Mistral AI plánuje rychlé iterace modelu s konstantními vylepšeními.

Model rozšiřuje portfolio francouzské společnosti Mistral AI, která konkuruje americkým gigantům jako OpenAI nebo Anthropic. Mistral AI se zaměřuje na kombinaci open-source přístupu s komerčními řešeními pro podniky.

Komunitní přístup umožňuje vývojářům zkoumat, modifikovat a stavět na architektuře Magistralu. Předchozí open-source modely od Mistral AI již byly využity komunitou pro projekty jako ether0 a DeepHermes 3.

Klíčové vlastnosti modelu: Transparentní uvažování s možností ověření každého kroku Nativní multijazyčnost bez ztráty kvality Specializace na doménově specifické problémy Vysoká rychlost zpracování v reálném čase Open-source dostupnost menší verze Podpora regulovaných odvětví s požadavky na auditovatelnost
 •  0 comments  •  flag
Share on Twitter
Published on June 09, 2025 17:00

June 8, 2025

Limity současných uvažujících jazykových modelů - Analýza skutečných schopností LRM

Nedávná studie Apple odhaluje dosti zásadní omezení v architektuře uvažujících jazykových modelů (Large Reasoning Models) a zpochybňuje jejich skutečné uvažovací schopnosti. Je to jen vlnka na jezeře nadějí, že modely jako o3 nebo deepseek-r1 jsou schopny kvalitativních posunů, či vážný problém?
 •  0 comments  •  flag
Share on Twitter
Published on June 08, 2025 17:00

Limity současných uvažujících jazykových modelů - Analýza skutečných schopností LRM

Nedávná studie Apple odhaluje dosti zásadní omezení v architektuře uvažujících jazykových modelů (Large Reasoning Models) a zpochybňuje jejich skutečné uvažovací schopnosti. Je to jen vlnka na jezeře nadějí, že modely jako o3 nebo deepseek-r1 jsou schopny kvalitativních posunů, či vážný problém?

Poslední generace jazykových modelů, označovaná jako Large Reasoning Models (LRM) - Velké modely uvažování, představuje modely jako OpenAI o1/o3, DeepSeek-R1 nebo Claude 3.7 Sonnet Thinking. Tyto systémy se vyznačují generováním rozsáhlých “myšlenkových” procesů před poskytnutím odpovědi, tzv. obsáhlé řetězce úvah (chain-of-thought, CoT). Což má simulovat lidské uvažování. Navzdory slibným výsledkům na standardních benchmarcích však zůstává otázka, zda skutečně dochází k zobecnitelnému uvažování, nebo jde o sofistikovanější formu pattern matchingu. A tuto otázku se pokusil zodpovědět Apple v studii, která se zaměřila na analýzu uvažovacích schopností těchto modelů. Studie se příznačně jmenuje Iluze myšlení: Porozumění silným stránkám a omezením modelů uvažování z pohledu složitosti problémů.

Na začátek si výzkumníci stanovily dvě hypotézy:

Hypotéza 1:Zda LRM skutečně umějí generalizovat proces „myšlení“ na nové úlohy, nebo spíše sofistikovaně napodobují vzory z tréninkových dat, případně provádějí komplexní pattern matching.

Hypotéza 2:Zda navyšování výpočetního rozpočtu a délky generovaného „myšlení“ skutečně zlepšuje řešení složitějších problémů, nebo modely narážejí na určitou hranici, za kterou selhávají bez ohledu na další zdroje.

Metodologický problém současného hodnocení

Standardní evaluace LRM trpí několika zásadními nedostatky. Především se spoléhají na etablované matematické a programátorské benchmarky, které často obsahují data z trénovacích sad. Tato kontaminace se pak odráží ve zdánlivém výkonu. Testy navíc neumožňují kontrolované experimentální podmínky napříč různými úrovněmi složitosti a neposkytují vhled do struktury a kvality samotných uvažovacích procesů.

Autoři studie proto navrhli alternativní přístup založený na kontrolovaných puzzle prostředích, které umožňují:

Přesné řízení složitosti prostřednictvím úpravy parametrů při zachování logické struktury Eliminaci kontaminace dat použitím nových, specificky navržených problémů Důraz na algoritmické uvažování s jasně definovanými pravidly Rigorózní hodnocení pomocí deterministických simulátorůExperimentální design

Výzkumníci využili čtyři typy puzzlí s různými charakteristikami složitosti, např. Hanojské věže, přesouvání figurek, přechod přes řeku, skládání bloků). Umožňují tak přesné řízení složitosti a eliminaci efektu „naučených“ řešení. A měří nejen finální správnost, ale i strukturu a kvalitu mezikroků v řetězci uvažování.

Každé puzzle bylo testováno s postupně rostoucí složitostí, přičemž byly analyzovány právě nejenom finální odpovědi, tak mezilehlé kroky v “myšlenkových” procesech modelů.

Klíčová zjištěníTří-režimová architektura výkonnosti

Analýza odhalila konzistentní vzorec napříč všemi testovanými modely:

Nízká složitost: Standardní LLM bez explicitního myšlení často dosahují lepších výsledků i vyšší efektivity. LRM v této oblasti často „přemýšlí zbytečně dlouho“ (overthinking). Střední složitost: LRM začínají mít výhodu díky schopnosti déle rozebírat problém, občas naleznou řešení po delším zkoušení různých cest. Rozdíl ve výkonu mezi „thinking“ a „non-thinking“ modely roste ve prospěch LRMs. Vysoká složitost: Dochází k „kolapsu“ obou typů modelů: pravděpodobnost úspěchu padá na nulu. Zajímavé je, že právě v této fázi modely začnou paradoxně spotřebovávat méně výpočetního výkonu na myšlení (zkracují řetězec úvah), přestože složitost problému roste a mají dostatečný token budget. Paradoxní škálovací limity

Nejpřekvapivějším objevem je kontraintuitivní vztah mezi složitostí problému a investovaným “uvažovacím” úsilím. Modely nejprve zvyšují počet thinking tokenů úměrně se složitostí, ale při dosažení kritického prahu začínají úsilí snižovat - navzdory dostupnému token budgetu a rostoucí obtížnosti problémů.

Tento jev naznačuje fundamentální architektonické omezení v současných LRM, kde systémy nejsou schopny efektivně alokovat výpočetní zdroje při inference pro nejtěžší problémy.

Selhání při exaktním výpočtu

Zvláště alarmující je zjištění, že poskytnutí kompletního algoritmu řešení nevedlo ke zlepšení výkonnosti. Modely selhávaly i při pouhém vykonávání předepsaných kroků, což odhaluje limity nejen v objevování strategií, ale i v konzistentním logickém ověřování a v provádění úkolů krok po kroku.

Například v Hanojských věžích dosáhly modely správných sekvencí přes 100 kroků, zatímco v River Crossing selhaly již po 4 krocích u problémů s kratším celkovým řešením. Tato nekonzistence naznačuje, že výkonnost není primárně funkcí délky sekvence, ale spíše dostupnosti podobných vzorců v trénovacích datech.

Analýza myšlenkových procesů

Detailní rozbor postupu uvažování odhalil určité zákonitosti či vzorce:

U jednoduchých problémů: Distribuce nesprávných řešení je posunuta směrem ke konci uvažování ve srovnání se správnými řešeními U středně složitých problémů: Opačný trend - správná řešení se objevují později v sekvenci U vysoké složitosti: Absence jakýchkoli správných řešení v celém průběhu uvažování

Tyto vzorce dokumentují omezenou schopnost samoopravy současných LRM a potvrzují hypotézu o existenci škálovacích bariér dnešního přístupu k AI prostřednictvím uvažujících jazykových modelů.

Implikace pro vývoj AI

Výsledky zpochybňují současné paradigma, že zvýšení inference-time resoning časů automaticky vede k lepším reasoning schopnostem. Místo toho naznačují existenci architektonických bottlenecků, které brání efektivnímu škálování na složité problémy.

💡 Inference-time reasoning je schopnost AI modelu provádět složité uvažovací procesy během samotného používání (inference), nikoli pouze spoléhat na znalosti naučené během tréninku. Jde o proces, kdy model “přemýšlí” nad problémem v reálném čase a generuje mezikroky před poskytnutím finální odpovědi.


Pro nasazení v reálném světě znamenají tato zjištění, že současné LRM:

Mohou být užitečné pro problémy střední složitosti s dobře definovanými vzorci Nejsou spolehlivé pro skutečně složité plánovací úlohy Vyžadují opatrnost při aplikacích vyžadujících konzistentní logické ověřováníSměry dalšího výzkumu

Studie identifikuje několik kritických oblastí pro pokračující výzkum:

Architektonické inovace: Potřeba nových přístupů k inferencím, které překonají současné škálovací limity.

Trénovací metodologie: Zkoumání technik, které by vedly k robustnějšímu algoritmickému uvažování místo spoléhání na pattern matching.

Evaluační frameworky: Rozšíření kontrolovaných experimentálních prostředí na širší spektrum uvažovacích úloh.

Závěr

V řadě případů se modely chovají „zdánlivě inteligentně“, ale selhávají v generalizaci, v exekuci jasných pravidel nebo v plánování pro opravdu složité úlohy. Studie také nenaznačuje, že samotná velikost modelu nebo více dat problém vyřeší. Bariéra je spíše v architektuře a schopnosti symbolické manipulace.

Tato studie poskytuje empiricky podložený pohled na skutečné schopnosti současných Large Reasoning Models. Zatímco tyto systémy představují pokrok v určitých doménách, jejich fundamentální omezení v zobecnitelném uvažování jsou zásadnější, než původně předpokládáno.

Výsledky nenaznačují, že reasoning modely jsou bezcenné, ale spíše definují jasné hranice jejich použití. Pro vědeckou komunitu to znamená potřebu přehodnotit současné přístupy k design inference-time reasoning a hledání nových architektonických řešení, která by překonala identifikované škálovací bariéry.

Vnímám zde několik otevřených otázek:

Jakým způsobem lze modely naučit skutečnou generalizaci uvažovacích postupů, nikoliv pouze pattern matching (tedy založené na rozpoznávání vzorců) a napodobování povrchových struktur? Je možné kombinovat současné LLM s explicitními symbolickými moduly nebo plánovači pro zvýšení robustnosti reasoning? Do jaké míry jsou limity způsobeny architekturou modelu, RL tréninkem, nebo samotným charakterem dat?

Rozhodující bude, zda se podaří vyvinout systémy skutečně schopné algoritmického uvažování, nebo zda zůstaneme omezeni na sofistikované metody, které v podstatě pouze rozpoznávají vzorce z trénovacích dat.

 •  0 comments  •  flag
Share on Twitter
Published on June 08, 2025 17:00

June 4, 2025

Cursor 1.0 - Nové funkce pro AI programování / vibecoding

Společnost Anysphere vydala verzi 1.0 svého AI editoru kódu Cursor, která přináší automatickou kontrolu kódu, rozšířený přístup k Background Agent a zjednodušenou integraci MCP protokolu. Vydání přichází více než rok po spuštění v roce 2023 a obsahuje sedm hlavních funkcí.
 •  0 comments  •  flag
Share on Twitter
Published on June 04, 2025 17:00

Cursor 1.0 - Nové funkce pro AI programování / vibecoding

Společnost Anysphere vydala verzi 1.0 svého AI editoru kódu Cursor, která přináší automatickou kontrolu kódu, rozšířený přístup k Background Agent a zjednodušenou integraci MCP protokolu. Vydání přichází více než rok po spuštění v roce 2023 a obsahuje sedm hlavních funkcí.

Automatická kontrola kódu s BugBot

BugBot analyzuje změny v pull requestech pomocí AI modelů dostupných v Cursor. Nástroj identifikuje potenciální problémy v kódu před jeho začleněním do hlavní větve.

Systém nabízí tři režimy práce:

Automatické komentáře: Při aktualizaci pull requestu BugBot znovu prověří kód a přidá komentáře k identifikovaným problémům Manuální spuštění: Aktivace příkazem bugbot run v komentáři Přímá integrace: Tlačítko “Fix in Cursor” otevře editor s předvyplněným promptem pro opravu

Nastavení vyžaduje administrátorská oprávnění pro Cursor i GitHub organizaci. Konfigurace probíhá na cursor.com/settings v sekci Integrations. Uživatelé mohou nastavit čtyři různé režimy aktivace: automatické spouštění, pouze při zmínce, jednorázové spuštění na pull request, nebo skrytí komentářů když nejsou nalezeny problémy.

BugBot nabízí sedmidenní zkušební období s možností nastavení měsíčního limitu nákladů.

Background Agent pro všechny uživatele

Funkce Background Agent, dříve omezená na early access, je nyní dostupná všem uživatelům. Umožňuje spouštění AI agentů v cloudu, kteří provádějí změny v kódu na pozadí.

Aktivace probíhá kliknutím na ikonu cloudu v chatu nebo zkratkou Cmd/Ctrl+E. Funkce není kompatibilní s režimem soukromí (Privacy mode), který je nutné před použitím deaktivovat.

Background Agent přináší několik bezpečnostních aspektů, které je třeba zvážit:

Vyžaduje udělení read-write oprávnění GitHub aplikaci pro práci s repozitáři Kód se spouští v AWS infrastruktuře Anysphere Automaticky spouští všechny příkazy, což může vystavit systém prompt injection útokům Při vypnutém privacy módu se ukládají prompty a vývojová prostředí pro zlepšování produktu Citlivé údaje se ukládají šifrovaně pomocí KMS do databáze

Anysphere upozorňuje, že infrastruktura zatím nebyla auditována třetími stranami. Pro projekty s citlivými daty doporučuje zvážit použití této funkce.

Podpora Jupyter notebooků

Cursor může nyní provádět změny přímo v Jupyter noteboocích. Agent dokáže vytvářet a upravovat více buněk současně. Funkce je omezena na modely řady Sonnet.

Jupyter notebooky jsou interaktivní vývojové prostředí používané především v datové vědě a machine learningu pro kombinování kódu, vizualizací a dokumentace.

Memories - projektová paměť

Funkce Memories umožňuje Cursor zapamatovat si informace z konverzací pro budoucí použití. Paměť je uložena na úrovni jednotlivých projektů a spravuje se v nastavení editoru.

Systém funguje pomocí příkazu “@Memory” (například “Please remember ___ @Memory”), který vytvoří projektové pravidlo a uloží data do adresáře .cursor/rules/. Memories jsou ve fázi beta testování a aktivují se v Settings → Rules.

MCP protokol s jedním kliknutím

Model Context Protocol (MCP) představuje standardizovaný způsob připojení AI agentů k externím zdrojům dat. MCP funguje jako vrstva mezi jazykovými modely a API různých služeb, což eliminuje nutnost psát vlastní kód pro každou integraci.

Cursor 1.0 zjednodušuje instalaci MCP serverů. Místo manuálního nastavování přes “Add Custom MCP” nyní uživatelé navštíví stránku MCP tools, vyberou požadovaný nástroj a kliknou na “Add app to Cursor”.

Aktuálně jsou podporovány servery pro GitHub, Stripe a Figma. Přibyla také OAuth podpora pro autentizaci serverů, které ji podporují.

Bohatší odpovědi v chatu

Cursor nyní zobrazuje vizualizace přímo v konverzacích. Editor umí generovat a zobrazovat Mermaid diagramy a Markdown tabulky na jednom místě.

Mermaid je textový jazyk pro tvorbu diagramů a schémat, který umožňuje rychlé vytváření flowchartů a dalších vizualizací pomocí textové syntaxe.

Nový dashboard a nastavení

Stránky nastavení a dashboardu byly přepracovány. Nový dashboard zobrazuje individuální nebo týmové analytiky využití, umožňuje změnu zobrazovaného jména a poskytuje detailní statistiky podle nástrojů nebo modelů.

Dashboard nabízí nastavení časového rozsahu pro zobrazení trendů využití. V nastavení IDE lze upravit vzhled chatu a kontextového rozhraní.

Další změny

Verze 1.0 obsahuje také menší vylepšení:

Klávesové zkratky:

Cmd/Ctrl+E pro Background Agent

Funkční rozšíření:

@Link a webové vyhledávání parsuje PDF soubory Síťová diagnostika v nastavení Paralelní volání nástrojů pro rychlejší odpovědi Možnost skládání nástrojů v chatu

Správa účtů:

Podnikoví uživatelé mají přístup pouze ke stabilním verzím Týmoví administrátoři mohou zakázat Privacy Mode Admin API pro přístup k metrikám a výdajům

Modely:

Max režim pro Gemini 2.5 FlashTechnické pozadí a hodnocení

Cursor využívá různé jazykové modely pro analýzu kódu a generování návrhů. Mateřská společnost Anysphere je oceněna na 10 miliard dolarů. Background Agent běží na AWS infrastruktuře, což umožňuje zpracování bez zatížení lokálního počítače.

Významným přínosem verze 1.0 je automatizace kontroly kódu a rozšíření cloudových funkcí. Zjednodušená integrace MCP protokolu může urychlit adopci externích nástrojů. Nicméně některé funkce, jako Background Agent, vyžadují pečlivé zvážení bezpečnostních rizik, zejména pro organizace s citlivými daty.

Omezení na modely Sonnet u Jupyter notebooků a beta status funkcí jako Memories ukazují, že některé funkce jsou stále ve vývoji. Chybějící audit infrastruktury třetí stranou může být překážkou pro adoption v některých podnikových prostředích.

Uživatelé místy vyjadřují obavy ohledně technických problémů, jako je absence sdílených MCP serverů, což vede k vysoké paměťové náročnosti, a zastaralé verze VSCode používané Cursorem, což způsobuje problémy s rozšířeními. Tyto body naznačují, že i přes pozitivní odezvy existují výzvy, které mohou ovlivnit uživatelský zážitek.

Další feedback zahrnuje srovnání s konkurencí, například s Claude Code, kde někteří uživatelé považují Cursor za levnější ($20/měsíc oproti $200/měsíc u Claude Code), ale vyjádřili nespokojenost s výkonem, například „Podpora Pythonu byla minulý týden katastrofální, odinstaloval jsem to před měsíci kvůli tomu“ (Hacker News). Jiní uživatelé ocenili nové funkce, jako BugBot a rozšíření Background Agentů, ale přáli si vylepšení, například dostupnost Background Agentů i v režimu soukromí.

Oficiální changelog poskytuje detailní přehled nových funkcí, včetně automatických kontrol kódu s BugBotem, rozšíření Background Agentů pro všechny uživatele a podpory Jupyter Notebooks, což odpovídá oznámení v X příspěvku a video.

 •  0 comments  •  flag
Share on Twitter
Published on June 04, 2025 17:00

Cursor 1.0: Nové funkce pro AI programování / vibecoding

Společnost Anysphere vydala verzi 1.0 svého AI editoru kódu Cursor, která přináší automatickou kontrolu kódu, rozšířený přístup k Background Agent a zjednodušenou integraci MCP protokolu. Vydání přichází více než rok po spuštění v roce 2023 a obsahuje sedm hlavních funkcí.

Automatická kontrola kódu s BugBot

BugBot analyzuje změny v pull requestech pomocí AI modelů dostupných v Cursor. Nástroj identifikuje potenciální problémy v kódu před jeho začleněním do hlavní větve.

Systém nabízí tři režimy práce:

Automatické komentáře: Při aktualizaci pull requestu BugBot znovu prověří kód a přidá komentáře k identifikovaným problémům Manuální spuštění: Aktivace příkazem bugbot run v komentáři Přímá integrace: Tlačítko “Fix in Cursor” otevře editor s předvyplněným promptem pro opravu

Nastavení vyžaduje administrátorská oprávnění pro Cursor i GitHub organizaci. Konfigurace probíhá na cursor.com/settings v sekci Integrations. Uživatelé mohou nastavit čtyři různé režimy aktivace: automatické spouštění, pouze při zmínce, jednorázové spuštění na pull request, nebo skrytí komentářů když nejsou nalezeny problémy.

BugBot nabízí sedmidenní zkušební období s možností nastavení měsíčního limitu nákladů.

Background Agent pro všechny uživatele

Funkce Background Agent, dříve omezená na early access, je nyní dostupná všem uživatelům. Umožňuje spouštění AI agentů v cloudu, kteří provádějí změny v kódu na pozadí.

Aktivace probíhá kliknutím na ikonu cloudu v chatu nebo zkratkou Cmd/Ctrl+E. Funkce není kompatibilní s režimem soukromí (Privacy mode), který je nutné před použitím deaktivovat.

Background Agent přináší několik bezpečnostních aspektů, které je třeba zvážit:

Vyžaduje udělení read-write oprávnění GitHub aplikaci pro práci s repozitáři Kód se spouští v AWS infrastruktuře Anysphere Automaticky spouští všechny příkazy, což může vystavit systém prompt injection útokům Při vypnutém privacy módu se ukládají prompty a vývojová prostředí pro zlepšování produktu Citlivé údaje se ukládají šifrovaně pomocí KMS do databáze

Anysphere upozorňuje, že infrastruktura zatím nebyla auditována třetími stranami. Pro projekty s citlivými daty doporučuje zvážit použití této funkce.

Podpora Jupyter notebooků

Cursor může nyní provádět změny přímo v Jupyter noteboocích. Agent dokáže vytvářet a upravovat více buněk současně. Funkce je omezena na modely řady Sonnet.

Jupyter notebooky jsou interaktivní vývojové prostředí používané především v datové vědě a machine learningu pro kombinování kódu, vizualizací a dokumentace.

Memories - projektová paměť

Funkce Memories umožňuje Cursor zapamatovat si informace z konverzací pro budoucí použití. Paměť je uložena na úrovni jednotlivých projektů a spravuje se v nastavení editoru.

Systém funguje pomocí příkazu “@Memory” (například “Please remember ___ @Memory”), který vytvoří projektové pravidlo a uloží data do adresáře .cursor/rules/. Memories jsou ve fázi beta testování a aktivují se v Settings → Rules.

MCP protokol s jedním kliknutím

Model Context Protocol (MCP) představuje standardizovaný způsob připojení AI agentů k externím zdrojům dat. MCP funguje jako vrstva mezi jazykovými modely a API různých služeb, což eliminuje nutnost psát vlastní kód pro každou integraci.

Cursor 1.0 zjednodušuje instalaci MCP serverů. Místo manuálního nastavování přes “Add Custom MCP” nyní uživatelé navštíví stránku MCP tools, vyberou požadovaný nástroj a kliknou na “Add app to Cursor”.

Aktuálně jsou podporovány servery pro GitHub, Stripe a Figma. Přibyla také OAuth podpora pro autentizaci serverů, které ji podporují.

Bohatší odpovědi v chatu

Cursor nyní zobrazuje vizualizace přímo v konverzacích. Editor umí generovat a zobrazovat Mermaid diagramy a Markdown tabulky na jednom místě.

Mermaid je textový jazyk pro tvorbu diagramů a schémat, který umožňuje rychlé vytváření flowchartů a dalších vizualizací pomocí textové syntaxe.

Nový dashboard a nastavení

Stránky nastavení a dashboardu byly přepracovány. Nový dashboard zobrazuje individuální nebo týmové analytiky využití, umožňuje změnu zobrazovaného jména a poskytuje detailní statistiky podle nástrojů nebo modelů.

Dashboard nabízí nastavení časového rozsahu pro zobrazení trendů využití. V nastavení IDE lze upravit vzhled chatu a kontextového rozhraní.

Další změny

Verze 1.0 obsahuje také menší vylepšení:

Klávesové zkratky:

Cmd/Ctrl+E pro Background Agent

Funkční rozšíření:

@Link a webové vyhledávání parsuje PDF soubory Síťová diagnostika v nastavení Paralelní volání nástrojů pro rychlejší odpovědi Možnost skládání nástrojů v chatu

Správa účtů:

Podnikoví uživatelé mají přístup pouze ke stabilním verzím Týmoví administrátoři mohou zakázat Privacy Mode Admin API pro přístup k metrikám a výdajům

Modely:

Max režim pro Gemini 2.5 FlashTechnické pozadí a hodnocení

Cursor využívá různé jazykové modely pro analýzu kódu a generování návrhů. Mateřská společnost Anysphere je oceněna na 10 miliard dolarů. Background Agent běží na AWS infrastruktuře, což umožňuje zpracování bez zatížení lokálního počítače.

Významným přínosem verze 1.0 je automatizace kontroly kódu a rozšíření cloudových funkcí. Zjednodušená integrace MCP protokolu může urychlit adopci externích nástrojů. Nicméně některé funkce, jako Background Agent, vyžadují pečlivé zvážení bezpečnostních rizik, zejména pro organizace s citlivými daty.

Omezení na modely Sonnet u Jupyter notebooků a beta status funkcí jako Memories ukazují, že některé funkce jsou stále ve vývoji. Chybějící audit infrastruktury třetí stranou může být překážkou pro adoption v některých podnikových prostředích.

Uživatelé místy vyjadřují obavy ohledně technických problémů, jako je absence sdílených MCP serverů, což vede k vysoké paměťové náročnosti, a zastaralé verze VSCode používané Cursorem, což způsobuje problémy s rozšířeními. Tyto body naznačují, že i přes pozitivní odezvy existují výzvy, které mohou ovlivnit uživatelský zážitek.

Další feedback zahrnuje srovnání s konkurencí, například s Claude Code, kde někteří uživatelé považují Cursor za levnější ($20/měsíc oproti $200/měsíc u Claude Code), ale vyjádřili nespokojenost s výkonem, například „Podpora Pythonu byla minulý týden katastrofální, odinstaloval jsem to před měsíci kvůli tomu“ (Hacker News). Jiní uživatelé ocenili nové funkce, jako BugBot a rozšíření Background Agentů, ale přáli si vylepšení, například dostupnost Background Agentů i v režimu soukromí.

Oficiální changelog poskytuje detailní přehled nových funkcí, včetně automatických kontrol kódu s BugBotem, rozšíření Background Agentů pro všechny uživatele a podpory Jupyter Notebooks, což odpovídá oznámení v X příspěvku a video.

 •  0 comments  •  flag
Share on Twitter
Published on June 04, 2025 17:00

June 3, 2025

Praha se loučila s bývalou německou kancléřkou

Včera večer, v naprosto naplněné Lucerně, se Česko loučilo s bývalou německou kancléřkou Angelou Merkelovou. Velký rozhovor, který dávala k příležitosti vydání své knihy Svoboda, byl výjimečný - jak délkou, tak nakonec i otevřeností.
 •  0 comments  •  flag
Share on Twitter
Published on June 03, 2025 17:00

Praha se loučila s bývalou německou kancléřkou

Včera večer, v naprosto naplněné Lucerně, se Česko loučilo s bývalou německou kancléřkou Angelou Merkelovou. Velký rozhovor, který dávala k příležitosti vydání své knihy Svoboda, byl výjimečný - jak délkou, tak nakonec i otevřeností.

V průběhu večera musela obhajovat svá rozhodnutí ohledně ruské politiky i migrační krize. Zvládla to tak, jako po celých šestnáct let svého kancléřství: přesně a jasně vyargumentovala závěry, které ji k rozhodnutí vedly a na závěr dodává, že dnes by se nerozhodla jinak.

Merkelová narozená v NDR má k Česku sentimentální vztah, v osmdesátkách tu strávila trojici několikaměsíčních výzkumných pobytů a od té doby měla pro Česko slabost. Což jsme ne vždy uměli docenit. A opakuje to znovu, že do Prahy se vždy ráda vrací, i když by také ráda strávila nějaký čas v Itálii - a v Japonsku, kde navíc těží z toho, že zde není tak známá.

Nejdříve si myslím, že je to trolling - nad hlavou scény dvou žlutých křesílek a malého stolečku svítí nápis Respekt, což byl předvolební slogan Olafa Scholzeho. Pak se ukáže, že akci pořádá časopis Respekt, jehož šéfredaktor kancléřku uvede a jeden z redaktorů vede rozhovor.

[image error]

Tady musím říct, že jsem byl rád, že jsem si vzal sluchátka s překladem, protože moderátorovi vůbec nerozumím, půlku německého slova vždy nějak zašumluje a na moji nahluchlost to není to pravé ořechové. Takže na jeho otázku si vždycky nasazuju sluchátka, zatímco kancléřčina čistá a jasná němčina je pohlazením. Kromě toho mluví moderátor zajíkavě, frázovitě, pomalu, asi aby zbrzdil Merklové projev, což se mu nedaří. Ale sama kancléřka říká, že na ni máme mávat, pokud nebudeme stíhat - na to ale nedošlo.

Nebudu projev rekapitulovat, jen zmíním pár momentů, které mi utkvěly v hlavě. V jeden moment přijde otázka na současnou Ukrajinskou krizi. Merkelová připomíná, že “Německo navázalo diplomatické kontakty a ostatní se spoléhali na to, že někdo stále mluví s Putinem.” Zdůrazňuje, že považovala za velmi nebezpečné poskytnout Ukrajině předběžnou fázi ke členství v NATO, kdy by ale neměla ochranu podle článku 5. Putin by podle ní nezůstal nečinný a v této době zaútočil, zatímco Ukrajina v té době neměla vybudovanou armádu. “Bohužel jsem dospěla ke stejnému závěru, rozhodla bych se tak znovu,” říká kancléřka klidně a jasně. A také připouští, že Německo mělo rychleji navyšovat své vojenské kapacity. “Ani dnes se žádné řešení neobejde bez diplomacie.” “A ačkoliv je jasné, že Rusko válku vojenskou silou nevyhraje, bude nutné vyvinout k jejímu ukončení značné diplomatické úsilí,” připomíná. Připomíná také, že Německu byla vyčítána závislost na Ruském plynu, ale všichni včetně Ukrajiny jeho užívání podporovali a nakonec to bylo Německo, kdo na něm bylo nejméně závislé a rychle se jej bylo schopno zbavit.

Nezvykle ostrá slova má také pro situaci v Gaze. Připomíná, že je to Hamás, kdo zaútočil v říjnu na Izrael a kdo zastává názor, že Izrael musí být zničen a kdo také používá civilní obyvatelstvo jako živé štíty. “Izrael není jen premiér Netanjahu. Nemusím podporovat Netajnahuovu politiku, včetně nemilosrdnosti, kterou projevuje vůči obyvatelstvu v Gaze, ale odpovědí nemůže být, že kvůli tomu zpochybním svou podporu Izraele,” říká Merkelová. “Jsem na straně všech, kdo proti Netanjahuovi v Izraeli protestují,” říká jasně - něco, co si jako kancléřka dovolit nemohla. V sále se rozezní potlesk. Nakonec Merkelová připomíná dvojí metr v této debatě. “Válka v Jemenu pravděpodobně způsobuje hlad 15 milionů lidí, včetně mnoha dětí,” říká Merkelová. Nemají prakticky žádnou lobby. Ale: “Když přijde řeč na Izrael, je Izrael hodně pranýřován.”

Když po hodině a půl rozhovor končí, dostává se viditelně dojaté bývalé německé kancléřce mnohaminutový aplaus. Lidé stávají a potlesk neutichá, ani když se kancléřka už otáčí k odchodu, ještě se vrací, aby publiku znovu poděkovala. “Jako na Cimrmanech,” komentuje to pár vedle mne.

Praha se loučí s kancléřkou, za níž jedna generace žila v míru a blahobytu. A kancléřka Merkelová nemůže za to, jak to která země využila. Už dnes víme, že její následovník Olaf Scholz důstojným pokračováním její éry nebude. Merz? Uvidíme. Když jsem jí o několik hodin dříve prosil o podpis její knihy, přišlo mi důležité jí poděkovat: “Danke für alles, Frau Bundeskanzlerin.” Dneska je čas na poděkování, ne na kritiku.

Usměje se a pokývá hlavou, i když kolikrát musela tuhle větu slyšet.

Takhle končí velká éra tohoto století, bohužel také jedna z těch nejšťastnějších.

Danke für alles, Frau Bundeskanzlerin.

PS: Respekt má velký článek rekapitulující debatu: Angela Merkel pro Respekt: Zelenskyj mi řekl, ať se v Buče podívám, co moje politika vůči Rusku způsobila. Ale i podruhé bych se chovala stejně

 •  0 comments  •  flag
Share on Twitter
Published on June 03, 2025 17:00