OpenAI pÅedstavuje Codex - agenta pro vývoj software
OpenAI pÅedstavila âvýzkumnou preview verziâ nového nástroje nazvaného Codex. Tedy nejde o totálnà novinku, Codex již byl pÅedsaven jako aplikace Codex CLI pro pÅÃkazovou Åádku, nynà jde ale o kompletnÄjšà webové rozhranÃ. AÄkoliv nedosahuje komplexnosti služeb jako Lovable, jde o zajÃmavého agenta pro vývoj software.
Hlavnà výhodou Codexu má být schopnost paralelnÄ pracovat na mnoha úkolech. PodÃvejme se detailnÄ na to, co tento nástroj pÅinášÃ, jaké jsou jeho možnosti a omezenÃ.
Co je Codex?Codex je cloudový software založený na modelu codex-1, což je verze modelu OpenAI o3 optimalizovaná pro softwarové inženýrstvÃ. Podle dokumentace byl tento model trénován pomocà reinforcement learning na reálných úkolech kódovánà v různých prostÅedÃch. HlavnÃm cÃlem bylo generovat kód, který napodobuje lidský styl psanÃ, pÅesnÄ dodržuje instrukce a dokáže iterativnÄ spouÅ¡tÄt testy, dokud nedosáhne úspÄÅ¡ného výsledku.
[image error]
Dostupnost a rozÅ¡ÃÅenÃV souÄasné dobÄ je Codex dostupný pro uživatele ChatGPT Pro, ChatGPT Enterprise a ChatGPT Team. OpenAI plánuje v budoucnu rozÅ¡ÃÅit dostupnost i pro uživatele ChatGPT Plus a ChatGPT Edu. BÄhem výzkumné preview fáze majà uživatelé k dispozici âvelkorysý pÅÃstup bez dodateÄných nákladůâ po dobu nÄkolika týdnů. NáslednÄ OpenAI plánuje zavést cenovou politiku s možnostà dokoupit dodateÄné využità podle potÅeby.
Jak Codex fungujePÅÃstup k Codexu je možný pÅes postrannà panel v ChatGPT. Uživatelé mohou zadat nové úkoly kódovánà zadánÃm promptu a kliknutÃm na tlaÄÃtko âCodeâ. Pro dotazy na kódovou základnu lze použÃt tlaÄÃtko âAskâ.
Každý úkol je zpracováván nezávisle v samostatném izolovaném prostÅedÃ, které je pÅedem naplnÄno kódovou základnou uživatele. Codex může ÄÃst a upravovat soubory, spouÅ¡tÄt pÅÃkazy vÄetnÄ testů, lintu a kontroly typů. Uživatel může sledovat postup v reálném Äase. DokonÄenà úkolu typicky trvá mezi 1 a 30 minutami v závislosti na složitosti. Po dokonÄenà úkolu Codex provede commit svých zmÄn ve svém prostÅedà a poskytne ovÄÅitelné důkazy o svých akcÃch prostÅednictvÃm citacà terminálových logů a výstupů testů.
Uživatel pak může zkontrolovat výsledky, požádat o dalšà revize, otevÅÃt GitHub pull request nebo pÅÃmo integrovat zmÄny do svého lokálnÃho prostÅedÃ.
AGENTS.md souboryZajÃmavým prvkem je možnost ÅÃdit Codex pomocà AGENTS.md souborů umÃstÄných v repozitáÅi. Tyto textové soubory, podobnÄ jako README.md, umožÅujà informovat Codex o tom, jak se orientovat v kódové základnÄ, jaké pÅÃkazy spouÅ¡tÄt pro testovánà a jak nejlépe dodržovat standardnà postupy projektu. Podle OpenAI codex-1 vykazuje dobré výsledky i bez tÄchto souborů, ale jejich pÅÃtomnost může zlepÅ¡it efektivitu práce.
Výkonnost a hodnocenÃOpenAI poskytla nÄkolik mÄÅÃtek výkonnosti codex-1:
Na benchmarku SWE-Bench Verified dosahuje codex-1 pÅesnosti kolem 70-75%, což je významnÄ vÃce než o3-high (kolem 65-70%) Na internÃch SWE úkolech OpenAI dosahuje codex-1 pÅibližnÄ 75% úspÄÅ¡nosti, ve srovnánà s o4-mini-high (70%), o3-high (67%) a o1-high (11%)[image error]
BezpeÄnost a zajiÅ¡tÄnà důvÄryhodnostiOpenAI zmiÅuje nÄkolik bezpeÄnostnÃch opatÅenà implementovaných v Codexu. Jde pÅedevÅ¡Ãm o transparentnost, kdy uživatelé mohou verifikovat výstupy prostÅednictvÃm citacÃ, terminálových logů a výsledků testů. PÅi nejistotÄ nebo selhánà testů agent explicitnÄ komunikuje tyto problémy. Codex operuje v zabezpeÄeném izolovaném kontejneru v cloudu a bÄhem provádÄnà úkolu má zakázán pÅÃstup k internetu - interaguje pouze s kódem poskytnutým pÅes GitHub repozitáÅe a pÅedinstalované závislosti.
PÅesto OpenAI zdůrazÅuje, že je stále nezbytné, aby uživatelé manuálnÄ kontrolovali a validovali veÅ¡kerý agentem generovaný kód pÅed integracà a spuÅ¡tÄnÃm.
Prevence zneužitÃOpenAI uvádÃ, že implementovali opatÅenà proti zneužità tohoto nástroje pro vývoj Å¡kodlivého softwaru:
Codex byl trénován k identifikaci a odmÃtnutà požadavků zamÄÅených na vývoj Å¡kodlivého softwaru SouÄasnÄ by mÄl rozliÅ¡ovat a podporovat legitimnà úkoly OpenAI zdokonalila své politiky a zaÄlenila pÅÃsná bezpeÄnostnà hodnocenÃJako dodatek k dokumentaci o3 System Card byla publikována aktualizace odrážejÃcà tato hodnocenÃ.
BÄžné pÅÃpady použitÃTechnické týmy OpenAI již použÃvajà Codex jako souÄást svého každodennÃho pracovnÃho postupu. NejÄastÄji se použÃvá pro refaktorizaci kódu, pÅejmenovánà promÄnných a funkcÃ, psanà testů, vytváÅenà základů nových funkcÃ, propojovánà komponent, opravy chyb a tvorbu dokumentace.
VývojáÅi OpenAI si dÃky tomuto nástroji vytváÅejà nové pracovnà návyky jako tÅÃdÄnà problémů v pohotovostnà službÄ, plánovánà úkolů na zaÄátku dne a delegace práce na pozadÃ. Mezi externà testovacà organizace patÅà Cisco, Temporal, Superhuman a Kodiak.
[image error]
Aktualizace Codex CLISouÄasnÄ s uvedenÃm Codexu OpenAI vydává menšà verzi codex-1, která je verzà o4-mini optimalizovanou specificky pro Codex CLI. Tento model podporuje rychlejšà pracovnà postupy v CLI a je optimalizován pro dotazy a úpravy kódu s nÃzkou latencÃ.
Model je dostupný jako výchozà v Codex CLI a v API jako codex-mini-latest. CenovÄ je nastaven na:
$1.50 za 1M vstupnÃch [[tokenů](/ai/tokeny-versus-slova/)](/ai/[tokeny](/ai/tokeny-versus-slova/)-versus-slova/) $6 za 1M výstupnÃch tokenů 75% sleva pÅi cachovánà promptůOmezenà a budoucà vývojCodex je stále v rané fázi vývoje a má nÄkolik omezenÃ. Chybà mu možnost vstupů formou obrázků pro frontend práci, nenà možné korigovat agenta bÄhem jeho práce a delegovánà úkolu vzdálenému agentovi trvá déle než interaktivnà úpravy.
OpenAI plánuje v budoucnu zavést interaktivnÄjšà a flexibilnÄjšà pracovnà postupy, umožnit poskytovánà pokynů v průbÄhu úkolu, spolupracovat na strategiÃch implementace a posÃlat proaktivnà aktualizace o pokroku. Dále chce vytvoÅit hlubšà integrace s nástroji jako GitHub, Codex CLI, ChatGPT Desktop nebo systémy pro sledovánà problémů a CI.
Technické parametry modelu codex-mini-latestCodex-mini-latest je doladÄná verze o4-mini specificky urÄená pro použità v Codex CLI:
200K kontextové okno 100K max výstupnÃch tokenů Podpora âreasoning tokensâNÄco málo osobnà zkuÅ¡enostiZkuÅ¡enosti jsou zatÃm krátké. ZatÃm se ukazuje, že Codex dokáže dosti spolehlivÄ opravovat chyby, což by mohlo vést k plnÄ automatizovanému procesu oprav a uÅ¡etÅit znaÄné množstvà Äasu. Uživatelské rozhranà je pohodlnÄjÅ¡Ã, než Codex CLI v pÅÃkazové Åádce, je to o dost intuitivnÄjšà a vůbec mi nechybà pÅehrÅ¡el oken Cursoru. Jenže Cursor zatÃm také neodinstalujuâ¦
Codex nenà jen pasivnà nástroj. AktivnÄ se zapojuje do pracovnÃho procesu. Umà ÄÃst a upravovat soubory a spouÅ¡tÄt různé pÅÃkazy, vÄetnÄ testovacÃch nástrojů, linterů a kontroly typů. Tyto funkce pomáhajà zajistit kvalitu kódu a odhalit potenciálnà problémy v rané fázi vývoje. Testovacà nástroj funguje jako kontrola funkÄnosti, lint jako nástroj pro hygienu a styl kódu a kontrola typů zajišťuje správné použÃvánà promÄnných.
DokonÄenà úkolu s pomocà Codex obvykle trvá od 1 do 30 minut (ano, obÄas je to dlouhý, Äekáte zÅejmÄ v nÄjaké frontÄ a viditelnÄ se nic nedÄje!). Pro zajiÅ¡tÄnà transparentnosti a důvÄryhodnosti poskytuje Codex ovÄÅitelné důkazy o svých akcÃch prostÅednictvÃm citacà z terminálových protokolů a výstupů testů.
Flexibilita je dalšà důležitou vlastnostà Codex. Jeho prostÅedà lze do jisté mÃry konfigurovat tak, aby co nejvÃce odpovÃdalo konkrétnÃmu vývojovému prostÅedà uživatele. Chovánà Codex lze dokonce ÅÃdit pomocà speciálnÃho souboru agents.md umÃstÄného v úložiÅ¡ti kódu.
Testovánà ukázalo, že Codex 1 dokáže pracovat s maximálnà délkou kontextu 192 000 tokenů a důslednÄ vytváÅà Äistšà patche pÅipravené k okamžité integraci do standardnÃch pracovnÃch postupů. PÅÃstup Codex k psanà kódu spoÄÃvá v práci v malých, cÃlených dávkách, které se zamÄÅujà na konkrétnà problémy.
V praxi Codex umožÅuje vývojáÅům efektivnÄ nastavit základy projektu a zamÄÅit se na implementaci aktuálnÃch funkcÃ. CelkovÄ nástroj mÄnà způsob práce vývojáÅů, umožÅuje jim pracovat témÄÅ jako by byli svým vlastnÃm týmem nebo manažerem týmu, s možnostà zadávat problémy a vracet se k nim po urÄité dobÄ.
DalÅ¡Ãm zajÃmavým použitÃm by mohlo být automatizované opravovánà issues v gitu, kdy si Codex stáhne issues, navrhne opravy a odeÅ¡le je zase do GITu, kde Äekajà na kontrolu a merge.
ZávÄrJak má Codex zapadat k probÃhajÃcà akvizici Windsurfu, budou to sobÄžné projekty, nebo se spojÃ? Je Codex budoucà lÃdr agentického programovánà nebo jen dalšà âmy takyâ software bez pÅidané hodnoty? UvidÃme⦠na to zatÃm žádné odpovÄdi nejsou,