AKTUALIZACE 2026: Tento článek byl kompletně přepracován a aktualizován v únoru 2026. Původní verze z ledna 2024 obsahovala informace o modelech GPT-3.5 a Claude 2, které již nejsou aktuální. Nyní článek pokrývá nejnovější modely včetně GPT-5, Claude Opus 4.6, Gemini 2.5 Pro a další novinky jako RAG, MCP či paměť AI.
Představte si, že si povídáte s přítelkyní o dovolené. Vzpomenete na Chorvatsko z roku 2019, ona naváže na ten vtipný případ s pánem z půjčovny aut, vy doplníte detail o restauraci u moře – a celý rozhovor dává smysl, protože si oba pamatujete kontext. Nyní si představte, že po deseti minutách rozhovoru vaše kamarádka najednou zapomene úplně všechno, co jste si říkali. Přesně takto funguje umělá inteligence bez dostatečného kontextového okna.
V tomto článku vám srozumitelně vysvětlíme, co je kontext a kontextové okno v AI, proč na jejich velikosti záleží a jak se tato oblast dramaticky změnila za poslední dva roky. Pokud s umělou inteligencí teprve začínáte, doporučujeme začít naším průvodcem AI pro úplné začátečníky.
Co je kontext v umělé inteligenci?
Kontext je všechno, co AI model „ví" během vašeho rozhovoru. Zahrnuje:
- Vaši úvodní otázku či zadání (tzv. prompt)
- Celou předchozí konverzaci – všechny vaše zprávy a všechny odpovědi AI
- Systémové instrukce (např. „jsi pomocný asistent pro marketing")
- Dokumenty, obrázky nebo soubory, které jste nahráli
- Jakýkoliv další text, který jste AI poskytli jako podklad
Kontext je pro AI to, co je pro vás krátkodobá paměť během rozhovoru. Bez kontextu by AI nevěděla, že když řeknete „a co ta druhá možnost?", mluvíte o nabídkách dovolené, které jste probírali před chvílí.
Analogie pro začátečníky: Představte si kontext jako pracovní stůl. Čím větší stůl máte, tím více dokumentů na něj můžete položit a pracovat s nimi najednou. Malý stůl = můžete mít otevřený jen jeden papír. Obrovský stůl = můžete vedle sebe rozložit desítky dokumentů a porovnávat je.
Co je kontextové okno?
Kontextové okno (anglicky context window) je maximální množství textu, které AI model dokáže najednou „držet v hlavě". Měří se v jednotkách zvaných tokeny.
Co jsou tokeny?
Token je základní jednotka textu, se kterou AI pracuje. Není to přesně jedno slovo – v českém textu jeden token odpovídá zhruba 0,5 až 0,75 slova (český jazyk je tokenově náročnější než angličtina kvůli skloňování a delším slovům). Pro zjednodušení:
- 1 000 tokenů ≈ přibližně 500–750 českých slov (asi 1 strana textu)
- 100 000 tokenů ≈ přibližně 50 000–75 000 slov (celá kniha)
- 1 000 000 tokenů ≈ přibližně 500 000–750 000 slov (5–10 knih)
Důležité je, že kontextové okno zahrnuje jak vaše vstupy, tak odpovědi AI. Když modelu pošlete 50 000 tokenů textu a on odpoví 10 000 tokeny, dohromady jste spotřebovali 60 000 tokenů z kontextového okna.
Srovnání kontextových oken v roce 2026
Situace se od roku 2024 dramaticky změnila. Tehdy mělo nejpopulárnější GPT-3.5 kontextové okno pouhých 4 000 tokenů a GPT-4 pracovalo s 8 000 až 32 000 tokeny. Dnes jsme úplně jinde:
| Model | Poskytovatel | Kontextové okno | Přibližný ekvivalent |
|---|---|---|---|
| Gemini 2.5 Pro | 1 000 000 tokenů (až 2M v API) | 5–10 knih | |
| Gemini 2.5 Flash | 1 000 000 tokenů | 5–10 knih | |
| Claude Opus 4.6 | Anthropic | 200 000 tokenů (1M v beta) | 1–2 knihy (5–10 v beta) |
| Claude Sonnet 4.6 | Anthropic | 200 000 tokenů (1M v beta) | 1–2 knihy (5–10 v beta) |
| Claude Haiku 4.5 | Anthropic | 200 000 tokenů | 1–2 knihy |
| GPT-5 | OpenAI | až 400 000 tokenů (API) | 2–4 knihy |
| GPT-4.1 | OpenAI | 1 000 000 tokenů (API) | 5–10 knih |
| GPT-4o | OpenAI | 128 000 tokenů | asi 1 kniha |
| Llama 3.3 | Meta | 128 000 tokenů | asi 1 kniha |
Důležitá poznámka: Inzerovaná velikost kontextového okna neodpovídá vždy realitě. V praxi mnoho modelů začne ztrácet kvalitu a přesnost již před dosažením limitu. Například model s oknem 200 000 tokenů může spolehlivě pracovat do přibližně 130 000 tokenů. Toto je důležité mít na paměti při plánování vaší práce s AI.
Pokud vás zajímá podrobnější srovnání jednotlivých AI asistentů, přečtěte si naše průvodce pro ChatGPT, Claude AI a Google Gemini.
Proč na velikosti kontextového okna záleží?
Velikost kontextového okna přímo ovlivňuje, co všechno můžete s AI dělat. Podívejme se na konkrétní příklady:
Malé okno (do 8 000 tokenů)
- Krátké otázky a odpovědi
- Jednoduché překlady
- Krátké texty (e-maily, příspěvky na sociální sítě)
- AI rychle „zapomíná", o čem jste mluvili
Střední okno (32 000 – 128 000 tokenů)
- Analýza delších dokumentů (smlouvy, reporty)
- Delší konverzace bez ztráty kontextu
- Psaní delších článků na základě podkladů
- Základní práce s kódem
Velké okno (200 000 – 1 000 000+ tokenů)
- Analýza celých knih nebo rozsáhlých výzkumných prací
- Práce s celým zdrojovým kódem aplikace najednou
- Porovnávání desítek dokumentů současně
- Celodenní pracovní relace bez nutnosti „začínat znovu"
- Zpracování rozsáhlých datových sad
Praktické příklady z běžného života
Abyste si udělali lepší představu, tady je několik scénářů:
- Student píše bakalářskou práci: Potřebujete, aby AI pracovala s 5 zdrojovými články najednou (každý 10 stran). To je přibližně 25 000 tokenů – zvládne každý současný model.
- Právník analyzuje smlouvu: 80stránková smlouva má přibližně 40 000 tokenů. GPT-4o i Claude to zvládnou bez problému.
- Vývojář chce AI pomoct s projektem: Středně velký softwarový projekt má 500 000+ tokenů kódu. Tady potřebujete model s milionovým oknem (Gemini 2.5 Pro) nebo využít techniky jako RAG.
- Firma analyzuje roční zprávy: Deset výročních zpráv po 100 stranách = přibližně 500 000 tokenů. Opět potřebujete velké kontextové okno nebo chytré rozdělení práce.
Novinky roku 2025–2026: Jak AI překonává limity kontextu
Velikost kontextového okna je důležitá, ale není to jediný způsob, jak AI pracuje s informacemi. V posledních dvou letech přibylo několik revolučních technologií, které limity kontextu výrazně posouvají. Podívejme se na ně:
1. Paměť AI (Memory)
Nejnovější AI asistenti mají funkci paměti, která funguje odlišně od kontextového okna. Zatímco kontextové okno je „krátkodobá paměť" (trvá jen během jednoho rozhovoru), paměť AI je „dlouhodobá paměť" – AI si zapamatuje informace mezi konverzacemi.
- ChatGPT Memory: Automaticky si zapamatuje vaše preference, profesi, jazyk a další důležité informace z předchozích konverzací
- Claude Projects: Můžete vytvořit projekt s vlastními instrukcemi a dokumenty, které jsou AI k dispozici při každé konverzaci
- Gemini Gems: Podobně jako Projects – přizpůsobené verze AI s vlastním kontextem
Více o tom, jak projekty fungují v praxi, se dozvíte v článku Projekty v chatovacích aplikacích.
Tip: Paměť je skvělý nástroj, ale buďte si vědomi, co všechno si AI pamatuje. Přečtěte si náš článek o bezpečnosti a soukromí s AI, abyste věděli, jak s osobními údaji nakládat bezpečně.
2. RAG (Retrieval Augmented Generation)
RAG je technika, která AI umožňuje „sáhnout" do externí databáze znalostí, když potřebuje odpovědět na otázku. Místo toho, abyste celý dokument vložili do kontextového okna, AI si vytáhne jen relevantní části.
Představte si to jako rozdíl mezi dvěma způsoby studia:
- Bez RAG: Přečtete celou učebnici od začátku do konce a pak odpovídáte na otázky z paměti
- S RAG: Máte učebnici na stole a když dostanete otázku, najdete příslušnou kapitolu a odpovíte na základě toho, co jste přesně našli
RAG v praxi používají nástroje jako NotebookLM od Googlu, který dokáže analyzovat vaše dokumenty a odpovídat na otázky na základě jejich obsahu. Podobně funguje funkce „Knowledge" v ChatGPT nebo „Projects" v Claude.
3. Extended Thinking (Rozšířené myšlení)
Moderní AI modely jako Claude Opus 4.6 a Gemini 2.5 Pro nabízejí funkci Extended Thinking (rozšířené myšlení). Model si před odpovědí „promyslí" problém krok za krokem – podobně jako když vy přemýšlíte nad složitým problémem na papíře.
Extended Thinking spotřebovává další tokeny z kontextového okna pro „myšlenkový proces", ale výrazně zvyšuje kvalitu odpovědí u složitých úkolů, jako jsou matematické problémy, analýza dat nebo programování. Zajímavé je, že u Claude modelů může Extended Thinking využít více tokenů, než je standardní okno.
4. Multimodální kontext
V roce 2024 AI pracovala především s textem. V roce 2026 můžete do kontextu zahrnout:
- Obrázky a fotografie – AI popíše, analyzuje nebo porovná vizuální obsah
- PDF dokumenty – včetně tabulek, grafů a obrázků v nich
- Tabulky a data – Excel, CSV soubory
- Audio a video – některé modely (především Gemini) rozumí i mluvenému slovu a videu
Každý typ obsahu se převádí na tokeny. Například jeden obrázek může zabrat 500 až 2 000 tokenů kontextového okna v závislosti na jeho rozlišení a složitosti.
5. MCP (Model Context Protocol)
Model Context Protocol je otevřený standard, který představila společnost Anthropic koncem roku 2024 a v roce 2025–2026 ho adoptovaly prakticky všichni velcí hráči včetně OpenAI. MCP řeší základní problém: jak AI připojit k externím nástrojům a datům standardizovaným způsobem.
Bez MCP musí každá aplikace řešit připojení k AI po svém. S MCP existuje jeden univerzální způsob, jak AI může:
- Číst soubory z vašeho počítače nebo cloudového úložiště
- Připojit se k databázím a podnikovým systémům
- Používat externí nástroje (kalkulačky, vyhledávače, API)
- Pracovat s vaším kalendářem, e-maily a dalšími službami
MCP v podstatě rozšiřuje kontext AI za hranice kontextového okna – model nemůže mít všechno „v hlavě", ale může si v reálném čase dosáhnout pro informace, když je potřebuje. Je to jako rozdíl mezi tím, že všechno nosíte v aktovce, a tím, že máte přístup k celé knihovně.
6. Kompakce kontextu a prompt caching
Další dvě inovace, které stojí za zmínku:
- Kompakce kontextu: Když se konverzace blíží limitu kontextového okna, model automaticky shrne starší část rozhovoru a zachová klíčové informace. Výsledkem je, že můžete vést prakticky neomezeně dlouhé konverzace.
- Prompt caching: Pokud opakovaně posíláte AI stejné podkladové dokumenty (například firemní příručku), systém si je „zapamatuje" a nemusíte za ně platit znovu. To snižuje náklady až o 90 % při opakovaných dotazech.
Praktické tipy: Jak efektivně využívat kontextové okno
Nyní, když rozumíte teorii, pojďme k praktickým radám, jak s kontextem pracovat co nejlépe. Více o efektivní komunikaci s AI najdete v našem článku Jak psát s AI.
1. Buďte struční a konkrétní
Každé slovo ve vašem zadání zabírá místo v kontextovém okně. Nepište „Mohl bys mi prosím laskavě pomoci s tím, že bys shrnul tenhle dokument, kdybys byl tak hodný?" – stačí „Shrň tento dokument do 5 klíčových bodů."
2. Strukturujte své podklady
Když AI dáváte dokumenty k analýze, označte je jasně: „DOKUMENT 1: Smlouva o dílo", „DOKUMENT 2: Příloha ke smlouvě". AI pak lépe pochopí, co je co.
3. Využívejte projekty a paměť
Místo toho, abyste každou konverzaci začínali od nuly, využijte funkce jako ChatGPT Memory, Claude Projects nebo Gemini Gems. Uložíte si tam firemní kontext, preferovaný styl a další důležité informace.
4. Rozdělujte velké úkoly
Pokud potřebujete AI analyzovat 500 stran textu a váš model má okno jen 128 000 tokenů, rozdělte práci na části. Například: „Nejdřív analyzuj kapitoly 1–5, pak 6–10" a na závěr si nechte udělat celkové shrnutí.
5. Začněte novou konverzaci, když měníte téma
Nepokračujte v konverzaci o finančních reportech dotazem na recept na palačinky. Stará konverzace zabírá kontextové okno a může zmást AI. Pro nové téma začněte nový chat.
6. Využívejte správný model pro správný úkol
Pokud potřebujete analyzovat rozsáhlé dokumenty, zvolte model s velkým kontextovým oknem (Gemini 2.5 Pro s milionem tokenů). Pro krátké otázky stačí menší a levnější model (Claude Haiku nebo GPT-4o mini).
Budoucnost kontextových oken
Vývoj kontextových oken postupuje neuvěřitelným tempem. V roce 2022 bylo 4 000 tokenů standard. V roce 2024 jsme mluvili o 200 000 tokenech jako o revoluci. V roce 2026 máme modely s milionem tokenů a některé experimentální modely (Llama 4 Scout od Meta) dosahují až 10 milionů.
Co můžeme očekávat dál?
- Ještě větší okna: Pravděpodobně se standard posune na 2–5 milionů tokenů během roku 2026–2027
- Lepší kvalita v celém okně: Modely budou lépe pracovat s informacemi rozloženými po celém kontextu, ne jen na začátku a konci
- Inteligentnější správa kontextu: AI bude sama rozhodovat, které informace si ponechat a které shrnout
- Hlubší integrace s externími zdroji: Díky MCP a RAG bude hranice mezi „co AI ví" a „k čemu má přístup" stále méně ostrá
- Nižší náklady: Prompt caching a další optimalizace sníží cenu za velké kontexty
Klíčem k budoucnosti není jen větší kontextové okno, ale chytřejší práce s kontextem – kombinace paměti, RAG, MCP a dalších technologií, které AI umožní pracovat s prakticky neomezeným množstvím informací.
Často kladené otázky (FAQ)
Co se stane, když překročím limit kontextového okna?
AI model přestane brát v úvahu nejstarší část konverzace – doslova „zapomene" začátek vašeho rozhovoru. Některé moderní aplikace (např. Claude) toto řeší automatickou kompakcí, kdy starší části shrnují místo úplného smazání. V praxi si toho všimnete tak, že AI začne odpovídat bez ohledu na to, co jste říkali na začátku.
Je větší kontextové okno vždy lepší?
Ne vždy. Větší okno znamená vyšší náklady (při použití API platíte za tokeny) a někdy i pomalejší odpovědi. Navíc některé modely zůstávají spolehlivější při menším množství kontextu. Pro krátké úkoly je zbytečné používat model s milionovým oknem – stačí menší a rychlejší varianta.
Kolik stojí používání velkého kontextového okna?
Pokud používáte AI přes webové rozhraní (chatgpt.com, claude.ai, gemini.google.com), platíte paušální měsíční částku bez ohledu na tokeny – typicky kolem 20 USD (~480 Kč) měsíčně za předplatné. Počítejte ale s limity počtu zpráv. Při použití API (programátorské rozhraní) platíte za každý token – například u Claude Sonnet 4.6 je to 3 USD za milion vstupních tokenů.
Jak zjistím, kolik tokenů můj text zabírá?
Většina AI aplikací zobrazuje počet tokenů přímo v rozhraní. Obecně platí pravidlo, že 1 strana českého textu (asi 250 slov) odpovídá přibližně 400–500 tokenům. Pro přesný přepočet existují online nástroje jako Tokenizer od OpenAI nebo jednoduché pravidlo: počet znaků celkem dělený čtyřmi dá přibližný počet tokenů pro anglický text (pro český text dělte zhruba třemi).
Co je lepší – velké kontextové okno, nebo RAG?
Záleží na situaci. Velké kontextové okno je jednoduché na použití – všechno do AI „nasypete" najednou. RAG je efektivnější při práci s opravdu rozsáhlými daty (tisíce dokumentů), protože AI si vytahuje jen to, co zrovna potřebuje. Ideální je kombinace obou přístupů – velké okno pro běžný kontext a RAG pro přístup k rozsáhlým databázím znalostí.
Můžu nějak zvětšit kontextové okno modelu, který používám?
Samotné kontextové okno zvětšit nemůžete – to je daná vlastnost modelu. Co ale můžete udělat, je efektivněji využívat existující prostor: používejte stručné prompty, využívejte projekty a paměť místo opakovaného vkládání stejných informací, a pro rozsáhlé úkoly zvažte přechod na model s větším oknem (například z GPT-4o na Gemini 2.5 Pro).