Tokeny a kontextové okno: proč AI někdy „zapomíná“ a co s tím

Zjistěte, proč vaše AI někdy neodpoví

AI puls

Když si povídáte s AI delší dobu, může se stát, že najednou odpoví vedle, přehlédne důležitou informaci nebo „zapomene“, co jste psali před chvílí. Neznamená to, že se urazila. Znamená to většinou jediné: narazili jste na limity tokenů a kontextového okna.

V tomhle článku si lidsky vysvětlíme dvě věci, které stojí za většinou „divných“ momentů v chatu:

  • tokeny (z čeho se skládá text pro model),
  • kontextové okno (kolik toho si model „udrží v hlavě“ naráz).

Co je token (a proč to není totéž co slovo)

Modely typu LLM nepracují přímo se slovy, jak je vidíme my. Text si nejdřív rozsekají na malé části – tokeny. Token může být:

  • celé slovo,
  • část slova,
  • interpunkce,
  • číslo,
  • někdy i kousek slova s diakritikou nebo emoji.

Takže věta může mít tokenů méně než slov, ale taky víc – záleží na jazyce, znacích a konkrétním „dělení“ textu.

Přirovnání: Text je jako lego. My vidíme hotové autíčko (větu), ale model pracuje s kostičkami (tokeny).

Proč se tokeny řeší (i když nechcete)

Protože tokeny jsou „měna“, se kterou model platí za:

  • to, co mu pošlete (vaše zadání + kontext),
  • to, co mu aplikace přidá (např. systémové instrukce),
  • a to, co vám vrátí (odpověď).

Čím delší konverzace, tím víc tokenů se spotřebuje jen na to, aby model vůbec „viděl“, co se děje.

Co je kontextové okno

Kontextové okno je maximální množství tokenů, které model dokáže najednou zohlednit. Jinými slovy: kolik textu má v daný moment k dispozici, aby dával odpověď smysl.

Přirovnání: Kontextové okno je jako pracovní stůl. Můžete na něj dát jen omezený počet papírů. Když přidáte další, ty staré se musí odložit stranou.

Proč AI „zapomíná“

Když konverzace naroste, aplikace musí udělat jednu z těchto věcí:

  • zkrátit starší část chatu (aby se vešla do okna),
  • shrnout starší část,
  • nebo prostě některé věci „už neposlat“ modelu.

A pak se děje to, co znáte z praxe:

  • AI přestane držet původní zadání,
  • přepíše styl/tón,
  • ignoruje důležitý detail, který jste uvedli dávno,
  • nebo odpoví, jako by šlo o jiný problém.

Ne protože by byla zlá. Protože už tu informaci nevidí.

Box: Co se počítá do kontextu (nejen vaše věta)

Do kontextového okna typicky spadá:

  • vaše aktuální zpráva,
  • část předchozí konverzace,
  • instrukce, které má AI „nastavené“ (např. jak má odpovídat),
  • vložené texty (kopírované články, dokumenty),
  • a taky odpověď, kterou AI teprve vygeneruje.

To poslední je důležité: dlouhá odpověď může „sežrat“ místo pro kontext.

Jak poznat, že narážíte na limit

Typické signály:

  • AI začne odpovídat obecněji než dřív,
  • plete si pojmy, které dřív držela správně,
  • ignoruje část zadání (hlavně „udělej to takhle“),
  • najednou ztratí souvislosti („o čem to mluvíš?“),
  • nebo vás začne znovu vyzvídat věci, které už jste jasně řekli.

Jak si s tím poradit (prakticky, bez technikálií)

1) Dejte na začátek „kotvu“: cíl a pravidla

Když je práce delší, pomůže občas zopakovat to nejdůležitější:

  • co je cíl,
  • pro koho to je,
  • jaký formát chcete,
  • co rozhodně nechcete.

Stačí 2–3 věty. Je to jako připomenout navigaci, když jedete dlouhou trasu.

2) Zkraťte balast, ne podstatu

Model nepotřebuje každé „omáčkové“ souvětí. Potřebuje:

  • fakta,
  • kontext,
  • omezení,
  • očekávaný výstup.

Často pomůže změnit „povídání“ na strukturu (nadpisy, odrážky, krátké bloky).

3) Průběžně shrnujte

U delší práce funguje jednoduchý trik:

  • „Shrň, na čem jsme se dohodli, do 5 bodů a pokračuj.“

Shrnutí slouží jako „kompaktní paměť“, která se do okna vejde lépe než 30 zpráv zpět.

4) Pracujte po blocích

Místo „tady je 20 stran textu, udělej z toho knihu“:

  • dejte dokument po částech,
  • a na konci nechte AI složit finální verzi.

Tohle je mimochodem základ i pro firemní práci s dokumenty.

5) Když jde o hodně dokumentů, použijte vyhledávání v podkladech

Pokud potřebujete, aby AI odpovídala podle velkého množství interních textů, často je lepší přístup, kdy si AI nejdřív relevantní části dohledá a teprve pak odpoví (v praxi se tomu říká RAG). Pro začátečníka stačí vědět: AI pak nevaří „z hlavy“, ale z podkladů.

Shrnutí

  • Tokeny jsou malé dílky textu, se kterými model pracuje.
    Tokeny a kontextové okno_ Klíčo…
  • Kontextové okno je limit, kolik tokenů (textu) model udrží najednou.
    Tokeny a kontextové okno_ Klíčo…
  • Když je chat dlouhý, AI může „zapomínat“, protože starší část už do okna nevejde.
  • Pomáhá: stručnější zadání, průběžné shrnutí, práce po blocích a „kotvy“ (cíl + pravidla).

FAQ

Jsou tokeny totéž co slova?
Ne. Token může být celé slovo, část slova, interpunkce nebo znak.

Tokeny a kontextové okno_ Klíčo…

Proč AI po delší době ztrácí kontext?
Protože má omezené kontextové okno. Když se zaplní, starší část konverzace už model „nevidí“.

Počítá se do limitu i odpověď AI?
Ano – obvykle se počítá jak vstup, tak výstup. Proto někdy pomůže chtít kratší odpovědi.

Co je nejjednodušší trik, když AI začíná být mimo?
Nechte ji shrnout dosavadní závěry do pár bodů a pokračujte z toho shrnutí.

Co to znamená

Pomáhá
stručnější zadání, průběžné shrnutí, práce po blocích a „kotvy“ (cíl + pravidla).

Chceš AI přehled do e-mailu?

1× týdně výběr toho důležitého + praktické tipy. Bez balastu.

Došlo k chybě, zkuste to prosím znovu.
Přihlášení k odběru bylo úspěšné.

Doporučené články