Crawl budget 2026: kompletní průvodce optimalizací 🤖

Stovky URL na e-shopu, kterým Google ignoruje, nový blogpost čeká týdny na zaindexování a v Search Console se kupí stránky se statusem „Discovered – currently not indexed”. Vinou nemusí být obsah ani odkazový profil, ale crawl budget – tedy množství URL, které je Googlebot ochoten a schopen na vašem webu projít za daný čas. V roce 2026 je téma akutnější než kdy dřív, protože k Googlu se přidaly AI crawlery jako GPTBot, ClaudeBot a PerplexityBot, které berou stejný díl serverového výkonu.

Tento průvodce vysvětluje, jak crawl budget funguje, kdy je optimalizace skutečně potřeba, jaké chyby ho v praxi nejčastěji žerou a co konkrétně udělat ve vašem robots.txt, sitemapě i interním prolinkování. Vychází z aktuální dokumentace Google Search Central z prosince 2025 a z čerstvých dat z první poloviny roku 2026.

Co je crawl budget a jak Google určuje jeho velikost

Crawl budget je čas a počet URL, který Googlebot věnuje procházení jednoho hostname na vašem webu za dané období. Google ho oficiálně definuje jako kombinaci dvou složek – crawl capacity limit (kolik souběžných spojení server zvládne bez přetížení) a crawl demand (jak moc Google o vaše stránky stojí). Výsledná hodnota je vždy minimum z těchto dvou čísel.

Klíčové je, že crawl budget se počítá pro každý hostname zvlášť. Hodnoty pro example.com a code.example.com jsou tedy oddělené a vy je ovlivňujete jinými páčkami. Capacity limit ovlivníte rychlostí serveru a stabilitou, demand kvalitou obsahu, popularitou a aktualizační frekvencí.

Crawl capacity limit – technický strop

Capacity limit Google upravuje automaticky podle toho, jak server odpovídá. Pokud se TTFB drží pod 200 ms a chybovost je nízká, limit roste. Když začnou padat 5xx chyby nebo doby odezvy přesahují 500 ms, Googlebot zpomalí a procházení se škrtí.

Dokumentace Google z prosince 2025 jmenuje pouze dva způsoby, jak capacity limit zvýšit: zlepšit výkon serveru, nebo počkat, až Google sám vyhodnotí váš obsah jako hodnotnější. Žádné „požádat o víc” v Search Console neexistuje.

Crawl demand – jak moc Google o váš web stojí

Demand určuje, kolik URL Google reálně chce procházet. Vstupují do něj tři hlavní faktory:

Perceived inventory – soubor URL, o kterých Google ví. Pokud je z něj velká část duplicitní nebo nepotřebná, Google plýtvá čas na nesmyslech.
Popularita – stránky s více kvalitními zpětnými odkazy a vyšší návštěvností Google prochází častěji, aby měl vždy čerstvou verzi.
Staleness (zastaralost) – Google se pravidelně vrací, aby ověřil, jestli se obsah změnil. Pokud se na URL nic nemění, frekvence návštěv klesá.

Komu se vyplatí crawl budget reálně řešit

Pro většinu malých webů je crawl budget pseudoproblém. Pokud máte blog se 200 články nebo firemní web se 30 stránkami, Googlebot vás projde celého klidně každý den. Pravidlem palce: do 10 000 URL se obvykle netřeba o nic starat – stačí udržovat aktuální sitemapu.

Optimalizace má smysl ve čtyřech konkrétních scénářích:

Velké e-shopy a marketplace – tisíce produktů a faseted navigation generují statisíce URL kombinací.
Mediální weby a zpravodajství – denně desítky až stovky nových článků, kde záleží na rychlosti indexace.
Sites s 1 milionem+ URL – Google sám definuje tuto hranici jako bod, kdy je crawl budget kritický.
Sites s parametrickými URL – session ID, řazení, filtry a UTM trackery vytvářejí prakticky nekonečný prostor URL.

Pokud v Google Search Console vidíte vysoký podíl stránek se statusem „Discovered – currently not indexed”, je to silný signál, že crawl budget je vyčerpaný a Google se k vašim URL nedostane.

Nový faktor v roce 2026: AI crawlery žerou váš crawl budget

Tohle je největší změna posledních 18 měsíců a většina českých SEO článků o ní mlčí. AI roboti dnes na enterprise webech tvoří až 40 % veškeré crawler aktivity. To je objem, který přímo konkuruje Googlebotu o stejné serverové zdroje.

Data z Cloudflare Radar za první kvartál 2026 ukazují, že AI bots (GPTBot, ClaudeBot, Meta-ExternalAgent, Amazonbot, PetalBot) tvoří 51,69 % veškerého crawler trafficu – víc než tradiční vyhledávací crawlery dohromady (34,46 %). ChatGPT-User v jedné analýze 24 milionů requestů od ledna do března 2026 dělal dokonce 3,6× víc requestů než Googlebot.

Tréninkové vs. vyhledávací AI crawlery

Není AI crawler jako AI crawler – mají dvě zcela jiné role:

Tréninkové crawlery (GPTBot, ClaudeBot, CCBot) sbírají obsah pro učení modelů. Nevracejí žádný referral traffic. ClaudeBot v Q1 2026 procházel 23 951 stránek na jeden zpětný klik.
Retrieval crawlery (OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User) stahují obsah v reálném čase, když uživatel položí dotaz. Vracejí konkrétní citace a brand visibility v AI odpovědích.

Praktický důsledek: pokud chcete být citováni v AI odpovědích, ale nechcete živit modely svým obsahem, povolte retrieval boty a tréninkové zablokujte. Vzorová robots.txt konfigurace pro tento scénář:

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

Podle reportu z dubna 2026 jen 5,5 % domén blokuje GPTBot a 4,7 % ClaudeBot – většina webů AI bots nijak neřeší a tím prakticky vědomě obětuje crawl budget pro Google.

Šest největších žroutů crawl budgetu (a co s nimi)

Studie ze začátku roku 2026 ukazují, že na velkých webech se až 30–50 % crawl budgetu utratí na nepotřebných URL. V jednom auditu enterprise e-shopu 75 % aktivity Googlebota mířilo na URL z faseted navigation, které ani nebyly indexovány. Tady je šest nejčastějších viníků seřazených podle dopadu.

1. Faseted navigation a parametrické URL

Kategorie e-shopu se třemi filtry (barva, velikost, řazení) vygeneruje stovky kombinací URL: /tenisky/?color=red, /tenisky/?size=42, /tenisky/?color=red&size=42&sort=price. Každou z nich může Googlebot navštívit, indexovat a soutěžit s reálnou kategorií.

Řešení: blokovat parametry v robots.txt, nasadit kanonické tagy směřující na čistou kategorii a indexovat jen ty kombinace, které mají reálný search intent (např. „červené tenisky” ano, „červené tenisky řazené podle ceny” ne).

2. Redirect chains

Řetězec přesměrování A → B → C → D nutí Googlebot poslat čtyři requesty místo jednoho. Při tisících URL je to obrovské plýtvání. Po migraci webu nebo špatném HTTPS přechodu jsou redirect chains téměř pravidlem.

Auditujte je v Screaming Frog nebo Ahrefs a všechny interní odkazy směřujte přímo na finální URL – nikdy přes mezistanice.

3. Soft 404 stránky

Soft 404 je stránka, která vrací status 200, ale obsahuje minimum obsahu nebo hlásí „Produkt není dostupný”. Google ji crawluje, vyhodnotí jako prázdnou a nakonec stejně neindexuje – ale crawl budget už je pryč.

Pro trvale odstraněný obsah vracejte čistý 410 Gone. Pro dočasně nedostupné produkty 404 nebo lépe redirect na nadřazenou kategorii.

4. Duplicitní obsah z protokolových variant

Klasická chyba: web je dostupný současně přes http://, https://, www a non-www. Každá kombinace je pro Google samostatné URL a budget se rozmělňuje. Stejný problém dělají velká/malá písmena v URL, koncové lomítko nebo session ID.

Vyberte jednu variantu jako kanonickou a všechno ostatní 301 přesměrujte. V kódu mějte konzistentní psaní.

5. Špinavá XML sitemapa

Sitemapa nemá být sklad všech URL na webu, ale mapa toho, co chcete v indexu. Pokud obsahuje přesměrované URL, 404 stránky, noindexované URL nebo duplicity, signalizujete Googlu, že nevíte, co je důležité.

Pravidlo: sitemapa obsahuje jen kanonická, indexovatelná URL se statusem 200. Nic jiného. U velkých webů ji rozdělte na sektorové sitemapy (produkty, kategorie, blog) – snáz pak v Search Console odhalíte, kde vázne indexace.

6. JavaScript rendering

Google sice JavaScript renderuje, ale je to drahá operace. Client-side renderované stránky čekají v render queue déle a část obsahu se nemusí zpracovat správně. U klíčových šablon (kategorie, produkty, články) zvažte server-side rendering nebo statickou pre-rendered verzi.

Jak udělat audit crawl budgetu v Google Search Console

Crawl budget si nikde nepřečtete jako konkrétní číslo – Google ho přesně neuvádí. Přesto si můžete v Search Console udělat poměrně přesný obrázek. Jděte do Nastavení → Statistiky procházení → Otevřít přehled a sledujte tyto čtyři ukazatele.

Ukazatel v GSC	Co znamená	Co je špatně
Celkové requesty za 90 dní	Objem práce, kterou Google vašemu webu věnuje	Náhlý pokles bez serverové změny = problém s kvalitou nebo demand
Průměrná doba odezvy	Jak rychle server odpovídá Googlebotu	Nad 500 ms = škrcení; nad 1 s = vážný problém
Stavové kódy	Procento 200, 301, 404 a 5xx	Více než 5–10 % 4xx/5xx = plýtvání budgetem na chyby
Účel požadavku	Discovery vs. Refresh	Vysoký Discovery na nehodnotných URL = spider trap

Pro hlubší analýzu jsou nezbytné logy serveru. GSC ukazuje agregované statistiky, ale jen access logy odhalí, na jaké konkrétní URL Googlebot reálně chodí. Nástroje jako Screaming Frog Log Analyzer, Ahrefs Site Audit nebo Botify dokážou logy rozparsovat a porovnat s vaší sitemapou.

Klíčová otázka: jaký podíl crawl aktivity jde na URL, které jsou v sitemapě? Pokud jen 30 %, máte 70% plýtvání a víte, kde začít hledat.

Sedm technik, které crawl budget skutečně pohnou

Zrychlete server pod 200 ms TTFB

Časový limit pro odezvu serveru je nejtvrdší škrtič crawl budgetu. Pokud se TTFB drží pod 200 ms, Google zvýší capacity limit. Nasaďte server-side caching (Redis, Varnish), CDN pro statické zdroje a držte databázové dotazy pod kontrolou.

Vyčistěte robots.txt

Blokujte cesty, které Google nemá co procházet: /search/, /filter/, parametry řazení, cart, checkout, admin. Pozor: robots.txt blokuje crawling, ne indexování. Stránka už zaindexovaná v Googlu se z indexu robots.txtem nesundá – na to slouží 410 nebo noindex (dokud ho Google jednou navštíví).

Google v dokumentaci 2025 explicitně varuje: nepoužívejte noindex pro úsporu crawl budgetu. Google stejně musí stránku navštívit, aby noindex viděl, takže žádnou úsporu nezískáte. Pro skutečnou úsporu blokujte v robots.txt.

Konsolidujte duplicity přes kanonické tagy

Každá stránka by měla mít rel=canonical směřující na svou preferovanou verzi. U variant produktu (tričko v 5 barvách) ukazujte canonical na hlavní produktovou URL. Tím Google ví, která je „ta pravá”, a budget mrhá méně.

Posilte interní prolinkování důležitých stránek

Crawl demand roste s množstvím interních odkazů na URL. Klíčové produkty a kategorie linkujte z homepage, hub stránek a souvisejících blogových článků. Plochá architektura – do 4 kliků od homepage – je v roce 2026 stále zlatý standard.

Zaveďte 410 Gone pro trvale odstraněné URL

Když produkt nebo článek navždy mizí, vracejte 410 (Gone). Google takovou URL přestane crawlovat rychleji než u 404 a budget se uvolní pro živý obsah. Pro produkty, které se vrátí, držte 404 nebo redirect na kategorii.

Aktualizujte nejhodnotnější obsah pravidelně

Crawl demand prudce roste u stránek, které se mění. Vyberte si 20–50 nejvýkonnějších URL a každý měsíc je smysluplně aktualizujte – nová data, čerstvé příklady, doplnění FAQ. Google si toho všimne a začne je navštěvovat často.

Rate-limitujte agresivní AI crawlery

Pokud váš server pod náporem AI bots zpomaluje a Googlebot dostává 5xx, ztrácíte budget pro skutečné SEO. Nastavte rate-limity na CDN úrovni (Cloudflare, Akamai) – třeba GPTBot 100 req/min, ClaudeBot 50 req/min, neznámé AI 10 req/min.

Jak měřit, že optimalizace funguje

Crawl budget je dlouhodobá disciplína. Výsledky se obvykle projeví za 4–8 týdnů od významnější změny. Sledujte tyto KPIs měsíčně:

Doba indexace nového obsahu – kolik dnů od publikace trvá, než se URL objeví v indexu. Cíl: pod 7 dnů u středně velkých webů, pod 24 hodin u news sites.
Podíl „Discovered – currently not indexed” v GSC – cíl je dlouhodobý sestup.
Crawl-to-index ratio – pokud Google crawluje 10 000 URL měsíčně a indexuje 3 000, máte 70% plýtvání. Cíl je nad 70 % indexed.
Průměrná doba odezvy v GSC – cíl pod 500 ms, ideál pod 200 ms.
Frekvence návratů na klíčové URL – z logů zjistíte, jak často Google navštěvuje vaše top stránky.

Nejčastější otázky

Mám malý web do 1 000 stránek – mám se crawl budgetem zabývat?

V drtivé většině případů ne. Google takový web obvykle prochází celý a indexuje obsah do několika dní. Stačí udržovat aktuální XML sitemapu a v GSC sledovat, jestli se nové URL indexují bez problémů. Optimalizace začíná dávat smysl od 10 000 URL nebo u sites s parametrickými URL.

Můžu si v Google Search Console o vyšší crawl budget zažádat?

Ne, neexistuje žádné tlačítko ani požadavek, který by tohle zařídil. Google v dokumentaci z prosince 2025 jasně říká, že crawl budget zvýšíte jen dvěma cestami: rychlejším serverem (zvýšení capacity limitu), nebo kvalitnějším a populárnějším obsahem (zvýšení demandu).

Pomůže komprese sitemapy zvýšit crawl budget?

Ne. Google explicitně uvádí, že komprimovaná sitemapa žádný budget nešetří – Googlebot ji stejně musí stáhnout a rozbalit. Investujte do kvality obsahu sitemapy, ne do její velikosti.

Jak často mám audit crawl budgetu opakovat?

U velkých webů měsíčně, u středně velkých čtvrtletně. Po každé větší migraci, redesignu nebo změně architektury udělejte audit hned – tehdy vznikají největší problémy s redirect chains a duplicitami.

Mám blokovat všechny AI crawlery, abych ušetřil budget pro Google?

Záleží na vašich cílech. Tréninkové crawlery (GPTBot, ClaudeBot, CCBot) můžete bez obav blokovat – nevracejí traffic. Retrieval crawlery (OAI-SearchBot, ChatGPT-User, PerplexityBot) ale rozhodují o vaší viditelnosti v AI odpovědích, takže jejich blokace znamená ztrátu brand visibility v ChatGPT, Claude i Perplexity.

Vyřeší noindex problém s plýtváním crawl budgetu?

Ne. Google musí stránku stejně navštívit, aby viděl noindex tag, a teprve potom ji vyřadí z indexu. Crawl budget se přitom utratí. Pro skutečnou úsporu blokujte přímo v robots.txt – Google pak URL vůbec nestahuje.

Další zdroje:

Crawl Budget Management – Google Search Central [online]. [cit. 10. 5. 2026]. Dostupné z: https://developers.google.com/crawling/docs/crawl-budget
Crawl Budget Management For Large Sites – Google Search Central Documentation [online]. [cit. 10. 5. 2026]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget
Crawl Budget Optimization: The Complete Guide for SEO in 2026 – M. Sangeetha [online]. [cit. 10. 5. 2026]. Dostupné z: https://www.msangeetha.com/blog/what-is-crawl-budget/
GEO Data Report 2026: Which AI Crawlers & LLM Bots Take the Most – SEOmator [online]. [cit. 10. 5. 2026]. Dostupné z: https://seomator.com/blog/crawl-to-refer-ratio-ai-crawlers-llm-bots
ChatGPT Now Crawls 3.6x More Than Googlebot – Search Engine Journal [online]. [cit. 10. 5. 2026]. Dostupné z: https://www.searchenginejournal.com/chatgpt-googlebot-crawl-data-alliai-spa/570885/
Log file analysis for SEO: Find crawl issues & fix them fast – Search Engine Land [online]. [cit. 10. 5. 2026]. Dostupné z: https://searchengineland.com/guide/log-file-analysis
Crawl Budget – SEOPRAKTICKY.cz [online]. [cit. 10. 5. 2026]. Dostupné z: https://www.seoprakticky.cz/slovnik-pojmu/crawl-budget/
Co je crawl budget a jak s ním pracovat? – Webglobe.cz [online]. [cit. 10. 5. 2026]. Dostupné z: https://www.webglobe.cz/poradna/co-je-crawl-budget

Autor

Ivo Matěj

Online marketingu se věnuje přes 16 let. Je zakladatelem Converso, kde se specializuje na SEO, affiliate marketing a obsahové projekty. Dříve vedl marketing ve firmách jako Balíkobot, Srovnáme.cz nebo SportFotbal.

LATEST NEWS

Title tag

Meta description

CONTACTS

Crawl budget