Robots.txt: kompletní návod a nastavení pro SEO 2026 🤖

Soubor robots.txt patří k základním nástrojům technického SEO, ale zároveň je jedním z nejvíc nepochopených. Špatně nastavené dva řádky kódu dokážou shodit celý web z výsledků vyhledávání — a stalo se to v roce 2026 už nesčetněkrát.

V tomto návodu se dozvíte, k čemu robots.txt slouží, jak ho správně napsat pro Google i Seznam, jak ovládat AI crawlery typu GPTBot a ClaudeBot a kterých chyb se vyvarovat, abyste si neshodili organický provoz.

Co je robots.txt a kde se nachází?

Robots.txt je obyčejný textový soubor v kořenovém adresáři vašeho webu, který říká vyhledávacím robotům (crawlerům), které části webu smí procházet a které ne. Najdete ho vždy na stejné adrese: https://vasedomena.cz/robots.txt.

Funguje na základě Robots Exclusion Protocol (REP), který je od září 2022 oficiálním IETF standardem (RFC 9309). Když Googlebot, Bingbot nebo Seznambot poprvé navštíví váš web, první věc, co udělají, je stažení robots.txt — teprve potom začnou procházet stránky.

Soubor je veřejný — kdokoli si ho může otevřít. To znamená dvě věci: nikdy do něj nepište nic citlivého (cesty k administraci, API klíče, soukromé adresáře, které byste rádi tajili) a počítejte s tím, že nezachrání bezpečnost — ochranu řeší autentizace, ne robots.txt.

Crawling vs. indexace — kritický rozdíl

Tohle je nejčastější nedorozumění v SEO: robots.txt řídí procházení (crawling), ne indexaci. Když v robots.txt zakážete URL, Google na ni nesmí, ale stejně ji může zařadit do indexu — třeba na základě externích odkazů. Ve výsledcích vyhledávání pak uvidíte stránku bez popisku a s hláškou „Pro tuto stránku nejsou k dispozici žádné informace“.

Pokud chcete stránku skutečně vyloučit z výsledků, musíte použít meta tag noindex v hlavičce stránky nebo HTTP hlavičku X-Robots-Tag. A pozor — stránku s noindexem nesmíte současně blokovat v robots.txt, protože jinak Google noindex nikdy neuvidí.

Syntaxe robots.txt: jaké direktivy Google podporuje

Robots.txt má jednoduchou strukturu složenou ze skupin pravidel. Každá skupina začíná řádkem User-agent a obsahuje jednu nebo víc direktiv. Google v roce 2026 oficiálně podporuje jen čtyři pole:

User-agent

Identifikuje, kterého robota se pravidla týkají. Hvězdička (*) znamená všichni roboti, jméno (Googlebot, Seznambot, Bingbot) konkrétního robota.

Důležitá past: pokud má jeden robot vlastní skupinu, ignoruje pravidla v sekci pro hvězdičku a řídí se výhradně svou. Takže pokud chcete pro Seznambot stejná pravidla jako pro všechny ostatní, musíte je vypsat duplicitně.

Disallow

Říká robotovi, kam nesmí. Hodnota se rozlišuje velkými/malými písmeny a musí začínat lomítkem.

Allow

Pravidlo, které přepisuje Disallow. Hodí se, když chcete v zakázaném adresáři udělat výjimku — typicky v administraci povolit AJAX endpoint.

Sitemap

Odkaz na XML sitemapu. Zapisuje se jako absolutní URL (s https://) a může jich být víc. Roboti ho používají k rychlejšímu objevování důležitých adres.

Co Google v dubnu 2026 oficiálně označil za nepodporované: crawl-delay, request-rate, visit-time, revisit-after, content-signal, content-usage, host, noindex (jako direktivu v robots.txt), nofollow a noarchive. Pokud na ně narazíte ve starších šablonách, smažte je — Google je ignoruje.

Praktické příklady robots.txt podle typu webu

Tady jsou ověřené šablony, které pokryjí drtivou většinu webů. Vždy ale nakonec doplňte vlastní adresu sitemapy a otestujte.

Základní robots.txt pro malý web

User-agent: *
Disallow:

Sitemap: https://vasedomena.cz/sitemap.xml

Prázdný Disallow: znamená „povoluji všechno“. Tohle je výchozí stav — pokud nemáte specifický důvod něco blokovat, takhle by mělo robots.txt vypadat.

Robots.txt pro WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/

Sitemap: https://vasedomena.cz/sitemap_index.xml

WordPress generuje robots.txt dynamicky a Yoast SEO i Rank Math umožňují editaci přímo z administrace. Rank Math automaticky přidává blokaci /wp-admin/, Yoast spoléhá na výchozí WordPress chování. Důležité: nikdy neblokujte CSS a JavaScript — Google bez nich nemůže správně vyrenderovat stránku.

Robots.txt pro e-shop

User-agent: *
Disallow: /kosik/
Disallow: /pokladna/
Disallow: /muj-ucet/
Disallow: /*?razeni=
Disallow: /*?filter=
Disallow: /*?fbclid=
Allow: /

Sitemap: https://eshop.cz/sitemap.xml

U e-shopů je největší riziko plýtvání crawl budgetem na URL s parametry — filtry, řazení, tracking. Blokace parametrů ?fbclid= je v roce 2026 prakticky povinnost, protože Facebook ho přidává do všech sdílených odkazů.

Jak ovládat AI crawlery v roce 2026

Robots.txt v roce 2026 řeší jednu zásadní novinku: kontrolu nad AI roboty, kteří sbírají data pro trénování jazykových modelů. Většina hlavních AI firem zveřejnila vlastní user-agenty a respektuje REP — máte tedy reálnou kontrolu nad tím, jestli vaše obsahy skončí v ChatGPT, Claudovi nebo Gemini.

Důležité rozlišení: AI firmy mají často dva typy botů — jeden pro trénování modelů a druhý pro vyhledávání v reálném čase (citace v odpovědích). Pokud chcete být citováni v AI odpovědích, ale nechcete dávat data k tréninku, zablokujte trénovací bota a povolte search bota.

Hlavní AI crawlery a jejich účel

User-agent	Provozovatel	K čemu slouží
GPTBot	OpenAI	Trénování modelů ChatGPT
OAI-SearchBot	OpenAI	Vyhledávání pro ChatGPT (citace)
ClaudeBot	Anthropic	Trénování Claude modelů
Claude-SearchBot	Anthropic	Vyhledávání pro Claude (citace)
Google-Extended	Google	Trénování Gemini (NEovlivní Google Search)
PerplexityBot	Perplexity	Vyhledávání a citace

Příklad: blokace AI tréninku, povolení AI vyhledávání

# Blokace AI tréninku
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Povolení AI vyhledávání pro citace
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Specifika pro Seznambot a český trh

Pokud cílíte na český trh, Seznambot je druhý nejdůležitější crawler hned po Googlebotu. Má ale několik specifik, která se od Googlu liší.

Respektuje Crawl-delay a Request-rate — narozdíl od Googlu, který je ignoruje. Pokud máte slabý server, můžete zpomalit Seznambot pomocí Request-rate: 100/15m.
Neukládá robots.txt do cache — stahuje ho při každé návštěvě, takže změny vidí okamžitě. Google si ho cachuje až 24 hodin.
Minimální rychlost je 1 dokument za 10 sekund — pomalejší nastavení Seznambot ignoruje.

Časté chyby v robots.txt, kterých se vyvarujte

1. Disallow: / na produkčním webu (kritická chyba)

Tahle dvojice řádků shodí váš web z indexu vyhledávačů kompletně:

User-agent: *
Disallow: /

Nejčastěji se to stane při překlopení staging verze webu na produkci, kdy vývojáři zapomenou přepsat blokaci. Doporučení: po každém deploy zkontrolujte robots.txt v Google Search Console v sekci Nastavení.

2. Blokace CSS a JavaScriptu

Starší šablony často blokovaly složky /wp-content/plugins/ nebo /assets/js/. Google ale potřebuje stylesheety a skripty k tomu, aby si stránku vyrenderoval — bez nich vidí surový HTML a hodnotí to jako špatnou mobilní použitelnost. Pravidlo zní jednoduše: CSS a JS nikdy neblokujte.

3. Použití robots.txt místo noindex

Pokud chcete, aby stránka nebyla v indexu Googlu, nezakazujte ji v robots.txt. Použijte meta tag noindex přímo na stránce. A už vůbec nikdy oba mechanismy zároveň — Google by noindex neviděl.

4. Špatný HTTP status kód

Pokud robots.txt vrací status 5xx (chyba serveru), Google začne web postupně přestávat procházet. Vždy musí vracet 200 (OK) nebo 404 (Neexistuje) — ostatní stavy jsou problém. Soubor by měl být v UTF-8 kódování bez BOM.

5. Použití zastaralých direktiv

V roce 2026 už Google explicitně neignoruje, ale aktivně reportuje jako chybu direktivy crawl-delay, host, noindex, nofollow, noarchive v robots.txt. Pokud je v souboru máte, dostanete varování v Search Console — vyčistěte je.

Jak otestovat robots.txt

Po každé úpravě byste měli soubor otestovat, abyste si neudělali z chyby drahý problém. Tady jsou nástroje, které doporučuji používat.

Google Search Console — Nastavení → robots.txt: ukáže, jestli Google soubor správně načítá, kdy ho naposledy procházel, a hlásí chyby a nepodporované direktivy. Můžete tu i ručně požádat o opětovné procházení.
URL Inspection Tool v Google Search Console: zadáte konkrétní URL a hned vidíte, jestli je blokovaná v robots.txt nebo ne.
Seznam Webmaster: ekvivalent pro český trh — ukáže, jak váš web vidí Seznambot a jestli respektuje vaše pravidla.
Validátory třetích stran: technicalseo.com nebo Merkle robots.txt tester — užitečné pro syntax check ještě před nasazením.

Nejčastější otázky

Musí mít každý web robots.txt?

Technicky ne — pokud soubor neexistuje, vyhledávače předpokládají, že smí procházet všechno. Doporučuje se ho ale založit, alespoň prázdný se sitemapou. Pokud robots.txt vrací 404, není to problém. Pokud vrací 5xx, je to problém — Google může web postupně přestat procházet.

Jak dlouho trvá, než Google zaregistruje změnu v robots.txt?

Google ukládá soubor do cache typicky na 24 hodin. Změny se tedy projeví do jednoho dne. Pokud potřebujete rychlejší aktualizaci (například po opravě chyby), můžete v Google Search Console v sekci Nastavení požádat o opětovné procházení robots.txt.

Co je rozdíl mezi robots.txt, meta robots a X-Robots-Tag?

Robots.txt řídí procházení (crawling) na úrovni celého webu. Meta tag robots řídí indexaci na úrovni jedné HTML stránky. X-Robots-Tag dělá totéž, ale na úrovni HTTP hlavičky — používá se pro neHTML soubory typu PDF, obrázky nebo video.

Mám blokovat AI crawlery jako GPTBot a ClaudeBot?

Záleží na vaší obsahové strategii. Pokud máte exkluzivní obsah (placené kurzy, výzkum, originální data) a nechcete, aby skončil v tréninkových datech AI modelů, blokujte je. Pokud chcete být citováni v AI odpovědích a získat z nich provoz, povolte minimálně search verze (OAI-SearchBot, Claude-SearchBot, PerplexityBot).

Funguje robots.txt jako bezpečnostní opatření?

Ne. Robots.txt je veřejný soubor a slušné crawlery ho respektují, ale škodlivé boty a scrapery ho ignorují. Citlivý obsah chraňte autentizací, firewallem nebo blokací na úrovni serveru — ne robots.txt.

Proč Google ignoruje moji direktivu Crawl-delay?

Crawl-delay není součástí oficiálně podporovaných direktiv Googlu — od dubna 2026 ji explicitně označil za nepodporovanou. Pokud potřebujete zpomalit Googlebot, použijte v Google Search Console nastavení rychlosti procházení. Crawl-delay respektuje Seznambot, Bingbot a Yandex.

Další zdroje:

Robots.txt Introduction and Guide – Google Search Central [online]. [cit. 9. 5. 2026]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/intro
How Google Interprets the robots.txt Specification – Google Search Central [online]. [cit. 9. 5. 2026]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt
Robots.txt and SEO: What you need to know in 2026 – Search Engine Land [online]. [cit. 9. 5. 2026]. Dostupné z: https://searchengineland.com/robots-txt-seo-453779
A Guide To Robots.txt: Best Practices For SEO – Search Engine Journal [online]. [cit. 9. 5. 2026]. Dostupné z: https://www.searchenginejournal.com/technical-seo/robots-txt-guide/
The robots.txt rules Google ignores are finally getting named – Webiano Digital [online]. [cit. 9. 5. 2026]. Dostupné z: https://webiano.digital/the-robots-txt-rules-google-ignores-are-finally-getting-named/
Robots.txt Best Practices for AI SEO in 2026 – AI Crawler Check [online]. [cit. 9. 5. 2026]. Dostupné z: https://aicrawlercheck.com/blog/robots-txt-best-practices-ai-seo
Oprava chyb v Google Search Console souvisejících s robots.txt – PPC Profits [online]. [cit. 9. 5. 2026]. Dostupné z: https://www.ppcprofits.cz/blog/oprava-chyb-v-google-search-console-souvisejicich-s-robotstxt
Robots.txt – kompletní průvodce – Strafelda.cz [online]. [cit. 9. 5. 2026]. Dostupné z: https://www.strafelda.cz/robots-txt

Autor

Ivo Matěj

Online marketingu se věnuje přes 16 let. Je zakladatelem Converso, kde se specializuje na SEO, affiliate marketing a obsahové projekty. Dříve vedl marketing ve firmách jako Balíkobot, Srovnáme.cz nebo SportFotbal.

LATEST NEWS

Title tag

Meta description

CONTACTS

Robots.txt