Domů / Internet / Webslovník / K čemu slouží soubor robots.txt a kde ho najdu?
Textový soubor robots.txt

K čemu slouží soubor robots.txt a kde ho najdu?

Jedná se o textový soubor umístěný v kořenovém adresáři webu (www.vasedomena.cz/robots.txt), pojmenován malými písmeny (nikoliv Robots.txt), který ovlivňuje chování vyhledávacích robotů na webové stránce.

Vyhledávací roboti (zkráceně boti) mají za úkol neustále indexovat obsah webových stránek a udržovat ho aktuální. Jakmile zaindexují webovou stránku, dřív nebo později se k ní vrátí a prohledají obsah znovu. Zkontrolují existující obsah a indexují obsah nový. Čím je stránka populárnější, tím častěji se na ní roboti vracejí.

V praxi to znamená, že pokud hledáte nějaké klíčové slovo pomocí Googlu či Seznamu, nehledáte ve skutečnosti na internetu, ale v jejich databázi indexovaného obsahu. Proto by mělo být cílem každého provozovatele webové stránky mít obsah správně indexován v co největší míře.

Bot se nejdřív podívá do souboru robots.txt a pak buď pokračuje dál na stránky, nebo jen do konkrétní složky. Můžeme mu zakázat přístup úplně, nebo povolit jen k některým složkám. Vyhledávacích botů jsou desítky a pro každého můžeme mít nastavena jiná pravidla. Veškeré nastavení se zapisuje jako text právě v souboru robots.txt.

Nejznámější vyhledávací roboti jsou Googelbot, Seznambot, Bingbot(Microsoft) a Slurp (Yahoo).

Příklad zápisu v souboru, kdy chceme povolit přístup všem robotům všude:

User-agent: *
Disallow:

Tento zápis zakazuje přístup všem robotům všude:

User-agent: *
Disallow: /

Zakázat přístup pro Google robota do adresáře test můžete takto:

User-agent: Googlebot
Disallow: /test

Pro stránky v českém jazyce stačí povolit přístup robotům Seznam a Google. Ostatní záleží na Vás.

User-agent: GoogleBot
Disallow:

User-agent: Seznambot
Disallow:

Chování robotů pro subdomény je potřeba nastavit zvlášť. Máte-li na subdoméně nějaký testovací web test.mujweb.cz a nepřejete si indexovat tento obsah, aby nedošlo k duplicitě obsahu a penalizaci SEO, musíte vytvořit zvlášť soubor robots.txt, vložit do adresáře subdomény a zakázat robotům vstup.

User-agent: *
Disallow: /
Zakázat robotům sledovat odkazy a indexovat stránky můžete i mimo soubor robots.txt přidáním příznaku rel=“nofollow“ do html tagu. S možností index, noindex, follow a nofollow se můžete setkat v redakčních systémech jako je WordPress, Joomla apod.

Napsal Stanislav Král

Bloguje pro normální lidi zajímající se o webové stránky a e-shopy. Snaží se odpovědět na otázku jak založit e-shop, vybudovat web a nastartovat podnikání. Rád nahlíží za oponu internetu a hledá souvislosti mezi jednotlivými kusy kódu. Kryptografie a kryptoměny jsou jeho koníčkem, protože bezpečí a anonymita bude hrát klíčovou roli v budoucím světě.

Tohle checkuj

přesměrování na https

Přesměrování na HTTPS protokol pluginem pro WordPress

Přesměrování systému WordPress na zabezpečený protokol HTTPS je díky pluginu rychlé a jednoduché. Na hostingu …

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *