Soubor robots.txt uložený v kořenovém adresáři vašich webových stránek informuje webové roboty, jako jsou pavouci vyhledávačů, o tom, jaké adresáře a soubory mají procházet. Je snadné používat soubor robots.txt, ale některé věci byste si měli pamatovat:
- Webové roboty Blackhat ignorují váš soubor robots.txt. Nejčastějšími typy jsou roboty malwaru a roboty, kteří hledají e-mailové adresy pro sklizeň.
- Někteří noví programátoři budou psát roboty, které ignorují soubor robots.txt. To se obvykle děje omylem.
- Každý soubor vašeho souboru robots.txt se může zobrazit. Jsou vždy nazývány robots.txt a jsou vždy uloženy v kořenovém adresáři webu.
- Konečně, pokud někdo odkazuje na soubor nebo adresář, který je vyloučen ze souboru robots.txt ze stránky, která není vyloučena jejich souborem robots.txt, vyhledávače ho mohou najít stejně.
Nepoužívejte soubory robots.txt k tomu, abyste skryli něco důležitého. Místo toho byste měli zadat důležité informace za zabezpečená hesla nebo je zcela nechat mimo web.
Jak používat tyto ukázkové soubory
Zkopírujte text ze vzorku, který je nejblíže tomu, co chcete udělat, a vložte jej do souboru robots.txt. Změňte názvy robotů, adresářů a souborů tak, aby odpovídaly vaší preferované konfiguraci.
Dva základní soubory Robots.txt
Uživatelský agent: *Zakázat: / Tento soubor říká, že každý robot ( Uživatelský agent: *), který k němu přistupuje, by měl ignorovat každou stránku na webu ( Zakázat: /). Uživatelský agent: *Zakázat: Tento soubor říká, že každý robot ( Uživatelský agent: *), který přistupuje, je možné zobrazit každou stránku na webu ( Zakázat:). Také můžete provést tím, že soubor robots.txt zůstane prázdný nebo vůbec nemáte na svém webu žádný. Uživatelský agent: *Zakázat: / cgi-bin /Zakázat: / temp / Tento soubor říká, že každý robot ( Uživatelský agent: *), který přistupuje, by měl ignorovat adresáře / cgi-bin / a / temp / ( Zakázat: / cgi-bin / Disallow: / temp /). Uživatelský agent: *Zakázat: /jenns-stuff.htmZakázat: /private.php Tento soubor říká, že každý robot ( Uživatelský agent: *), který přistupuje, by měl ignorovat soubory /jenns-stuff.htm a /private.php ( Zakázat: /jenns-stuff.htm Zakázat: /private.php). Uživatelský agent: Lycos / x.xZakázat: / Tento soubor říká, že bot Lycos ( Uživatelský agent: Lycos / x.x) není povolen přístup nikde na webu ( Uživatelský agent: *Zakázat: /Uživatelský agent: GooglebotZakázat: Tento soubor nejprve zakáže všechny roboty, jako jsme učinili výše, a pak výslovně nechá Googlebot ( Uživatelský agent: Googlebot) mají přístup ke všemu ( Zatímco je lepší používat řadu uživatelů včetně agenta User-Agent: *, můžete být tak konkrétní, jak se vám líbí. Pamatujte si, že roboty čte soubor v pořádku. Takže pokud první řádky říkají, že všichni roboté jsou zablokováni od všeho a pak později v souboru říká, že všem robotům je povolen přístup ke všemu, mají roboty přístup ke všemu. Pokud si nejste jisti, zda jste správně napsali soubor robots.txt, můžete pomocí nástroje pro webmastery Google zkontrolovat soubor robots.txt nebo napsat nový. Chraňte konkrétní adresáře od robotů
Chraňte konkrétní stránky od robotů
Zabraňte tomu, aby konkrétní robot mohl přistupovat k vašemu webu
Povolit pouze jeden specifický přístup k robotům
Kombinujte více řádků, abyste získali přesně ty výjimky, které chcete