Semalt poskytuje tipy, ako sa vysporiadať s robotmi, pavúkmi a robotmi

Okrem vytvárania adries URL vhodných pre vyhľadávacie nástroje umožňuje súbor .htaccess webmasterom blokovať prístup konkrétnych webov k svojim webovým stránkam. Jedným zo spôsobov blokovania týchto robotov je súbor robots.txt. Ross Barber, manažér Semalt Customer Success Manager, však uvádza, že videl niektoré prehľadávače ignorujúce túto požiadavku. Jedným z najlepších spôsobov je použitie súboru .htaccess na zastavenie indexovania obsahu.

Čo sú to roboti?

Ide o druh softvéru, ktorý používajú vyhľadávacie nástroje na odstránenie nového obsahu z internetu na účely indexovania.

Vykonávajú tieto úlohy:

  • Navštívte webové stránky, na ktoré ste odkazovali
  • Skontrolujte chyby vo svojom kóde HTML
  • Uložia si, na ktoré webové stránky odkazujete, a uvidia, ktoré webové stránky odkazujú na váš obsah
  • Indexujú váš obsah

Niektoré roboty sú však škodlivé a hľadajú na vašom webe e-mailové adresy a formuláre, ktoré sa zvyčajne používajú na odosielanie nevyžiadaných správ alebo spamu. Iní dokonca hľadajú vo vašom kóde bezpečnostné medzery.

Čo je potrebné na blokovanie webových prehľadávačov?

Pred použitím súboru .htaccess musíte skontrolovať nasledujúce veci:

1. Vaša stránka musí byť spustená na serveri Apache. V súčasnosti vám dokonca aj tie spoločnosti poskytujúce webhosting, ktoré majú vo svojej práci polovicu slušných schopností, poskytnú prístup k požadovanému súboru.

2. Mali by ste mať prístup k nespracovaným protokolom serverov svojich webových stránok, aby ste mohli zistiť, čo roboti navštívili vaše webové stránky.

Upozorňujeme, že neexistuje žiadny spôsob, ako zablokovať všetky škodlivé roboty, pokiaľ ich nezablokujete, a to aj tie, ktoré považujete za užitočné. Nové roboty prichádzajú každý deň a staršie sú upravené. Najefektívnejším spôsobom je zabezpečenie kódu a sťaženie robotom, aby vás spamovali.

Identifikačné roboty

Boti môžu byť identifikovaní podľa IP adresy alebo z ich "User Agent String", ktorý posielajú v hlavičkách HTTP. Spoločnosť Google napríklad používa výraz „Googlebot“.

Tento zoznam možno budete potrebovať s 302 robotmi, ak už máte názov robota, ktorý chcete používať .htaccess

Ďalším spôsobom je stiahnutie všetkých protokolových súborov zo servera a ich otvorenie pomocou textového editora. Ich umiestnenie na serveri sa môže meniť v závislosti od konfigurácie servera. Ak ich nemôžete nájsť, vyhľadajte pomoc od svojho hostiteľa webu.

Ak viete, ktorá stránka bola navštívená alebo čas návštevy, je ľahšie prísť s nechceným robotom. Pomocou týchto parametrov by ste mohli prehľadávať protokolový súbor.

Raz ste si všimli, čo roboty musíte blokovať; môžete ich potom zahrnúť do súboru .htaccess. Upozorňujeme, že blokovanie robota nestačí na jeho zastavenie. Môže sa vrátiť s novou IP alebo menom.

Ako ich zablokovať

Stiahnite si kópiu súboru .htaccess. V prípade potreby zálohujte.

Metóda 1: blokovanie pomocou IP

Tento útržok kódu blokuje robot pomocou adresy IP 197.0.0.1

Príkaz Zakázať, Povoliť

Odmietnuť od 197.0.0.1

Prvý riadok znamená, že server zablokuje všetky žiadosti zodpovedajúce zadaným vzorom a povolí všetkým ostatným.

Druhý riadok hovorí serveru, aby vydal stránku 403: zakázaná

Metóda 2: Blokovanie podľa agentov používateľa

Najjednoduchším spôsobom je použitie prepínača Apache

PrepísaťEngine zapnuté

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prvý riadok zaisťuje, že modul prepisovania je povolený. Druhý riadok je podmienka, na ktorú sa pravidlo vzťahuje. "F" v riadku 4 hovorí serveru, aby vrátil 403: Zakázané, zatiaľ čo "L" znamená, že ide o posledné pravidlo.

Potom nahráte súbor .htaccess na svoj server a prepíšete existujúci. Časom budete musieť aktualizovať adresu IP robota. Ak urobíte chybu, nahrajte zálohu, ktorú ste vytvorili.