Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke

Sadržaj:

Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke
Kako blokirati indeksiranje stranice u robots.txt: upute i preporuke
Anonim

Posao SEO-optimizatora je veoma širok. Početnicima se savjetuje da zapišu algoritam optimizacije kako ne bi propustili nijedan korak. U suprotnom, promocija će se teško nazvati uspješnom, jer će stranica stalno imati kvarove i greške koje će se morati ispravljati dugo vremena.

Jedan od koraka optimizacije je rad sa datotekom robots.txt. Svaki resurs bi trebao imati ovaj dokument, jer bez njega će biti teže izaći na kraj s optimizacijom. Obavlja mnoge funkcije koje ćete morati razumjeti.

Robot Assistant

Datoteka robots.txt je običan tekstualni dokument koji se može pogledati u standardnom Notepad-u sistema. Kada ga kreirate, morate postaviti kodiranje na UTF-8 kako bi se moglo ispravno čitati. Fajl radi sa http, https i FTP protokolima.

Ovaj dokument je pomoćnik za pretraživanje robota. U slučaju da ne znate, svaki sistem koristi "paukove" koji brzo pretražuju World Wide Web kako bi vratili relevantne stranice za upite.korisnika. Ovi roboti moraju imati pristup podacima resursa, robots.txt radi za ovo.

Da bi pauci pronašli svoj put, morate poslati robots.txt dokument u korijenski direktorij. Da biste provjerili da li stranica ima ovu datoteku, unesite “https://site.com.ua/robots.txt” u adresnu traku pretraživača. Umjesto "site.com.ua" trebate unijeti resurs koji vam je potreban.

Rad sa robots.txt
Rad sa robots.txt

funkcije dokumenta

Datoteka robots.txt pruža pretraživačima nekoliko vrsta informacija. Može dati djelomičan pristup tako da "pauk" skenira određene elemente resursa. Potpuni pristup vam omogućava da provjerite sve dostupne stranice. Potpuna zabrana sprječava robote da čak i počnu provjeravati, i oni napuštaju stranicu.

Nakon posjete resursu, "pauci" dobijaju odgovarajući odgovor na zahtjev. Može ih biti nekoliko, sve ovisi o informacijama u robots.txt. Na primjer, ako je skeniranje bilo uspješno, robot će dobiti kod 2xx.

Možda je stranica preusmjerena s jedne stranice na drugu. U tom slučaju, robot prima kod 3xx. Ako se ovaj kod pojavi više puta, pauk će ga pratiti sve dok ne dobije drugi odgovor. Iako, u pravilu, koristi samo 5 pokušaja. U suprotnom, pojavljuje se popularna greška 404.

Ako je odgovor 4xx, robotu je dozvoljeno da indeksira cijeli sadržaj stranice. Ali u slučaju koda 5xx, provjera se može potpuno zaustaviti, jer to često ukazuje na privremene greške servera.

Pretraži robote
Pretraži robote

Za štatrebate robots.txt?

Kao što ste možda pretpostavili, ova datoteka je vodič za robote do korijena stranice. Sada se koristi za djelimično ograničavanje pristupa neprikladnom sadržaju:

  • stranice sa ličnim podacima korisnika;
  • mirror web stranice;
  • rezultati pretraživanja;
  • obrasci za podnošenje podataka, itd.

Ako nema robots.txt datoteke u korijenu stranice, robot će indeksirati apsolutno sav sadržaj. U skladu s tim, neželjeni podaci se mogu pojaviti u rezultatima pretraživanja, što znači da ćete i vi i stranica patiti. Ako postoje posebna uputstva u dokumentu robots.txt, onda će ih "pauk" pratiti i dati informacije koje želi vlasnik resursa.

Rad sa fajlom

Da biste koristili robots.txt za blokiranje indeksiranja stranice, morate shvatiti kako kreirati ovaj fajl. Da biste to učinili, slijedite upute:

  1. Kreirajte dokument u Notepad-u ili Notepad++.
  2. Postavite ekstenziju datoteke ".txt".
  3. Unesite potrebne podatke i komande.
  4. Sačuvajte dokument i učitajte ga u root stranice.

Kao što vidite, u jednoj od faza potrebno je postaviti komande za robote. One su dvije vrste: dozvoljavaju (Allow) i zabranjuju (Disallow). Također, neki optimizatori mogu specificirati brzinu indeksiranja, host i vezu do mape stranice resursa.

Kako zatvoriti web stranicu iz indeksiranja
Kako zatvoriti web stranicu iz indeksiranja

Da biste počeli raditi sa robots.txt i potpuno blokirali indeksiranje stranice, morate također razumjeti korištene simbole. Na primjer, u dokumentukoristite "/", što označava da je cijela stranica odabrana. Ako se koristi "", potreban je niz znakova. Na ovaj način će biti moguće odrediti određeni folder koji se može skenirati ili ne skenirati.

Funkcija botova

"Pauci" za pretraživače su različiti, tako da ako radite za nekoliko pretraživača odjednom, onda ćete morati uzeti u obzir ovaj trenutak. Njihova imena su različita, što znači da ako želite da kontaktirate određenog robota, moraćete da navedete njegovo ime: “Korisnički agent: Yandex” (bez navodnika).

Ako želite postaviti direktive za sve pretraživače, onda trebate koristiti naredbu: "Korisnički agent: " (bez navodnika). Da biste pravilno blokirali web stranicu od indeksiranja koristeći robots.txt, morate znati specifičnosti popularnih pretraživača.

Činjenica je da najpopularniji pretraživači Yandex i Google imaju nekoliko botova. Svaki od njih ima svoje zadatke. Na primjer, Yandex Bot i Googlebot su glavni "pauci" koji indeksiraju stranicu. Poznavajući sve botove, bit će lakše fino podesiti indeksiranje vašeg resursa.

Kako radi datoteka robots.txt
Kako radi datoteka robots.txt

Primjeri

Dakle, uz pomoć robots.txt, možete zatvoriti stranicu od indeksiranja jednostavnim komandama, glavna stvar je razumjeti šta vam je konkretno potrebno. Na primjer, ako želite da Googlebot ne pristupi vašem resursu, morate mu dati odgovarajuću naredbu. Izgledat će ovako: "User-agent: Googlebot Disallow: /" (bez navodnika).

Sada moramo razumjeti šta je u ovoj naredbi i kako ona funkcionira. Dakle "korisnički agent"koristi se za korištenje direktnog poziva jednog od botova. Zatim ukazujemo na koju, u našem slučaju to je Google. Komanda "Disallow" mora početi u novom redu i zabraniti robotu da uđe na stranicu. Simbol kose crte u ovom slučaju označava da su sve stranice resursa odabrane za izvršenje naredbe.

Čemu služi robots.txt?
Čemu služi robots.txt?

U robots.txt, možete onemogućiti indeksiranje za sve pretraživače jednostavnom komandom: "Korisnički agent:Disallow: /" (bez navodnika). Znak zvjezdice u ovom slučaju označava sve robote za pretraživanje. Obično je takva komanda potrebna kako bi se pauziralo indeksiranje stranice i započelo kardinalni rad na njoj, što bi inače moglo uticati na optimizaciju.

Ako je resurs velik i ima mnogo stranica, često sadrži vlasničke informacije koje je ili nepoželjno otkriti, ili mogu negativno utjecati na promociju. U ovom slučaju, morate razumjeti kako zatvoriti stranicu od indeksiranja u robots.txt.

Možete sakriti ili folder ili fajl. U prvom slučaju, morate početi iznova tako što ćete kontaktirati određenog bota ili svakoga, pa koristimo naredbu “User-agent”, a ispod navodimo naredbu “Disallow” za određeni folder. To će izgledati ovako: "Disallow: / folder /" (bez navodnika). Na ovaj način ćete sakriti cijeli folder. Ako sadrži neku važnu datoteku koju želite da prikažete, potrebno je da napišete naredbu ispod: “Dozvoli: /folder/file.php” (bez navodnika).

Provjeri fajl

Ako koristite robots.txt za zatvaranje straniceUspeli ste u indeksiranju, ali ne znate da li su sve vaše direktive ispravno radile, možete proveriti ispravnost rada.

Prvo, morate ponovo provjeriti položaj dokumenta. Zapamtite da mora biti isključivo u root folderu. Ako je u root folderu, onda neće raditi. Zatim otvorite pretraživač i tamo unesite sljedeću adresu: “https://yoursite. com/robots.txt (bez navodnika). Ako dobijete grešku u vašem web pretraživaču, onda datoteka nije tamo gdje bi trebala biti.

Kako zatvoriti folder od indeksiranja
Kako zatvoriti folder od indeksiranja

Direktive se mogu provjeriti u posebnim alatima koje koriste gotovo svi webmasteri. Govorimo o Google i Yandex proizvodima. Na primjer, u Google Search Console postoji traka sa alatkama na kojoj treba da otvorite "Crawl", a zatim pokrenete "Robots.txt File Inspection Tool". Morate kopirati sve podatke iz dokumenta u prozor i započeti skeniranje. Potpuno ista provjera se može obaviti u Yandex. Webmasteru.

Preporučuje se: