Kako ispravno postaviti Robots.txt?

Sadržaj:

Kako ispravno postaviti Robots.txt?
Kako ispravno postaviti Robots.txt?
Anonim

Ispravan txt robota za html stranicu kreira akcione modele za botove pretraživača, govoreći im šta mogu provjeriti. Ovaj fajl se često naziva protokolom za izuzimanje robota. Prva stvar koju botovi traže prije indeksiranja web stranice je robots.txt. Može ukazati na ili reći Sitemapu da ne provjerava određene poddomene. Kada želite da pretraživači traže ono što se najčešće nalazi, onda robots.txt nije potreban. U ovom procesu je veoma važno da je fajl pravilno formatiran i da ne indeksira korisničku stranicu sa ličnim podacima korisnika.

Princip skeniranja robota

Princip robotskog skeniranja
Princip robotskog skeniranja

Kada pretraživač naiđe na fajl i vidi zabranjeni URL, on ga ne indeksira, ali ga može indeksirati. To je zato što čak i ako robotima nije dozvoljeno da vide sadržaj, oni mogu zapamtiti povratne veze koje upućuju na zabranjeni URL. Zbog blokiranog pristupa linku, URL će se pojaviti u tražilicama, ali bez fragmenata. Ako aza dolaznu marketinšku strategiju, potreban je ispravan txt robota za bitrix (Bitrix), oni obezbjeđuju verifikaciju stranice na zahtjev korisnika putem skenera.

S druge strane, ako datoteka nije pravilno formatirana, to može dovesti do toga da se stranica neće pojaviti u rezultatima pretraživanja i neće biti pronađena. Pretraživači ne mogu zaobići ovu datoteku. Programer može vidjeti robots.txt bilo koje stranice tako što će otići na njen domen i pratiti ga pomoću robots.txt, na primjer, www.domain.com/robots.txt. Koristeći alat kao što je Unamo odjeljak za SEO optimizaciju, gdje možete unijeti bilo koju domenu, a servis će pokazati informacije o postojanju fajla.

Ograničenja za skeniranje:

  1. Korisnik ima zastarjeli ili osjetljivi sadržaj.
  2. Slike na stranici neće biti uključene u rezultate pretraživanja slika.
  3. Sajt još nije spreman za demo da ga robot indeksira.

Imajte na umu da su informacije koje korisnik želi da primi od pretraživača dostupne svakome ko unese URL. Nemojte koristiti ovu tekstualnu datoteku da sakrijete osjetljive podatke. Ako domen ima grešku 404 (nije pronađeno) ili 410 (prošlo), pretraživač provjerava stranicu uprkos prisustvu robots.txt, u kom slučaju smatra da datoteka nedostaje. Ostale greške kao što su 500 (Interna serverska greška), 403 (Zabranjeno), isteklo je vremensko ograničenje ili "nije dostupno" poštuju uputstva robots.txt, međutim premošćavanje može biti odloženo dok datoteka ne bude dostupna.

Kreiranje datoteke za pretragu

Kreiranje datoteke za pretragu
Kreiranje datoteke za pretragu

MnogoCMS programi kao što je WordPress već imaju robots.txt datoteku. Prije pravilnog konfigurisanja robota txt WordPress-a, korisnik se mora upoznati s njegovim mogućnostima kako bi shvatio kako mu pristupiti. Ako programer sam kreira datoteku, ona mora ispuniti sljedeće uslove:

  1. Mora biti malim slovima.
  2. Koristite UTF-8 kodiranje.
  3. Sačuvaj u uređivaču teksta kao fajl (.txt).

Kada korisnik ne zna gdje da ga smjesti, kontaktira dobavljača softvera web servera da sazna kako pristupiti korijenu domene ili otići na Google konzolu i preuzeti ga. Pomoću ove funkcije, Google također može provjeriti da li bot ispravno funkcionira i listu stranica koje su blokirane korištenjem fajla.

Glavni format ispravnog robotskog txt-a za bitrix (Bitrix):

  1. Legend robots.txt.
  2. , dodaje komentare koji se koriste samo kao bilješke.
  3. Ove komentare će skeneri ignorisati zajedno sa svim greškama u kucanju korisnika.
  4. User-agent - označava na kojem pretraživaču su navedena uputstva za fajl.
  5. Dodavanje zvjezdice () govori skenerima da su uputstva za svakoga.

Označavanje određenog bota, na primjer, Googlebot, Baiduspider, Applebot. Disallow govori popisivačima koji dijelovi web stranice ne bi trebali biti indeksirani. To izgleda ovako: User-agent:. Zvezdica znači "svi botovi". Međutim, možete odrediti stranice za određenebotovi. Da biste to uradili, morate znati ime bota za kojeg su postavljene preporuke.

Ispravan txt robota za Yandex može izgledati ovako:

Ispravan txt robota za Yandex
Ispravan txt robota za Yandex

Ako bot ne treba da indeksira stranicu, možete to odrediti, a da biste pronašli imena korisničkih agenata, preporučuje se da se upoznate sa online mogućnostima useragentstring.com.

Optimizacija stranice

Optimizacija stranice
Optimizacija stranice

Sljedeća dva reda se smatraju kompletnom datotekom robots.txt, a jedna robots datoteka može sadržavati više redova korisničkih agenata i direktiva koje onemogućuju ili omogućavaju indeksiranje. Glavni format ispravnog txt robota:

  1. Korisnički agent: [korisničko ime agenta].
  2. Disallow: .

U datoteci, svaki blok direktiva je prikazan kao diskretan, odvojen linijom. U datoteci pored korisničkog direktorija agenta, svako pravilo se primjenjuje na određeni skup linija razdvojenih sekcijama. Ako datoteka ima pravilo više agenata, robot će uzeti u obzir samo najspecifičniju grupu instrukcija.

Tehnička sintaksa

Tehnička sintaksa
Tehnička sintaksa

Može se smatrati "jezikom" datoteka robots.txt. Postoji pet termina koji mogu postojati u ovom formatu, a glavni su:

  1. User-agent - Web pretraživač sa uputstvima za indeksiranje, obično pretraživač.
  2. Disallow je komanda koja se koristi da kaže korisničkom agentu da zaobiđe(izostavljanje) određenog URL-a. Za svaki postoji samo jedan zabranjeni uslov.
  3. Dozvoli. Za Googlebot koji dobije pristup, čak je i korisnička stranica odbijena.
  4. Crawl-dey - određuje koliko sekundi će puzaču trebati prije indeksiranja. Kada bot to ne potvrdi, brzina se postavlja u Google konzoli.
  5. Sitemap - Koristi se za lociranje bilo koje XML mape povezane sa URL-om.

Podudaranja uzoraka

Kada je u pitanju stvarno blokiranje URL-ova ili dozvoljavanje valjanog robota txt-a, operacije mogu biti prilično zeznute jer vam omogućavaju da koristite podudaranje uzoraka za pokrivanje brojnih mogućih URL parametara. Google i Bing koriste dva znaka koji identifikuju stranice ili podfoldere koje SEO želi da isključi. Dva znaka su zvjezdica () i znak dolara ($), gdje je:zamjenski znak koji predstavlja bilo koji niz znakova. $ - odgovara kraju URL-a.

Google nudi veliku listu mogućih sintaksa šablona koje objašnjavaju korisniku kako pravilno postaviti Robots txt fajl. Neki uobičajeni slučajevi upotrebe uključuju:

  1. Spriječite pojavljivanje duplikata sadržaja u rezultatima pretraživanja.
  2. Zadrži sve dijelove web stranice privatnim.
  3. Sačuvajte interne stranice rezultata pretrage na osnovu otvorene izjave.
  4. Navedite lokaciju.
  5. Spriječite pretraživače da indeksiraju određenefajlovi.
  6. Određivanje odgode indeksiranja za zaustavljanje ponovnog učitavanja prilikom skeniranja više područja sadržaja u isto vrijeme.

Provjera prisustva fajla robota

Ako na sajtu nema oblasti koje treba indeksirati, robots.txt uopšte nije potreban. Ako korisnik nije siguran da ovaj fajl postoji, treba da unese root domen i upiše ga na kraju URL-a, otprilike ovako: moz.com/robots.txt. Brojni botovi za pretraživanje zanemaruju ove datoteke. Međutim, po pravilu, ovi pretraživači ne pripadaju renomiranim pretraživačima. Oni su vrsta spamera, agregatora pošte i drugih vrsta automatiziranih botova kojih ima u izobilju na internetu.

Vrlo je važno zapamtiti da korištenje standarda za isključenje robota nije efikasna mjera sigurnosti. U stvari, neki botovi mogu početi sa stranicama na kojima ih korisnik postavlja na način skeniranja. Postoji nekoliko dijelova koji ulaze u standardnu datoteku izuzetaka. Prije nego što kažete robotu na kojim stranicama ne bi trebao raditi, morate odrediti s kojim robotom treba razgovarati. U većini slučajeva, korisnik će koristiti jednostavnu deklaraciju koja znači "svi botovi".

SEO optimizacija

SEO optimizacija
SEO optimizacija

Prije optimizacije, korisnik se mora uvjeriti da ne blokira bilo koji sadržaj ili dijelove stranice koje treba zaobići. Linkovi ka stranicama blokiranim ispravnim Robots txt-om neće se poštovati. To znači:

  1. Ako nisu povezani sa drugim stranicama dostupnim pretraživačima, tj. stranice,nije blokiran od robots.txt ili meta robota, a povezani resursi neće biti indeksirani i stoga se ne mogu indeksirati.
  2. Nijedan link ne može biti proslijeđen sa blokirane stranice na odredište veze. Ako postoji takva stranica, bolje je koristiti drugačiji mehanizam za blokiranje od robots.txt.

Budući da se druge stranice mogu direktno povezati sa stranicom koja sadrži lične podatke, a vi želite da blokirate ovu stranicu iz rezultata pretrage, koristite drugu metodu, kao što je zaštita lozinkom ili meta podaci bez indeksa. Neki pretraživači imaju više korisničkih agenata. Na primjer, Google koristi Googlebot za organska pretraživanja i Googlebot-Image za pretraživanje slika.

Većina korisničkih agenata iz istog pretraživača prati ista pravila, tako da nema potrebe za specificiranjem direktiva za svaki od nekoliko indeksera, ali mogućnost da to urade može fino podesiti indeksiranje sadržaja stranice. Pretraživač kešira sadržaj datoteke i obično ažurira keširani sadržaj najmanje jednom dnevno. Ako korisnik promijeni fajl i želi ga ažurirati brže nego inače, može poslati robots.txt URL Googleu.

Tražilice

Provjera postojanja datoteke robota
Provjera postojanja datoteke robota

Da biste razumjeli kako Robots txt radi ispravno, morate znati o mogućnostima pretraživača. Ukratko, njihova sposobnost je u tome što šalju "skenere", a to su programi kojipretražujući internet za informacije. Zatim pohranjuju neke od ovih informacija kako bi ih kasnije proslijedili korisniku.

Za mnoge ljude, Google je već internet. Zapravo, u pravu su, jer je ovo možda njegov najvažniji izum. I iako su se pretraživači dosta promijenili od svog nastanka, osnovni principi su i dalje isti. Crawleri, poznati i kao "botovi" ili "pauci", pronalaze stranice sa milijardi web stranica. Pretraživači im daju upute gdje da idu, dok pojedinačne stranice mogu komunicirati i s botovima i reći im koje stranice trebaju pogledati.

Generalno, vlasnici sajtova ne žele da se pojavljuju na pretraživačima: administratorske stranice, backend portali, kategorije i oznake i druge stranice sa informacijama. Datoteka robots.txt se također može koristiti da spriječi pretraživače da provjeravaju stranice. Ukratko, robots.txt govori web pretraživačima šta da rade.

Zabrana stranica

Ovo je glavni dio datoteke isključenja robota. Jednostavnom deklaracijom, korisnik govori botu ili grupi botova da ne indeksiraju određene stranice. Sintaksa je jednostavna, na primjer, da zabranite pristup svemu u "admin" direktoriju stranice, napišite: Disallow: /admin. Ova linija će spriječiti botove da indeksiraju yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i bilo šta drugo u administratorskom direktoriju.

Da zabranite jednu stranicu, jednostavno je navedite u disallow redu: Disallow: /public/exception.html. Sada stranica "izuzetak".neće migrirati, ali će sve ostalo u "javnom" folderu.

Da biste uključili više stranica, jednostavno ih navedite:

Imenici i stranice
Imenici i stranice

Ova četiri reda ispravnog Robots txt-a za symphony primjenjivat će se na bilo koji korisnički agent naveden na vrhu odjeljkarobots.txt za

Zabranite stranice
Zabranite stranice

Sitemap:

Ostale komande:live - ne dozvoli web indeksiranim pretraživačima da indeksiraju cpresources/ ili provider/.

Korisnički agent:Disallow: /cpresources/.

Zabrani: / dobavljač / Disallow: /.env.

Postavljanje standarda

Korisnik može odrediti određene stranice za različite botove kombinovanjem prethodna dva elementa, ovako to izgleda. Primjer ispravnog txt-a robota za sve tražilice je predstavljen ispod.

Postavljanje standarda
Postavljanje standarda

Odjeljci "admin" i "private" će biti nevidljivi za Google i Bing, ali Google će i dalje vidjeti "tajni" direktorij, dok Bing neće. Možete odrediti opća pravila za sve botove koristeći Asterisk korisnički agent, a zatim dati posebne upute botovima u sljedećim odjeljcima. Uz gore navedeno znanje, korisnik može napisati primjer ispravnog txt-a robota za sve tražilice. Samo pokrenite svoj omiljeni uređivač teksta i recite botovima da nisu dobrodošli u određenim dijelovima stranice.

Savjeti za poboljšanje performansi servera

SublimeText jesvestrani uređivač teksta i zlatni standard za mnoge programere. Štaviše, njegovi savjeti za programiranje temelje se na efikasnom kodiranju. korisnici cijene prisustvo prečica u programu. Ako korisnik želi vidjeti primjer datoteke robots.txt, trebao bi otići na bilo koju stranicu i dodati "/robots.txt" na kraj. Ovdje je dio datoteke robots.txt GiantBicycles.

Program omogućava kreiranje stranica koje korisnici ne žele da prikazuju na pretraživačima. I također ima nekoliko ekskluzivnih stvari za koje malo ljudi zna. Na primjer, dok robots.txt datoteka govori botovima gdje da ne idu, datoteka mape web stranice radi suprotno i pomaže im da pronađu ono što traže, i dok tražilice vjerovatno već znaju gdje se nalazi mapa web-lokacije, ona ne dobija na putu.

Postoje dvije vrste datoteka: HTML stranica ili XML datoteka. HTML stranica je ona koja posjetiteljima prikazuje sve dostupne stranice na web stranici. U sopstvenom robots.txt, to izgleda ovako: Sitemap://www.makeuseof.com/sitemap_index.xml. Ako sajt nije indeksiran od strane pretraživača, iako su ga web roboti pretraživali nekoliko puta, morate biti sigurni da je fajl prisutan i da su njegove dozvole ispravno postavljene.

Podrazumevano, ovo će se desiti svim instalacijama SeoToaster-a, ali ako je potrebno, možete ga resetovati na sledeći način: Fajl robots.txt - 644. U zavisnosti od PHP servera, ako ovo ne radi za korisnika, preporučuje se da isprobate sljedeće: Datoteka robots.txt - 666.

Podešavanje odgode skeniranja

Direktiva o kašnjenju zaobilaženja obavještava određenetražilice koliko često mogu indeksirati stranicu na web mjestu. Mjeri se u sekundama, iako ga neki pretraživači tumače malo drugačije. Neki ljudi vide kašnjenje indeksiranja 5 kada im se kaže da čekaju pet sekundi nakon svakog skeniranja da započnu sljedeće.

Drugi ovo tumače kao instrukciju da skenirate samo jednu stranicu svakih pet sekundi. Robot ne može brže skenirati da bi sačuvao propusni opseg servera. Ako server treba da odgovara prometu, može postaviti kašnjenje zaobilaženja. Općenito, u većini slučajeva korisnici ne moraju brinuti o tome. Ovako se postavlja kašnjenje puzanja od osam sekundi - Odlaganje puzanja: 8.

Ali neće svi pretraživači poštovati ovu direktivu, tako da kada zabranjujete stranice, možete postaviti različita kašnjenja indeksiranja za određene pretraživače. Nakon što su sva uputstva u datoteci postavljena, možete je postaviti na web lokaciju, prvo se uvjerite da je to jednostavan tekstualni fajl i da ima naziv robots.txt i da se može naći na yoursite.com/robots.txt.

Najbolji WordPress bot

Najbolji WordPress bot
Najbolji WordPress bot

Postoje neki fajlovi i direktorijumi na WordPress sajtu koje treba svaki put zaključati. Direktoriji koje bi korisnici trebali zabraniti su cgi-bin direktorij i standardni WP direktoriji. Neki serveri ne dozvoljavaju pristup cgi-bin direktorijumu, ali korisnici ga moraju uključiti u direktivu disallow prije pravilnog konfiguriranja robota txt WordPress

Standardni WordPress direktoriji,koji bi trebali blokirati su wp-admin, wp-content, wp-includes. Ovi direktoriji ne sadrže podatke koji su inicijalno korisni tražilicama, ali postoji izuzetak, tj. postoji poddirektorij pod nazivom upload u direktoriju wp-content. Ovaj poddirektorij mora biti dozvoljen u datoteci robot.txt jer uključuje sve što se učitava pomoću funkcije za učitavanje WP medija. WordPress koristi oznake ili kategorije za strukturiranje sadržaja.

Ako se koriste kategorije, tada je potrebno blokirati arhive oznaka iz pretraživanja kako bi se napravio ispravan txt Robots za Wordpress, kako je naveo proizvođač programa. Prvo, provjeravaju bazu podataka tako što će otići na panel "Administracija" > "Postavke"> "Permalink".

Podrazumevano, baza je oznaka, ako je polje prazno: Disallow: / tag /. Ako se koristi kategorija, onda morate onemogućiti kategoriju u datoteci robot.txt: Disallow: /category/. Podrazumevano, baza je oznaka, ako je polje prazno: Disallow: / tag /. Ako se koristi kategorija, onda morate onemogućiti kategoriju u datoteci robot.txt: Disallow: / category /.

Datoteke koje se prvenstveno koriste za prikazivanje sadržaja, bit će blokirane ispravnim Robots txt fajlom za Wordpress:

Robots txt za wordpress
Robots txt za wordpress

osnovna postavka Joomla

Kada korisnik instalira Joomla, potrebno je da vidite ispravnu Joomla Robots txt postavku u globalnoj konfiguraciji, koja se nalazi na kontrolnoj tabli. Neke postavke ovdje su veoma važne za SEO. Prvo pronađite naziv stranice i uvjerite se u tokoristi se kratki naziv stranice. Zatim pronađu grupu postavki desno od istog ekrana, koja se zove SEO postavke. Onaj koji će svakako morati promijeniti je drugi: koristite prepisani URL.

Ovo zvuči komplikovano, ali u osnovi pomaže Joomli da kreira čistije URL-ove. Najprimetnije ako uklonite liniju index.php iz URL-ova. Ako ga kasnije promijenite, URL-ovi će se promijeniti i Googleu se to neće svidjeti. Međutim, kada promijenite ovu postavku, morate poduzeti nekoliko koraka u isto vrijeme kako biste kreirali ispravan txt robota za Joomla:

  1. Pronađi htaccess.txt fajl u Joomla root folderu.
  2. Označite kao.htaccess (bez ekstenzije).
  3. Uključite naziv stranice u naslove stranica.
  4. Pronađite postavke metapodataka na dnu ekrana globalne konfiguracije.

Robot u oblaku MODX

Robot u MODX oblaku
Robot u MODX oblaku

Ranije je MODX Cloud korisnicima pružao mogućnost kontrole ponašanja dozvoljavanja posluživanja datoteke robots.txt na osnovu prekidača na kontrolnoj tabli. Iako je ovo bilo korisno, bilo je moguće slučajno dozvoliti indeksiranje na lokacijama za postavljanje/razvijanje uključivanjem opcije na kontrolnoj tabli. Slično, bilo je lako onemogućiti indeksiranje na proizvodnom mjestu.

Danas usluga pretpostavlja prisustvo robots.txt datoteka u sistemu datoteka sa sljedećim izuzetkom: bilo koja domena koja završava sa modxcloud.com služit će kao Disallow: /direktiva za sve korisničke agente, bez obzira na prisustvo ili odsustvo fajla. Produkcijske stranice koje primaju stvarni promet posjetitelja morat će koristiti vlastitu domenu ako korisnik želi indeksirati svoju web lokaciju.

Neke organizacije koriste ispravan txt robota za modx za pokretanje više web stranica iz jedne instalacije koristeći Contexts. Slučaj u kojem bi se ovo moglo primijeniti bila bi javna marketinška stranica u kombinaciji s mikro web lokacijama odredišne stranice i moguće nejavni intranet.

Tradicionalno je ovo bilo teško uraditi za višekorisničke instalacije jer dijele isti korijen mreže. Uz MODX Cloud, ovo je lako. Jednostavno prenesite dodatnu datoteku na web stranicu pod nazivom robots-intranet.example.com.txt sa sljedećim sadržajem i ona će blokirati indeksiranje kod robota koji dobro rade, a sva druga imena hostova se vraćaju na standardne datoteke osim ako ne postoje drugi specifični čvorovi imena.

Robots.txt je važan fajl koji pomaže korisniku da se poveže sa sajtom na Google-u, glavnim pretraživačima i drugim veb lokacijama. Smješten u korijenu web servera, datoteka daje upute web robotima da indeksiraju web lokaciju, podese koje foldere treba ili ne treba indeksirati, koristeći skup instrukcija koji se zove Protokol za izuzimanje robota. Primjer ispravnog robotskog txt-a za sve pretraživače obots.txt je posebno lako napraviti sa SeoToaster-om. Za njega je kreiran poseban meni u kontrolnoj tabli, tako da bot nikada neće morati da se opterećuje da bi dobio pristup.

Preporučuje se: