Kaj je robots.txt in zakaj je važen za SEO?

Važnost pravilne konfiguracije robots.txt datoteke

Objavljeno: 07.05.2024. | 1 minute čitanja

Kaj je robots.txt datoteka?

Datoteka robots.txt je niz navodil, ki jih spletne strani uporabljajo za sporočanje iskalnikom, katere strani naj indeksirajo in katerih ne, kar pomeni, da te datoteke usmerjajo pajke (crawlerje). Vendar pa te datoteke ne bi smele biti uporabljene za skrivanje strani iz Googlovega indeksa.

Datoteke robots.txt se morda zdijo zapletene, vendar je njihova sintaksa (računalni jezik) preprosta.

 

Zakaj je robots.txt važen?

Datoteka robots.txt pomaga upravljati aktivnostmi spletnih pajkov, da ne preobremenijo spletnega mesta ali indeksirajo strani, ki niso namenjene javnemu prikazu.

Tukaj je nekaj razlogov za uporabo datoteke robots.txt:
  • Optimizacija proračuna za indeksiranje

Proračun za indeksiranje se nanaša na število strani, ki jih bo Google indeksiral na vašem spletnem mestu v določenem časovnem obdobju. Število lahko variira glede na velikost vašega spletnega mesta, njegovo tehnično stanje in število povratnih povezav (backlinkov). Če število strani na vašem spletnem mestu presega proračun za indeksiranje, se lahko zgodi, da nekatere strani ne bodo indeksirane. Neindeksirane strani se ne bodo uvrščale v iskalnikih, kar pomeni, da izgubljate čas z ustvarjanjem strani, ki jih uporabniki ne bodo videli. Z blokiranjem nepotrebnih strani s pomočjo datoteke robots.txt omogočite Googlebotu (Googlejevemu spletnemu pajku), da več časa posveti indeksiranju pomembnih strani.


Opomba: Večina lastnikov spletnih strani se ne rabi preveč ukvarjati s proračunom za indeksiranje na Googlu. To je predvsem skrb za večja spletna mesta z več tisoč URL-ji.
  • Blokiranje duplikatov in strani, ki niso za javnost

Crawleri ne potrebujejo dostopa do vseh strani na vašem spletnem mestu, saj niso vse namenjene prikazovanju na straneh z rezultati iskanja (SERP), kot so testne strani, strani z notranjimi rezultati iskanja, podvojene strani ali strani za prijavo. Nekateri sistemi za upravljanje vsebin te notranje strani sami upravljajo. WordPress na primer samodejno blokira dostop pajkom do strani za prijavo /wp-admin/, medtem ko vam datoteka robots.txt omogoča, da ročno blokirate dostop pajkom do katere koli strani na vašem spletnem mestu.

  • Skrivanje virov

Včasih želite izključiti vire, kot so PDF-ji, videoposnetki in slike, iz rezultatov iskanja, da jih ohranite zasebne ali da Google preusmerite na pomembnejšo vsebino. V obeh primerih datoteka robots.txt preprečuje njihovo indeksiranje.

Kako funkcionira datoteka robots.txt?


Datoteke robots.txt sporočajo botom iskalnikov, katere URL-je lahko indeksirajo in, kar je še pomembneje, katere URL-je morajo ignorirati.

Iskalniki imajo dva glavna namena:
  • Pregledovanje spleta za odkrivanje vsebine
  • Indeksiranje in dostavljanje vsebine iskalcem, ki iščejo informacije
Med pregledovanjem spletnih strani pajki iskalnikov odkrivajo in sledijo povezavam. Ta proces jih vodi z mesta A na mesto B in nato na mesto C prek milijonov povezav, strani in spletnih mest. Če pa pajek naleti na datoteko robots.txt, jo najprej prebere, preden naredi karkoli drugega. Sintaksa je preprosta. Pravila se določijo z identifikacijo uporabniškega agenta (pajka iskalnika), čemur sledijo navodila (pravila). Prav tako lahko uporabite zvezdico (*) kot nadomestni znak, da navodila dodelite vsem uporabniškim agentom, kar pravilo uporabi na vse pajke.



Opomba: Čeprav datoteka robots.txt vsebuje navodila, jih ni mogoče uveljaviti. Lahko si ga predstavljate kot kodeks ravnanja. Dobri roboti (kot so iskalni roboti) bodo upoštevali pravila, slabi roboti (kot so vsiljeni roboti) pa jih bodo prezrli.

 

Kako poiskati datoteko robots.txt?

Datoteka robots.txt se nahaja na vašem strežniku, podobno kot katera koli druga datoteka na vaši spletni strani. Datoteko za katero koli spletno mesto si lahko ogledate tako, da v URL naslov vnesete celoten URL domače strani in na koncu dodate /robots.txt, na primer: https://www.tiktok.com/robots.txt


Opomba: Datoteka robots.txt mora biti vedno nameščena na ravni korenske domene. Na primer, za www.tiktok.com se datoteka robots.txt nahaja na naslovu www.tiktok.com/robots.txt. Če jo postavite kamorkoli drugam, lahko pajki sklepajo, da datoteka ne obstaja.

Preden se naučimo, kako ustvariti datoteko robots.txt, si oglejmo njeno sintakso, ki je sestavljena iz:
  • Enega ali več blokov "navodila" (pravila)
  • Vsako pravilo vsebuje določen "user-agent" (pajek iskalnika)
  • in navodilo "allow" ali "disallow".

Prva vrstica vsakega bloka navodil je user-agent, ki identificira pajka.

Opomba: Večina iskalnikov ima več pajkov. Uporabljajo različne pajke za standardno indeksiranje, slike, videoposnetke itd. Ko je prisotnih več navodil, lahko pajek izbere najbolj specifičen blok navodil, ki je na voljo. Na primer, če imate tri sklope navodil: enega za *, enega za Googlebot in enega za Googlebot-Image, bo uporabniški agent Googlebot-News, ki pregleduje vašo stran, sledil navodilom za Googlebot. Po drugi strani pa bo uporabniški agent Googlebot-Image sledil bolj specifičnim navodilom za Googlebot-Image.

 

Druga vrstica direktive robots.txt je vrstica "Disallow".

Lahko imate več direktiv "Disallow", ki določajo, katerim delom vaše strani pajek ne more dostopati. Prazna vrstica "Disallow" pomeni, da ne prepovedujete ničesar—pajek ima dostop do vseh delov vaše strani.

Opomba: Direktivi, kot sta "Allow" in "Disallow", nista občutljivi na velike in male črke. Vendar pa so vrednosti znotraj vsake direktive občutljive na velikost črk. Na primer, /photo/ ni enako kot /Photo/. Kljub temu so direktive "Allow" in "Disallow" pogosto zapisane z velikimi črkami, da je datoteka bolj berljiva za ljudi.

Direktiva "Allow"

Direktiva "Allow" omogoča iskalnikom, da indeksirajo podimenik ali določeno stran, tudi če je imenik sicer prepovedan.

Opomba: Vse iskalnike te direktive ne prepoznajo. Vendar pa Google in Bing podpirata to direktivo.

Direktiva Sitemap

Direktiva Sitemap iskalnikom, še posebej Bingu, Yandexu in Googlu, sporoča, kje lahko najdejo vaš XML zemljevid strani. Zemljevidi strani običajno vključujejo strani, ki jih želite, da jih iskalniki indeksirajo. Ta direktiva se nahaja na vrhu ali na dnu datoteke robots.txt in izgleda tako:


Dodajanje direktive Sitemap v datoteko robots.txt je hiter način za obveščanje iskalnikov o lokaciji vašega XML zemljevida strani. Vendar pa bi morali (in morate) svoj XML zemljevid strani prav tako predložiti vsaki iskalniku prek njihovih orodij za spletne skrbnike. Iskalniki bodo sčasoma indeksirali vašo stran, vendar predložitev zemljevida strani pospeši postopek indeksiranja.

Direktiva Crawl-Delay

Direktiva Crawl-Delay pajkom narekuje, naj upočasnijo svojo stopnjo indeksiranja, da se izognejo preobremenitvi strežnika (npr. upočasnjevanju vašega spletnega mesta). Google te direktive Crawl-Delay ne podpira več. Če želite nastaviti stopnjo indeksiranja za Googlebot, boste to morali storiti v Search Consoli. Po drugi strani pa Bing in Yandex podpirata direktivo Crawl-Delay.

Direktiva Noindex

Datoteka robots.txt botom določa, katere URL-je lahko ali ne morejo indeksirati, vendar ne more iskalnikom preprečiti prikazovanja določenih URL-jev v rezultatih iskanja. Google te direktive nikoli ni uradno podprl, 1. septembra 2019 pa je Google objavil, da ta direktiva ni podprta.

Če želite zanesljivo izključiti stran ali datoteko iz prikazovanja v rezultatih iskanja, se popolnoma izognite tej direktivi in uporabite oznako meta robots noindex.


Kako ustvariti datoteko robots.txt

Lahko uporabite orodje za ustvarjanje datoteke robots.txt ali pa jo ustvarite sami.

Ustvarite datoteko in jo poimenujte robots.txt. Začnite z odpiranjem .txt dokumenta v urejevalniku besedila ali spletnem brskalniku. Ne uporabljajte urejevalnikov besedila, ki shranjujejo datoteke v svojih posebnih formatih, saj lahko ti dodajo naključne znake. Nato dokument poimenujte robots.txt. Zdaj ste pripravljeni na vnos direktiv.

Dodajte direktive v datoteko robots.txt. Datoteka robots.txt je sestavljena iz ene ali več skupin direktiv, pri čemer vsaka skupina vsebuje več vrstic navodil. Vsaka skupina se začne z "user-agent" in vključuje naslednje informacije:

 

  • Na koga se skupina nanaša (user-agent)
  • Katere imenike (strani) ali datoteke agent lahko dostopa
  • Katere imenike (strani) ali datoteke agent ne sme dostopati
  • Sitemap (opcijsko), da iskalnikom poveste, katere strani in datoteke so pomembne

Pajki ignorirajo vrstice, ki ne ustrezajo tem direktivam. Na primer, recimo, da ne želite, da Google indeksira vaš imenik /clients/, ker je namenjen samo za interno uporabo.

Crawleri ignoriraju redove koji ne odgovaraju ovim direktivama. Na primjer, recimo da ne želite da Google indeksira vaš direktorij /clients/ jer je to samo za internu upotrebu.


Dodatna navodila je mogoče dodati v ločeni vrstici spodaj, takole:Dodatno navodilo v datoteki robots.txt, da prepove Googlu indeksiranje direktorija /clients/
Ko končate z Googlovimi specifičnimi navodili, dvakrat pritisnite Enter, da ustvarite novo skupino direktiv. Naredimo to za vse iskalnike in jim preprečimo indeksiranje vaših direktorijev /archive/ in /support/, saj so namenjeni le za interno uporabo.



Ko zaključite, dodajte svoj sitemap.


Opomba: Pajki berejo datoteko od zgoraj navzdol in sledijo prvemu, najbolj specifičnemu naboru pravil. Zato začnite datoteko robots.txt s pravili za specifične uporabniške agente, nato pa preidite na splošnejši nadomestni znak (*) za vse pajke.

Če želite dodati komentar, je pravilno uporabiti znak # na začetku vrstice. Ker se te datoteke redko odpirajo, se programerji včasih poigrajo z njimi. Tako smo na primer naleteli na Nikejev logotip znotraj njihove datoteke: https://www.nike.com/robots.txt.
 

Ko shranite datoteko robots.txt na svoj računalnik, jo naložite na svojo spletno stran in omogočite dostopnost za pajke iskalnikov. Prenos datoteke robots.txt je odvisen od strukture datotek vaše strani in ponudnika spletnega gostovanja. Po prenosu preverite, ali je datoteka vidna vsem in ali jo lahko Google prebere.

Naslednji korak je testiranje. Najprej preverite, ali je vaša datoteka robots.txt javno dostopna (tj. ali je bila pravilno prenesena). Odprite zasebno okno v svojem brskalniku in poiščite svojo datoteko robots.txt. Če vidite datoteko z dodano vsebino, ste pripravljeni na testiranje oznak (HTML kode).


Google nudi dve opcije za testiranje oznake robots.txt:

  • Tester robots.txt v Search Console
  • Googleova open-source knjižnica robots.txt (napredno)

Ker je druga možnost namenjena naprednim programerjem, testirajmo vašo datoteko robots.txt v Search Console.

Opomba: Morate imeti nastavljen račun v Google Search Console.

Pojdite na Tester robots.txt in kliknite na "Open robots.txt Tester", da ga odprete. Če še niste povezali svoje spletno mesto s svojim računom Google Search Console, boste morali najprej dodati lastnost. Nato potrdite, da ste resnični lastnik spletnega mesta.

Če imate obstoječe preverjene lastnosti, izberite eno iz spustnega menija na začetni strani. Tester bo prepoznal opozorila o sintaksi ali logične napake ter prikazal skupno število opozoril in napak pod urejevalnikom. Napake ali opozorila lahko urejate neposredno na strani in sproti ponovno testirate.

Vse spremembe ne bodo shranjene na vaši strani, prav tako orodje ne spreminja dejanske datoteke na vaši strani, temveč testira kopijo v orodju. Če želite uvesti kakršne koli spremembe, kopirajte in prilepite urejeno testno kopijo v datoteko robots.txt na svoji strani.

Datoteka robots.txt je nepogrešljivo orodje za vsakega lastnika spletnega mesta, ki želi upravljati, kako iskalniki indeksirajo njegovo vsebino. Z uporabo preproste sintakse ta datoteka omogoča skrbnikom spletnih mest, da usmerjajo pajke iskalnikov in jim sporočajo, katere dele strani lahko pregledajo in katerih bi se morali izogibati. Čeprav se robots.txt primarno uporablja za preprečevanje preobremenitve strežnika in optimizacijo proračuna za indeksiranje, je pomembno razumeti, da ne zagotavlja popolne zasebnosti in ne more v celoti preprečiti indeksiranja, če se to ne kombinira z drugimi metodami, kot so meta oznake noindex.

Pametna uporaba datoteke robots.txt lahko znatno izboljša SEO vaše strani z usmerjanjem pajkov na pomembno vsebino in odvračanjem od nepotrebnih ali podvojenih strani. Pri spletnih straneh z velikim številom poddomen je še posebej pomembno, da ustvarite ločene datoteke robots.txt za vsako poddomeno, da zagotovite pravilno indeksiranje vsebine na vsaki izmed njih. Na koncu bo pravilno upravljanje in testiranje datoteke robots.txt poskrbelo, da bodo iskalniki pravilno interpretirali vaše usmeritve, kar bo prispevalo k boljšemu rangiranju in večji vidnosti vaše spletne strani na internetu.

Arbona logo

Standard članstvo Arbona Cluba je besplatno. Prijavite se za dodatan sadržaja o digitalnom marketingu.

Niste registrirani? Popunite podatke za prijavu u Standard članstvo Arbona Cluba.

Arbona logo

Registracija korisnika

Arbona logo

Zahvaljujemo na prijavi i registraciji.

Sada ste član Standard Arbona cluba.

Uživajte u našem sadržaju te nas za dodatna pitanja kontaktirajte.

Kontakt podatke pronađite u podnožju naše stranice.

Elena Majer