Mikä ihmeen robots.txt ?

Oletko ihmetellyt mikä ihme on robots.txt, tiedosto joka usein mainitaan hakukoneoptimoinnin yhteydessä?

Robots.txt on lyhykäisyydessään tiedosto, joka sijoitetaan domainisi päähakemistoon kertomaan hakukoneroboteille mitä tiedostoja ja kansioita ne eivät saa indeksoida.

Robots.txt on käytännöllinen silloin kun domainillasi on kansioita tai tiedostoja, joita et halua hakukoneiden kautta tulevien vierailijoiden nähtäväksi.

Robots.txt:ssä käytetään kahta eri muuttujaa määrittelemään asetukset: User-agent ja Disallow. Muuttujat sijoitetaan peräkkäisille riveille “robots.txt tekstitiedostoon. “User-agent” määrittelee hakukonerobottia ja “Disallow” niitä kansioita ja tiedostoja mitkä ovat kiellettyjä kyseiseltä robotilta. Mikäli käskyjä eri roboteille samassa robots.txt tiedostossa on useita, jätetään jokaisen robotin käskyjen väliin yksi tyhjä rivi.

Esimerkkejä:

User-agent: *
Disallow:

Tämä asetus sallii kaikille hakukoneroboteille kaikkien kansioiden ja tiedostojen indexoinnin. Hakukoneoptimoinnin kannalta turhaa, sillä jos haluat tämän asetuksen sivuillesi, voit jättää koko tiedoston pois domainiltasi. Tämä kuitenkin vähentää 404 virheitä (sivua ei löydy) sivuillasi, sillä hakukonerobotit tarkistavat jokaisen vierailun yhteydessään löytyykö robots.txt tiedosto serveriltäsi.

User-Agent: *
Disallow: index.html

Tämä asetus kieltää kaikilta hakukoneroboteilta “index.html” tiedoston indeksoinnin.

User-Agent: MSNBot
Disallow: henkilokohtaista/

Tämä taas kieltää MSN:n robotilta “henkilokohtaista” kansion indeksoinnin.

User-Agent: Googlebot
Disallow: henkilokohtaista/omia_juttuja.html

Tämä kieltää Googlen robotilta “henkilokohtaista” kansiossa olevan “omia_juttuja.html” nimisen tiedoston indeksoinnin.

User-Agent: *
Disallow: /

Kieltää kaikkien sivujesi indeksoinnin kaikilta roboteilta. Mieti kuitenkin kahteen kertaan ennnenkuin menet käyttämään tätä.