Mikä ihmeen robots.txt ?
Oletko ihmetellyt mikä ihme on robots.txt, tiedosto joka usein mainitaan hakukoneoptimoinnin yhteydessä?
Robots.txt on lyhykäisyydessään tiedosto, joka sijoitetaan domainisi päähakemistoon kertomaan hakukoneroboteille mitä tiedostoja ja kansioita ne eivät saa indeksoida.
Robots.txt on käytännöllinen silloin kun domainillasi on kansioita tai tiedostoja, joita et halua hakukoneiden kautta tulevien vierailijoiden nähtäväksi.
Robots.txt:ssä käytetään kahta eri muuttujaa määrittelemään asetukset: User-agent ja Disallow. Muuttujat sijoitetaan peräkkäisille riveille “robots.txt tekstitiedostoon. “User-agent” määrittelee hakukonerobottia ja “Disallow” niitä kansioita ja tiedostoja mitkä ovat kiellettyjä kyseiseltä robotilta. Mikäli käskyjä eri roboteille samassa robots.txt tiedostossa on useita, jätetään jokaisen robotin käskyjen väliin yksi tyhjä rivi.
Esimerkkejä:
User-agent: *
Disallow:
Tämä asetus sallii kaikille hakukoneroboteille kaikkien kansioiden ja tiedostojen indexoinnin. Hakukoneoptimoinnin kannalta turhaa, sillä jos haluat tämän asetuksen sivuillesi, voit jättää koko tiedoston pois domainiltasi. Tämä kuitenkin vähentää 404 virheitä (sivua ei löydy) sivuillasi, sillä hakukonerobotit tarkistavat jokaisen vierailun yhteydessään löytyykö robots.txt tiedosto serveriltäsi.
User-Agent: *
Disallow: index.html
Tämä asetus kieltää kaikilta hakukoneroboteilta “index.html” tiedoston indeksoinnin.
User-Agent: MSNBot
Disallow: henkilokohtaista/
Tämä taas kieltää MSN:n robotilta “henkilokohtaista” kansion indeksoinnin.
User-Agent: Googlebot
Disallow: henkilokohtaista/omia_juttuja.html
Tämä kieltää Googlen robotilta “henkilokohtaista” kansiossa olevan “omia_juttuja.html” nimisen tiedoston indeksoinnin.
User-Agent: *
Disallow: /
Kieltää kaikkien sivujesi indeksoinnin kaikilta roboteilta. Mieti kuitenkin kahteen kertaan ennnenkuin menet käyttämään tätä.
Mistä sitten tiedän mikä on minkäkin hakukonerobotin nimi tai lyhenne?
Täältä löytyy mukava lista yleisimmästä hakukonerobottien nimistä ja lyhenteistä.
Lopuksi vielä vinkiksi, että jos haluat ottaa mallia jonkin sivun robots.txt tiedostosta, saat sen helposti esille kirjoittamalla selaimesi osoitekenttään http://www.sivunimi.com/robots.txt
Ã…oke kommentoi että,
06.03.2007 @ 18:55
Miten blokataan tälläinen domain.com/index.php?action=profile&id=32 jossa id on vaihtuva ja niitä on kymmeniä?
Hakukoneoptimointia kommentoi että,
09.03.2007 @ 18:55
Disallow: index.php?action=profile&id=*
Tuo ei tosin ole standardin mukainen, mutta muistaakseni ainakin Yahoo ja Google tukevat “wildcard” -merkkiä.
Kode kommentoi että,
11.03.2007 @ 18:55
Blokataanko alikansion alikonsio näin
Disallow: /alikansio1/alikansio2/
Eli alikansio1 indeksoidaan ja alikansio2 blokataan tällä tavalla?
Hakukoneoptimointia kommentoi että,
11.03.2007 @ 18:55
Juu
d kommentoi että,
14.03.2007 @ 18:55
Onko tällä erolla merkitystä? Netin eri tutorialeissa on molemmanlaisia esimerkkejä.
Disallow: /sivu.html
Disallow: sivu.html
Jompikumpi oikein tai väärin?
Entäpä kuinka blokataan index.php?id1&id=2, kun linkkeihin ei ole määritetty sivua index.php (eli käytännössä vierailija voi olla sivulla domain.com/index.php?id1&id=2 tai domain.com/?id1&id=2)?
Hakukoneoptimointia kommentoi että,
14.03.2007 @ 18:55
Kummankin kyllä pitäisi toimia.
Tuo onkin hieman kinkkisempi homma. Oletan siis, että haluat robottien vierailevan vain /? -osoitteissa.
Voisit kokeilla tätä:
Disallow: /index.php?
Allow: /?
Tässä tapauksessa sivuston linkkien täytyy tosiaan osoittaa /?id=1&id=2 jne. Muuten robotti vain häipyy sivuilta jos linkit eivät ole kunnossa. Järkevämpää tosin olisi ohjata vaikka .htaccessilla kaikki käyttäjät automaattisesti /? -osoitteisiin index.php? -osoitteista.
Lisää sivustosi tänne, niin saat hyvää detaljia hakurobottien liikkeistä sivuillasi ja siitä onnistuuko/estetäänkö indeksointi. Tuolta voit myös tarkastaa robots.txt:n toimivuuden:
http://www.google.com/webmasters/
d kommentoi että,
14.03.2007 @ 18:55
Kiitoksia vinkeistä.
Kysyn vielä: jos ihan simppelisti haluaa estää tietyn sivun indeksoitumisen, pitäisi se sitten varmaankin panna robots.txt tiedostoon kahdesti?
Disallow: /index.php?id=1&id=2
Disallow: /?id=1&id=2
Sivustolle on mahdollista päätyä urlin kautta jossa index.php. Toisaalta serveripalvelu on sen verran alkeellinen ettei pääse ihan mitä tahansa muuttelemaan .htaccessiin.
Hakukoneoptimointia kommentoi että,
15.03.2007 @ 18:55
Juu, noin se toimii.