Robots.txt

Matt Cutts kirjoittteli eräästä metodista, jolla voi kieltää Googlen hakurobottia indeksoimasta sivua. Tämä siis tapahtuisi seuraavalla tavalla:

Lisää sivujesi osoitteiden perään. esim: googlebot=nocrawl

http://www.sivusto.com/artikkeli.html?googlebot=nocrawl

ja robots.txt tiedostoosi rivi:

User-agent: Googlebot
Disallow: *googlebot=nocrawl

Näin siis kiellät Googlea indeksoimasta sivuja, jotka sisältävät muuttujan googlebot=nocrawl missä tahansa osoitteen sisällä.

Tämä metodi voi olla hyödyllinen joillekin dynaamisia osoitteita käyttäville sivustoille, jotka sisältävät paljon sivuja ja joiden meta -tietoihin ei voida kirjoittaa noindex -tagia erikseen eikä osoitteita ole kannattavaa luetella yksitellen robots.txt -tiedostoon.

Matt kuitenkin jätti mainitsematta erään toisen ongelman. Nimittäin sen, että mikäli kirjoitat osoitteesi googlebot=nocrawl -muuttujan kanssa, indeksoivat myös muutkin hakukoneet (esim. MSN ja Yahoo) sivut kyseisellä tavalla (http://www.sivusto.com/artikkeli.html?googlebot=nocrawl), mikäli löytävät linkin siihen.

Tämä tapa Googlen hakurobotin poissulkemiseen sivuilta ei ole siis normaalisti suositeltavaa.

Kirjoita uusi kommentti

*
Syötä vieressä näkyvän kuvan teksti tekstikenttään.
Anti-Spam kuva


Tuotteistaminen
Noste tuotteistaa
viidessä päivässä!
www.noste.com
Hakukoneoptimointi
Löytyykö yrityksenne
Googlen hakujen kärjestä? Tutustu!
www.hakukone.info