Robots.txt
Matt Cutts kirjoittteli eräästä metodista, jolla voi kieltää Googlen hakurobottia indeksoimasta sivua. Tämä siis tapahtuisi seuraavalla tavalla:
Lisää sivujesi osoitteiden perään. esim: googlebot=nocrawl
http://www.sivusto.com/artikkeli.html?googlebot=nocrawl
ja robots.txt tiedostoosi rivi:
User-agent: Googlebot
Disallow: *googlebot=nocrawl
Näin siis kiellät Googlea indeksoimasta sivuja, jotka sisältävät muuttujan googlebot=nocrawl missä tahansa osoitteen sisällä.
Tämä metodi voi olla hyödyllinen joillekin dynaamisia osoitteita käyttäville sivustoille, jotka sisältävät paljon sivuja ja joiden meta -tietoihin ei voida kirjoittaa noindex -tagia erikseen eikä osoitteita ole kannattavaa luetella yksitellen robots.txt -tiedostoon.
Matt kuitenkin jätti mainitsematta erään toisen ongelman. Nimittäin sen, että mikäli kirjoitat osoitteesi googlebot=nocrawl -muuttujan kanssa, indeksoivat myös muutkin hakukoneet (esim. MSN ja Yahoo) sivut kyseisellä tavalla (http://www.sivusto.com/artikkeli.html?googlebot=nocrawl), mikäli löytävät linkin siihen.
Tämä tapa Googlen hakurobotin poissulkemiseen sivuilta ei ole siis normaalisti suositeltavaa.