Este un lucru bun daca motoarele de cautare iti viziteaza frecvent website-ul si iti indexeaza continutul, dar exista situatii cand partile indexate ale continutului tau online, nu sunt exact acelea pe care ti le-ai dori. Esti interesat de cursuri optimizare seo? Intra pe DanBradu.com si vei gasi toate informatiile.
De exemplu, daca ai 2 versiuni ale unei pagini web (una pentru vizualizarea in browser si una pentru printat), probabil ca ti-ai dori ca ce-a de-a doua versiune sa nu fie vizibila pentru crawlere, pentru ca acestea sa nu vada continutul de pe acea pagina, ca un posibil continut duplicat. Daca se va intampla acest lucru, probabil ca vei fi penalizat.
De asemenea, daca se intampla sa ai date sensibile pe site, date pe care nu vrei sa le imparti cu toata lumea, vei prefera ca motoarele de cautare sa nu indexeze paginile ce contin acele informatii, desi cea mai buna metoda ar fi sa pastrezi in modul offline acele pagini.
In plus, daca vrei sa salvezi ceva latime de banda, prin excluderea anumitor imagini, stylesheet-uri sau elemente de javascript de la indexare, va trebui sa stii cum sa spui spider-elor sa faca acest lucru.
O metoda prin care poti spune motoarelor de cautare ce fisiere si foldere sa nu scaneze pentru indexare, este metatagul Robots. Dar, de vreme ce nu toate motoarele de cautare pot citi metataguri, metatagul Robots poate trece neobservat. O metoda mult mai buna de a informa motoarele de cautare despre ceea ce doresti sa treaca neindexat, este editarea fisierului robots.txt.
Ce este robots.txt?
Robots.txt este un fisier de tip text, non-Html, pe care il poti conecta website-ului tau, in asa fel incat robotii de cautare sa stie ce pagini doresti sa fie excluse de la verificare. Robots.txt nu este sub nici o forma un fisier obligatoriu pentru accesul motoarelor de cautare la pagina ta web, dar in general motoarele de cautare se supun dorintelor tale, daca observa existenta unui astfel de fisier, legat de website.
De asemenea, trebuie sa stii ca robots.txt nu este un fel de firewall pentru website-ul tau si nici un fel de protectie suplimentara. Este exact ca si cum ai pune undeva o nota, pe care motoarele de cautare o vor lua in considerare, ceva de genul “please, do not enter here”.
Cu alte cuvinte, nu poti preveni hotii sa intre, dar baietii buni vor stii ca acolo nu este voie si nu vor deschide usa.
Localizarea fisierului robots.txt este foarte importanta. Acesta trebuie sa se regaseasca in directorul (folderul) principal, deoarece altfel agentii (motoarele de cautare) nu vor fi capabili sa-l gaseasca si in consecinta, vor considera ca nu exista un astfel de fisier, indexand si verificand si acele pagini pe care tu le-ai dori excluse. Aceasta se intampla din cauza faptului ca majoritatea crawler-elor nu verifica tot website-ul ci doar directorul principal.
De exemplu poti sa instalezi fisierul robots.txt dupa cum urmeaza : http://domeniulmeu.ro/robots.txt. Daca fisierul se va gasi oriunde altundeva, robotii nu vor stii sa-l gaseasca si indexarea se va face pe toate paginile.