crawling
Printre multele lucruri prost intelese de catre clienti sau chiar SEOs e si acela cum ca “mai multe pagini in Google index inseamna de fapt mai mult trafic organic“. Referirea e facuta, evident, la faptul ca multi obisnuiesc sa indexeze toate paginile site-ului, incluzand rezultatele la cautarile interne, tag-uri, paginatii, pagini cu continut subtire, pagini canibalizate ca subiect sau alte forme de continut duplicat. Iar Google nu apreciaza continutul mult si prost…

Am mai publicat articole despre subiectele astea, motiv pentru care o sa schimb subiectul pe un lucru la fel de important si anume ceea ce in engleza e “crawling budget“.

Afla daca ai probleme cu indexarea sau vezi daca ai prioritizat corespunzator crawling-ul.
Contacteaza-ma pentru mai multe detalii si vei afla ce se intampla cu site-ul tau!

Pentru a indexa paginile unui site Google trebuie sa intre (folosing roboti/crawleri) pe paginile site-ului pentru a le descoperi, verifica si clasifica pentru cautari. Crawling-ului i se aloca un anumit “buget” pentru a putea acoperi mare parte din pagini. Aceasta alocare nu e fara limita si ea ar trebui folosita cu cap. Acesta e motivul pentru care uneori Google nu descopera destul de rapid unele pagini avand ca rezultat indexarea tarzie. Sau multe din paginile vechi ajung sa nu mai apara la cautari – lucru des intalnit la site-urile mari de ecommerce sau publicatii online.

Multa lume crede ca Google face crawling pe site in fiecare zi si deci in fiecare zi toate paginile sint verificate. Lucru care e valabil doar daca un site isi controleaza paginile trimise spre crawling. Site-urile mari pot avea probleme de crawling daca paginile sint lasate “la liber”, cum se spune, fara o prioritizare.

Bugetul alogat de catre Google ptr crawling se bazeaza pe cel putin 2 elemente importante:

  • PageRank-ul – motivatia suprema de existenta a multor site-uri. Se stie ca Google atribuie “o nota” paginilor pentru a putea structura mai usor rezultatele la cautari. Au anuntat (prin martie 2016) ca PageRank-ul nu mai e accesibil extern, el ramanand un element important algoritmilor si testelor interne.
  • Nepopularul timp de incarcare al unui site, in speta hostingul. Atat site-ul cat si hostul ar trebui sa aiba timpi de incarcare rapizi, ajutand robotii sa acceseze in timp util paginilie. De oameni nu mai zic, ar fi de bun simt ca un site sa incarce cat rapid.
Citeste si:  Long tail prin cautari de tip intrebari

De ce nu as indexa tot site-ul in Google?

  • Pentru ca nu toate paginile sint importante pentru vizitatori sau pentru indexarea in Google.
  • Pentru ca mergand pe ideea de mai sus, Google nu aloca buget de crawling in fiecare zi pentru toate paginile site-ului. Paginile noi au proritate, paginile vechi ajung sa nu mai fie verificate.
  • Pentru ca cu cat paginile sint mai relevante, mai clare, mai bine optimizate, cu atat mai mari sansele ca robotii sa le gaseasca mai usor, sa faca legaturi de subiecte intre ele si sa le trimita spre indexare mai rapid.
  • Pentru ca e inutil sa verifici paginatii de categorii, tag-uri, filtre si alte metode utile pentru navigare in site, inutile din punct de vede al valorii continutului. Ele in fond doar sorteaza, filtreaza si structureaza continutul intial.
  • Pentru ca in felul asta paginile importante primesc un PageRank mai bun, el nefiind consumat pe pagini inutile. Motiv pentru care autoritatea paginilor pentru anumite subiecte si cautari e mai concentrat.

Cum optimizez crawlingul si prioritizez indexarea paginilor relevante?

Asa cum ziceam mai sus, ar trebui sa elimini din calea robotilor paginile inutile. Si aici ar fi cateva lucuri eficiente si simple de facut:

  • Creaza o structura buna a site-ului atat pentru vizitatori cat si pentru roboti.
  • Evita crearea de continut duplicat sau administreaza-l corespunzator folosind “rel canonical”. Nu ar trebui ca Google sa verifice 2-3 versiuni ale aceleiasi pagini.
  • Elimina paginile inutile, cele navigationale in special. Poti folosi “nofollow” pentru a limita accesul spre paginile inutile si robots.txt (stii ca e primul fisier verificat de roboti?) pentru a opri crawling-ul de pagini si a minimiza crawling-ul inutil. “noindex,nofollow” pentru a opri indexarea si a elimina paginile din indexul Google.
  • Scapa de paginile 404, broken links si redirectarile masive astfel incat sa se consume cat mai putin timp pentru a gasi paginile relevante.
  • Evita paginile cu continut slab si limitat. “Thin content” e o alta sursa de consum de resurse in crawling.
  • Pune in sitemap paginile relevante astfel incat robotii sa “serveasca” doar paginile bune spre indexare. Nu pune pagini restrictionate prin metodele de mai sus.
Citeste si:  Se merita numarul 1 in Google?

Exemple de crawling waste – un fel de “risipa” a crawling-ului.

Client ce are din 4000 de pagini doar 1000 indexabile. Restul paginilor neindexabile au la baza probleme legate de implementari deficitare de rel canonical, paginile se “prefera” pe ele. Rel canonical poate fi exprimat ca fiind un meta tag ce exprima pagina preferata spre indexare.

crawl waste non indexable

Pagini neindexabile din diferite motive legate de implementarea deficitara.

Acelasi exemplu exemplificat altfel, folosind Screaming Frog.

crawl waste canonicalized

Pagini care se autocanonizeaza datorita implementarii deficitare a rel canonical.

Alt client cu trei sferturi din pagini fiind redirecturi ce existau in codul site-ului. Consumul de crawling e inutil ptr a gasi paginile relevante, initiale. Codul trebuia actualizat cu paginile finale.

crawl waste redirects

Redirectari deficicare ce afecteaza crawling-ul site-ului.

E evident ca in sitemap exista pagini neindexabile in Google, ar trebui sa fie un semnal de alarma in cele mai multe cazuri. Multi oameni nu sint atenti la aceste detalii.

crawl waste sitemap

Semnal clar ca in sitemap sint pagini neindexabile.

In concluzie, as acorda o mai mare atentie crawling-ului de pagini relevante, as incerca sa controlez mai bine ce indexez, as verifica constant starea paginilor dar si a continutului, astfel incat crawling-ul sa se faca rapid, constant si in mod util.

Atunci cand ai un site mare si multe pagini indexate, ar trebui sa incerci sa vezi daca acele pagini nu cumva te trag mai tare in jos decat daca nu le-ai avea indexate.

Efectele se vor reflecta intr-o indexare mai buna, o consolitare a autoritatii paginilor relevante si deci o creste consistenta a traficului organic.

Am mai scris in alte articole despre astfel de probleme, deci as fi curios de parerea voastra legat de experientele avute cu alte site-uri.