Home » SEO » Prioritizari de indexare si crawling a continutului

Prioritizari de indexare si crawling a continutului

  • Krumel 

foot-shooting

Au inceput multi sa deprinda cu usurinta actualizarile si penalizarile pe care Google le propaga de vreo 3 ani de zile. Panda, Penguin, Pidgin, Hummingbird si alte oratanii Google. Nu conteaza ca exista o diferenta intre ele, ideea e ca atunci cand avem o problema pe SEO sint cele mai des invocate.

E simplu, e usor, e la indemana sa invoci probleme cunoscute. E mai greu, mai complicat si mai inaccesibil sa analizezi in amanunt eventuale probleme ce cauzeaza dezindexari din Google.

Alte motive pentru o indexare deficitara sau chiar o dezindexare suspecta din Google tin de modul cum se fac prioritizarile de indexare pe site. Pentru multi robots.txt sau meta „noindex,nofollow” e cam acelasi lucru. Fac acelasi lucru, motiv ptr care multi le folosesc gresit. Articolul are scopul de a reaminti sau a lamuri unele lucruri.

Cum folosim robots.txt?

Robots.txt-ul e o optiune prost folosita de multi, motiv pentru care destui nici macar nu il folosesc. Explicatia Google pentru el e:

A robots.txt file is a file at the root of your site that indicates those parts of your site you don’t want accessed by search engine crawlers. The file uses the Robots Exclusion Standard, which is a protocol with a small set of commands that can be used to indicate access to your site by section and by specific kinds of web crawlers (such as mobile crawlers vs desktop crawlers).

Sursa

De obicei se foloseste pentru a restrictiona sectiuni din site ce nu sint utile vizitatorilor spre navigare si care nu ar trebui sa existe spre indexare.

Sectiuni din structura site-ului ce contin diferite materiale ce nu ar trebui indexate, CSS-uri (desi acum nu mai e recomandat sa faceti lucrul asta), fisiere multimedia, alte fisiere sau foldere (sectiuni din URL) ce contin materiale cu scop de stocare si nu de navigare pentru vizitatori.

Alta modalitate de folosire tine de restrictionarea unor anumiti roboti sau crawleri astfel incat sa se evite consumul de banda, scraping-ul sau alte activitati ale robotilor.

Practica la multe site-uri e sa restrictioneze pagini ce nu ar mai trebui folosite avand ca rezultat final un rezultat indexat in Google cu un mesaj de genul:

Lipsa unei descrieri privind acest rezultat este cauzata de fisierul robots.txt al acestui site. Aflati mai multe.

Desi pagina e restrictionata spre indexare prin robots.txt ea ramane in indexul Google.

Analizati cu atentie log-urile de server pentru a putea gasi eventuale sectiuni din site verificate de roboti, lucru care ar putea afecta „crawling budget-ul” alocat site-ului.

Restrictionarea la indexare nu inseamna scoaterea din index. Motiv pentru care Google pastreaza rezultatul o perioada de timp in cadrul rezultatelor dupa diferite cautari. Pentru a scoate rezultatul de la cautari trebuie sa folositi Remove URL, explicat in acest articol.

Cum folosim noindex, follow?

The noindex meta standard is a useful tool if you don’t have root access to your server, as it allows you to control access to your site on a page-by-page basis.

Sursa

Un alt mod de a prioritiza indexarile tine de restrictionarea unor pagini ce pot crea duplicate content sau nu au rol decat de sortare intr-un site.

Recomandarile de indexari spun ca ar trebui indexate doar paginile relevante utilizatorilor, paginile inutile ar trebui restrictionate, ele avand ca efect final intoxicarea rezultatelor la cautari cu pagini inutile.

Filtrele, sortarile, tag-urile, alte pagini utile doar pentru sortare ar trebui setate pentru a nu fi indexate. Puteti alege „noindex,nofollow” pentru a nu indexa si nu urmari link-urile de pe acea pagina sau „noindex,follow” pentru a nu indexa dar totusi a urmari link-urile din acea pagina.

In cazul „noindex,follow” cei de la Google au afirmat ca dupa o perioada link-urile interne nu vor mai fi urmarite si deci se transforma in „noindex,nofollow”.

A nu se confunda cu „nofollow” atribuit link-urilor care nu face decat sa restrictioneze crawling-ul acelor link-uri nu si restrictionare paginii pe care se afla acele link-uri.

Cum folosim „rel=canonical”?

O alta practica eronata in a rezolva problema indexarii e folosirea de „rel=canonical”. Specificatiile Google privind rostul lui sint urmatoarele:

Including a rel=canonical link in your webpage is a strong hint to search engines your about preferred version to index among duplicate pages on the web. It’s supported by several search engines, including Yahoo!, Bing, and Google. The rel=canonical link consolidates indexing properties from the duplicates, like their inbound links, as well as specifies which URL you’d like displayed in search results. However, rel=canonical can be a bit tricky because it’s not very obvious when there’s a misconfiguration.

Sursa

Asa cum se specifica mai sus, rolul lui e de a scapa de paginile duplicate generate de folosirea unor URL-uri de urmarire a performantei (UTM-uri), paginatii dinamice sau alte lucruri ce genereaza pagini duplicate datorita folosirii de URL-uri generate dinamic.

Am vazut pe multi folosind „rel=canonical” pentru a nu indexa pagini de filtre, metoda deficitara de folosire a „rel=canonical”. Pentru filtre si sortari e indicat sa folositi meta „noindex,nofollow” si nu „rel=canonical” pentru ca Google poate rescrie optiunea de „rel=canonical” daca pagina are indeajuns de multe semnale calitative.

Semnalele calitative tin de link-urile externe si cele interne, semnale social media, pozitia in structura site-ului.

Aici gasiti exemple mai clare.

Cum folosim „Nofollow” pe link-uri?

Explicatia data de Google ar fi:

„Nofollow” provides a way for webmasters to tell search engines „Don’t follow links on this page” or „Don’t follow this specific link.”

Sursa

Cel mai frecvent mod de folosire e adaugarea pe link-urile externe. Google recomanda folosirea pe link-urile externe pentru a nu ceda PageRank, care e inventia lor si pe care pun pret mare. Sint site-uri care primesc in Webmaster Tools atentionari privind cedarea de PageRank pe link-urile externe. Recomandarea e ca aceste link-uri sa aiba „Nofollow” pe ele.

Alt mod de folosire tine de link-urile interne pentru a prioritiza crawling-ul. Spre exemplu, nu vrei ca un crawler sa intre din prima pe anumite pagini inutile, link-uri dublate (odata text, odata imagini), pagini de logare, alte pagini inutile.

Motivul ptr care prioritizezi crawling-ul link-urilor interne tine de scaderea timpilor pe care un crawler le-ar putea avea ptr a gasi continutul dar si salvarea de resuse privind consumul de banda al site-ului.

A nu se confunda cu nofollow din atributul „noindex,nofollow” care are alt rol.

–-
Folosirea corecta a acestor atribute poate elucida misterele privind eventualele penalizari sau dezindexari din Google. Sper sa ajute. 🙂