Impactul analizei server logs-urilor asupra SEO (mic tutorial)

fisier server

De ceva ani SEO nu mai ține doar de crearea de link-uri către site-uri și liste de cuvinte cheie pentru articole. E de domeniul trecutului această practică.

Lucrurile acum au devenit mai detaliate, mai tehnice, mult mai specifice atunci când vine vorba de conținut și relevanța lui. La fel și despre amănuntele tehnice care fac un site să fie performant.

Analiza de log-uri de server face parte din zona tehnică a SEO și devine din ce în ce mai importantă atunci când vine vorba de a înțelege modul în care roboții Google verifică 1 (crawling) un site.

De ce să analizăm log-urile de server?

Pentru acest articol voi folosi mai multe cuvinte similare pentru o versiune englezească.

Server logs = log-uri de pe server sau fișiere de server

În cazul optimizării (SEO) site-urilor, motivul analizei ține de înțelegerea, monitorizarea și corectare/ajustarea activității de crawling a roboților astfel încât paginile importante2 să aibă atenția cuvenită.

Autoritatea domeniului (vechiul PageRank) trebuie distribuită în mod echitabil între paginile importante ale site-ului, astfel încât acestea să poată fi analizate și deci să poată ieși corespunzător la căutări.

Uneori structura site-ului poate fi deficitară, paginile importante neprimind îndeajuns de multă atenție din partea roboților, lucru reflectat în performanțele slabe la optimizarea după căutări specifice. Știm că paginile cu autoritate mare primesc o atenție (crawling) ridicată din partea roboților.

Ce sunt log-urile de server?

Log-urile de server sunt fișiere care rețin activitățile unui site într-un jurnal (log) astfel încât să se poată face o analiză retrospectivă a ceea ce s-a întâmplat pe site. Mulți nu au activată această opțiune, neștiind de utilitatea ei.

În funcție de site, mărimea acestor fișiere diferă, site-urile mari ajungând până la câțiva GB de date.

În fișier veți găsi informații despre User Agent-ul folosit de roboți sau oameni3 pentru a naviga pe site, timpul când s-au întâmplat aceste vizite, răspunsul oferit de server, alte indicii cu care puteți crea diferite analize SEO de nivel tehnic.

Cum găsesc aceste fișiere de pe server?

În cPanel, le găsiți în secțiunea Metrics > Raw Access, cel puțin așa am eu în cPanel-ul oferit de Hosterion 4.

De obicei acestea sunt arhivate pe server, dar trebuie activată opțiunea specifică. Salvați acele fișiere pe desktop pentru a le putea accesa.

Cum deschid un log de server?

Există tot felul de unelte specifice pe piață, unelte care vă pot ajuta de accesați astfel de fișiere de log. Eu am folosit pentru fișierele mari o unealtă gratuită, numită glogg.

Unealta oferă obțiune de filtrare a liniilor care conțin doar anumite criterii astfel încât să puteți exporta doar acele linii. Eu folosesc “google” pentru a selecta doar liniile care fac referire la roboții Google.

Analiza server log cu glogg.
Sortare de user agent pentru Google cu glogg.

Odată selecția făcută după User Agent-ul dorit5, salvați acele linii într-un fișier .txt sau .csv. Oricum, fișierul salvat trebuie deschis tot cu un editor specific, gen Microsoft Excel.

https://support.google.com/webmasters/answer/1061943?hl=en – aici găsești o documentație oficială privind user agent-ul folosit de Google. În Data Studio poți crea filtre cu roboții verificați astfel încât datele să fie valide.

Pentru fișierele foarte mari folosesc o unealtă cu care împart fișierul în mai multe, numit GSplit.

Odată pregătite fișierele, puteți trece la analiza lor.

Dacă vrei sa lucrezi direct în Excel, redenumește extensia din .log în .csv și ar trebui să îl poți deschide.

Cu ce unelte analizăm fișierele de server logs?

Eu folosesc Screaming Frog SEO Log File Analyser, e variantă plătită, pentru că oferă informații bune și nu trebuie să “iau la mână” fiecare fișier.

Dar există și o metodă gratuită pentru a analiza log-urile de server, doar că necesită ceva mai multă muncă.

În primul rând, ai nevoie de fișierul structurat cum trebuie. Fișierele inițiale nu au coloane definite, ceea ce înseamnă că rândurile cu date nu pot fi structurate.

Selectați prima coloană din fișier, apoi alegeți din “Data” opțiunea “Text to Columns”. Sortați opțiunile astfel încât informația utilă să fie pe fiecare coloană în parte.

Încercați apoi CTRL A (pentru a selecta tot) + CTRL L (pentru a ajunge la opțiunea de a crea “capete de table” – table headers). Adăugați denumirea coloanei în funcție de informația specifică. Salvați fișierul tot în format .csv pentru a putea analiza mai departe datele.

Pentru cei care caută versiuni gratuite, puteți încerca Apache Logs Viewer (ALV). Există o componentă plătită din această unealtă, cea a analizelor făcute de către el. Dar de aici tot ce ne trebuie e un export de .csv care să conțină capetele de coloane, astfel obținând structura fișierului.

Cei care au opțiuni plătite pentru diferite unelte pot exporta rapid un fișier structurat în mod corespunzător.

Urmează apoi sa folosiți o unealtă cu care să puteți expune vizual grafice care să vă ajute să înțelegeți mai ușor ce se întâmplă. Eu folosesc Tableau Software sau Data Studio.

În Data Studio am creat diferite grafice prin care sa pot identifica mai ușor problemele privind crawling-ul făcut de roboții Google.

Ce am analizat din fișierele de pe server?

În primul rând, în Data Studio, am făcut tot felul de statistici privind top 10 cele mai verificate pagini, cele mai greoaie pagini, paginile care primesc cea mai multă atenție, imaginile cele mai mari, cele mai puțin vizitate pagini, etc.

  • La început am sortat problemele cele mai des întâlnite după: răspunsul din server, parametri, imagini, sitemaps, robots.txt, fișiere .CSS și .JS etc.
  • Apoi am creat grafice de tip timeline pentru a putea vedea în timp atenția acordată unor pagini.
  • După care am grupat conținutul astfel încât să pot vedea ce părți din site primesc mai multă atenție și care dintre zonele site-ului sunt mai rar vizitate.
  • Am corelat datele de crawl cu cele din Google Search Console legat de trafic și performanță. Am inclus și datele privind link-urile interne și cele externe.

Astfel, am făcut o serie de statistici prin care pot identifica problemele, pot genera o imagine de ansamblu mai buna și pot oferi clientului un raport ușor de înțeles. Da, programatorii pot face export din Data Studio la tot ce le trebuie pentru a putea lucra pe problemele găsite.

Mai jos vedeți o serie din analizele făcute bazându-mă pe datele din fișierele de pe server, analiza SEO putând elucida destul de multe mistere tehnice la nivel de site.

Analiza pe zona de date din server logs poate fi dezvotată mult mai mult si mult mai specific. Vizual, pot fi exprimate și structurate multe date din aceste fișiere.

Care e concluzia SEO după o analiză de server logs?

– Pentru unii clienți am descoperit parametri în URL-uri care generau haos în calea roboților, ei concentrându-se în special pe aceste link-uri. Link-uri care erau setate (cu noindex) să nu fie indexate. Deci o pierdere de crawl pe URL-uri inutile căutărilor din Google.

– Tot din analiza datelor din fișierele de pe server am putut înțelege probleme legate de structura site-ului. Roboții verificând mult prea des paginile interioare (inutile) și mai deloc paginile importante din site (care erau și mult mai apropiate de root).

– Uneori robotii consuma multe resurse pe analiza unor fișiere .CSS sau .JS. E un semnal clar că Google nu poate “înțelege” site-ul, opțiunea de render (interpretare) nu poate defini site-ul.

– Bucăți din codul vechi făceau trimitere către tot felul de fișiere neactualizate, roboții verificau exceptional de mult acele fișiere ignorând conținutul important.

Redirecționari de URL-uri din versiuni vechi ajungeau să țină robotii într-o buclă continuă de crawling, aceste pagini având susținere externă, motiv serios pentru roboți să îi verifice încontinuu.

Lucrurile în sine sunt mult mai tehnice, mult mai detaliate, în funcție de problemele SEO pe care le evidențiază, aceste analize de ordin tehnic sunt foarte utile.

Sper la un articol mai avansat ptr. cei care au nevoi mai speciale.