Asa cum promiteam in articolul anterior, despre Impactul analizei server logs-urilor asupra SEO (mic tutorial), revin cu o versiune mai avansata de analiza, bazata pe datele oferite prin Screaming Frog Log Analysis.
Pentru cine nu stie, Screaming Frog Log Analysis e o unealta cu care poti analiza datele din server log. Unealta e platita, desi in versiunea gratuita se pot analiza pana la 1000 de linii.
Am creat, de ceva timp, acest template pentru ca datele oferite nu imi erau indeajuns, iar Screaming Frog Log Analysis e doar o poarta de acces catre niste date validate si bine structurate. Pentru vizualizari voi folosi Google Data Studio, asta desi versiunea din Tableau arata mult mai bine si e mai maleabila.
Cred ca oricine poate crea o astfel de analiza, daca urmeaza pasii de mai jos.
Lista de subiecte
Extrage si prelucreaza datele din server logs
Vezi aici cum gasesti fisierele in Cpanel. Dupa ce le salvezi, urca-le in Screaming Frog Log Analysis pentru a fi prelucrate in mod automat.
Din setari incearca sa iti selectezi User Agent-ul pentru analiza, eu m-am limitat la doar doua:
In functie de resurse puteti adauga orice User Agent doriti, reprezentand de fapt roboti sau utilizatori, structurati dupa anumite criterii.
Rulati unealta pentru a valida analiza dupa User Agent-ul selectat. Pentru analize mai avansate puteti adauga si datele de crawling din Screaming Frog SEO Spider.
Salvati datele si prelucrati fisierele. Vor fi o serie de randuri de scos din .csv-ul oferit, pastrati doar ce e nevoie.
Urcati datele in Google Spreadsheet sau direct in Google Data Studio. Pentru acest model am urcat datele in Google Spreadsheet pentru ca ele vor putea fi modificate in timp si deci datele din Data Studio se vor actualiza in consecinta.
Neaparat trebuie sa creati un nou format pentru Time Of Last Response, pentru ca aceasta coloana contine si secundele cand robotii sau vizitatorii au accesat un URL.
In Google Spreadsheet folositi pasii de mai jos:
O sa va ia ceva timp pana va iese, eu am intampinat in punctul asta o mare problema. Dar daca insistati ar trebui sa mearga fara probleme.
Acum creati un nou raport in Google Data Studio.
Structurarea datelor in Data Studio
Pentru ca modelul creat de mine sa poata fi folosit, trebuie sa creati niste campuri noi pentru a grupa unele date.
In primul rand, ar trebui grupate fisierele dupa tipul lor. Vom putea vedea statistici specifice pentru ele si vom putea detecta mai usor problemele.
Copiati codul de mai jos, ajustati dupa nevoie. Am denumiti fisierul „Files type grouping„. E ok sa pastrati denumirea asta pentru a nu avea probleme atunci cand veti urca datele proprii.
CASE WHEN (REGEXP_MATCH(URL, '.*.js')) THEN "JS" WHEN (REGEXP_MATCH(URL, '.*.css')) THEN "CSS" WHEN (REGEXP_MATCH(URL, '.*pdf|.*PDF')) THEN "PDF" WHEN (REGEXP_MATCH(URL, '.*.txt')) THEN ".txt" WHEN (REGEXP_MATCH(URL, '.*.xml')) THEN "XML" WHEN (REGEXP_MATCH(URL, '.*.json')) THEN "JSON" WHEN (REGEXP_MATCH(URL, '.*.ttf.*')) THEN "TTF" WHEN (REGEXP_MATCH(URL, '.*jpg|.*png|.*svg|.*JPG|.*ico|.*jpeg|.*JPEG|.*gif')) THEN "IMG" Else "HTML" END
Un alt camp specific tine de structura site-ului. La fel, ne vom folosi de ele in analiza. Am denumit campul „Structura„.
CASE WHEN (URL="https://www.krumel.ro/") THEN "Home" WHEN (REGEXP_MATCH(URL, '.*seo.*')) THEN "SEO" WHEN (REGEXP_MATCH(URL, '.*wmt.*')) THEN "WMT" WHEN (REGEXP_MATCH(URL, '.*analytics*')) THEN "Analytics" WHEN (REGEXP_MATCH(URL, '.*adwords.*')) THEN "Adwords" WHEN (REGEXP_MATCH(URL, '.*marketing-afiliat.*')) THEN "Marketing Afiliat" WHEN (REGEXP_MATCH(URL, '.*link-building.*')) THEN "Link Building" WHEN (REGEXP_MATCH(URL, '.*internet-marketing.*')) THEN "Internet Marketing" WHEN (REGEXP_MATCH(URL, '.*contact.*')) THEN "Contact" WHEN (REGEXP_MATCH(URL, '.*clienti.*')) THEN "Clienti" WHEN (REGEXP_MATCH(URL, '.*cere-auditul-seo.*')) THEN "Cere audit" WHEN (REGEXP_MATCH(URL, '.*despre.*')) THEN "Despre" WHEN (REGEXP_MATCH(URL, '.*wp-.*')) THEN "Internal WP files" Else "Alte URL-uri" END
Creati un nou camp pentru a defini numarul unic de URL-uri folosind denumirea „URL Count„.
COUNT_DISTINCT(URL)
Sa nu uitam de filtre, pentru ca ele definesc mai departe unele rapoarte.
In functie de analiza, filtrele se modifica dupa specificul gruparii fisierelor, dupa tip.
Vor fi analize dupa paginile HTML, imaginile, CSS, JS, XML, URL-uri cu parametri, TXT si XML. Ptr fiecare in parte trebuie creat cate un filtru pentru a putea limita analiza la gruparea respectiva.
Mai sus e un model dupa paginile HTML.
Mai jos e un filtru pentru gruparea paginilor 4xx.
Acelasi lucru pentru analiza URL-urilor cu parametri.
Urmatorul pas ar fi, dupa ce ai copiat modelul meu, sa editezi graficele cu eroare si sa adaugi campurile specifice. Folosind drept model ceea ce am creat eu, iti poti ajusta fiecare camp astfel incat raportul sa functioneze.
Analiza finala in Data Studio
Acum ca ai totul pus la punct, intra in analize si vezi care sunt problemele privind crawling-ul fisierelor si URL-urilor din site, dupa structurarile deja create.
E mai usor sa vezi care sunt URL-urile si fisierele care incarca greu, cele care au un volum mare sau mic de crawling, imaginile mari, fisierele sau URL-urile cu erori. Mergi punctual si rezolva acele probleme.
E mai usor sa vezi ce sectiuni din site au cel mai mare volum de crawling si daca ele sunt ok pentru a fi indexate in Google. La fel, poti vedea daca exista fisiere sau URL-uri care nu ar trebui verificate de roboti.
Poti incerca sa corelezi niste date cu alte tipuri de informatii, astfel incat sa iti poti confirma sau infirma ipoteze.
Paginile cu mai mult continut au atentie mai mare din partea robotilor? Link-urile interne favorizeaza crawling-ul pe pagini? Exista o legatura intre volumul continutului, link-urile interne si frecventa de crawling intre pagini? Exista pagini ce nu ar trebui verificate de roboti?
Versiunea actuala are 11 rapoarte de analiza, in viitor vor incerca sa actualizez dashboard-ul astfel incat sa se poata analiza mult mai multe lucruri. Mai am niste idei, pe langa cele spuse aici.
Urmatorul lucru e sa gasesc o metoda de a analiza datele initiale din server logs, fara ale mai trece prin Screaming Frog Log Analysis. De aici as putea dezvolta niste calcule privind frecventa de crawling sau chiar merge granular cu analiza la nivel de pagina sau fisier. In lucru..
Degeaba faci SEO daca nu reusesti sa folosesti date tehnice despre optimizarea crawling-ului sau a indexarii. Oprimizarea pentru motoarele de cautare nu mai inseamna de mult doar link building si Social Media.
Super analiza! Multumesc pentru efort. Cu cate linii ai lucrat in google sheets? Eu am date pentru 2 luni de zile si primesc eroarea: Couldn’t create the field because the data source took too long to respond. (cu import din google sheets).
Multumesc, Ciprian
1574 de linii pentru modelul asta.
Dar nu cred ca asta e problema. Zilele astea Data Studio da multe erori. Chiar azi am oprit modificarea unor campuri noi intr-un raport ptr ca imi aparea mesajul asta.
Si ptr ca m-ai facut curios, m-am uitat intr-un sheets cu 10k si nu imi apare mesajul asta.
Just wait, poate se rezolva. 🙂
Comentariile sunt închise.