Tutto sul Crawl Budget spiegato da Google

crawl-budget-spiegato-da-google

Attraverso il proprio blog per i webmaster, ieri Google ha voluto chiarire come funziona il suo crawl. Alcune cose erano risapute, altre sono state spiegate in modo da non lasciare spazi all’interpretazione. Fondamentalmente Google dice che non esiste la definizione specifica di crawl budget e spiega il comportamento del proprio bot (Googlebot).

Non concentrarsi sul Crawl Budget

Google consiglia di non concentrarsi troppo su Crawl Budget in quanto le nuove pagine dei siti prodotte, vengono automaticamente sottoposte a scansione dal Googlebot nello stesso giorno in cui vengono pubblicate.

Per quei siti che hanno meno di un migliaio di url il tempo utilizzato dal Crawl per scansionarle tutte è più che sufficiente.

Limite velocità di scansione

Questo valore rappresenta  il numero di connessioni simultanee in parallelo che Googlebot può utilizzare per eseguire la scansione del sito e per attendere il recupero delle pagine. La velocità può essere maggiore o minore a seconda di:

  • Velocità del sito : Se il sito risponde velocemente al bot, possono essere utilizzate più connessioni simultanee in parallelo per eseguire la scansione. Se invece rallenta o non risponde, il numero di connessioni simultanee diminuiscono.
  • Limite velocità impostato sulla Search Console: Se il bot deve rispettare un certo limite ovviamente rallenta. Fissando un limite più alto NON aumenta la velocità di scansione (o per meglio dire, il numero di connessioni simultanee in parallelo).

Crawl Demand

I due fattori più importanti per determinare la “domanda di crawl” (ovvero la richiesta di scansione da parte del sito verso il Googlebot) sono:

  • Popolarità del sito: Siti più popolari sono scansionati più spesso per tenere aggiornato l’indice di Google con i nuovi probabili contenuti che conterranno
  • Contenuti vetusti: I sistemi di Google tentano di impedire che i contenuti vecchi (viene utilizzato il termine stantìo) siano presenti in evidenza nell’indice

Addizionalmente, lo spostamento di contenuti in altre pagine, può innescare un’aumento della domanda delle scansioni che Googlebot soddisferà per indicizzare i contenuti nelle nuove url. La domanda di scansione e la velocità del sito, identificano il cosiddetto crawl budget, che tradotto, Google definisce come il numero di url che il suo bot può e vuole scansionare.

I Fattori che influenzano il Crawl Budget

I fattori che influenzano il Crawl Budget negativamente sono:

  • Url diversi che portano alla stessa pagina (approfondisci)
  • Contenuti duplicati causati dai parametri delle url (approfondisci)
  • Contenuti duplicati sul sito
  • Pagine con errori 404
  • Pagine compromesse (hacked pages)
  • Infinte Spaces (approfondisci)
  • Contenuti di bassa qualità e contenuti Spam

Questi elementi, se trovati dal Googlebot, fa si che il crawl decida di non perdere tempo a scansionare i contenuti. Per questi siti Google ridurrà al minimo le scansioni a scapito dell’indicizzazione degli stessi.

Question and Answer

Riporto infine la traduzione delle domande più frequenti sull’argomento, pubblicate in questo articolo sul Google Webmaster Central Blog, dove troverete anche l’articolo originale scritto da Gary Illyes.

D: La velocità del sito influisce sul mio crawl budget? E gli errori delle pagine?
R: Fare un sito più veloce migliora l’esperienza degli utenti e aumenta anche la velocità di scansione. Per Googlebot, un sito veloce è un segno di server sani, in modo che possa ottenere più contenuti rispetto allo stesso numero di connessioni.

Il rovescio della medaglia: un numero significativo di errori 5xx o timeout di connessione, rallentano la scansione.
Si consiglia di prestare attenzione al rapporto “Errori di scansione” in Search Console e di mantenere il numero di errori del server bassi.

D: La velocità di scansione è un fattore di ranking?
A: Un aumento velocità di scansione non necessariamente può portare a una migliore posizione nei risultati di ricerca. Google utilizza centinaia di segnali per classificare i risultati e la scansione è necessaria per ESSERE nei risultati, ma non è un fattore per il posizionamento.

D: Gli URL alternativi e il codice incorporato, influiscono sul Crawl Budget?
R: In generale, qualsiasi URL che Googlebot striscia,  conterà nel bilancio di scansione di un sito. URL alternativi, come AMP o hreflang, così come i contenuti incorporati, come CSS e JavaScript, potrebbero dover essere sottoposti a scansione e consumeranno crawl budget.

D: Posso influenzare Googlebot con la direttiva “crawl-delay”?  (direttiva che imposta il numero di secondi che i bot dei motori di ricerca devono attendere prima di effettuare la richiesta successiva al web server)
R: La direttiva “crawl-delay” nel file robots.txt non viene elaborata da Googlebot.

D: La direttiva nofollow influisce sul crawl budget?
A: Dipende. Qualsiasi URL che viene strisciato prende una parte di budget. Quindi, anche se la pagina contiene una URL nofollow, questa può ancora essere sottoposta a scansione.

Summary
Tutto sul Crawl Budget spiegato da Google
Article Name
Tutto sul Crawl Budget spiegato da Google
Description
Attraverso il proprio Blog per i Webmaster, Google ha voluto spiegare come funziona il Crawl Budget e come sfruttarlo per una buona SEO.
Author
Publisher Name
ChiLoFa
Publisher Logo
About the author

Flavio

Mi trovo nel campo del web dal 2006. Nel tempo mi sono specializzato soprattutto nell'indicizzazione,  nel posizionamento di siti internet e nell'utilizzo dei social media principali a fini di marketing.

Be the first to comment

Leave a comment

Your email address will not be published.


*


*