Il file robots.txt aiuta i principali motori di ricerca a capire dove possono andare sul tuo sito web.
Tuttavia, sebbene i principali motori di ricerca supportino il file robots.txt, potrebbero non aderire tutti alle regole allo stesso modo.
Di seguito, analizziamo cos’è un file robots.txt e come puoi utilizzarlo.
Che cos’è un file robots.txt?
Ogni giorno, ci sono visite al tuo sito web da parte di bot, noti anche come robot o spider. I motori di ricerca come Google, Yahoo e Bing inviano questi bot al tuo sito in modo che i tuoi contenuti possano essere scansionati, indicizzati e visualizzati nei risultati di ricerca.
I bot sono una buona cosa, ma ci sono alcuni casi in cui non vuoi che il bot giri intorno al tuo sito web e indicizzi tutto. È qui che entra in gioco il file robots.txt.
Aggiungendo determinate direttive a un file robots.txt, indirizzi i bot a eseguire la scansione solo delle pagine che desideri sottoporre a scansione.
Tuttavia, è importante capire che non tutti i bot aderiranno alle regole che scrivi nel tuo file robots.txt. Google, ad esempio, non ascolterà alcuna direttiva che inserisci nel file sulla frequenza di scansione.
Hai bisogno di un file robots.txt?
No, un file robots.txt non è necessario per un sito web.
Se un bot arriva sul tuo sito Web e non ne ha uno, eseguirà la scansione del tuo sito Web e indicizzerà le pagine come farebbe normalmente.
Un file robot.txt è necessario solo se desideri avere un maggiore controllo su ciò che viene scansionato.
Alcuni vantaggi di averne uno includono:
- Aiuta a gestire i sovraccarichi del server
- Previeni gli sprechi di scansione da parte dei bot che visitano le pagine che non desideri
- Mantieni private determinate cartelle o sottodomini
Un file robots.txt può impedire l’indicizzazione dei contenuti?
No, non puoi impedire che il contenuto venga indicizzato e mostrato nei risultati di ricerca con un file robots.txt.
Non tutti i robot seguiranno le istruzioni allo stesso modo, quindi alcuni potrebbero indicizzare il contenuto impostato per non essere sottoposto a scansione o indicizzato.
Inoltre, se il contenuto che si sta tentando di impedire la visualizzazione nei risultati di ricerca ha collegamenti esterni, anche i motori di ricerca lo indicizzeranno.
L’unico modo per garantire che i tuoi contenuti non siano indicizzati è aggiungere un meta tag noindex alla pagina. Questa riga di codice assomiglia a questa e andrà nell’html della tua pagina.
È importante notare che se desideri che i motori di ricerca non indicizzino una pagina, dovrai consentire la scansione della pagina in robots.txt.
Dove si trova il file robots.txt?
Il file robots.txt si troverà sempre nel dominio principale di un sito web. Ad esempio, il nostro file può essere trovato su https://www.hubspot.com/robots.txt.
Nella maggior parte dei siti web dovresti essere in grado di accedere al file effettivo in modo da poterlo modificare in un FTP o accedendo al File Manager nel CPanel del tuo host.
In alcune piattaforme CMS puoi trovare il file direttamente nella tua area amministrativa. HubSpot, ad esempio, semplifica la personalizzazione del file robots.txt dal tuo account.
Se sei su WordPress, puoi accedere al file robots.txt nella cartella public_html del tuo sito web.
WordPress include un file robots.txt per impostazione predefinita con una nuova installazione che includerà quanto segue:
Agente utente: *
Non consentire: /wp-admin/
Non consentire: /wp-include/
Quanto sopra dice a tutti i bot di eseguire la scansione di tutte le parti del sito Web tranne qualsiasi cosa nelle directory /wp-admin/ o /wp-includes/.
Ma potresti voler creare un file più robusto. Ti mostriamo come, di seguito.
Usi per un file Robots.txt
Potrebbero esserci molte ragioni per cui desideri personalizzare il tuo file robots.txt, dal controllo del budget di scansione al blocco della scansione e dell’indicizzazione di sezioni di un sito web. Esploriamo ora alcuni motivi per utilizzare un file robots.txt.
1. Blocca tutti i crawler
Bloccare tutti i crawler dall’accesso al tuo sito non è qualcosa che vorresti fare su un sito Web attivo, ma è un’ottima opzione per un sito Web di sviluppo. Quando blocchi i crawler, impedirai che le tue pagine vengano mostrate sui motori di ricerca, il che è positivo se le tue pagine non sono ancora pronte per la visualizzazione.
2. Non consentire a determinate pagine di essere scansionate
Uno dei modi più comuni e utili per utilizzare il file robots.txt è limitare l’accesso dei bot dei motori di ricerca a parti del tuo sito web. Questo può aiutarti a massimizzare il tuo budget di scansione ed evitare che pagine indesiderate finiscano nei risultati di ricerca.
È importante notare che solo perché hai detto a un bot di non eseguire la scansione di una pagina, ciò non significa che non verrà indicizzata. Se non vuoi che una pagina venga visualizzata nei risultati di ricerca, devi aggiungere un meta tag noindex alla pagina.
Direttive di esempio per file Robots.txt
Il file robots.txt è composto da blocchi di righe di direttive. Ogni direttiva inizierà con un agente utente, quindi le regole per quell’agente utente verranno poste al di sotto di esso.
Quando un motore di ricerca specifico arriva sul tuo sito web, cercherà l’agente utente che si applica a loro e leggerà il blocco che fa riferimento a loro.
Ci sono diverse direttive che puoi usare nel tuo file. Rompiamoli, ora.
1. Agente utente
Il comando user-agent ti consente di indirizzare determinati robot o spider come target. Ad esempio, se desideri scegliere come target solo Bing o Google, questa è la direttiva che utilizzeresti.
Sebbene ci siano centinaia di agenti utente, di seguito sono riportati esempi di alcune delle opzioni più comuni di agenti utente.
Agente utente: Googlebot
Agente utente: Googlebot-Image
Agente utente: Googlebot-Mobile
Agente utente: Googlebot-News
Agente utente: Bingbot
Agente utente: Baiduspider
Agente utente: msnbot
Agente utente: slurp (Yahoo)
Agente utente: yandex
È importante notare che gli agenti utente fanno distinzione tra maiuscole e minuscole, quindi assicurati di inserirli correttamente.
Agente utente con caratteri jolly
L’agente utente con caratteri jolly è contrassegnato con un
asterisco e consente di applicare facilmente una direttiva a tutti gli agenti utente esistenti. Quindi, se vuoi applicare una regola specifica a ogni bot, puoi utilizzare questo user-agent.
Agente utente: *
Gli user-agent seguiranno solo le regole che più strettamente si applicano a loro.
2. Non consentire
La direttiva disallow dice ai motori di ricerca di non eseguire la scansione o accedere a determinate pagine o directory su un sito web.
Di seguito sono riportati alcuni esempi di come è possibile utilizzare la direttiva disallow.
Blocca l’accesso a una cartella specifica
In questo esempio stiamo dicendo a tutti i bot di non eseguire la scansione di nulla nella directory /portfolio sul nostro sito web.
Agente utente: *
Non consentire: /portfolio
Se vogliamo solo che Bing non esegua la scansione di quella directory, la aggiungeremmo in questo modo, invece:
Agente utente: Bingbot
Non consentire: /portfolio
Blocca PDF o altri tipi di file
Se non vuoi che il tuo PDF o altri tipi di file vengano sottoposti a scansione, la seguente direttiva dovrebbe aiutarti. Stiamo dicendo a tutti i bot che non vogliamo che nessun file PDF venga sottoposto a scansione. Il $ alla fine sta dicendo al motore di ricerca che è la fine dell’URL. Quindi se ho un file pdf sumywebsite.com/site/myimportantinfo.pdf ,
i motori di ricerca non vi accederanno.
Agente utente: *
Non consentire: *.pdf$
Per i file PowerPoint, puoi usare:
Agente utente: *
Non consentire: *.ppt$
Un’opzione migliore potrebbe essere quella di creare una cartella per il tuo PDF o altri file e quindi impedire ai crawler di eseguirne la scansione e noindex l’intera directory con un meta tag.
Blocca l’accesso all’intero sito web
Particolarmente utile se si dispone di un sito Web di sviluppo o di cartelle di test, questa direttiva dice a tutti i bot di non eseguire affatto la scansione del sito. È importante ricordare di rimuoverlo quando imposti il tuo sito online, altrimenti avrai problemi di indicizzazione.
Agente utente: *
L’* (asterisco) che vedi sopra è ciò che chiamiamo un’espressione “carattere jolly”. Quando usiamo un asterisco, intendiamo che le regole seguenti dovrebbero applicarsi a tutti gli user-agent.
3. Consenti La direttiva allow può aiutarti a specificare determinate pagine o directory che tu fare
vogliono che i bot accedano e riescano a eseguire la scansione Questa può essere una regola di sovrascrittura per l’opzione disallow, vista sopra.
Nell’esempio seguente stiamo dicendo a Googlebot che non vogliamo che la directory del portfolio venga sottoposta a scansione, ma che desideriamo accedere e scansionare un elemento del portfolio specifico:
Agente utente: Googlebot
Non consentire: /portfolio
Consenti: /portfolio/crawlableportfolio
4. Mappa del sito
Includere la posizione della tua sitemap nel tuo file può rendere più facile per i crawler dei motori di ricerca la scansione della tua sitemap.
Se invii le tue sitemap direttamente agli strumenti per i webmaster di ciascun motore di ricerca, non è necessario aggiungerle al file robots.txt. Mappa del sito:
https://yourwebsite.com/sitemap.xml
5. Ritardo della scansione
Il ritardo della scansione può indicare a un bot di rallentare durante la scansione del tuo sito Web in modo che il tuo server non venga sopraffatto. L’esempio di direttiva seguente chiede a Yandex di attendere 10 secondi dopo ogni azione di scansione eseguita sul sito Web.
Agente utente: yandex
Ritardo di scansione: 10
Questa è una direttiva con cui dovresti stare attento. Su un sito Web molto grande può ridurre notevolmente il numero di URL scansionati ogni giorno, il che sarebbe controproducente. Questo può essere utile su siti web più piccoli, tuttavia, dove i bot stanno visitando un po’ troppo. Nota: il ritardo di scansione ènon supportato da Google o Baidu . Se vuoi chiedere ai loro crawler di rallentare la loro scansione del tuo sito web, dovrai farloattraverso i loro strumenti
.
Cosa sono le espressioni regolari e i caratteri jolly?
Il pattern matching è un modo più avanzato per controllare il modo in cui un bot esegue la scansione del tuo sito web con l’uso di caratteri.
Esistono due espressioni comuni e utilizzate sia da Bing che da Google. Queste direttive possono essere particolarmente utili sui siti di e-commerce. Asterisco:
* viene trattato come un carattere jolly e può rappresentare qualsiasi sequenza di caratteri Simbolo del dollaro:
$ è usato per designare la fine di un URL
Un buon esempio di utilizzo del carattere jolly * è nello scenario in cui si desidera impedire ai motori di ricerca di eseguire la scansione di pagine che potrebbero contenere un punto interrogativo. Il codice seguente dice a tutti i bot di ignorare la scansione di qualsiasi URL che contiene un punto interrogativo.
Agente utente: *
Non consentire: /*?
Come creare o modificare un file Robots.txt
- Se non disponi di un file robots.txt esistente sul tuo server, puoi facilmente aggiungerne uno con i passaggi seguenti.
- Apri il tuo editor di testo preferito per iniziare un nuovo documento. Gli editor comuni che possono esistere sul tuo computer sono Blocco note, TextEdit o Microsoft Word.
- Aggiungi le direttive che desideri includere nel documento.
- Salva il file con il nome di “robots.txt”
- Testa il tuo file come mostrato nella prossima sezione
Carica il tuo file .txt sul tuo server con un FTP o nel tuo CPanel. Il modo in cui lo carichi dipenderà dal tipo di sito web che hai.
In WordPress puoi utilizzare plugin come Yoast, All In One SEO, Rank Math per generare e modificare il tuo file.
Puoi anche utilizzare uno strumento generatore di robots.txt per prepararne uno che potrebbe aiutare a ridurre al minimo gli errori.
Come testare un file Robots.txt
Prima di attivare il codice file robots.txt che hai creato, dovrai eseguirlo tramite un tester per assicurarti che sia valido. Ciò consentirà di evitare problemi con le direttive errate che potrebbero essere state aggiunte.
Lo strumento di test robots.txt è disponibile solo nella vecchia versione di Google Search Console. Se il tuo sito web non è connesso a Google Search Console, dovrai prima farlo.
Visita la pagina dell’Assistenza Google, quindi fai clic sul pulsante “apri tester robots.txt”. Seleziona la proprietà per la quale desideri testare e verrai indirizzato a una schermata, come quella qui sotto.
il tester robots.txt sull’Assistenza Google
Pacchetto iniziale SEO