Zoekmachines zijn uitgerust met robots, ook wel spiders of bots genoemd, die webpagina's crawlen en indexeren. Als uw site of pagina in ontwikkeling is of gevoelige inhoud bevat, kunt u voorkomen dat bots uw site crawlen en indexeren. Leer hoe u volledige websites, pagina's en koppelingen met robots.txt-bestanden kunt blokkeren en specifieke pagina's en koppelingen kunt blokkeren met html-tags. Lees verder om te ontdekken hoe u kunt voorkomen dat specifieke bots toegang krijgen tot uw inhoud.
Stappen
Methode 1 van 2: Zoekmachines blokkeren met robots.txt-bestanden
Stap 1. Begrijp robots.txt-bestanden
Een robots.txt-bestand is een gewoon of ASCII-tekstbestand dat de spiders van zoekmachines laat weten waartoe ze toegang hebben op uw site. Bestanden en mappen in een robots.txt-bestand mogen niet worden gecrawld en geïndexeerd door spiders van een zoekmachine. Mogelijk hebt u een robots.txt-bestand nodig als:
- U wilt specifieke inhoud van spiders van zoekmachines blokkeren.
- U ontwikkelt een live site en bent niet bereid om de site door spiders van zoekmachines te laten crawlen en indexeren
- U wilt de toegang tot gerenommeerde bots beperken.
Stap 2. Maak en bewaar een robots.txt-bestand
Om het bestand te maken, start u een platte teksteditor of een code-editor. Sla het bestand op als: robots.txt. De bestandsnaam moet allemaal in kleine letters zijn.
- Vergeet de 's' niet.
- Wanneer u het bestand opslaat, kiest u de extensie “'.txt”'. Als u Word gebruikt, selecteert u de optie "Platte tekst".
Stap 3. Schrijf een volledig-disallow robots.txt-bestand
Het is mogelijk om elke gerenommeerde zoekmachine-spider te blokkeren voor het crawlen en indexeren van uw site met een "full-disallow" robots.txt. Schrijf de volgende regels in je tekstbestand:
User-agent: * Niet toestaan: /
Stap 4. Schrijf een robots.txt-bestand dat voorwaardelijk is toegestaan
In plaats van alle bots te blokkeren, kunt u overwegen specifieke spiders van bepaalde delen van uw site te blokkeren. Veelvoorkomende voorwaardelijke opdrachten zijn onder meer:
- Een specifieke bot blokkeren: vervang de asterisken naast User-agent met googlebot, googlebot-nieuws, googlebot-afbeelding, bingbot, of teoma.
-
Blokkeer een map en de inhoud ervan:
User-agent: * Niet toestaan: /sample-directory/
-
Een webpagina blokkeren:
User-agent: * Niet toestaan: /private_file.html
-
Een afbeelding blokkeren:
User-agent: googlebot-image Niet toestaan: /images_mypicture.jpg
-
Alle afbeeldingen blokkeren:
User-agent: googlebot-image Niet toestaan: /
-
Blokkeer een specifiek bestandsformaat:
User-agent: * Niet toestaan: /p*.gif$
Stap 5. Moedig bots aan om uw site te indexeren en te crawlen
Veel mensen willen de spiders van zoekmachines verwelkomen, in plaats van blokkeren, omdat ze willen dat hun hele site wordt geïndexeerd. Om dit te bereiken, heb je drie opties. Ten eerste kun je ervoor kiezen om geen robots.txt-bestand te maken. Als de robot geen robots.txt-bestand vindt, blijft hij je hele site crawlen en indexeren. Ten tweede kun je een leeg robots.txt-bestand maken. De robot zal het robots.txt-bestand vinden, herkennen dat het leeg is en doorgaan met het crawlen en indexeren van je site. Ten slotte kunt u een volledig toestaan robots.txt-bestand schrijven. Gebruik de code:
User-agent: * Niet toestaan:
Stap 6. Sla het txt-bestand op in de root van uw domein
Sla de wijzigingen op nadat u het robots.txt-bestand hebt geschreven. Upload het bestand naar de hoofdmap van uw site. Als uw domein bijvoorbeeld is www.uwdomein.com, plaats het robots.txt-bestand op www.uwdomein.com/robots.txt.
Methode 2 van 2: Zoekmachines blokkeren met metatags
Stap 1. Begrijp de metatags van HTML-robots
Met de robots-metatag kunnen programmeurs parameters instellen voor bots of spiders van zoekmachines. Deze tags worden gebruikt om te voorkomen dat bots een hele site of slechts delen van de site indexeren en crawlen. U kunt deze tags ook gebruiken om te voorkomen dat een specifieke spider van een zoekmachine uw inhoud indexeert. Deze tags verschijnen in de kop van uw HTML-bestand.
Deze methode wordt vaak gebruikt door programmeurs die geen toegang hebben tot de hoofdmap van een website
Stap 2. Blokkeer bots vanaf één pagina
Het is mogelijk om te voorkomen dat alle bots een pagina indexeren en/of de links van een pagina volgen. Deze tag wordt vaak gebruikt wanneer een live site in ontwikkeling is. Zodra de site compleet is, is het ten zeerste aan te raden deze tag te verwijderen. Als u de tag niet verwijdert, wordt uw pagina niet geïndexeerd of doorzoekbaar via zoekmachines.
- U kunt bots blokkeren om de pagina te indexeren en om een van de links te volgen:
- U kunt voorkomen dat alle bots de pagina indexeren:
- U kunt alle bots blokkeren om de links van de pagina te volgen:
Stap 3. Laat de bots een pagina indexeren, maar volg de links niet
Als u de bots toestaat de pagina te indexeren, wordt de pagina geïndexeerd; als u voorkomt dat de spiders de links volgen, wordt het linkpad van deze specifieke pagina naar andere pagina's verbroken. Voeg de volgende regel code in uw koptekst in:
Stap 4. Laat de spiders van zoekmachines de links volgen, maar de pagina niet indexeren
Als u de bots de links laat volgen, blijft het linkpad van deze specifieke pagina naar andere pagina's intact; als u hen verbiedt om de pagina te indexeren, zal uw webpagina niet in de index verschijnen. Voeg de volgende regel code in uw koptekst in:
Stap 5. Blokkeer een enkele uitgaande link
Om een enkele link op een pagina te verbergen, sluit je een. in rel tag binnen de link-tag. Mogelijk wilt u deze tag gebruiken om links op andere pagina's te blokkeren die naar de specifieke pagina leiden die u wilt blokkeren.
Koppeling naar geblokkeerde pagina invoegen
Stap 6. Blokkeer een specifieke spider van een zoekmachine
In plaats van alle bots van uw webpagina te blokkeren, wilt u misschien voorkomen dat één bot de pagina crawlt en indexeert. Om dit te bereiken, vervangt u ''robot'' in de metatag door de naam van een specifieke bot. Voorbeelden zijn: googlebot, googlebot-nieuws, googlebot-afbeelding, bingbot, en teoma.
Stap 7. Moedig bots aan om uw pagina te crawlen en te indexeren
Als u er zeker van wilt zijn dat uw pagina wordt geïndexeerd en de links worden gevolgd, kunt u een volgtoestaan invoegen meta "robot" tag in je header. Gebruik de volgende code: