Hoe zoekmachines te blokkeren (met afbeeldingen)

Inhoudsopgave:

Hoe zoekmachines te blokkeren (met afbeeldingen)
Hoe zoekmachines te blokkeren (met afbeeldingen)

Video: Hoe zoekmachines te blokkeren (met afbeeldingen)

Video: Hoe zoekmachines te blokkeren (met afbeeldingen)
Video: How to transfer your data from a Windows PC to a Mac using Migration Assistant | Apple Support 2024, April
Anonim

Zoekmachines zijn uitgerust met robots, ook wel spiders of bots genoemd, die webpagina's crawlen en indexeren. Als uw site of pagina in ontwikkeling is of gevoelige inhoud bevat, kunt u voorkomen dat bots uw site crawlen en indexeren. Leer hoe u volledige websites, pagina's en koppelingen met robots.txt-bestanden kunt blokkeren en specifieke pagina's en koppelingen kunt blokkeren met html-tags. Lees verder om te ontdekken hoe u kunt voorkomen dat specifieke bots toegang krijgen tot uw inhoud.

Stappen

Methode 1 van 2: Zoekmachines blokkeren met robots.txt-bestanden

576315 1
576315 1

Stap 1. Begrijp robots.txt-bestanden

Een robots.txt-bestand is een gewoon of ASCII-tekstbestand dat de spiders van zoekmachines laat weten waartoe ze toegang hebben op uw site. Bestanden en mappen in een robots.txt-bestand mogen niet worden gecrawld en geïndexeerd door spiders van een zoekmachine. Mogelijk hebt u een robots.txt-bestand nodig als:

  • U wilt specifieke inhoud van spiders van zoekmachines blokkeren.
  • U ontwikkelt een live site en bent niet bereid om de site door spiders van zoekmachines te laten crawlen en indexeren
  • U wilt de toegang tot gerenommeerde bots beperken.
576315 2
576315 2

Stap 2. Maak en bewaar een robots.txt-bestand

Om het bestand te maken, start u een platte teksteditor of een code-editor. Sla het bestand op als: robots.txt. De bestandsnaam moet allemaal in kleine letters zijn.

  • Vergeet de 's' niet.
  • Wanneer u het bestand opslaat, kiest u de extensie “'.txt”'. Als u Word gebruikt, selecteert u de optie "Platte tekst".
576315 3 1
576315 3 1

Stap 3. Schrijf een volledig-disallow robots.txt-bestand

Het is mogelijk om elke gerenommeerde zoekmachine-spider te blokkeren voor het crawlen en indexeren van uw site met een "full-disallow" robots.txt. Schrijf de volgende regels in je tekstbestand:

    User-agent: * Niet toestaan: /

  • Het gebruik van een "full-disallow" robots.txt-bestand wordt niet sterk aanbevolen. Wanneer een bot, zoals Bingbot, dit bestand leest, zal het uw site niet indexeren en zal de zoekmachine uw website niet weergeven.
  • User-agents: dit is een andere term voor spiders van zoekmachines, of robots
  • *: het sterretje geeft aan dat de code van toepassing is op alle user-agents
  • Niet toestaan: /: de schuine streep geeft aan dat de hele site niet toegankelijk is voor bots
576315 4 1
576315 4 1

Stap 4. Schrijf een robots.txt-bestand dat voorwaardelijk is toegestaan

In plaats van alle bots te blokkeren, kunt u overwegen specifieke spiders van bepaalde delen van uw site te blokkeren. Veelvoorkomende voorwaardelijke opdrachten zijn onder meer:

  • Een specifieke bot blokkeren: vervang de asterisken naast User-agent met googlebot, googlebot-nieuws, googlebot-afbeelding, bingbot, of teoma.
  • Blokkeer een map en de inhoud ervan:

    User-agent: * Niet toestaan: /sample-directory/

  • Een webpagina blokkeren:

    User-agent: * Niet toestaan: /private_file.html

  • Een afbeelding blokkeren:

    User-agent: googlebot-image Niet toestaan: /images_mypicture.jpg

  • Alle afbeeldingen blokkeren:

    User-agent: googlebot-image Niet toestaan: /

  • Blokkeer een specifiek bestandsformaat:

    User-agent: * Niet toestaan: /p*.gif$

576315 5
576315 5

Stap 5. Moedig bots aan om uw site te indexeren en te crawlen

Veel mensen willen de spiders van zoekmachines verwelkomen, in plaats van blokkeren, omdat ze willen dat hun hele site wordt geïndexeerd. Om dit te bereiken, heb je drie opties. Ten eerste kun je ervoor kiezen om geen robots.txt-bestand te maken. Als de robot geen robots.txt-bestand vindt, blijft hij je hele site crawlen en indexeren. Ten tweede kun je een leeg robots.txt-bestand maken. De robot zal het robots.txt-bestand vinden, herkennen dat het leeg is en doorgaan met het crawlen en indexeren van je site. Ten slotte kunt u een volledig toestaan robots.txt-bestand schrijven. Gebruik de code:

    User-agent: * Niet toestaan:

  • Wanneer een bot, zoals googlebot, dit bestand leest, voelt hij zich vrij om je hele site te bezoeken.
  • User-agents: dit is een andere term voor spiders van zoekmachines, of robots
  • *: het sterretje geeft aan dat de code van toepassing is op alle user-agents
  • Niet toestaan: het blanco disallow-commando geeft aan dat alle bestanden en mappen toegankelijk zijn
576315 6
576315 6

Stap 6. Sla het txt-bestand op in de root van uw domein

Sla de wijzigingen op nadat u het robots.txt-bestand hebt geschreven. Upload het bestand naar de hoofdmap van uw site. Als uw domein bijvoorbeeld is www.uwdomein.com, plaats het robots.txt-bestand op www.uwdomein.com/robots.txt.

Methode 2 van 2: Zoekmachines blokkeren met metatags

576315 7
576315 7

Stap 1. Begrijp de metatags van HTML-robots

Met de robots-metatag kunnen programmeurs parameters instellen voor bots of spiders van zoekmachines. Deze tags worden gebruikt om te voorkomen dat bots een hele site of slechts delen van de site indexeren en crawlen. U kunt deze tags ook gebruiken om te voorkomen dat een specifieke spider van een zoekmachine uw inhoud indexeert. Deze tags verschijnen in de kop van uw HTML-bestand.

Deze methode wordt vaak gebruikt door programmeurs die geen toegang hebben tot de hoofdmap van een website

576315 8
576315 8

Stap 2. Blokkeer bots vanaf één pagina

Het is mogelijk om te voorkomen dat alle bots een pagina indexeren en/of de links van een pagina volgen. Deze tag wordt vaak gebruikt wanneer een live site in ontwikkeling is. Zodra de site compleet is, is het ten zeerste aan te raden deze tag te verwijderen. Als u de tag niet verwijdert, wordt uw pagina niet geïndexeerd of doorzoekbaar via zoekmachines.

  • U kunt bots blokkeren om de pagina te indexeren en om een van de links te volgen:
  • U kunt voorkomen dat alle bots de pagina indexeren:
  • U kunt alle bots blokkeren om de links van de pagina te volgen:
576315 9
576315 9

Stap 3. Laat de bots een pagina indexeren, maar volg de links niet

Als u de bots toestaat de pagina te indexeren, wordt de pagina geïndexeerd; als u voorkomt dat de spiders de links volgen, wordt het linkpad van deze specifieke pagina naar andere pagina's verbroken. Voeg de volgende regel code in uw koptekst in:

576315 10
576315 10

Stap 4. Laat de spiders van zoekmachines de links volgen, maar de pagina niet indexeren

Als u de bots de links laat volgen, blijft het linkpad van deze specifieke pagina naar andere pagina's intact; als u hen verbiedt om de pagina te indexeren, zal uw webpagina niet in de index verschijnen. Voeg de volgende regel code in uw koptekst in:

576315 11
576315 11

Stap 5. Blokkeer een enkele uitgaande link

Om een enkele link op een pagina te verbergen, sluit je een. in rel tag binnen de link-tag. Mogelijk wilt u deze tag gebruiken om links op andere pagina's te blokkeren die naar de specifieke pagina leiden die u wilt blokkeren.

    Koppeling naar geblokkeerde pagina invoegen

576315 12
576315 12

Stap 6. Blokkeer een specifieke spider van een zoekmachine

In plaats van alle bots van uw webpagina te blokkeren, wilt u misschien voorkomen dat één bot de pagina crawlt en indexeert. Om dit te bereiken, vervangt u ''robot'' in de metatag door de naam van een specifieke bot. Voorbeelden zijn: googlebot, googlebot-nieuws, googlebot-afbeelding, bingbot, en teoma.

576315 13
576315 13

Stap 7. Moedig bots aan om uw pagina te crawlen en te indexeren

Als u er zeker van wilt zijn dat uw pagina wordt geïndexeerd en de links worden gevolgd, kunt u een volgtoestaan invoegen meta "robot" tag in je header. Gebruik de volgende code:

Aanbevolen: