Is op internet je geschreven tekst veilig?
Er kunnen mensen zijn die je tekst en foto´s kopiëren van jouw site en op hun website plaatsen. Dan heb je een tweeledig probleem:
- Een copyright probleem
- Een duplicate content probleem (zelfde tekst staat op verschillende websites). De Google zoekmachine keurt dezelfde tekst en inhoud op meerdere websites af. Dit kan zelfs tot gevolg hebben dat je website helemaal niet meer gevonden wordt bij Google.
Maar er is een nog groter probleem, geautomatiseerde diefstal van tekst:
Webprogrammatuur die de inhoud van je website steelt
Het stelen van tekst gebeurt door niet nette website spiders die vaak scrapers genoemd worden. Ze lezen je website en schrapen de inhoud van je website leeg. Die informatie gebruiken ze voor verschillende doelen. Ze combineren teksten van verschillende websites. Paragrafen worden omgewisseld en teksten uit verschillende websites samengevoegd. Zo ontstaat een nieuw stuk tekst. En dergelijke teksten worden verkocht aan website eigenaren die het schrijven van tekst uitbesteden.
In de door scrapers gecomponeerde teksten kunnen dus delen tekst van je website voorkomen. Dat kan veroorzaken dat je website daalt minder gewaardeerd wordt door de Google zoekmachine en andere zoekmachines. Met als gevolg dat je minder bezoekers krijgt of helemaal niet meer te vinden bent. (duplicate content)
Hoe kun je de website beveiligen tegen scrapers?
Wanneer je zelf niet technisch bent:
- Goede beveiligings-programmatuur
Zorg dat je goede beveiligings-programmatuur hebt ingebouwd in je website. Die moet dus ook de functionaliteit hebben om verdachte spiders en scrapers uit te sluiten. - Abonnement op aanlevering verdachte IP adressen
Je kunt je abonneren op diensten die lijsten met IP-adressen aanleveren van dergelijke verkeerde spiders en scrapers. Wanneer je goede beveiligingsprogrammatuur hebt, kun deze gegevens automatisch laten ophalen en updaten. - Kijk regelmatig in je website statistieken naar verdachte spiders.
Dit kun je doen door te onderzoeken of een spider kijkt naar pagina´s waarvoor je spiderbezoek uitgesloten hebt. Zo kun je voor de pagina waar je als beheerder inlogt aangegeven dat zoekmachines die niet moeten lezen en indexeren. Je wilt niet dat je inlogpagina in Google staat. Dat kan een extra beveiligingsgevaar opleveren. Wanneer spiders wel een dergelijke uitgesloten pagina´s bezoeken, dan is dat verdacht.
Wanneer je zelf technisch bent kun je dergelijke scraper IP-adressen uitsluiten van je webpagina door ze in het .htaccess bestand te zetten. Ga trouwens niet zomaar iets wijzigen in het .htaccess bestand. Gebruik hierbij de juiste syntax. Bij 1 typefout werkt je hele website niet meer.
Hier kunt je een klein lijstje met scraper ip adressen ophalen. Deze kun je in ieder geval bannen van je website. Houd er rekening mee dat deze lijst niet volledig is.
Bij copyschape kun je onderzoeken of er content gestolen is van je website.
Verder kun je bij null scrapers rapporteren.