Besuch verhindern
Wenn Sie nicht möchten, dass der Web-Crawler unseres Forschungsprojekts Ihre Webseiten besucht und diese in seinen Index einbringt, können Sie selbstverständlich unseren Web-Crawler über eine robots.txt ausschließen. Im Folgenden erklären wir Ihnen, wie Sie dabei vorzugehen haben und was dabei zu beachten ist.
Der User-Agent unseres Web-Crawlers lautet:
Semantic Health Web Crawler (shc-info.zml.hs-heilbronn.de)
Für den Ausschluss des Web-Crawlers müssen Sie zuerst auf Ihrem Server die robots.txt Datei anlegen.
Den Web-Crawlern Yandex, yovadis, YodaoBot wird das Erfassen der Webseite verweigert. Alle anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *) dürfen die Webseite bis auf die Verzeichnisse /cgi-bin/ und /feed/ erfassen.
User-agent: Yandex
Disallow: /
User-agent: yovadis
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: *
Disallow: /cgi-bin/
Disallow: /feed/
Den Web-Crawlern Googlebot, Googlebot-Image, Mediapartners-Google wird das Erfassen der Webseite explizit erlaubt. Allen anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *) wird das Erfassen der Webseite verweigert.
User-agent: Googlebot
Allow:
User-agent: Googlebot-Image
Allow:
User-agent: Mediapartners-Google
Allow:
User-agent: *
Disallow: /