Semantic Health Crawler

Im Rahmen des „Semantic Health Crawler“-Projekts betreiben wir einen verteilten Web-Crawler zur Analyse des deutschsprachigen Gesundheitswebs.

Ziel des Projekts ist die Entwicklung eines Verfahrens zur Erfassung und Analyse des Gesundheitswebs im DACH-Raum, um Anbieter von Gesundheitsinformationen mit hoher Bedeutsamkeit zu identifizieren.

Publizierte Ergebnisse unserer Arbeit finden Sie in der Rubrik „Publikationen“.

Hinweise zur Erfassung

Im Rahmen des Indexierungsvorgangs werden Teile Ihrer Webseite heruntergeladen und deren Verlinkungsstruktur analysiert sowie Texte in Form von Worthäufigkeiten (sog. Dokumentenvektoren) auf Ihrer Webseite erfasst. Ferner erfassen wir keine binären Inhalte (z.B. Bilder, ZIP-Archive, usw).

Die erfassten Informationen (Dokumentenvektoren, Linkstruktur, …) werden ausschließlich für wissenschaftliche Zwecke eingesetzt.

Weitere Informationen zum Ausschluss Ihrer Webseite

Der von uns betriebene Web-Crawler respektiert den robots.txt Standard und erfasst Ihre Webseite nur dann, wenn dies durch die von Ihnen bereitgestellte robots.txt explizit erlaubt wurde. Ferner wartet der Web-Crawler zwischen Anfragen (auf den selben Host) mindestens 800ms. Informationen zu diesem Standard finden Sie unter www.robotstxt.org.

Weitere Informationen zum verwendeten „HTTP User-Agent“ sowie zu den eingesetzten IP-Adressen und zum robots.txt Standard finden Sie unter der Rubrik „Crawler-Ethik“.