DSGVO-konformes Web Scraping in Deutschland: Was ist erlaubt?
Web Scraping gilt vielen Unternehmen als rechtliche Grauzone. Doch beim automatischen Extrahieren von Firmendaten aus deutschen Impressum-Seiten gelten andere Regeln als beim Scraping von persönlichen Nutzerprofilen oder Produktbewertungen. Der Unterschied liegt in der Art der Daten und ihrer rechtlichen Behandlung. Dieser Artikel erklärt, wann DSGVO-konformes Web Scraping in Deutschland nicht nur möglich, sondern auch sinnvoll ist.
Öffentlich zugängliche Daten vs. personenbezogene Daten
Ein häufiges Missverständnis: Nur weil Daten im Internet öffentlich sichtbar sind, darf man sie einfach auslesen. Das ist falsch. Die DSGVO unterscheidet zwischen zwei Kategorien:
- Öffentlich zugängliche Firmendaten – wie Name, Adresse, Telefon aus dem Impressum
- Personenbezogene Daten – die einer natürlichen Person zugeordnet werden können
Für Firmendaten aus Impressum-Seiten gilt eine spezielle Rechtslage. Das Telemediengesetz (TMG) verpflichtet Unternehmen in §5, bestimmte Informationen leicht erkennbar, unmittelbar erreichbar und ständig verfügbar zu halten. Diese gesetzliche Veröffentlichungspflicht macht diese Daten zu einem anderen Rechtstyp als beispielsweise E-Mail-Adressen aus Kundenlisten.
§5 TMG: Die Grundlage für legales Web Scraping
Das Telemediengesetz verpflichtet jeden Betreiber einer Website in Deutschland folgende Informationen anzugeben:
- Name und Rechtsform des Unternehmens
- Adresse der Betriebsstätte
- Kontaktdaten (E-Mail, Telefon)
- Handelsregister-, Unternehmensregister- oder Genossenschaftsregister-Eintrag
- Umsatzsteuer-Identifikationsnummer
- Namen der Geschäftsführer oder Vertretungsberechtigten
Diese Daten sind nicht „nebenbei" öffentlich – sie sind gesetzlich verpflichtend zu veröffentlichen. Das unterscheidet sie fundamental von anderen im Web verfügbaren Informationen. Sie sind bewusst für die Öffentlichkeit bestimmt und dienen dem Transparenz- und Verbraucherschutz.
Genau an dieser Stelle setzt DSGVO-konformes Web Scraping an: Wenn ein Unternehmen automatisch diese pflichtveröffentlichten Daten ausliest, verarbeitet es primär Geschäftsdaten, nicht persönliche Daten.
Rechtliche Grundlage: Berechtigtes Interesse nach Art. 6 DSGVO
Die DSGVO erlaubt die Verarbeitung personenbezogener Daten unter mehreren Bedingungen. Artikel 6 Abs. 1 DSGVO nennt sechs rechtliche Grundlagen, darunter:
- Einwilligung (Art. 6 Abs. 1 lit. a)
- Vertragserfüllung (Art. 6 Abs. 1 lit. b)
- Berechtigtes Interesse (Art. 6 Abs. 1 lit. f)
Bei B2B-Datenextraktion aus Impressum-Seiten kommt üblicherweise Art. 6 Abs. 1 lit. f zum Tragen. Unternehmen haben ein berechtigtes Interesse, Geschäftsdaten zu sammeln für:
- Lead-Generierung und Vertriebsrecherche
- Geschäftspartnerschaften und Netzwerkaufbau
- Marktforschung und Branchenanalyse
- Compliance und Fraud-Prevention
Allerdings: Ein berechtigtes Interesse allein reicht nicht. Es muss die Interessenabwägung bestanden werden. Das bedeutet: Die Interessen des Unternehmens müssen gegen die Schutzinteressen der betroffenen Personen abgewogen werden. Bei aggregierten B2B-Daten aus Impressum-Seiten ist diese Abwägung oft positiv, da die Daten explizit zur öffentlichen Einsicht veröffentlicht wurden.
Praktische Anforderungen für DSGVO-Konformität
Wer Web Scraping rechtssicher umsetzen möchte, sollte folgende Punkte beachten:
| Anforderung | Was zu tun ist | Warum es wichtig ist |
|---|---|---|
| Transparenz | Datenschutzerklärung erwähnen, dass Daten gescraped werden | Art. 13-14 DSGVO Informationspflicht erfüllen |
| Speicherbegrenzung | Gescrapte Daten nicht länger als nötig speichern | Art. 5 Abs. 1 lit. e DSGVO (Speicherbegrenzung) |
| Datensicherheit | Daten verschlüsselt speichern, Zugriff kontrollieren | Art. 32 DSGVO (technische und organisatorische Maßnahmen) |
| Server-Standort | Datenverarbeitung in EU durchführen | Schengen-Routing und EU-Daten-Souveränität |
| robots.txt beachten | Nur Daten scrapen, die nicht ausdrücklich verboten sind | Ethik und Rechtstreue gegenüber Website-Betreiber |
Praktisches Code-Beispiel: Daten mit DACH Enrichment API auslesen
Statt selber Web-Scraper zu programmieren, können Unternehmen auf spezialisierte APIs zurückgreifen, die bereits DSGVO-konform aufgebaut sind. Ein Beispiel:
import requests
api_url = "https://api.dach-enrichment.de/api/enrich"
api_key = "YOUR_API_KEY"
domain = "example.de"
payload = {
"domain": domain,
"api_key": api_key
}
response = requests.post(api_url, json=payload)
if response.status_code == 200:
data = response.json()
print(f"Firmenname: {data.get('company_name')}")
print(f"E-Mail: {data.get('email')}")
print(f"Telefon: {data.get('phone')}")
print(f"Geschäftsführer: {data.get('managing_director')}")
print(f"Umsatzsteuer-ID: {data.get('vat_id')}")
else:
print(f"Fehler: {response.status_code}")
Diese API extrahiert automatisch die wichtigsten Firmendaten aus deutschen Impressum-Seiten. Die Daten werden in der EU verarbeitet und mit einem 30-Tage-Cache optimiert, um unnötige Requests zu vermeiden – auch das ist ein wichtiger Aspekt der DSGVO-Konformität.
Grenzen: Was beim Web Scraping nicht erlaubt ist
Klar sein sollte auch: Nicht alle Daten dürfen gescraped werden. Folgende Szenarien sind rechtlich problematisch:
- Private E-Mail-Adressen von Mitarbeitern – Diese sind nicht Impressum-Bestandteil und daher personenbezogen
- Daten, die auf robots.txt verboten sind – Verstößt gegen Nutzungsbedingungen
- Wiederholtes Scraping trotz Widerspruch – Der Website-Betreiber kann das Scraping untersagen
- Verkauf von gescrapten Kundendaten ohne Zweckbindung – Verstößt gegen Art. 5 DSGVO