```html

DSGVO-konformes Web Scraping in Deutschland: Was ist erlaubt?

Web Scraping gilt vielen Unternehmen als rechtliche Grauzone. Doch beim automatischen Extrahieren von Firmendaten aus deutschen Impressum-Seiten gelten andere Regeln als beim Scraping von persönlichen Nutzerprofilen oder Produktbewertungen. Der Unterschied liegt in der Art der Daten und ihrer rechtlichen Behandlung. Dieser Artikel erklärt, wann DSGVO-konformes Web Scraping in Deutschland nicht nur möglich, sondern auch sinnvoll ist.

Öffentlich zugängliche Daten vs. personenbezogene Daten

Ein häufiges Missverständnis: Nur weil Daten im Internet öffentlich sichtbar sind, darf man sie einfach auslesen. Das ist falsch. Die DSGVO unterscheidet zwischen zwei Kategorien:

Öffentlich zugängliche Firmendaten – wie Name, Adresse, Telefon aus dem Impressum
Personenbezogene Daten – die einer natürlichen Person zugeordnet werden können

Für Firmendaten aus Impressum-Seiten gilt eine spezielle Rechtslage. Das Telemediengesetz (TMG) verpflichtet Unternehmen in §5, bestimmte Informationen leicht erkennbar, unmittelbar erreichbar und ständig verfügbar zu halten. Diese gesetzliche Veröffentlichungspflicht macht diese Daten zu einem anderen Rechtstyp als beispielsweise E-Mail-Adressen aus Kundenlisten.

§5 TMG: Die Grundlage für legales Web Scraping

Das Telemediengesetz verpflichtet jeden Betreiber einer Website in Deutschland folgende Informationen anzugeben:

Name und Rechtsform des Unternehmens
Adresse der Betriebsstätte
Kontaktdaten (E-Mail, Telefon)
Handelsregister-, Unternehmensregister- oder Genossenschaftsregister-Eintrag
Umsatzsteuer-Identifikationsnummer
Namen der Geschäftsführer oder Vertretungsberechtigten

Diese Daten sind nicht „nebenbei" öffentlich – sie sind gesetzlich verpflichtend zu veröffentlichen. Das unterscheidet sie fundamental von anderen im Web verfügbaren Informationen. Sie sind bewusst für die Öffentlichkeit bestimmt und dienen dem Transparenz- und Verbraucherschutz.

Genau an dieser Stelle setzt DSGVO-konformes Web Scraping an: Wenn ein Unternehmen automatisch diese pflichtveröffentlichten Daten ausliest, verarbeitet es primär Geschäftsdaten, nicht persönliche Daten.

Rechtliche Grundlage: Berechtigtes Interesse nach Art. 6 DSGVO

Die DSGVO erlaubt die Verarbeitung personenbezogener Daten unter mehreren Bedingungen. Artikel 6 Abs. 1 DSGVO nennt sechs rechtliche Grundlagen, darunter:

Einwilligung (Art. 6 Abs. 1 lit. a)
Vertragserfüllung (Art. 6 Abs. 1 lit. b)
Berechtigtes Interesse (Art. 6 Abs. 1 lit. f)

Bei B2B-Datenextraktion aus Impressum-Seiten kommt üblicherweise Art. 6 Abs. 1 lit. f zum Tragen. Unternehmen haben ein berechtigtes Interesse, Geschäftsdaten zu sammeln für:

Lead-Generierung und Vertriebsrecherche
Geschäftspartnerschaften und Netzwerkaufbau
Marktforschung und Branchenanalyse
Compliance und Fraud-Prevention

Allerdings: Ein berechtigtes Interesse allein reicht nicht. Es muss die Interessenabwägung bestanden werden. Das bedeutet: Die Interessen des Unternehmens müssen gegen die Schutzinteressen der betroffenen Personen abgewogen werden. Bei aggregierten B2B-Daten aus Impressum-Seiten ist diese Abwägung oft positiv, da die Daten explizit zur öffentlichen Einsicht veröffentlicht wurden.

Praktische Anforderungen für DSGVO-Konformität

Wer Web Scraping rechtssicher umsetzen möchte, sollte folgende Punkte beachten:

Anforderung	Was zu tun ist	Warum es wichtig ist
Transparenz	Datenschutzerklärung erwähnen, dass Daten gescraped werden	Art. 13-14 DSGVO Informationspflicht erfüllen
Speicherbegrenzung	Gescrapte Daten nicht länger als nötig speichern	Art. 5 Abs. 1 lit. e DSGVO (Speicherbegrenzung)
Datensicherheit	Daten verschlüsselt speichern, Zugriff kontrollieren	Art. 32 DSGVO (technische und organisatorische Maßnahmen)
Server-Standort	Datenverarbeitung in EU durchführen	Schengen-Routing und EU-Daten-Souveränität
robots.txt beachten	Nur Daten scrapen, die nicht ausdrücklich verboten sind	Ethik und Rechtstreue gegenüber Website-Betreiber

Praktisches Code-Beispiel: Daten mit DACH Enrichment API auslesen

Statt selber Web-Scraper zu programmieren, können Unternehmen auf spezialisierte APIs zurückgreifen, die bereits DSGVO-konform aufgebaut sind. Ein Beispiel:

import requests

api_url = "https://api.dach-enrichment.de/api/enrich"
api_key = "YOUR_API_KEY"

domain = "example.de"

payload = {
    "domain": domain,
    "api_key": api_key
}

response = requests.post(api_url, json=payload)

if response.status_code == 200:
    data = response.json()
    print(f"Firmenname: {data.get('company_name')}")
    print(f"E-Mail: {data.get('email')}")
    print(f"Telefon: {data.get('phone')}")
    print(f"Geschäftsführer: {data.get('managing_director')}")
    print(f"Umsatzsteuer-ID: {data.get('vat_id')}")
else:
    print(f"Fehler: {response.status_code}")

Diese API extrahiert automatisch die wichtigsten Firmendaten aus deutschen Impressum-Seiten. Die Daten werden in der EU verarbeitet und mit einem 30-Tage-Cache optimiert, um unnötige Requests zu vermeiden – auch das ist ein wichtiger Aspekt der DSGVO-Konformität.

Grenzen: Was beim Web Scraping nicht erlaubt ist

Klar sein sollte auch: Nicht alle Daten dürfen gescraped werden. Folgende Szenarien sind rechtlich problematisch:

Private E-Mail-Adressen von Mitarbeitern – Diese sind nicht Impressum-Bestandteil und daher personenbezogen
Daten, die auf robots.txt verboten sind – Verstößt gegen Nutzungsbedingungen
Wiederholtes Scraping trotz Widerspruch – Der Website-Betreiber kann das Scraping untersagen
Verkauf von gescrapten Kundendaten ohne Zweckbindung – Verstößt gegen Art. 5 DSGVO

DSGVO-konformes Web Scraping in Deutschland: Was ist erlaubt?

DSGVO-konformes Web Scraping in Deutschland: Was ist erlaubt?

Öffentlich zugängliche Daten vs. personenbezogene Daten

§5 TMG: Die Grundlage für legales Web Scraping

Rechtliche Grundlage: Berechtigtes Interesse nach Art. 6 DSGVO

Praktische Anforderungen für DSGVO-Konformität

Praktisches Code-Beispiel: Daten mit DACH Enrichment API auslesen

Grenzen: Was beim Web Scraping nicht erlaubt ist

Bereit loszulegen?