Darf KI Nutzerdaten zu Trainingszwecken sammeln?

KI-Tools müssen mit Informationen befüllt und trainiert werden, die aus im Internet gesammelten Rohdaten bestehen und für die jeweilige KI aufbereitet wurden. Dieses Sammeln von Texten, Bildern, Tabellen, Musiksequenzen und Videos wird als Scraping oder Crawling bezeichnet. Eine Differenzierung zwischen Daten mit und solchen ohne Personenbezug ist technisch bedingt nahezu ausgeschlossen. Die betroffenen Personen erhalten bei dieser Art der Datensammlung hiervon auch keine Kenntnis und ein Einwilligungsmechanismus scheidet von vorneherein aus.

Durch das umfassende und nur allenfalls grob filterbare Sammeln von Daten werden idR auch Datensätze mit Personenbezug eingesammelt. Dieser Vorgang stellt ein automatisiertes Datenverarbeitungsverfahren dar. Daraus folgt, dass der für die Sammlung Verantwortliche auch im Sinne der DSGVO Verantwortlicher ist. Auch greift das allgemeine „Verarbeitungsverbot mit Erlaubnisvorbehalt“ der DSGVO.

Die Einwilligung als Erlaubnistatbestand entfällt, da die Betroffenen ihre Einwilligungen systembedingt schon deswegen nicht abgeben können, weil sie nicht wissen, auf welche Daten sich jeweils welche der generell vorstellbaren Verarbeitungsformen beziehen. Entsprechende Datenschutzhinweise können vom verantwortlichen Verarbeiter schon mangels Kenntnis der konkreten eingesammelten Inhalte nicht erteilt werden. Erstverarbeitung und Weiterverarbeitung erfolgen daher ohne Einwilligung – sie wäre für KI-Trainer und KI-Anbieter auch nutzlos, da durch die jederzeitige Widerruflichkeit die weitere Folge der Pflicht zur vollständigen (logischen und physikalischen) Löschung eintreten würde.

Demnach können KI-Verarbeitungen ihre Legitimation nur aus einem berechtigten Interesse (Art. 6 Abs. 1 lit. f DSGVO) beziehen. Dem ideellen Entwicklungs- und Erkenntnisinteresse an KI-Modellen und dem wirtschaftlichen Interesse an deren Anwendung und Auswertung ist das Betroffeneninteresse an Privatheit, Transparenz, (kontextgetreue) Datenrichtigkeit und Hoheit über die Verarbeitungsvorgänge des Betroffenen gegenüber zu stellen. Letzteres tritt bei freiwillig frei zugänglich veröffentlichten Daten im Internet idR zurück.

Insofern ist eine Datensammlung zur Erstellung von Trainingsdatensätzen auf der Grundlage eines berechtigten Interesses grundsätzlich möglich. Keine Rechtfertigung besteht insoweit jedoch für die Einsammlung von Daten von besonderer Sensibilität (Art. 9 DSGVO). Hier sind technische und organisatorische Maßnahmen zu treffen, um Rechtsverstößen, bspw. durch Veröffentlichung gegen den Willen der betroffenen Personen, vorzubeugen mittels bspw. Filtersoftware.

Eine Informationspflicht aufgrund der Erhebung solcher Daten bei Dritten entfällt, da sie einen unverhältnismäßigen wenn nicht unmöglichen Aufwand bedeuten würde. Sie wird ersetzt durch allgemein gehaltene Datenschutzhinweise über mögliche Datenkategorien, typisierte Verarbeitungsabläufe und zugehörige Zwecke.

Ungeachtet dessen besteht das Auskunfts- und Kopierecht des Art. 15 DSGVO fort. Es bedarf insoweit der Entwicklung spezieller Tools, um zu überprüfen, ob die angefragten personenbezogenen Informationen Teil der Trainings- bzw. Nutzungsdatensätzen von KI-Generatoren sind.

Darf die KI im Hintergrund Nutzerdaten zu Trainingszwecken sammeln?