„Text + Data Mining“ und die Zulässigkeit der Verwendung von Daten von Internetseiten

Der LAION- Prozess zieht in Hamburg viel Aufmerksamkeit auf sich. Abstrakt müssen KI- Modelle mit Daten erstellt und verbessert werden. Die günstigste Art, an Daten, Programme oder Dateien, sprich elektronisch manifestierte Informationen, heranzukommen, bietet das Internet.

Der Interessenkonflikt ist vorbezeichnet: Die Inhaber der Schutzrechte, also Texter, Programmierer, Fotografen, Grafiker etc. möchten nicht, dass die Inhaber der KI unter Zuhilfenahme von den Daten der Vorgenannten ein Produkt erstellen, dass sich zunehmend mit ihren eigenen Produkten in Wettbewerb befindet. Auch Google musste erst mittels Gesetzen dazu gezwungen werden, anzuerkennen, dass die Menschen die Plattform Youtube nicht besuchen, um fortwährend Werbung zu sehen, sondern wegen der Inhalte, die auf Youtube geladen werden. Und weil der Content, den man auf Youtube sehen kann, urheberrechtlich geschützt ist, kann Youtube nicht einfach unter Verwendung dieses Contents Geld verdienen und die Werkschaffenden gehen leer aus.

Genauso ist die Lage im Falle von KI- Herstellern oder Betreibern. Allein der Wille, mit KI Geld zu verdienen oder Kosten zu sparen, rechtfertigt noch nicht die Verwendung des urheberrechtlich geschützten Materials.

Fragen, die in dem Verfahren eine Rolle spielen:

Dürfen KI- Bots die Inhalte einer Website vervielfältigen um KI- Modelle zu trainieren? Und wie kann man sich auf juristische Weise das Recht vorbehalten, dass die Daten auf einer Website vor der Ausbeutung durch KI geschützt sind?

Systematik des Gesetzes

Es sage keiner, dass man damit rechnen müsse, dass die Dinge, die im Internet „frei zu sehen sind!“ auch zu Zwecken von KI Analysen und Modelverbesserungen einfach so genutzt werden dürfen. Grundsätzlich gibt es Nutzungsarten für urheberrechtlich geschützte Werk, die unter dem einem Verbotsvorbehalt des Gesetzgebers stehen. Dazu gehört das Recht der Vervielfältigung (also das Recht dazu, Kopien anzufertigen).

Der Gesetzgeber des Urheberrechts hat immer einen Konflikt aufzulösen. Auf der einen Seite stehen die Rechte und Interessen der Allgemeinheit daran, dass bestimmte Werke nicht monopolisiert werden; und auf der anderen Seite das Interesse des Urhebers, sein geistiges Eigentum allein kommerziell ausnutzen zu können.

Der Gesetzgeber löst diesen Interessenkonflikt so auf, dass er im ersten Schritt sagt: Nur bestimmte Nutzungs- und Verwertungsarten können überhaupt verboten werden.

Das, was KI- Bots mit einer Website machen, ist eine urheberrechtlich relevante Nutzungshandlung, die Bots vervielfältigen die Inhalte der Website.

Der zweite Schritt des Gesetzgebers besteht darin, Handlungen, die bestimmten Zwecken dienen, wieder aus der allgemeinen Verbotsbefugnis des Rechteinhabers herauszunehmen. Also: Grundsätzlich darf ich ein Computerprogramm nicht ohne Zustimmung des Rechteinhabers kopieren (§69c Nr.1 UrhG), aber wenn ich das tue, um eine Sicherungskopie zu erstellen, kann mir das auch nicht vom Rechteinhaber verboten werden.

Man spricht hier von einer Schranke der rechtlichen Befugnis des Rechteinhabers.

§ 44b UrhG, Schranke

Im Bereich des Text- und Data- Mining (TDM) übernimmt unter anderem der § 44b UrhG die Funktion der Schranke und erlaubt die Vervielfältigung von urheberrechtlich geschützten Werken für die Zwecke des TDM, also die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen über Muster, Trends und Korrelationen zu gewinnen.

Zwischen den Juristen besteht zwar noch Streit darüber, ob der § 44b UrhG auch die Verwendung des Materials für die Zwecke von KI- Trainings erfasst, aber man wird das wegen der Umsetzung des Art 4 der DSM- Richtlinie bejahen müssen. Die EU hat genau diesen Konflikt gesehen und bestimmt, dass die Nationalstaaten diesen Konflikt unter Beachtung der Rechte der Urheber regeln müssen und Deutschland hat das im Art 44b UrhG auch gemacht, auch wenn der sprachlich verunglückt sein dürfte.

Schrankenvorbehalt

Nun reicht es aber für den Gesetzgeber nicht aus, zu sagen: Sofern die Daten auf einer Website für ein KI- Training verwendet werden, dann muss das eben jeder, der in Deutschland eine Website betreibt, dulden. Der deutsche Gesetzgeber knüpft ferner an die Zulässigkeit eine zweite Voraussetzung unter dem § 44 Abs.3 UrhG , nämlich, dass der Rechteinhaber nicht von der Möglichkeit Gebrauch gemacht hat, einen Vorbehalt zu erklären.

Vorbehalt

Die Vervielfältigung von Daten einer Website ist nur dann zulässig, wenn das a.) zu Zwecken des Trainings einer KI geschieht und b.) wenn der Rechteinhaber nicht wirksam erklärt hat, diese Nutzung nicht dulden zu wollen.

Wie erklärt der Rechteinhaber wirksam, nicht mit der Nutzung der Inhalte der Website einverstanden zu sein?

Erstens:

Der Rechteinhaber selbst und nicht ein Dritter muss diesen Vorbehalt geltend machen. Das ist also für Websites zu berücksichtigen, die auch Inhalte von anderen Werkschaffenden im Internet präsentieren.

Zweitens:

Nach dem deutschen Recht (nicht nach dem Art 4 DSM) muss der Vorbehalt in maschinenlesbarer Form vorhanden sein.

Was das jetzt genau ist, weiß im Moment noch niemand. Auch in AGBs oder im Impressum einer Website erklärte Vorbehalte in Form eines Sprachtextes könnten diese Anforderung erfüllen, weil ja der Text auf einer Website durch ein Programm lesbar ist.

Möglich sind auch Informationen in HHTP Headern, die als Antwort auf eine Anfrage geschickt werden und die klar sagen: Hier darf keine AI ihre Daten sammeln.

Besser aber sind Vorbehalte in Form von „robots.txt“ -Vorbehalten oder unter Verwendung von Tools, die dem Crawler gleich auf „computerisch“ erklären, dass eine Verwendung der Inhalte der Website nicht erlaubt ist.

Wichtig ist, dass diese Daten standardisiert sind und jeweils dem Inhaber der KI auch die Möglichkeit geben, zu erkennen, dass er keine Daten der Website erfassen soll.

Am Schluss dieses Blogs: Raten Sie mal? Die neuen Texte unserer Website beinhalten einen robots.txt Hinweis und den Sprachhinweis:

PLEASE NOTE:

The Usage of any content (text, images, programs, data, etc.) on this website is reserved and not allowed for commercial and text data mining, § 44b UrhG. The use of robots and any other automated and electronic devices to access our websites or collect any data stored on these without the express permission is strictly prohibited.

Weitere Beiträge

Open Source Compliance Teil IV

3.4.2 Einschränkungen 3.4.2.1 Kompatibilität Gerade im Bereich der Kompatibilität der Lizenzen muss man aufpassen. Jede der Lizenzen erlaubt eine Nutzung der Software nur unter Beachtung der eigenen Regelungen. Deshalb entsteht dann, wenn die Komponenten nicht sauber technisch und vertrieblich getrennt

Stefan G. Kramer 23. Januar 2025

Open Source Compliance Teil III

3. Inhalt des Systems, Inhaltsverzeichnis von Dateien und Komponenten Man prüfe im Schritt 1, welche Komponenten in einem System verwendet werden und zwar inklusive aller Subroutinen.Der Aufwand, der hier zur treiben ist, hat zu einer Trennung von mir und einer

Stefan G. Kramer 22. Januar 2025

Open Source Compliance Teil II

1.3 Compliance im Hinblick auf das Urheberrecht / gewerbliche Schutzrechte Dann gibt es die rechtliche Compliance, die das Urheberrecht und den gewerblichen Rechtsschutz (also Patent, Markenrecht etc.) betrifft. Im Laiendeutsch: Die Kontrolle dafür, dass man die Software auch rechtlich wie

Stefan G. Kramer 21. Januar 2025

„Text + Data Mining“ und die Zulässigkeit der Verwendung von Daten von Internetseiten

Weitere Beiträge

Open Source Compliance Teil IV

Open Source Compliance Teil III

Open Source Compliance Teil II

Rechtliches

Kontakt