ChatGPT und seine Verwandten sind in aller Munde. Aus Juristenkreisen wünscht man sich derzeit eine Antwort darauf, wie mit den von KI-basierten Chat-Tools generierten Inhalten und den dabei verwendeten Grundlagen aus rechtlicher und insbesondere aus urheberrechtlicher Perspektive zu verfahren ist. In meinem letzten Beitrag hier auf dem Management & Law-Blog habe ich dazu ein Interview mit ChatGPT geführt. Gleichzeitig habe ich versprochen, in einem zweiten Blog-Beitrag die Ausführungen von ChatGPT mit einer eigenen juristischen Analyse zu ergänzen. Hier folgt nun also mein Versuch einer urheberrechtlichen Einordnung ohne künstliche Intelligenz – aufwändiger, länger und komplizierter, aber vielleicht auch ein wenig differenzierter als die erste KI-generierte Einschätzung.
Erste Station meiner Recherchen sind die Nutzungsbedingungen (Terms of Use [beachte Hinweis Dezember 20231]) sowie die weiteren zugehörigen Dokumente von ChatGPT-Anbieterin OpenAI: Finden sich darin Bestimmungen betreffend die immaterialgüterrechtliche Situation?
Ja, unter anderem in Art. 3 der Terms of Use. Dort ist zu lesen, dass die Verantwortung insbesondere hinsichtlich der Einhaltung aller anwendbaren Gesetze sowohl für das, was man als Nutzerin oder Nutzer bei ChatGPT eingebe, als auch für das, was ChatGPT dann daraus generiere, bei einem selbst liege. Zudem findet sich hier ein Passus, mit dem OpenAI den Nutzenden alle Rechte am jeweils generierten Output abtritt: Als Nutzerin oder Nutzer könne man somit die Inhalte für jegliche Zwecke verwenden, auch für solche kommerzieller Natur wie die Veräusserung oder die Veröffentlichung, sofern man dabei die Nutzungsbedingungen einhalte. Mit Blick auf diese gemäss Nutzungsbedingungen erlaubte Verwendung der Inhalte ist überdies die Sharing & Publication Policy relevant. Dort wird unter anderem vorgeschrieben, dass bei Inhalten, an denen ChatGPT oder eine andere OpenAI-Anwendung als «Co-Autor» mitgewirkt hat, deren Rolle offenzulegen sei.
Gleichzeitig behält sich OpenAI vor, eingegebene und generierte Inhalte selbst zu verwenden, und zwar für das Angebot und die Aufrechterhaltung ihrer Dienstleistungen sowie zur Einhaltung von anwendbaren Gesetzen und zur Durchsetzung der Nutzungsbedingungen. Nicht hingegen sollen die Inhalte für die Weiterentwicklung oder Verbesserung der Dienstleistungen von OpenAI genutzt werden, so die Nutzungsbedingungen.
Dass das Urheberrecht bei ihrem Geschäft gegebenenfalls problematisch sein könnte, scheint übrigens auch OpenAI selbst erkannt zu haben: In Art. 9 (d) der Terms of Use werden Kontaktadresse und -formular für «Copyright Complaints» zur Verfügung gestellt.
Die erläuterten Bestimmungen regeln gewisse Aspekte, die aus urheberrechtlicher Perspektive relevant sind. Sie lassen aber ganz grundlegende Fragen offen: So weiss man nach dem Studium der Standardklauseln beispielsweise zwar, dass man als Nutzerin oder Nutzer scheinbar dafür verantwortlich wäre, wenn die KI-generierten Inhalte Rechte Dritter verletzten. Inwiefern dies allerdings, etwa im Rahmen des Trainings von ChatGPT, passieren kann oder passiert (ist), bleibt unbeantwortet. Ebenfalls erfährt man, dass OpenAI einem alle Rechte abtritt. Damit ist allerdings genau besehen nicht gesagt, ob an den von ChatGPT generierten Inhalten überhaupt irgendwelche Rechte bestehen (können), wem diese zustehen und wer sie folglich jemand anderem abtreten könnte. Für eine umfassendere urheberrechtliche Einordnung sind somit über die OpenAI-Nutzungsbedingungen hinaus weitere Quellen heranzuziehen.
KI-gestützte Modelle wie ChatGPT werfen diverse urheberrechtliche Fragen auf. Als Nutzerin oder Nutzer interessiert man sich dabei primär für den Output: Ist das, was durch ChatGPT generiert wird, urheberrechtlich geschützt? Wenn ja, wem steht das Urheberrecht zu? Und kann der Output von ChatGPT auch seinerseits Urheberrechte verletzen? Was gilt dann?
Die urheberrechtlichen Fragen beginnen aber genau besehen nicht erst beim Output, den ChatGPT produziert. Damit Tools wie ChatGPT derart bemerkenswert gewandten Textoutput liefern können, wie sie es tun, müssen sie vorher mit einer Unmenge von Input etwa in Form von Büchern, Artikeln oder Webseiten trainiert werden – mit Material also, an dem gegebenenfalls auch Urheberrechte bestehen. Wie sind die Vorgänge, die notwendig sind, damit ChatGPT Output generieren kann, urheberrechtlich zu beurteilen? Kann bereits das Training von ChatGPT eine Urheberrechtsverletzung darstellen?
Widmen wir uns zuerst der output-bezogenen Frage nach der urheberrechtlichen Behandlung der von ChatGPT generierten Inhalte, die – so viel sei vorweggenommen – einfacher zu beantworten ist als jene rund um Input und Training.
Was unter welchen Voraussetzungen urheberrechtlich geschützt ist, bestimmt – abgesehen von einzelnen internationalen Verträgen – jeder Staat autonom in seinen Urheberrechtsgesetzen (vgl. nachfolgende Box).
In diesem Beitrag werden die urheberrechtlichen Fragen rund um ChatGPT der Einfachheit halber primär unter Beizug schweizerischen Rechts beleuchtet. Dies ist genau betrachtet etwas vorschnell. Denn angesichts der globalen Bezüge, welche Vorgänge rund um ChatGPT aufweisen, müsste an sich zuerst bestimmt werden, welches Recht eigentlich anwendbar ist. Betreiberin von ChatGPT ist das US-amerikanische Unternehmen OpenAI, die Nutzerinnen und Nutzer können sich irgendwo auf der Welt aufhalten. Die Trainingsdaten stammen aus unzähligen Quellen, mithin von Urheberinnen und Urhebern, die sich ihrerseits in unzähligen Rechtsordnungen befinden. Und die Vorgänge, um die es geht, spielen sich vorab im Internet ab, also an einem «Ort» ohne direkten Bezug zu einer spezifischen Rechtsordnung.
Welches Recht auf urheberrechtliche Fragen rund um ChatGPT Anwendung findet, lässt sich nicht pauschal beantworten. Während im Kontext der Nutzungsbedingungen von OpenAI eine Rechtswahl zugunsten des kalifornischen Rechts unter Ausschluss kollisionsrechtlicher Bestimmungen vorgesehen wird (vgl. Art. 9 (l) der Terms of Use), dürfte es, beispielsweise wenn es nicht um Ansprüche von oder gegen OpenAI geht, auch Fragestellungen geben, für die ein angerufenes Gericht das anwendbare Recht unter Anwendung des Kollisionsrechts seines eigenen Staates bestimmt. Welches dies ist, hängt davon ab, welche spezifische Frage in welcher konkreten Sachverhaltskonstellation zu beantworten ist. Geht es im Kern um eine vertragsrechtliche Angelegenheit, wird das Kollisionsrecht beispielsweise anders anknüpfen, als wenn es etwa um Bestand und Inhalt eines immaterialgüterrechtlichen Anspruchs geht. Entsprechend ist für jede konkrete Fragestellung das anwendbare Recht jeweils vorab im Einzelnen zu klären.
Die Prinzipien gerade im Urheberrecht gleichen sich freilich in den meisten Rechtsordnungen, sodass man auch bei Anwendung eines anderen als schweizerischen Rechts zu ähnlichen wie den hier dargestellten Einschätzungen gelangen dürfte.
In der Schweiz ist primär das Bundesgesetz über das Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz, URG) einschlägig. Dass man in diesem von 1992 stammenden Erlass keine ausdrücklichen Regeln zu künstlicher Intelligenz und dergleichen findet, versteht sich von selbst. Nichtsdestotrotz lässt sich die Frage nach der urheberrechtlichen Schutzfähigkeit von KI-generierten Inhalten unter Rückgriff auf das URG und die dazu entwickelte Praxis beantworten. Gemäss Art. 2 Abs. 1 URG schützt das Urheberrecht sogenannte Werke, d.h. geistige Schöpfungen der Literatur und Kunst, die individuellen Charakter haben. Darunter fallen etwa literarische, wissenschaftliche und andere Sprachwerke (Art. 2 Abs. 2 URG). Allerdings müssen sie, um schutzfähig zu sein, dem menschlichen Geist entsprungen sein und eine gewisse Originalität, eben individuellen Charakter, aufweisen (vgl. etwa BGE 74 II 112; vgl. auch Box «Urheberrechtsschutz – Das Wichtigste in Kürze»).
Für die urheberrechtliche Schutzfähigkeit des Outputs von ChatGPT bedeutet dies zweierlei: Ein Urheberrecht kommt erstens zum Vornherein nur in Betracht, wenn eine kreative Leistung vorliegt. Zweitens muss diese kreative Leistung von einem Menschen erbracht worden sein, der dazu ChatGPT lediglich als Werkzeug eingesetzt hat. Ist ChatGPT nicht nur Hilfsmittel, sondern eigentlicher Schöpfer der kreativen Leistung, die ohne wesentliche menschliche Mitwirkung entstanden ist, besteht kein Urheberrechtsschutz.
In dieser Hinsicht stellen Tools wie ChatGPT, so bahnbrechend sie als Innovationen auch sein mögen, urheberrechtlich keine komplett neuen Herausforderungen dar: Denn Menschen setzten seit jeher Werkzeuge für die Erzeugung von Texten, Bildern und anderen Medien ein. Nun würde wohl niemand behaupten, ein Maler könne kein Urheberrecht an seinem Bild beanspruchen, da er Pinsel und Farbe verwendet habe – oder gar: das Urheberrecht stünde eigentlich dem Pinsel oder der Pinselfabrik zu. Schon etwas weniger absurd erscheint diese Argumentation, wenn es um Hilfsmittel wie Graphikprogramme oder eine Kamera geht. An letzterem Beispiel lässt sich die virulente Abgrenzungsthematik gut illustrieren: Platziert eine Fotografin ihre Kamera bewusst mit einer ganz bestimmten Ausrichtung an einem ganz bestimmten Ort und lässt diese dann zu ganz bestimmten von ihr gewählten Zeitpunkten automatisch eine Fotoserie erstellen, liegt die kreative Leistung wohl bei der Fotografin. Aber schiesst eine Überwachungskamera in regelmässigen Abständen Fotos, liegen keine urheberrechtlich geschützten Werke mehr vor, selbst wenn die Bilder im Einzelfall durchaus originell sein mögen (vgl. etwa Egloff, W. (2020). Kommentierung zu Art. 2 URG, N 2 und N 35, Kommentar zum Bundesgesetz über das Urheberrecht und verwandte Schutzrechte (4. Aufl.). Bern: Stämpfli).
Bei Modellen wie ChatGPT akzentuiert sich somit eine bereits bekannte Abgrenzungsfrage. Für KI-generierte Inhalte wird inskünftig jeweils unter Berücksichtigung der konkreten Umstände des Einzelfalls zu bestimmen sein, ob eine hinreichende Mitwirkung eines Menschen bei der kreativen Leistung vorliegt, damit diese urheberrechtlich geschützt ist. Wo genau die Grenze liegt, wird die Praxis entwickeln müssen. Da das Urheberrecht gemäss Schweizer Konzeption automatisch mit der Schöpfung eines Werks entsteht und weder angemeldet werden muss noch angemeldet werden kann, dürfte dieses Austarieren hierzulande tendenziell mehr Zeit in Anspruch nehmen als etwa in den USA, wo eine Copyright-Anmeldung möglich und für eine spätere gerichtliche Durchsetzung sogar erforderlich ist. Das US Copyright Office hatte sich denn auch schon mit entsprechenden Anmeldungen zu befassen und hat beispielsweise einem Comic-Autoren ein Urheberrecht an den selbst geschriebenen Texten sowie an der Auswahl und Zusammenstellung von Text und Bildern zugesprochen, aber ein solches für die KI-generierten Bilder versagt (vgl. dazu «Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence» des US Copyright Office vom 16. März 2023).
Nach dem Gesagten aber jedenfalls originär keine urheberrechtlichen Ansprüche kommen ChatGPT selbst oder dem hinter dem Tool stehenden Unternehmen OpenAI zu. In diesem Sinne etwas irreführend erscheint der erwähnte Passus in den Terms of Use, wonach das Unternehmen den Nutzerinnen und Nutzern die Rechte am Output abtritt. Denn abtreten lässt sich selbstredend nur etwas, was einem einmal gehörte. Wenn überhaupt, könnte OpenAI nach der hier angewendeten, auf schweizerischem Urheberrecht basierenden Leseart lediglich Rechte abtreten, welche vertraglich aus dem Angebot des Tools entstanden sind.
Demgegenüber einleuchtend ist vor dem erläuterten urheberrechtlichen Hintergrund die Klausel, mit der sich OpenAI ein Nutzungsrecht an den eingegebenen und generierten Inhalten vorbehält – denn wie gesehen käme dem Unternehmen ein solches eben nicht automatisch zu, und es versucht nun, sich dieses über eine in den Terms of Use vorgesehene Lizenz einzuräumen.
Bis hierher ist das Ergebnis für Nutzerinnen und Nutzer von ChatGPT durchaus erfreulich: Die durch das Tool generierten Inhalte können aus urheberrechtlicher Sicht grundsätzlich frei verwendet werden, weil sie entweder gar nicht urheberrechtlich geschützt sind oder das Urheberrecht bei der Nutzerin bzw. beim Nutzer liegt. Einschränkungen ergeben sich aus den Nutzungsbedingungen bzw. der Sharing & Publication Policy von OpenAI lediglich dahingehend, dass eine Co-Autorschaft von ChatGPT entsprechend zu deklarieren ist.
Dies gilt allerdings nur unter einer gewichtigen Prämisse: Der von ChatGPT generierte Output kann nur insoweit frei verwendet werden, als er nicht seinerseits urheberrechtlich geschützte Inhalte aus anderen Werken übernimmt. Enthält der Output von ChatGPT Inhalte, an denen ein Dritter das Urheberrecht hat, sind diese Teile weiterhin geschützt. Für deren rechtmässige Verwendung sowohl durch ChatGPT als auch später durch dessen Nutzerin oder Nutzer wäre also eine Erlaubnis dieses Dritten oder eine gesetzliche Berechtigung (z.B. Privatgebrauch oder schulische Nutzung [Art. 19 URG], Zitatrecht [Art. 25 URG]) erforderlich.
Praktisch stellt dies Nutzende von ChatGPT vor eine Herausforderung, denn um keine Urheberrechtsverletzung zu begehen, müssten sie vorab jeweils ganz genau eruieren, ob und welche Teile im Output von ChatGPT von Dritten übernommen wurden. Wenn dies nicht entsprechend deutlich ersichtlich ist, besteht die Gefahr versehentlicher Urheberrechtsverletzungen durch die Nutzenden.
Das Urheberrecht schützt Werke, d.h. sogenannte geistige Schöpfungen der Literatur und Kunst, die individuellen Charakter haben (Art. 2 Abs. 1 URG). Dazu gehören Sprachwerke, Musik- und andere akustische Werke, Werke der bildenden Kunst und der Architektur, fotographische und filmische Werke sowie choreographische und darstellende Werke. Ebenfalls unter das Urheberrecht fallen Computerprogramme. Erforderlich für den urheberrechtlichen Schutz ist, dass die betreffende geistige Schöpfung einem menschlichen Geist entsprungen ist und, mit bestimmten Ausnahmen, dass sie eine gewisse Originalität aufweist.
Anders als die anderen Immaterialgüterrechte entsteht das Urheberrecht automatisch mit der Schaffung eines Werks, das die Schutzvoraussetzungen erfüllt, d.h. ohne dass eine Registrierung oder Hinterlegung erforderlich wäre (Art. 29 Abs. 1 URG).
Der urheberrechtliche Schutz erlischt grundsätzlich 70 Jahre nach dem Tod des Urhebers, bei Computerprogrammen und Fotographien ohne individuellen Charakter dauert er bis 50 Jahre nach dem Tod des Urhebers (Art. 29 Abs. 2 URG).
Das Urheberrecht vermittelt umfassende Exklusivrechte am Werk. Der Urheberrechtsinhaber hat unter anderem grundsätzlich das Recht zu bestimmen,…
…ob, wann, wie und unter welcher Urheberbezeichnung das Werk erstmals veröffentlicht werden soll (Art. 9 Abs. 2 URG),
…ob, wann und wie das Werk verwendet wird (z.B. Herstellen, Anbieten und Veräussern von Werkexemplaren, Zugänglichmachen, Verbreiten; Art. 10 URG),
…ob, wann und wie das Werk geändert werden oder zur Schaffung eines anderen Werks (Werke zweiter Hand, Sammelwerke) verwendet werden darf (Art. 11 URG).
Mindestens ebenso spannend wie der Output von generativen KI-Modellen ist aus urheberrechtlicher Sicht das, was notwendig ist, um überhaupt Output zu liefern – das Training. Bevor Tools wie ChatGPT zufriedenstellende Reaktionen auf Prompts jeglicher Art generieren können, müssen sie dies anhand von Trainingsdaten lernen. Dieser Lernprozess erfordert eine unvorstellbar grosse Menge an solchen Trainingsdaten. Bei der textbasierten ChatGPT3-Version handelt es sich bei diesen Daten um Textressourcen wie Bücher, Artikel, wissenschaftliche Arbeiten, Webseiten und dergleichen – also um Material, das vielfach urheberrechtlich geschützt ist.
Unproblematisch zulässig ist die Nutzung solchen Materials für das Training eines Modells dann, wenn eine urheberseitige Einwilligung vorliegt oder die Inhalte mit entsprechender Open Source-Lizenz publiziert wurden. Dass bei ChatGPT und ähnlichen Systemen aber ausschliesslich Quellen in das Training eingeflossen sind, bei denen vorgängig eine Erlaubnis eingeholt wurde oder die frei zur Verfügung gestellt wurden, ist bereits angesichts der schieren Menge an notwendigen Daten zu bezweifeln.
Wurde allerdings urheberrechtlich geschütztes Material ohne Einwilligung oder Open Source-Lizenz verwendet, stellt dies potenziell eine Urheberrechtsverletzung dar, es sei denn, es liesse sich entweder argumentieren, dass das, was im Rahmen des Trainings mit den Ressourcen geschehe, kein urheberrechtlich relevanter Vorgang sei, oder, dass man sich dafür auf eine andere Berechtigung als die Zurverfügungstellung durch den Urheberrechtsinhaber – sprich auf eine Ausnahmeregel – berufen könne. Diese beiden Argumentationslinien gilt es getrennt zu betrachten.
Um zu eruieren, ob das Training von ChatGPT urheberrechtlich relevant ist, muss man sich vorab kurz damit befassen, was im Rahmen ebendieses Trainings mit den betreffenden Ressourcen passiert. Eine umfassende und verständliche Erläuterung dazu gibt Prof. Dr. Marc Pouly, KI-Experte an der Hochschule Luzern – Informatik, in diesem Video.
Für die Zwecke einer urheberrechtlichen Betrachtung müssen wir freilich nicht ganz so tief eintauchen, sondern es genügt ein stark vereinfachtes Verständnis. Generative KI-Systeme sind Machine Learning-Modelle. ChatGPT beispielsweise ist ein Sprachmodell, das darauf trainiert wurde, mittels statischer Methoden dasjenige Wort vorauszusagen, das in einem Satz mit der grössten Wahrscheinlichkeit auf eine bestimmte Reihe vorangehender Wörter folgt. Bis ChatGPT in diesen Prognosen so treffsicher war, wie er es heute ist, hat er mehrere Trainingsphasen durchlaufen (vgl. das Video von Marc Pouly ab ca. 14:20). Aus Urheberrechtsperspektive relevant ist primär die erste Phase, das sog. Pre-Training: Bei ChatGPT wurden in diesem ersten Schritt rund 45 Terabyte an online vorhandenen Textdaten verwendet. Diese Unmengen von Webseiten, Artikeln, Büchern und dergleichen wurden in einer hochspezialisierten Cloud-Infrastruktur gespeichert. Dann wurden die Texte – untechnisch formuliert – in einzelne Sätze zerlegt, und die Sätze wiederum wurden an zufälligen Stellen abgeschnitten, um damit das Modell zu «füttern», welches die Aufgabe hatte, das fehlende nächste Wort vorauszusagen. Um die Fähigkeiten des Modells zu optimieren, wurde die Richtigkeit seiner Vorhersagen ausgewertet und wiederum in die Parameter des Prognosealgorithmus’ eingepflegt.
Bislang gibt es keine wissenschaftliche Veröffentlichung von ChatGPT-Anbieterin OpenAI, welche die Vorgänge beim Training ganz genau beschreiben würde. Aber die vorstehenden Ausführungen zeigen, dass für das Training auf jeden Fall eine Datenbank angelegt wird und Materialien darin gespeichert werden, was ein Kopieren derselben bedeutet. Und schliesslich werden die Materialien im beschriebenen Sinne zerlegt und genutzt.
Darüber, ob dies ein urheberrechtlich relevanter Umgang ist, besteht in der juristischen Praxis keine Einigkeit. Eine gerichtliche Klärung steht noch aus; erste Gerichtsverfahren, insbesondere in den USA und Grossbritannien, sind jedoch bereits hängig (vgl. für einen Überblick etwa Hunter, C., Trivun, M., Toth, L. & Hospedales, C. (9. März 2023). Does Generative AI Need to Infringe Copyright to Create? Lexology (online)). Letztlich dürfte die Beurteilung dieser Frage unter anderem wesentlich von dem anwendbaren Recht abhängen (vgl. Box «Das Urheberrecht welchen Staates ist überhaupt auf ChatGPT anwendbar?»). Bisweilen wird die Meinung vertreten, das Training von KI sei per se nicht urheberrechtlich relevant, da es letztlich nicht zu einem Werkgenuss führe. Diese Auffassung überzeugt nach der hier vertretenen Ansicht nur sehr bedingt, zumindest wenn man die sehr breiten Umschreibung des Exklusivrechts gemäss Schweizer Recht (und dieses stimmt in diesem Aspekt mit vielen ausländischen Rechtsordnungen überein) zugrunde legt. Denn dieses unterstellt grundsätzlich fast jede Verwendung eines urheberrechtlich geschützten Werks, und insbesondere das Vervielfältigen, dem Ermessen des Inhabers (vgl. Box «Urheberrechtsschutz – Das Wichtigste in Kürze»).
Die Argumentation, das Training eines KI-Systems sei urheberrechtlich nicht relevant, erscheint damit zumindest riskant. Und so erstaunt es denn auch nicht, dass OpenAI sich in erster Linie darauf beruft, dass die Trainingsmaterialien gestützt auf Ausnahmetatbestände verwendet werden dürften. Primär wird dabei auf die sogenannte Fair Use-Doktrin verwiesen.
Fair Use
Diese dem US-amerikanischen Recht entstammende Rechtsfigur erlaubt bestimmte, an sich verbotene Nutzungen urheberrechtlich geschützter Werke, wenn sie als – wörtlich übersetzt – angemessene oder redliche Verwendung qualifiziert werden können. Um zu bestimmen, ob eine gewisse Nutzung «fair» ist, werden neben der Art des Werks insbesondere folgende Faktoren berücksichtigt (vgl. zum Ganzen etwa Helms, S. & Krieser, J. (März 2023). Copyright Chaos: Legal Implications of Generative AI. Bloomberg Law [online]):
Eine generelle Anwendung der beschriebenen Kriterien auf den ChatGPT-Kontext ohne Bezugnahme auf einen konkreten Einzelfall fällt schwer. Zwar lässt sich angesichts der Funktionsweise von ChatGPT festhalten, dass bei jedem einzelnen Werk für sich allein genommen wohl häufig eine lediglich untergeordnete Werksverwendung stattfindet und eine erhebliche wirtschaftliche Beeinträchtigung schwierig zu erstellen sein dürfte. Auch handelt es sich bei OpenAI – wohl nicht ganz zufällig – um eine Non-Profit Organisation, die sich der KI-Forschung und -Anwendung verschrieben hat. Kritische Stimmen sehen in dieser Praxis Parallelen zur Geldwäscherei, denn faktisch würden Forschungsinstitutionen vorgeschoben, um Datensätze zu kreieren und damit KI-Systeme zu trainieren, die später in kommerziellen Anwendungen genutzt werden könnten (vgl. etwa folgenden Artikel aus einem amerikanischen Tech-Blog: Baio, A. (30. September 2022). AI Data Laundering: How Academic and Nonprofit Researchers Shield Tech Companies from Accountability. Waxy (online)). Jedenfalls wurde die bereits sehr alte Fair Use-Doktrin selbstredend nicht für Machine Learning-Anwendungen geschaffen. Ob beim KI-Training ihr Anwendungsrahmen überstrapaziert wird, wird aktuell kontrovers diskutiert. Vor allem in den USA und Grossbritannien sind bereits diverse Urheberrechtsklagen im Zusammenhang mit der Nutzung generativer KI hängig, die hierzu eine erste Klärung liefern werden (vgl. Hunter, C., Trivun, M., Toth, L. & Hospedales, C. (9. März 2023). Does Generative AI Need to Infringe Copyright to Create? Lexology (online)).
Text und Data Mining und weitere Ausnahmeregeln in der Schweiz und der EU
In der Schweiz, wie etwa auch in der EU, gibt es die erläuterte Fair Use-Doktrin nicht. Jedoch bestehen auch hierzulande Ausnahmetatbestände, deren Anwendbarkeit sich im Kontext des KI-Trainings diskutieren lässt.
Beispielweise dürfen urheberrechtlich geschützte Werke auch ohne Einwilligung des Rechteinhabers im privaten, schulischen und organisationsinternen Bereich verwendet werden (Art. 19 URG). Unter diesen sog. Eigengebrauch wird das professionelle Trainieren von KI-Modellen aber kaum je fallen. Auch lassen sich die betreffenden Vorgänge wohl nicht unter Art. 24a URG fassen, der die vorübergehende Speicherung bzw. Vervielfältigung urheberrechtlich geschützten Materials erlaubt, welche bei einer digitalen Werksübertragung (etwa im Zusammenhang mit Streaming und Up-/Download) rein technisch bedingt zwangsläufig erforderlich ist (vgl. etwa Rehbinder, M., Haas, L. & Uhlig, K. (2022). Kommentierung zu Art. 24a URG, N 1 ff., Orell Füssli-Kommentar: Urheberrechtsgesetz mit weiteren Erlassen und internationalen Abkommen (4. Aufl.). Zürich: Orell Füssli).
Am besten auf die Trainingsprozesse von ChatGPT und Co. zugeschnitten erscheint die Ausnahmeregelung für Text und Data Mining. Unter Text und Data Mining versteht man – wiederum relativ untechnisch beschrieben – Verfahren, mit welchen in digitaler Form vorliegende Informationen wie Texte, Töne, Bilder oder Daten automatisch verarbeitet und ausgewertet werden können, um neue Erkenntnisse zu gewinnen und Zusammenhänge sowie Trends zu erkennen (vgl. die Definitionen in der Botschaft zur Änderung des schweizerischen Urheberrechtsgesetzes vom 22. November 2017, BBl 2018 591 ff., 602 f. und 690, sowie in Erwägung (8) der Richtlinie EU/2019/790 vom 17. April 2019 (sog. Digital Single Market-Directive); vgl. zum Ganzen etwa bereits Brändli, S. (2015). Data Mining als Forschungsmethode: Die Probleme des Grabens nach Datengold, in: S. Brändli, R. Harasgama, R. Schister & A. Tamò (Hrsg.), Mensch und Maschine – Symbiose oder Parasitismus?, Bern 2015; ferner: Hartmann, D. (2023). Text and Data Mining and Copyright in Switzerland and the European Union, sic! 3/2023, S. 157 ff.; Graf, M. & Schmidt, K. J. (2017). Data Mining und wissenschaftliche Forschung – de lege lata und de lege ferenda, sui generis 2017, S. 185 ff.). Solche Verfahren erfordern grosse Mengen an technisch bedingten, aber (anders als unter Art. 24a URG) nicht lediglich vorübergehenden Vervielfältigungen. Gemäss den Ausnahmebestimmungen von Art. 24d URG (Schweiz) bzw. Art. 3 und Art. 4 Richtlinie EU/2019/790 (EU) dürfen sie unter bestimmten Voraussetzungen auch ohne Zustimmung des Rechteinhabers auf urheberrechtlich geschütztes Material angewendet werden.
Art. 24d URG erlaubt die urheberrechtlich relevanten Vorgänge im Rahmen des Text und Data Mining, wenn sie zum Zweck der wissenschaftlichen Forschung erfolgen und zu den betreffenden Werken ein rechtmässiger Zugang besteht. Eine ähnliche Wissenschaftsschranke kennt Art. 3 Richtlinie EU/2019/790; allerdings gilt diese nur für eigentliche Forschungsinstitutionen, während Art. 24d URG nicht auf einen bestimmten Organisationstyp beschränkt ist und bewusst etwa auch die kommerzielle Forschung einschliessen soll (vgl. Botschaft zur Änderung des schweizerischen Urheberrechtsgesetzes vom 22. November 2017, BBl 2018 591 ff., 602 f.).
Demgegenüber weitergehend als das Schweizer Recht sieht die EU mit Art. 4 Richtlinie EU/2019/790 zusätzlich eine allgemeine (nicht auf Forschungstätigkeiten beschränkte) Ausnahme für Text und Data Mining-Aktivitäten vor: Diese sind auch ausserhalb der Forschung erlaubt, es sei denn, die jeweiligen Rechteinhaber hätten an ihren online zugänglichen Inhalten einen maschinenlesbaren Vorbehalt angebracht. In diesem Sinne können und müssen Rechteinhaber in der EU ihre digital publizierten Werke mit einem entsprechenden Verbot versehen, wenn sie sie vor (nicht-wissenschaftlichem) Text und Data Mining schützen wollen.
Wenn und soweit also das Training von KI-Modellen wie ChatGPT Text und Data Mining darstellt, kann es zumindest im Forschungsbereich urheberrechtlich einwilligungslos zulässig sein. Aber, wie bereits im Kontext der Fair Use-Doktrin gesehen, sind die Grenzen von Forschung und Wissenschaft in diesem Kontext schwierig zu definieren. Gerade bei zunehmender Verbreitung von zukünftig auch rein kommerziellen Anwendungen erscheint fraglich, ob eine unbesehene Anwendung dieser Ausnahmeregel adäquat ist. Neben einer potenziellen Überdehnung des Forschungsbegriffs kann aber auch bereits viel grundlegender zur Diskussion gestellt werden, ob überhaupt alle Prozesse, welche im Rahmen des Trainings von ChatGPT und Co. erforderlich sind, vom Begriff des Text und Data Mining erfasst sind: Ist das Training von ChatGPT «nur» reines Text und Data Mining? Oder sprengt es diesen Rahmen ohnehin, sodass die betreffende Ausnahmeregel selbst bei solchen künstlichen Intelligenzen, die unstreitig einzig Forschungszwecken dienen, nur bedingt weiterhilft? Diese komplexen und in Rechtsprechung und Literatur nach wie vor unbeantworteten Fragen können und sollen auch hier nicht abschliessend geklärt werden. Sie illustrieren exemplarisch, dass, gerade was das Training von KI-Tools angeht, rechtlich noch sehr vieles offen ist.
Im besten Fall konnten die vorstehenden Ausführungen einen Überblick über die sich derzeit im Kontext von generativen KI-Modellen stellenden urheberrechtlichen Fragen und die diskutierten Antwortansätze geben. Nicht nur im Urheberrecht, sondern auch in anderen Rechtsbereichen wie etwa dem Datenschutz werfen die neuen Technologieanwendungen diverse Fragen auf. Bei deren komplexer Erörterung kommen bisweilen Zweifel auf, ob sie allein mit den Regeln und Instrumenten des bestehenden Rechts angemessen adressiert werden können. Es gibt Stimmen, die finden, man müsse etwa Urheberrecht angesichts der neusten Entwicklungen rund um KI neu denken, und es werden neue Regulierungen gefordert – auch dies übrigens nicht nur im Bereich des Urheberrechts. Die EU ist hier mit dem im April 2021 von Parlament und Rat verabschiedeten Vorschlag für eine Verordnung zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz (sog. KI-Verordnung) aktiv geworden. In der Schweiz sind keine entsprechenden Gesetzgebungsbestrebungen hängig.
Man mag geteilter Meinung sein, ob der bestehende rechtliche Rahmen technologieneutral auch auf generative KI-Modelle angewendet werden kann oder ob neue Regulierung – und wenn ja, auf welcher (staatlichen oder internationalen) Ebene – nötig ist. Was aber auf jeden Fall nötig ist, ist eine bewusste und differenzierte Auseinandersetzung mit den juristischen Dimensionen der Thematik. Im Urheberrecht etwa gilt es dabei, die berechtigten Interessen des Schutzes von Kreativität und der Förderung von Innovation zu berücksichtigen, aber gleichzeitig auch den technischen Möglichkeiten und ihrem Potential für Gesellschaft und Wirtschaft Rechnung zu tragen.
Kommentare
1 Kommentare
Johannes Ungerer
11. Mai 2023
Herzlichen Dank für diese überaus ausführliche Ausarbeitung. Mit freundlichen Grüßen, Johannes Ungerer https://ungerer-partners.com/
Danke für Ihren Kommentar, wir prüfen dies gerne.