Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.Da die KI-Industrie, insbesondere große Konzerne wie Meta und Google, vom kostenlosen Training auf urheberrechtlich geschützten Inhalten profitieren, führe dies zu einem Ungleichgewicht, da die Rechte der Urheber bis jetzt weitgehend ignoriert werden. Dornis und Stober plädieren für gerechtere Lizenzmodelle und eine gesellschaftliche Debatte über den Wert von Daten.
Das Ganze könnte auf eine künftige pauschale Abgabe hinauslaufen (ist so eine Abgabe nicht auch bei leeren, beschreibbaren CDs und DVDs integriert worden)?Frank Glencairn hat geschrieben: ↑Mi 16 Okt, 2024 12:52 ... Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist. ...
Was natürlich das Problem der millionstel Cent Beträge nicht löst.
Warum greift das deiner Meinung nach nicht?Frank Glencairn hat geschrieben: ↑Mi 16 Okt, 2024 12:52 Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.
Viele glauben immer noch, daß die Trainingsdatensätze Urheber Material beinhalten.
Und genau dies ist die beste Vorlage für Lobbyisten: Genau wie bei Kopierern, Druckern, Datenträgern wird man einfach "vermuten" das ganz bestimmt viele urheberrechtlich geschützte Werke (z.B. als Privatkopie) vervielfältigt werden. Keiner kann es prüfen, aber irgendwie ist das ganz sicher so.Frank Glencairn hat geschrieben: ↑Mi 16 Okt, 2024 12:52 Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.
Die Trainingsdaten bestehen durchaus auch aus ggf. urheberrechtlich geschütztem Material. Selbst wenn man diese vor dem eigentlichen Training noch vorverarbeitet, wird man vernünftiger Weise eine Kopie anfertigen und behalten (der Reproduzierbarkeit wegen).Frank Glencairn hat geschrieben: ↑Mi 16 Okt, 2024 20:19 Viele glauben immer noch, daß die Trainingsdatensätze Urheber Material beinhalten.
Im Prinzip ja, aber auch nein. Insbesondere bei den riesigen Modellen mit Milliarden an Gewichten kann man praktisch gesehen nicht sagen, ob eine Teilmenge der Gewichte nicht doch einen einzelnen Trainingsdatensatz (nahezu) komplett enthält. Da es wohl schon gelungen ist, ursprüngliche Trainingsdaten wieder aus einem Modell herauszuholen, muss man davon ausgehen, das es vorkommen kann.Frank Glencairn hat geschrieben: ↑Mi 16 Okt, 2024 20:19 Wir haben nur Vectoren im "Latent Space", die auf die Wahrscheinlichkeit eines Bildes bezüglich der jeweilige Prompt hinweisen. Das sind Quasi "abstrakte Konzepte von Bildern", mit denen völlig neue Originale geschaffen werden können, aber nicht die ursprünglichen Bilder selbst. Die sind zu dem Zeitpunkt längst nicht mehr im Spiel.
So funktioniert das nicht.TheBubble hat geschrieben: ↑Mi 16 Okt, 2024 21:59
Die Trainingsdaten bestehen durchaus auch aus ggf. urheberrechtlich geschütztem Material. Selbst wenn man diese vor dem eigentlichen Training noch vorverarbeitet, wird man vernünftiger Weise eine Kopie anfertigen und behalten (der Reproduzierbarkeit wegen).
Insbesondere bei den riesigen Modellen mit Milliarden an Gewichten kann man praktisch gesehen nicht sagen, ob eine Teilmenge der Gewichte nicht doch einen einzelnen Trainingsdatensatz (nahezu) komplett enthält.
Zunächst einmal werden von den "gigantischen Umsätzen" fiskal erst mal die - um Größenordnugen höheren - Verluste abgezogen. Bis da ein Gewinn raus kommt dauert das mindestens noch 15 Jahre, und selbst dann ist es natürlich immer so, daß Unternehmen überhaupt nix zahlen, sondern derjenige der das ganze nutzt. Kennt man ja z.B. von Kopierern, Scannern, CDs etc.medienonkel hat geschrieben: ↑Do 17 Okt, 2024 10:50
Einen wirklich sehr winzigen Teil der gigantischen Umsätze sollen die Unternehmen in Bildung und Kultur zurück fließen lassen. Gerne fiskal.
Und Du kannst beweisen, dass Dein Modell kein urheberrechtlich geschütztes Material reproduzieren könnte, obwohl es zur Modellerstellung erforderlich war?
Ich würde auch sagen: Solange das Trainingsmaterial nicht selbst computergeneriert ist, stecken menschliche Hirne im Input für die KI, und damit auch menschliche Kreativität und Erfindungsreichtum. Die KI-Prompt-Ergebnisse werden am Ende einzelne Inputhirne wohl nicht 1:1 reproduzieren, aber ohne den geistigen Human-Input als Basis fürs hinterlegte "Denkmodell" (bzw. - eben nicht-algorithmisch - die statistische Wahrscheinlichkeits-Auswertung des neuronalen Trainingsdaten-Netzes) käme - Stand heute - wohl gar nichts dabei raus.
Das ist allerdings weder eine technische noch eine juristische Frage, sondern muss gesellschaftlich geklärt werden.Skeptiker hat geschrieben: ↑Do 17 Okt, 2024 14:07 Das heisst nicht, dass ich für einen irrsinnig bürokratischen und rechthaberischen Urheberrechts-Aufwand bin (der nervt mich jetzt schon, wenn ich an solche Auswüchse wie die angebotenen Fototapeten denke, mit anschliessender, juristischer Abmahnung mit 1000er-Busse, falls sie in irgendeinem anderen Zusammenhang abgebildet irgendwo wieder auftauchen), aber wenn ungefragt auch Kunst von x Künstlern und Kreativen egal welcher Art verwendet wird, sollten die meiner Meinug nach auch ein Stück vom KI-Kuchen abbekommen.
Ein juristische Frage schon, wenn ich die KI-Diskussion (nicht nur hier) bisher nicht missverstanden habe (es gibt ja schon diverse Urheberrechts-Klagen).TheBubble hat geschrieben: ↑Do 17 Okt, 2024 14:25Das ist allerdings weder eine technische noch eine juristische Frage, sondern muss gesellschaftlich geklärt werden.Skeptiker hat geschrieben: ↑Do 17 Okt, 2024 14:07 Das heisst nicht, dass ich für einen irrsinnig bürokratischen und rechthaberischen Urheberrechts-Aufwand bin (der nervt mich jetzt schon, wenn ich an solche Auswüchse wie die angebotenen Fototapeten denke, mit anschliessender, juristischer Abmahnung mit 1000er-Busse, falls sie in irgendeinem anderen Zusammenhang abgebildet irgendwo wieder auftauchen), aber wenn ungefragt auch Kunst von x Künstlern und Kreativen egal welcher Art verwendet wird, sollten die meiner Meinug nach auch ein Stück vom KI-Kuchen abbekommen.
Ich möchte aber zu bedenken geben, wo das hinführt: Jeder will an allem eine Beteiligung, sobald es etwas zu holen gibt. Am Ende will auch noch Dein Grundschullehrer 30 % Deines Einkommens.
Ja, und dieser ganze Blödsinn dann wegen Beträgen, die so gering sind, daß man sie weder überweisen noch abheben kann.Skeptiker hat geschrieben: ↑Do 17 Okt, 2024 14:34
Alternative: Eine Irrsinnsbürokratie mit minutiöser Einzelfall-Abrechnung (nach irgenwelchen ausgekügelten Kriterien, die nur die Spezialisten in den KI-Bundes- und -Landesämtern noch nachvollziehen können), die eine KI-Barriere errichtet nach dem Motto "besser nicht ohne Ihren Rechtsanwalt".
Stimmt schon alles.Frank Glencairn hat geschrieben: ↑Do 17 Okt, 2024 11:11Zunächst einmal werden von den "gigantischen Umsätzen" fiskal erst mal die - um Größenordnugen höheren - Verluste abgezogen. Bis da ein Gewinn raus kommt dauert das mindestens noch 15 Jahre, und selbst dann ist es natürlich immer so, daß Unternehmen überhaupt nix zahlen, sondern derjenige der das ganze nutzt. Kennt man ja z.B. von Kopierern, Scannern, CDs etc.medienonkel hat geschrieben: ↑Do 17 Okt, 2024 10:50
Einen wirklich sehr winzigen Teil der gigantischen Umsätze sollen die Unternehmen in Bildung und Kultur zurück fließen lassen. Gerne fiskal.
Wie ich oben schon ausführte, übersteigen bei sowas die Verwaltungskosten natürlich die Lizenzausschüttung bei weitem - also nochmal extra zahlen, für mehr Verwaltungsaufwand.
Der Satz ist schon mehr als einmal gehörig nach hinten los gegangen ;-)
Ganz viele hier (und anderswo) betteln ja gerade darum, endlich höhere Preise für AI zahlen zu dürfen - ich fürchte das wird erhört werden.
Ich hab eben mal an der Quelle nachgefragt - KI says nay:medienonkel hat geschrieben: ↑Do 17 Okt, 2024 15:53
Den Verwaltungsaufwand darf dann ruhig die KI selbst übernehmen. Kann sie das nicht, oder vertraut man ihr dahingehend nicht... Platzt die Blase sowieso.
KI-Bildgeneratoren wie Stable Diffusion oder DALL-E haben in der Regel keinen direkten Zugriff auf Informationen über das spezifische Trainingsmaterial, das für ein generiertes Bild verwendet wurde. Das liegt daran, dass diese Systeme während des Trainings allgemeine Muster und Konzepte aus Millionen von Bildern lernen, anstatt einzelne Bilder zu speichern und zu reproduzieren.
Es ist für eine KI deshalb unmöglich zu bestimmen, welche spezifischen Trainingsbilder für ein generiertes Bild verwendet wurden.
Die Gründe dafür sind unter anderem:
Die komplexe Art und Weise, wie neuronale Netze Informationen verarbeiten und kombinieren.
Die völlig zufälligen Elemente im Generierungsprozess.
Die ursprünglichen Bilder und Informationen sind im Trainingsdatensatz mot dem die KI arbeitet gar nicht vorhanden.
Aktuelle Forschungen zeigen, dass es in seltenen Fällen möglich ist, sehr ähnliche Bilder aus dem Trainingsmaterial zu generieren. Bei einer Studie mit Stable Diffusion wurden bei 175 Millionen generierten Bildern nur 103 als mögliche Duplikate eingestuft. Dies deutet darauf hin, dass eine direkte Reproduktion von Trainingsbildern zwar möglich, aber nicht gewollt, sondern eher ein Zufall ist.
Zusammenfassend lässt sich sagen, dass KI-Systeme derzeit nicht in der Lage sind zu bestimmen, welches spezifische Trainingsmaterial für ein generiertes Bild verwendet wurde oder wer die Urheberrechte an diesem Material besitzt.
Ein Zufall ist das nicht, sondern das hängt davon ab, wie die Trainingsdaten im machine learning verarbeitet wurden und wie man promptet. Kurz gesagt, wenn man sehr spezielle Motive sucht, zu denen es nur ein Bild im Trainingsset gibt, kriegt man eine Reproduktion dieses Bilds.Frank Glencairn hat geschrieben: ↑Do 17 Okt, 2024 16:19
Ich hab eben mal an der Quelle nachgefragt - KI says nay:
KI-Bildgeneratoren wie Stable Diffusion oder DALL-E haben in der Regel keinen direkten Zugriff auf Informationen über das spezifische Trainingsmaterial, das für ein generiertes Bild verwendet wurde. Das liegt daran, dass diese Systeme während des Trainings allgemeine Muster und Konzepte aus Millionen von Bildern lernen, anstatt
Aktuelle Forschungen zeigen, dass es in seltenen Fällen möglich ist, sehr ähnliche Bilder aus dem Trainingsmaterial zu generieren. Bei einer Studie mit Stable Diffusion wurden bei 175 Millionen generierten Bildern nur 103 als mögliche Duplikate eingestuft. Dies deutet darauf hin, dass eine direkte Reproduktion von Trainingsbildern zwar möglich, aber nicht gewollt, sondern eher ein Zufall ist.
Trotzdem kann auch bei den Diffusion-Modellen sowas passieren:Frank Glencairn hat geschrieben: ↑Fr 18 Okt, 2024 12:19 Völlig anderer Ansatz und überhaupt nicht zu vergleichen.
Und genau das, Zeit investieten, könnte passieren. Vor allem wenn man hofft, aus ihr (viel) Geld machen zu können.Frank Glencairn hat geschrieben: ↑Fr 18 Okt, 2024 15:13 Also da muß man schon viel Zeit und Geld investieren, um ein Bild zu bekommen, daß man sich auch so hätte runter laden können.