slashCAM
Administrator
Administrator
Beiträge: 11279

Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von slashCAM »


Die Studie "Urheberrecht und Training generativer KI-Modelle" kommt zumindest zu dem Schluss, dass das Training generativer KI-Modelle nicht unter die sogenannte TDM-Schr...

Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

Da die KI-Industrie, insbesondere große Konzerne wie Meta und Google, vom kostenlosen Training auf urheberrechtlich geschützten Inhalten profitieren, führe dies zu einem Ungleichgewicht, da die Rechte der Urheber bis jetzt weitgehend ignoriert werden. Dornis und Stober plädieren für gerechtere Lizenzmodelle und eine gesellschaftliche Debatte über den Wert von Daten.
Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.

Und selbst wenn man das irgendwie machen könnte, und sich herausstellt daß ein Werk zu einem 5 millionstel Teil beteiligt war, dürfte es unmöglich sein millionstel Cent Beträge zu überweisen.
Aber womöglich kann man ja 20-30 Jahre warten bis ein ganzer Cent an Lizenzgebühren anfällt, und den dann überweisen.
Sapere aude - de omnibus dubitandum



Skeptiker
Beiträge: 6716

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Skeptiker »

Frank Glencairn hat geschrieben: Mi 16 Okt, 2024 12:52 ... Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist. ...
Das Ganze könnte auf eine künftige pauschale Abgabe hinauslaufen (ist so eine Abgabe nicht auch bei leeren, beschreibbaren CDs und DVDs integriert worden)?



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

Skeptiker hat geschrieben: Mi 16 Okt, 2024 12:57
Das Ganze könnte auf eine künftige pauschale Abgabe hinauslaufen (ist so eine Abgabe nicht auch bei leeren, beschreibbaren CDs und DVDs integriert worden)?
Was natürlich das Problem der millionstel Cent Beträge nicht löst.
Zumal natürlich auch jemand den enormen Verwaltungsaufwand für so ein Nullspiel bezahlen muß - und das wird nicht die jeweilige AI Firma sein. Also nur künstlich höhere Kosten generieren, ohne daß irgendjemand wirklich was davon hat.
Sapere aude - de omnibus dubitandum



dienstag_01
Beiträge: 14034

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von dienstag_01 »

Für den Fall, dass es auf öffentlichen oder unklar erhobenen Daten beruht, Freigabe des AI-Models, oder erleichterte Lizensierung etc.
Gibt schon Möglichkeiten.



-paleface-
Beiträge: 4633

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von -paleface- »

Frank Glencairn hat geschrieben: Mi 16 Okt, 2024 12:52 Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.
Warum greift das deiner Meinung nach nicht?
www.mse-film.de | Kurzfilme & Videoclips

www.daszeichen.de | Filmproduktion & Postproduktion



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

-paleface- hat geschrieben: Mi 16 Okt, 2024 14:20
Warum greift das deiner Meinung nach nicht?
Viele glauben immer noch, daß die Trainingsdatensätze Urheber Material beinhalten.

Vereinfacht gesagt, daß alle Bilder die beim Training "gescannt" wurden da rum liegen, und daß aus denen dann auf Anfrage eine Art Collage zusammengebastelt wird.

Das ist aber nicht der Fall.

Wir haben nur Vectoren im "Latent Space", die auf die Wahrscheinlichkeit eines Bildes bezüglich der jeweilige Prompt hinweisen. Das sind Quasi "abstrakte Konzepte von Bildern", mit denen völlig neue Originale geschaffen werden können, aber nicht die ursprünglichen Bilder selbst. Die sind zu dem Zeitpunkt längst nicht mehr im Spiel.

Deshalb kann die AI ja auch Bilder erzeugen, die noch nie jemand vorher jemals gemacht, gemalt, fotografiert oder auch nur gedacht hat (was ja eigentlich der ganze Gag an der Sache ist).

Das ganze fängt mit einem statischen Rauschen/random noise an (wie bei einem alten Fernseher nach Sendeschluß) und daraus werden nach Wahrscheinlichkeit in zig Stufen Muster gebildet - etwa so wie man irgendwelche "Bilder" in Wolken sehen kann.

Wenn du es genauer wissen willst, ich hab vor ner Weile nen Artikel darüber geschrieben.
https://sites.google.com/view/frankglen ... s-a-primer
Sapere aude - de omnibus dubitandum



TheBubble
Beiträge: 1978

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von TheBubble »

Frank Glencairn hat geschrieben: Mi 16 Okt, 2024 12:52 Abgesehen davon, daß das Urheberrecht IMHO hier gar nicht greift, wird so ein Lizenzmodell daran scheitern, daß es quasi unmöglich ist, herauszufinden wessen Vorlage an irgendwas überhaupt beteiligt ist.
Und genau dies ist die beste Vorlage für Lobbyisten: Genau wie bei Kopierern, Druckern, Datenträgern wird man einfach "vermuten" das ganz bestimmt viele urheberrechtlich geschützte Werke (z.B. als Privatkopie) vervielfältigt werden. Keiner kann es prüfen, aber irgendwie ist das ganz sicher so.

Und dann wird man eine Abgabe auf jedes Gerät fordern, dass prinzipiell AI nutzen kann...
Frank Glencairn hat geschrieben: Mi 16 Okt, 2024 20:19 Viele glauben immer noch, daß die Trainingsdatensätze Urheber Material beinhalten.
Die Trainingsdaten bestehen durchaus auch aus ggf. urheberrechtlich geschütztem Material. Selbst wenn man diese vor dem eigentlichen Training noch vorverarbeitet, wird man vernünftiger Weise eine Kopie anfertigen und behalten (der Reproduzierbarkeit wegen).
Frank Glencairn hat geschrieben: Mi 16 Okt, 2024 20:19 Wir haben nur Vectoren im "Latent Space", die auf die Wahrscheinlichkeit eines Bildes bezüglich der jeweilige Prompt hinweisen. Das sind Quasi "abstrakte Konzepte von Bildern", mit denen völlig neue Originale geschaffen werden können, aber nicht die ursprünglichen Bilder selbst. Die sind zu dem Zeitpunkt längst nicht mehr im Spiel.
Im Prinzip ja, aber auch nein. Insbesondere bei den riesigen Modellen mit Milliarden an Gewichten kann man praktisch gesehen nicht sagen, ob eine Teilmenge der Gewichte nicht doch einen einzelnen Trainingsdatensatz (nahezu) komplett enthält. Da es wohl schon gelungen ist, ursprüngliche Trainingsdaten wieder aus einem Modell herauszuholen, muss man davon ausgehen, das es vorkommen kann.



Bluboy
Beiträge: 5010

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Bluboy »

Momentan produzieren AI Unternehmn Schulden ohne Ende



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

TheBubble hat geschrieben: Mi 16 Okt, 2024 21:59
Die Trainingsdaten bestehen durchaus auch aus ggf. urheberrechtlich geschütztem Material. Selbst wenn man diese vor dem eigentlichen Training noch vorverarbeitet, wird man vernünftiger Weise eine Kopie anfertigen und behalten (der Reproduzierbarkeit wegen).
Insbesondere bei den riesigen Modellen mit Milliarden an Gewichten kann man praktisch gesehen nicht sagen, ob eine Teilmenge der Gewichte nicht doch einen einzelnen Trainingsdatensatz (nahezu) komplett enthält.
So funktioniert das nicht.
Sapere aude - de omnibus dubitandum



medienonkel
Beiträge: 853

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von medienonkel »

Die KI soll an den menschlichen Geist keine Lizenz- sondern Kursgebühren zahlen.

Einen wirklich sehr winzigen Teil der gigantischen Umsätze sollen die Unternehmen in Bildung und Kultur zurück fließen lassen. Gerne fiskal.

Modelle, die beispielsweise in Forschung und Medizin assistieren sind wiederum gemeinnützig, aber auch nicht allgemein verfügbar und erheben die nötigen Daten überwiegend selbst.



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

medienonkel hat geschrieben: Do 17 Okt, 2024 10:50
Einen wirklich sehr winzigen Teil der gigantischen Umsätze sollen die Unternehmen in Bildung und Kultur zurück fließen lassen. Gerne fiskal.
Zunächst einmal werden von den "gigantischen Umsätzen" fiskal erst mal die - um Größenordnugen höheren - Verluste abgezogen. Bis da ein Gewinn raus kommt dauert das mindestens noch 15 Jahre, und selbst dann ist es natürlich immer so, daß Unternehmen überhaupt nix zahlen, sondern derjenige der das ganze nutzt. Kennt man ja z.B. von Kopierern, Scannern, CDs etc.

Wie ich oben schon ausführte, übersteigen bei sowas die Verwaltungskosten natürlich die Lizenzausschüttung bei weitem - also nochmal extra zahlen, für mehr Verwaltungsaufwand.
Sapere aude - de omnibus dubitandum



TheBubble
Beiträge: 1978

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von TheBubble »

Frank Glencairn hat geschrieben: Do 17 Okt, 2024 05:47 So funktioniert das nicht.
Und Du kannst beweisen, dass Dein Modell kein urheberrechtlich geschütztes Material reproduzieren könnte, obwohl es zur Modellerstellung erforderlich war?



Skeptiker
Beiträge: 6716

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Skeptiker »

TheBubble hat geschrieben: Do 17 Okt, 2024 13:36
Frank Glencairn hat geschrieben: Do 17 Okt, 2024 05:47 So funktioniert das nicht.
Und Du kannst beweisen, dass Dein Modell kein urheberrechtlich geschütztes Material reproduzieren könnte, obwohl es zur Modellerstellung erforderlich war?
Ich würde auch sagen: Solange das Trainingsmaterial nicht selbst computergeneriert ist, stecken menschliche Hirne im Input für die KI, und damit auch menschliche Kreativität und Erfindungsreichtum. Die KI-Prompt-Ergebnisse werden am Ende einzelne Inputhirne wohl nicht 1:1 reproduzieren, aber ohne den geistigen Human-Input als Basis fürs hinterlegte "Denkmodell" (bzw. - eben nicht-algorithmisch - die statistische Wahrscheinlichkeits-Auswertung des neuronalen Trainingsdaten-Netzes) käme - Stand heute - wohl gar nichts dabei raus.

Das heisst nicht, dass ich für einen irrsinnig bürokratischen und rechthaberischen Urheberrechts-Aufwand bin (der nervt mich jetzt schon, wenn ich an solche Auswüchse wie die angebotenen Fototapeten denke, mit anschliessender, juristischer Abmahnung mit 1000er-Busse, falls sie in irgendeinem anderen Zusammenhang abgebildet irgendwo wieder auftauchen), aber wenn ungefragt auch Kunst von x Künstlern und Kreativen egal welcher Art verwendet wird, sollten die meiner Meinug nach auch ein Stück vom KI-Kuchen abbekommen.
Möglichst freie Nutzung der KI kombiert mit einer Pauschalabgabe wäre ein Möglichkeit mit überschaubarem Bürokratieaufwand. Wenn es bessere Möglichkeiten gibt (für alle Seiten und ohne hunderte Spezialregelungen - Futter für die Abmahnprofis im Hinterhalt), dann natürlich eher DIE.
Zuletzt geändert von Skeptiker am Fr 18 Okt, 2024 01:13, insgesamt 1-mal geändert.



TheBubble
Beiträge: 1978

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von TheBubble »

Skeptiker hat geschrieben: Do 17 Okt, 2024 14:07 Das heisst nicht, dass ich für einen irrsinnig bürokratischen und rechthaberischen Urheberrechts-Aufwand bin (der nervt mich jetzt schon, wenn ich an solche Auswüchse wie die angebotenen Fototapeten denke, mit anschliessender, juristischer Abmahnung mit 1000er-Busse, falls sie in irgendeinem anderen Zusammenhang abgebildet irgendwo wieder auftauchen), aber wenn ungefragt auch Kunst von x Künstlern und Kreativen egal welcher Art verwendet wird, sollten die meiner Meinug nach auch ein Stück vom KI-Kuchen abbekommen.
Das ist allerdings weder eine technische noch eine juristische Frage, sondern muss gesellschaftlich geklärt werden.

Ich möchte aber zu bedenken geben, wo das hinführt: Jeder will an allem eine Beteiligung, sobald es etwas zu holen gibt. Am Ende will auch noch Dein Grundschullehrer 30 % Deines Einkommens.



Skeptiker
Beiträge: 6716

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Skeptiker »

TheBubble hat geschrieben: Do 17 Okt, 2024 14:25
Skeptiker hat geschrieben: Do 17 Okt, 2024 14:07 Das heisst nicht, dass ich für einen irrsinnig bürokratischen und rechthaberischen Urheberrechts-Aufwand bin (der nervt mich jetzt schon, wenn ich an solche Auswüchse wie die angebotenen Fototapeten denke, mit anschliessender, juristischer Abmahnung mit 1000er-Busse, falls sie in irgendeinem anderen Zusammenhang abgebildet irgendwo wieder auftauchen), aber wenn ungefragt auch Kunst von x Künstlern und Kreativen egal welcher Art verwendet wird, sollten die meiner Meinug nach auch ein Stück vom KI-Kuchen abbekommen.
Das ist allerdings weder eine technische noch eine juristische Frage, sondern muss gesellschaftlich geklärt werden.

Ich möchte aber zu bedenken geben, wo das hinführt: Jeder will an allem eine Beteiligung, sobald es etwas zu holen gibt. Am Ende will auch noch Dein Grundschullehrer 30 % Deines Einkommens.
Ein juristische Frage schon, wenn ich die KI-Diskussion (nicht nur hier) bisher nicht missverstanden habe (es gibt ja schon diverse Urheberrechts-Klagen).
Und Dein Einwand "wo fängt das an / wo hört das auf" (mit der Urheberei) ist natürlich berechtigt.

Eine andere Variante wäre, die neue Technik nicht mit einem Übermass an Regulierung schon im Keim zu ersticken und sie stattdessen möglichst allgemein ohne Urheberrechtskosten und -klagen zugänglich zu machen (die Serverkosten für Service und Stromverbrauch - es ist ja bereits von Atomkraft die Rede - kommen sowieso hinzu - zusätzlich zum Aufwand fürs KI-Modell). Voraussetzung wäre wohl: Es wird damit nichts 1:1 reproduzierbar, aber "Gemälde im Stil von van Gogh" sind wohl jetzt schon möglich, die waren es aber auch schon mithilfe von Photoshop-Plugins etc..

Alternative: Eine Irrsinnsbürokratie mit minutiöser Einzelfall-Abrechnung (nach irgenwelchen ausgekügelten Kriterien, die nur die Spezialisten in den KI-Bundes- und -Landesämtern noch nachvollziehen können), die eine KI-Barriere errichtet nach dem Motto "besser nicht ohne Ihren Rechtsanwalt".



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

Skeptiker hat geschrieben: Do 17 Okt, 2024 14:34
Alternative: Eine Irrsinnsbürokratie mit minutiöser Einzelfall-Abrechnung (nach irgenwelchen ausgekügelten Kriterien, die nur die Spezialisten in den KI-Bundes- und -Landesämtern noch nachvollziehen können), die eine KI-Barriere errichtet nach dem Motto "besser nicht ohne Ihren Rechtsanwalt".
Ja, und dieser ganze Blödsinn dann wegen Beträgen, die so gering sind, daß man sie weder überweisen noch abheben kann.

Wär eigentlich ne typisch deutsche Lösung
Sapere aude - de omnibus dubitandum



medienonkel
Beiträge: 853

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von medienonkel »

Frank Glencairn hat geschrieben: Do 17 Okt, 2024 11:11
medienonkel hat geschrieben: Do 17 Okt, 2024 10:50
Einen wirklich sehr winzigen Teil der gigantischen Umsätze sollen die Unternehmen in Bildung und Kultur zurück fließen lassen. Gerne fiskal.
Zunächst einmal werden von den "gigantischen Umsätzen" fiskal erst mal die - um Größenordnugen höheren - Verluste abgezogen. Bis da ein Gewinn raus kommt dauert das mindestens noch 15 Jahre, und selbst dann ist es natürlich immer so, daß Unternehmen überhaupt nix zahlen, sondern derjenige der das ganze nutzt. Kennt man ja z.B. von Kopierern, Scannern, CDs etc.

Wie ich oben schon ausführte, übersteigen bei sowas die Verwaltungskosten natürlich die Lizenzausschüttung bei weitem - also nochmal extra zahlen, für mehr Verwaltungsaufwand.
Stimmt schon alles.

Aber gefühlt orientiert sich momentan die ganze IT-Welt Richtung KI. Irgendwer wird da schon durchgerechnet haben, dass man langfristig irgendwie Gewinne damit erwirtschaften wird.

Wenn es eine Art Geräteabgabe usw. geben soll, bin ich gespannt wie hoch die dann ausfällt.
Da kostet die GTRSX 7090 dann 500 Euro extra. Nvidia lässt sich ja quasi schon einen KI-Groschen zahlen. Blockchains rechnet ja kaum noch wer daheim nach.

Sicher wird der Endnutzer zur Kasse gebeten. Der Verbraucher zahlt ja immer. Nur wer wird das Geld eintreiben und wie an wen weitergeben?

Den Verwaltungsaufwand darf dann ruhig die KI selbst übernehmen. Kann sie das nicht, oder vertraut man ihr dahingehend nicht... Platzt die Blase sowieso.

Sie kann ja dann selbst ihre Arbeit bewerten und einen Preis festlegen. ;-)

Ich hol mir dann so eine festangestellte KI mit wenig selbstbewusstsein...



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

medienonkel hat geschrieben: Do 17 Okt, 2024 15:53
Irgendwer wird da schon ...
Der Satz ist schon mehr als einmal gehörig nach hinten los gegangen ;-)

medienonkel hat geschrieben: Do 17 Okt, 2024 15:53
Da kostet die GTRSX 7090 dann 500 Euro extra.
Ganz viele hier (und anderswo) betteln ja gerade darum, endlich höhere Preise für AI zahlen zu dürfen - ich fürchte das wird erhört werden.

medienonkel hat geschrieben: Do 17 Okt, 2024 15:53

Den Verwaltungsaufwand darf dann ruhig die KI selbst übernehmen. Kann sie das nicht, oder vertraut man ihr dahingehend nicht... Platzt die Blase sowieso.
Ich hab eben mal an der Quelle nachgefragt - KI says nay:
KI-Bildgeneratoren wie Stable Diffusion oder DALL-E haben in der Regel keinen direkten Zugriff auf Informationen über das spezifische Trainingsmaterial, das für ein generiertes Bild verwendet wurde. Das liegt daran, dass diese Systeme während des Trainings allgemeine Muster und Konzepte aus Millionen von Bildern lernen, anstatt einzelne Bilder zu speichern und zu reproduzieren.

Es ist für eine KI deshalb unmöglich zu bestimmen, welche spezifischen Trainingsbilder für ein generiertes Bild verwendet wurden.

Die Gründe dafür sind unter anderem:
Die komplexe Art und Weise, wie neuronale Netze Informationen verarbeiten und kombinieren.
Die völlig zufälligen Elemente im Generierungsprozess.
Die ursprünglichen Bilder und Informationen sind im Trainingsdatensatz mot dem die KI arbeitet gar nicht vorhanden.

Aktuelle Forschungen zeigen, dass es in seltenen Fällen möglich ist, sehr ähnliche Bilder aus dem Trainingsmaterial zu generieren. Bei einer Studie mit Stable Diffusion wurden bei 175 Millionen generierten Bildern nur 103 als mögliche Duplikate eingestuft. Dies deutet darauf hin, dass eine direkte Reproduktion von Trainingsbildern zwar möglich, aber nicht gewollt, sondern eher ein Zufall ist.

Zusammenfassend lässt sich sagen, dass KI-Systeme derzeit nicht in der Lage sind zu bestimmen, welches spezifische Trainingsmaterial für ein generiertes Bild verwendet wurde oder wer die Urheberrechte an diesem Material besitzt.
Sapere aude - de omnibus dubitandum



TheBubble
Beiträge: 1978

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von TheBubble »

Ich würde mir jetzt keine großen Gedanken machen. Zumindest noch nicht.

Wer etwas veröffentlicht, muss damit rechnen, dass sein Werk auch konsumiert und ggf. tiefergehend ausgewertet wird. Oft ist das sogar gewollt, z.B. durch Suchmaschinen. Solange etwas nicht unerlaubt reproduziert wird oder meinetwegen einen so unverkennbaren Stil hat, der reprodiziert wird, dann sehe ich momentan wenige Angriffsflächen.

Allerdings: Wenn ein Urheber es schafft, sein Werk irgendwie annährend aus dem KI Modell herauszukitzeln, dann hat man u.U. ein erhebliches Problem. Das Risiko könnte man durch eine nachträgliche Filterung der Ergebnisse aber auch begrenzen.

Das Risiko betrifft aber zum Glück nicht alle KI Modelle in gleichem Umfang, sondern vor allem die großen Bild- und Textgeneratoren. Es gibt aber auch viel Bedarf an kleineren spezialisierten Modellen zur Klassifizierung.

KI ist derzeit ein Buzzword. Vorher war es gefühlt die Blockchain, auch wenn dies nicht so stark in der breiten Öffentlichkeit diskutiert wurde. Viele Kunden fragen noch gar nicht nach KI Lösungen, Anbieter wollen vor allem Investoren gegenüber viel Potential suggerieren und ggf. auch um Geld werben.

Da KI Ergebnisse stark von der Qualität der Trainingsdaten abhängen und deren Zusammenstellung zeitaufwendig sein kann, wird sich bestimmt eine Industrie als Zulieferer auftun, die mit passend zusammengestellten Datensätzen Handel betreibt. Und hier könnten, dann weitgehend von Öffentlichkeit und Urhebern unbemerkt, die meisten und gröbsten Rechteverletzungen stattfinden.



cantsin
Beiträge: 15345

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von cantsin »

Frank Glencairn hat geschrieben: Do 17 Okt, 2024 16:19
Ich hab eben mal an der Quelle nachgefragt - KI says nay:
KI-Bildgeneratoren wie Stable Diffusion oder DALL-E haben in der Regel keinen direkten Zugriff auf Informationen über das spezifische Trainingsmaterial, das für ein generiertes Bild verwendet wurde. Das liegt daran, dass diese Systeme während des Trainings allgemeine Muster und Konzepte aus Millionen von Bildern lernen, anstatt
Aktuelle Forschungen zeigen, dass es in seltenen Fällen möglich ist, sehr ähnliche Bilder aus dem Trainingsmaterial zu generieren. Bei einer Studie mit Stable Diffusion wurden bei 175 Millionen generierten Bildern nur 103 als mögliche Duplikate eingestuft. Dies deutet darauf hin, dass eine direkte Reproduktion von Trainingsbildern zwar möglich, aber nicht gewollt, sondern eher ein Zufall ist.
Ein Zufall ist das nicht, sondern das hängt davon ab, wie die Trainingsdaten im machine learning verarbeitet wurden und wie man promptet. Kurz gesagt, wenn man sehr spezielle Motive sucht, zu denen es nur ein Bild im Trainingsset gibt, kriegt man eine Reproduktion dieses Bilds.

Hier das research paper dazu:
https://arxiv.org/abs/2301.13188

...und hier dessen Zusammenfassung in einem journalistischen Artikel:
https://www.vice.com/en/article/ai-spit ... hers-find/

Bei ChatGPT und perplexity.ai kann man dieses Verhalten auch sehr einfach provozieren, indem man zu sehr speziellen Themen fragt (z.B. obskuren Musikströmungen). Dann kriegt man praktisch 1:1-Paraphrasen der Wikipedia-Artikel, mit denen die KI gefüttert wurde.



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

Bei Chat bin ich nicht auf dem Laufenden, aber Perplexity ist ja so konzipiert, daß es die AI nutzt um Suchmaschinen Ergebnisse zusammen zu fassen, und nicht dafür, daß es sich was völlig neues (falsches) aus den neuronalen Fingern saugt.
Da möchte ich mal hoffen daß der Inhalt (mit Wiki etc.) übereinstimmt, sonst könnte man das Ding in die Tonne treten.

Das wäre ja auch total kontraproduktiv, und damit komplett nutzlos für eine Such-Antwort Maschine.

Die Quellseiten werden ja sogar angezeigt.

Völlig anderer Ansatz und überhaupt nicht zu vergleichen.
Sapere aude - de omnibus dubitandum



cantsin
Beiträge: 15345

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von cantsin »

Frank Glencairn hat geschrieben: Fr 18 Okt, 2024 12:19 Völlig anderer Ansatz und überhaupt nicht zu vergleichen.
Trotzdem kann auch bei den Diffusion-Modellen sowas passieren:

Screenshot From 2024-10-18 11-20-18.png
(Aus dem oben verlinkten Paper.)
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.



Frank Glencairn
Beiträge: 25486

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von Frank Glencairn »

Nicht gut gealtert :D

Wenn man natürlich eine bestimmte Person promptet (vor allem Prominente, von denen es millionen gleiche, und vor allem beschriftete Bilder im Netz gibt, und dann auch noch ohne weiteren Zusatz), kann das schon mal passieren.

Aber schon in dem Moment, wenn man z.B. eine Location mit eingibt, sieht es schon wieder völlig anders aus.

Ann Graham Lotz in the dessert at sunset.

image_2024-10-18_145952421.png
Voila!

Aber selbst dann ist das eher ein Zufall - ich habs jetzt mit verschiedenen AI Engines probiert, und keines der Bilder sieht so aus, wie das was du gepostet hast. Die meisten sehen ihr nicht mal ähnlich.


image_2024-10-18_151021533.png
image_2024-10-18_151058662.png
image_2024-10-18_151243717.png
image_2024-10-18_151303013.png

Also da muß man schon viel Zeit und Geld investieren, um ein Bild zu bekommen, daß man sich auch so hätte runter laden können.

Aber bereits bestehende Fotos, die ich mir auch von Google runter laden kann sind ja nicht der Sinn der Sache, sondern neue Originale zu schaffen.
Sapere aude - de omnibus dubitandum
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.



TheBubble
Beiträge: 1978

Re: Frei zugängliche Trainingsdaten weiter kostenlos für KI-Modelle nutzbar?

Beitrag von TheBubble »

Frank Glencairn hat geschrieben: Fr 18 Okt, 2024 15:13 Also da muß man schon viel Zeit und Geld investieren, um ein Bild zu bekommen, daß man sich auch so hätte runter laden können.
Und genau das, Zeit investieten, könnte passieren. Vor allem wenn man hofft, aus ihr (viel) Geld machen zu können.



 Aktuelle Beiträge [alle Foren]
 
» Vimeo: Drastische Preiserhöhung, weniger Features, weniger Speicher
von Frank Glencairn - Sa 5:42
» Was schaust Du gerade?
von roki100 - Sa 0:34
» Mocha Pro 2025 bietet KI-gestütztes Rotoskopieren und Maskieren
von macaw - Sa 0:28
» Nexus G1 - Blackmagic Pocket Cinema Camera 6K im Carbon Cine-Gehäuse
von iasi - Sa 0:12
» SD Karte nicht mehr lesbar - entsorgen?
von rabe131 - Sa 0:10
» Blackmagic URSA Cine 12K LF Sensortest - Dynamic Range und Rolling Shutter
von iasi - Fr 23:31
» Linsen (Vintage, Anamorphic & Co.)
von roki100 - Fr 19:49
» Motor Smart: Intelligenter AutoFocus-Motor von PDMovie nutzt LiDAR und KI
von roki100 - Fr 19:39
» Eastman Kodak investiert in seine Filmmaterial-Fabrik
von roki100 - Fr 19:10
» Neue Intel Arc B580 and B570 Grafikkarten für 220-250 Dollar vorgestellt
von dienstag_01 - Fr 18:53
» Ich und meine C70
von vladi - Fr 17:55
» Neuer Vodafone-Spot ein Meilenstein? Komplett KI-generierte Bilder
von Rick SSon - Fr 16:50
» Sennheiser Mikrofon ME 64
von lotharjuergen - Fr 15:12
» Verkaufe JVC 4 K-Kamera mit Zubehör
von lotharjuergen - Fr 15:08
» Sachtler-Stativ ACE zu verkaufen
von lotharjuergen - Fr 15:03
» Verkaufe. Einbeinstativ Monostat
von Jörg - Fr 11:34
» Offener Brief der Initiative Fair Film an die ÖR Rundfunkanstalten
von MLJ - Fr 10:52
» Amaran Go - kleine LED-Leuchte für iPhone-Filmer
von slashCAM - Fr 10:48
» Absehbares Ende von Filmen auf DVD und Blu-ray?
von macaw - Fr 7:52
» “It was not my fault. They invented this thing.”
von 7River - Fr 3:57
» 2 kurze Filme
von Blackbox - Fr 0:52
» Der Sound von Nosferatu
von Frank Glencairn - Do 23:46
» 2x ZCam E2 S6 mit Fuji MK Cine Zooms und Zubehör
von panalone - Do 21:49
» Generatives Erweitern in Premiere Pro Beta
von ruessel - Do 14:34
» Live-Musik in Kinoqualität mit Sony FX9
von acrossthewire - Do 14:34
» adapter C Fast SDXC card
von Jörg - Do 12:58
» YouTubes Auto-Dubbing jetzt für mehr Creators verfügbar in 9 Sprachen
von slashCAM - Do 10:12
» Medienvielfaltsmonitor 12.2024
von ruessel - Do 9:24
» Wie befestigt ihr HDMI-Monitore wackelfrei am Cage?
von smashcam - Do 7:56
» Was hörst Du gerade?
von Skeptiker - Mi 22:11
» DJI Flip - neue superportable Drohne mit einklappbaren Rotoren und LiDAR
von chackl - Mi 21:44
» Top-Handle/Cage/Griff für Sony FDR AX-700?
von manfred52 - Mi 19:07
» Weihnachtsangebote für Kameras, Objektive und mehr von Sony, Canon, Nikon, Panasonic, MSI, ...
von slashCAM - Mi 18:54
» Blick in die Vergangenheit...
von Bruno Peter - Mi 17:20
» Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.
von iasi - Mi 14:52