Künstliche Intelligenz, KI, Artificial Intelligence, AI, Generative Künstliche Intelligenz, GenKI, AGI, Artificial General Intelligence, Allgemeine Künstliche Intelligenz, AKI - Unterscheidungen

Hier sollen die Unterschiede zwischen diesen Ausdrücken erklärt werden.

Zu vielen Details zur Künstlichen Intelligenz wird auf den Artikel Computational Photography verwiesen.

Forscher im KI-Umfeld sei vorab erklärt, dass es sich hier um eine starke Vereinfachung für Laien in Kurzform handelt. Gerne darf mir jeder Fachmann leicht verständliche Ergänzungen liefern, oder weitere sprachliche sowie inhaltliche Optimierungen dieser Erklärungen für Laien zukommen lassen.

Definitionen

KI - Künstliche Intelligenz - AI - Artificial Intelligence

KI (Künstliche Intelligenz) wird auf Englisch AI (Artificial Intelligence) genannt. Da die Deutschen inzwischen hier den Anschluss dank Grüner Verbote und Gesetze verloren haben, wird die deutsche Definition von den um Jahre in der Forschung und Entwicklung vorausliegenden englischen Forschern und Unternehmen gebildet. D.h. die englischen Definitionen bestimmen die deutschen.

Vereinfacht erklärt beschreibt KI eine Gruppe von Computerwissenschaften, die sich mit dem Entwurf intelligenter Algorithmen befassen, die komplizierte Aufgaben bewältigen, welche bisher nur Menschen durchführen konnten, weil sie einen gewissen Grad an Intelligenz erfordern. Dazu gehören unter anderem Spracherkennung, Übersetzungen, Problemlösungen und Entscheidungsfindung oder auch Bildoptimierungen.

Als Basis verwenden jene KI-Systeme oft Entscheidungs-Baumstrukturen, die menschlichen Entscheidungen nachgebildet sind. Heute verwendet man dazu Neural Networks / Neuronale Netzwerke mit fortgeschrittenen Strukturerkennungsmöglichkeiten.

Dazu wird die KI-Software mittels Maschinen-Lernen (ML - machine learning) trainiert. Stark vereinfacht legen Forscher dem KI-System - auch selbstlernenden System (auf dem Großrechner) genannt - viele Beispiele von etwas vor - z.B. Fotos von Menschen mit der vom Trainer vorgegebenen Gruppierung (labelling) 'Mensch', damit es Menschen zukünftig anhand gewisser Muster respektive zugrundeliegender Strukturen als Objekt (z.B. im Autofokus) erkennt: von vorne, von der Seite von hinten, schräg von oben und unten, in Farbe und Schwarz-Weiß, große und kleine, scharfe und unscharfe Abbildungen und so weiter.

Bei der traditionellen oder einfachen KI wird meist supervised learning beim Machine-Learning verwendet, weil man die Kategorien, Bezeichnungen etc. selbst vergibt und dazu oft auch das erwünschte Ergebnis.

Stark vereinfachend kann man pauschalieren, dass es bei einfacher KI zum großen Teil um regelbasierte Mustererkennung geht. Dazu verwendet die KI die eigene (von menschlichen Trainern mit Gruppenangaben versehene) angelernte Datenbasis, welche sie mit oben erwähnten sogenannten Entscheidungsbäumen quasi (rasend-schnell) abarbeitet. Als Ergebnis folgte daraus oft eine Automatisierung.

Danach verwendet man sowohl bereits antrainierte als auch neue Abbildungen, Muster etc. als Kontrolle, um herauszufinden, wie hoch die Trefferrate ist, respektive, wo man wie noch optimieren muss. Das ist ein derzeit noch kaum beendbarer Vorgang. D.h. man ist noch lange von der 100%-Trefferrate entfernt.

Ganz im Gegenteil benötigt man für fast jede Aufgabe zur Mustererkennung ein eigenes Modell, das man wiederum ständig für diese Aufgabe weiter optimiert. Deshalb sprechen mache auch von 'engen' oder 'spezifischen' Modellen. Das klingt zwar negativ, besitzt jedoch den Vorteil der hohen Spezifität und damit hohen Trefferquote. Exakt deshalb wird diese strukturierte Vorgehensweise bei vielen Entscheidungsprozessen (z.B. Datenanalyse) bis heute auch bevorzugt. Typische Anwendungsfelder sind: Erkennung von Anomalien, Fehlererkennung, Betrugserkennung, Voraussagen, Empfehlungen, Automatisierungen (vor allem in der Industrie).

Denselben mühsamen Anlernprozess muss man für jedes Detail, Motiv etc. durchführen.

Nach eventuell tage-, wochen-, oder monatelangem Anlernen kann jenes nur auf Großrechnern lauffähige selbstlernende KI-System dann einen Ergebnis-Algorithmus liefern, den man als Firmware umprogrammiert in die Kamera einbaut.

Somit ist auch eindeutig klar, dass die Kamera nur das Ergebnis als Erkennungsprozess ausführt. Die Kamera oder die meisten anderen sogenannten KI-Anwendungssysteme sind viel zu leistungsschwach, um selbst als selbstlernendes System zu arbeiten. D.h. die Kamera lernt (zumindest derzeit) nicht mehr selbständig weiter. Sie führt nur Ergebnisse des Großrechners aus. Sie kann deshalb oft auch keine anderen Motive treffsicher erkennen, als die exakt programmierten und somit vorgegebenen.

In der Praxis reicht dies von heute weit verbreiteten Sprachassistenten auf Smartphones oder im Haushalt, dem treffsicheren Autofokus in Kameras, Entrauschungsprogrammen in Foto-Software, bis hin zu Analyse- und Entscheidungswerkzeugen in der Finanzwelt oder Medizin.

Faktisch gibt es inzwischen kaum mehr ein System in unserer modernen Welt, das heute noch ohne KI arbeitet. Dies ist auch ein Problem für die Unterscheidung, da wir uns an KI in unserem Leben bereits überall gewöhnt haben - so sehr, dass sie den meisten Menschen nicht mehr auffällt und sie es auch nicht mehr missen wollen.

GenKI - Generative Künstliche Intelligenz - Generative AI - GenAI

Gen AI - Generative AI oder kurz auch GenAI wird auf Deutsch gerne als GenKI (Generative KI) bezeichnet. Sie bildet eine Untergruppe der KI.

Sie gilt als Weiterentwicklung der einfachen KI. GenKI verwendet u.a. deep learning, um nicht nur regelbasierte Muster zu analysieren und automatische Ergebnisse zu liefern, sondern anhand riesiger unstrukturierter Datenmengen (z.B. Text oder Bilder) auch für Menschen sinnvolle (andere im Sinne von neuartige) Ergebnisse zu liefern. Man könnte auch sagen: GenKI verwendet das ebenfalls durch Machine-Learning (ML) angelernte Wissen als Grundlage zur Erzeugung neuen Wissens - ähnlich wie der Mensch aus dem in der Schule angelernten Wissen um das Alphabet, die Grammatik und die Worte seiner Sprache ständig neue Sätze erzeugt.

Bei der GenKI wird häufiger unsupervised learning verwendet. D.h. der Mensch liefert zwar dem Großrechner die Daten, aber strukturiert sie nicht immer als Trainer vor.

Der Fachmann spricht hier oft davon, dass im Gegensatz zur einfachen KI bei GenKI andere, neue und hochkomplexe Modelle zum Einsatz kommen. Man spricht hier explizit von Generative Models und GANs (Generative Adversarial Networks) sowie Variational Autoencoders (VAEs). Ohne dies ausführen zu wollen, sollte Ihnen der Begriff KI-Modell ab nun im Gedächtnis bleiben, denn diese Modelle bestimmen die Ergebnisse. D.h. weder KI ist gleich KI noch GenKI ist gleich GenKI. Man kann durchaus von einer Konkurrenz oder einem Wettstreit der Modelle sprechen. Jedes Modell zeigte bisher Vor- aber auch Nachteile respektive Einschränkungen.

Der Unterschied der neuen GenKI-Modelle zu den alten (einfachen) KI-Modellen besteht u.a. darin, dass sie nicht mehr so spezifisch für nur eine Aufgabe konzipiert wurden, sondern breitere, weitgefächerte, dynamischere Aufgaben bewältigen können. Zwar ist dies ein etwas vager und weicher Übergang. Aber der Unterschied kann durchaus darin gezogen werden, dass es bei GenKI nicht mehr nur um die reine Interpretation vorhandener Daten geht, sondern auch um die Erzeugung neuer Daten. Dennoch sollte man eher von einer Evolution als einer Revolution sprechen.

Hinzu kamen Language Processing Models, welche einerseits Sprache analysieren können, um sie in andere Elemente umzusetzen, aber andererseits auch wiederum selbst Sprache erzeugen können.

Wie die Vorsilbe Gen für generativ bereits darlegt, erzeugt sie neue Inhalte, Ideen etc.

Manche KI-Forscher behaupten auch, dass GenKI originelle - also bisher nicht existierende Dinge - erzeugt. Exakt das ist jedoch umstritten, da GenKI wie auch KI Machine-Learning verwendet. Auch GenKI muss mit extrem vielen Daten trainiert respektive angelernt werden. Deshalb werden eben oft auch Kopien des Angelernten erzeugt. - Aus diesem Grund tobt auch der Streit um das Urheberrecht der verwendeten Daten.

Der klassische Vorgang zur Nutzung der GenKI für den Endanwender ist hierzu die manuelle Eingabe eines Textes in einer Zeilenangabe - Prompt genannt.

Aufgrund dieser von Menschen (Ihnen als Text-Eingeber) eingetippten Prompt-Zeile werden z.B. Musik (Ton, mit ggf. Lied-Text), ein Artikel (Text) oder Bilder oder sogar ausführbare Computerprogramme erzeugt. Durch weitere manuelle Verfeinerungen an jener Texteingabe kann die eingebende Person am Prompt das Ergebnis ständig weiter optimieren, bis man das gewünschte Ergebnis von der GenKI erhält. Ebenso funktioniert es mit anderen Dingen wie Bildern oder Filmen, welche man damit erzeugen kann.

Daraus folgt auch, dass es sich oft um einen längeren Interaktionsprozess handelt. D.h. das GenKI-System liefert einem auf die erste (An-)Frage ein oder mehrere Antwortmöglichkeiten / Ergebnisvorschläge, aus denen man auswählt und diese danach weiter verfeinert. Somit kann der Anwender das System optimieren, und das GenKI-System passt sich den Wünschen des Anwenders an.

Weiterentwicklungen dieser sogenannten LLMs (Large Language Modells) sind multimodale Modelle, welche als GenKI auch aus Bildern, neue Bilder, oder aus einem Bild ein neues Video, oder aus einem Musikstück neue Musik etc. erstellen könne, oder umgekehrt aus einem Bild Text oder aus einem Audio-Podcast den Text oder aus einem Text einen Audio-Podcast oder aus einem Buch einen Film. Multimodal bedeutet hierbei im Grunde genommen nur, mehrere Medien miteinander verbindend. Aber jenes 'nur' hat es in sich. D.h. man benötigt heute keine ziemlich komplizierte Texteingabe an einem Prompt (Zeileneditor) mehr. Dazu zählen u.a. auch die Bilderweiterungs-GenKI, bei der man z.B. ein kleines Bild (Foto) vorgibt und die GenKI dann rund herum das Bild um neue Komponenten passend erweitert. Eine weitere Entwicklung sind sogenannte Assistenten oder Agenten, welche Aufgaben - auch als Sprache eingegeben - ausführen: D.h. man kann der KI über ein Mikrofon die Aufgabe delegieren: Suche mir alle Fotos von Person X aus dem Internet heraus und erstelle mir aus seinem Kleidungsstil ein Foto eines Kostüms für Fasnacht, Halloween etc. D.h. Agenten übernehmen quasi die vielfältigen 'Aufgaben eines Mitarbeiters, Praktikanten' etc. D.h. es werden mehrere KI-Werkzeuge quasi zusammengeschaltet, welche Einzelaufgaben im Team abarbeiten. Bald sind auch Videos so erstellbar. So könnte man dem Agenten die Aufgabe erteilen: Suche mir alles (Text, Fotos, Audio-Dateien, Filmsequenzen etc.) über Person Y zusammen (die Recherche) und erstelle einen längeren Spiel-Film oder eine Dokumentation über das Leben des Y daraus (die Produktion).

Unterschiede

Zur Unterscheidung der KI von GenKI könnte man nun als End-Anwender behaupten, dass KI nur etwas Vorhandenes optimiert und GenKI etwas völlig Neues erzeugt. Aber ganz so einfach ist das nicht.

Ferner könnte man vermuten, dass der Prompt also die Zeilenangabe der klar erkennbare Unterschied sei.

Auch die Unterscheidung, dass man KI auf dem eigenen PC zuhause und GenKI nur online auf einem fremden Großrechner ausführen kann, ist nicht ganz korrekt.

Korrekt ist, dass GenKI (derzeit) meist eine enorme Rechenleistung erfordert und deshalb kaum auf langsamen PCs ausgeführt werden kann. Aber Hochleistungs-Workstations mit neuronalen Prozessoren können dies bereits bei ersten Aufgaben und somit auch offline durchführen.

Man kann den Prompt - die klassische Zeileneingabe von Text - auch durch vorwählbare Schalter oder Einzelaufgaben ersetzen. So existieren Foto-Programme, die nur um ein bereits existierendes Foto einen riesigen neuen Bild-'Rahmen' erzeugen - also um jenes Foto in der Mitte mit neuen (aber exakt dazu passenden) Inhalten außen herum zu ergänzen. Auch das ist GenKI, selbst wenn man diesen Befehl: 'Ergänze mir das Foto rundherum um passende Bildelemente' nirgendwo eingeben muss.

Jedoch ist es bereits bei auf den ersten Blick einfachen alten reinen KI-Anwendungen heute nicht mehr sicher, ob dazu bei modernster Software nicht doch Generative KI verwendet wird. Dies gilt ganz besonders, wenn diese Software nur noch online (also auf einem externen Hochleistungsrechner) lauffähig ist:

So wird die Bildvergrößerung in zunehmendem Maße durch GenKI zumindest ergänzt. Wenn z.B. die Analyse-KI-Software einen kleinen Schmutzfleck im kleinen Foto als Vogel erkennt, wird sie bei einer Vergrößerung dazu passend das Gefieder erzeugen. Oder, wenn es einen Vogel klar erkennt, dann wird es beim Vergrößern die Elemente des Flügels auch korrekt als Federn vergrößern respektive erzeugen und nicht als Flugzeugmetall mit Nieten.

Ähnliches passiert inzwischen beim Entrauschen. Hier wird nicht nur wie früher um das eigentliche Motiv herum das Rauschen entfernt, wo es immer leichter möglich war, weil von dort (meist Hintergrund oder Vordergrund) der Blick sowie abgezogen und auf das Motiv gelenkt werden soll. Inzwischen kann modernste Entrauschungs-Software auch das Motiv selbst erkennen und darin das Rauschen reduzieren. Nicht selten wird hierzu kein anderes Bild einfach hineinkopiert, sondern mit dem Wissen um die Struktur des Motives dieses mithilfe eines dazu passenden neu generierten Bildes zumindest optimiert. Bekannt wurde dies beim Smartphone S23 von Samsung, als man 2023 dem Hersteller vorwarf, dass er angeblich das Foto vom Mond austauschte. Das ist unzutreffend. Aber es wird anhand des Wissens um jenes klar definierten Motives ergänzt und dadurch extrem optimiert. Diese Optimierung ist GenKI, da sie weit über das reine Optimieren aus den (optisch) vorhandenen evtl. verschwommenen Strukturen möglich wäre.

Ähnliches gilt für die Ergänzung von z.B. abgeschnittenen Flügeln bei Vogelaufnahmen. Zuerst wird zwar korrekt das Motiv als Vogel erkannt. Dazu hätte auch einfache KI ausgereicht. Aber zur Ergänzung der fehlenden Flügelspitze benötigt man GenKI.

Es wird sogar noch schwieriger, weil die früher als einfache KI durchgeführte Funktion des Stempelns und Inhalte-Ersetzens (zumindest bei Online-Software) zunehmend von GenKI übernommen wird.

Fließender Übergang

Somit wird für den Endanwender wieder einmal der Übergang von KI zur GenKI in vielen alltäglichen Praxisdetails eher fließend.

Im Grunde kann nur der Hersteller heute noch KI von GenKI unterscheiden. Denn das oft verwendete Unterscheidungskriterium (quasi die zu überspringende Latte) der Komplexität wandert fast wöchentlich mit neuer KI- und GenKI-Software nach oben.

Ende 2024 konnte man jedoch noch festhalten, dass GenKI bei Smartphones mit Internet-Anschluss bereits möglich ist, aber in dedizierten Kameras (mangels Rechenleistung und fehlendem Internet-Anschluss) bisher nicht vorkommt. Bei dedizierten Kameras findet sich jedoch seit Jahren und stark zunehmend KI bis hin zum RAW-Betrug.

AGI - Artificial General Intelligence - Allgemeine Künstliche Intelligenz - AKI

Der nächste große Schritt, den man seit Jahren systematisch angeht, ist AGI - Artificial General Intelligence.

GenKI zeigt das 'Problem', dass es sich dem Menschen (u.a. aufgrund der Datenbasis, aber auch durch seine Text-Angaben am Prompt) anpasst und Varianten liefert. D.h. es ist steuerbar und beeinflussbar. Ob am Ende etwas Sinnvolles herauskommt, kann zumindest derzeit nicht immer garantiert werden.

AGI wird hingegen - stark vereinfacht erklärt - an der Logik und insbesondere der Mathematik ausgerichtet. Das Ziel ist, dass es nur noch eine - die einzige logische Antwort liefert.

Ein mit der Logik verbundene Aufgabe ist auch, dass es AGI selbst lernt. Denn ein logisch denkendes System (wie der Mensch) kann selbst lernen. - Da dieses Lernen extrem schnell erfolgen kann, sprechen manche Forscher dann auch von einer Super-Intelligenz, da sie Menschen übertreffen kann.

Noch relativ einfach zu verstehende Quellen sind die beiden englischen Artikel Understanding the Difference Between AI and Gen AI und Understand the differences between AI, GenAI, and ML.

Hilfe / Feedback

Liebe Leserinnen und Leser,

damit diese umfangreichen, kostenlosen, wissenschaftlich fundierten Informationen weiter ausgebaut werden können, bin ich für jeden Hinweis von Ihnen dankbar.

Deshalb freue ich mich über jede schriftliche Rückmeldung, Fehlerkorrekturen, Ergänzungen, Neue Informationen etc. Ihrerseits per E-Mail oder Kontakt-Formular.

Um meine Neutralität zumindest auf dem hier beschriebenen Feld der Fotografie und Videografie wahren zu können, nehme ich bewusst von keinem Hersteller, Importeur oder Vertrieb irgendwelche Zuwendungen jeglicher Art für das Verfassen der absolut unabhängigen Artikel an. Auch von Zeitschriften oder Magazinen aus dem Fotobereich erhalte ich keinerlei Zuwendungen.

Deshalb freue ich mich, wenn Sie mein unabhängiges Engagement für Sie durch einen gelegentlichen Kauf bei Amazon über die hier angegebenen Links unterstützen. Es ist gleichgültig, welches Produkt Sie über diesen Link kaufen. - Es kann auch jede andere Ware außerhalb des Fotobereiches sein. Alle Preise sind und bleiben für Sie gleich niedrig, wie wenn Sie direkt zu Amazon gehen. Aber durch Ihren Klick auf meinen Link erhalte ich evtl. Monate später eine sehr kleine prozentuale Prämie (Cents je Kauf), welche mir hilft, die hohen Kosten bei der Erstellung der Artikel zumindest teilweise zu decken. - Bitte starten Sie Ihre Einkäufe bei mir.

Herzlichen Dank an alle für Ihre bisherige Unterstützung.

Ja, ich möchte die Unabhängigkeit dieser Seite unterstützen und kaufe über diesen Link bei Amazon

Pflichtangabe: Als Amazon-Partner verdiene ich an qualifizierten Verkäufen. Alle derartigen sogenannten 'bezahlten Links' zu Amazon sind farblich in Rot gekennzeichnet.

Ich wünsche Ihnen weiterhin viel Freude beim Fotografieren und Filmen.