Computational Photography und Artificial Intelligence, Rechnergestützte Fotografie und Künstliche Intelligenz

vg

Wie sich die Fotografie verändern wird

Weitere Namen sind: rechnergestützte Fotografie, Computergrafik, machine intelligence, Artifizielle Intelligenz, AI, A. I., machine learning, Maschinen-Lernen, Computational imaging, Maschinelles Lernen, Deep learning.

Definitionen

Grundsätzlich handelt es sich bei allen hier besprochenen Themen um Forschungsgebiete der Informatik / Informationswissenschaften (Computer Science).

Unglücklicher Weise wurden zahlreihe hier besprochene Themen bereits von Science-Fiction Literatur und -Filmen in einer sehr speziellen Art (oft gefährlichen und mit menschenähnlichen also humanoiden Roboter-dominierten Welten) negativ besetzt, sodass man dies zuerst wieder durch einen Druck auf die Reset-Taste auf den Stand 0 zurücksetzen muss. Die hier besprochenen Techniken und Wissenschaften können alles sein und alles beeinflussen. Sie können in jeder Form in Erscheinung treten oder im Hintergrund unsichtbar arbeiten. Man benötigt nur eine Internet-Verbindung. - Jede Visualisierung und Beispieluntermalung schränkt die Möglichkeiten nur in unzulässiger Weise ein.

Bitte ziehen Sie zum Überblick immer wieder die folgende Info-Grafik zu Rate, welche als Modell die Zusammenhänge stark vereinfachend im Überblick erklärt.

Computational imaging

Computational Photography ist eine Unterkategorie des Computational imaging.

Bei Computational imaging werden Bilder indirekt erzeugt, indem man genommene Maße mit einem Rechner möglichst realitätsnah zusammensetzt.

Dazu existieren i.d.R. zwei Systeme: eines, das die erforderlichen Maße aufnimmt / misst. Und ein zweites, welches diese Maße durch komplexe Rechenprozesse in das Bild umsetzt.

Nehmen wir als Beispiel einen Menschen. Um davon ein rechnergestütztes Bild zu erzeugen, muss man alle Maße genau erfassen: Körpergröße, Gewicht, Arm- und Beinlänge, Fingerlänge, - dicke, Form etc. Dies kann bis zu winzigsten Details bei z.B. Augenbrauen oder Wimpernlängen und -dicke reichen.

Bereits aus diesem Beispiel wird ersichtlich, dass sehr viele Maße genommen werden müssen, und dass zur anschließenden Verarbeitung sehr große Rechenleistungen erforderlich sind.

Die Anwendungsgebiete sind weltweit bereits groß:

Computational imaging ist aus dem Bereich Medizin heute nicht mehr wegzudenken. So lassen sich mit einer einzigen Röntgenaufnahme nicht immer die genaue Lage von Dingen (wie z.B. Knochenbrüchen) erkennen. Werden Computer Tomographien (CTs) mit dreidimensionalen Röntgenaufnahmen zusammengerechnet, so lassen sich bereits heute nicht nur die genaue Lage, sondern noch viele weitere für eine Diagnose relevante Dinge erkennen.

Mittels Synthetic-aperture radar (SAR) kann man mit einem Radargerät zwei- oder dreidimensionale Bilder erzeugen. So lässt sich mittels eines sich drehenden Radars z.B. eine Landschaft räumlich darstellen. Dazu nutzt man die Zeitdifferenz der ausgesandten Radarstrahlen bis zur Rückkunft und nutzt ferner den minimalen Zeit-Unterschied zwischen dem Auftreffen der zurückkehrenden Strahlen an den verschiedenen Stellen der Radar-Schüssel. Überdies verrechnet man dies mit der eigenen Bewegung - durch die eigene Bewegung vergrößert sich die Fläche der eigenen Radarantenne. D.h. diese Methode wird besonders auf Schiffen, Flugzeugen und Fahrzeugen in Bewegung verwendet. Die Auflösung ist derart fein, dass man heute damit (je nach verwendeter Frequenz und Methode) Details zwischen 10 cm und unter 1 mm Ausdehnung messen kann. Damit können Meere, Gletscher und selbst geologische Formationen in der Erde präzise vermessen werden (Seismic inversion für z.B. Rohstofflager). So werden z.B. auch Waldrodung ermittelt, Vulkanaktivitäten sowie Erdbebenzonen überwacht und Biomassen, Öllecks, Überflutungen oder Stadtwachstum berechnet. Nicht nur die Erde, auch fremde Planeten können so von vorbeifliegenden Satelliten vermessen werden. - Ferner funktioniert das Verfahren auch umgekehrt (inverse SAR), indem eine stationäre Radarstation ein bewegtes Objekt verfolgt und dabei vermisst (z.B. Meteor). SAR wurde zwar bereits 1951 erfunden, aber erfordert derart große Rechenleistung, dass es erst in den letzten Jahrzehnten größere Verbreitung fand.

Super-resolution imaging (SR) umfasst eine ganze Gruppe von Techniken, mit denen man die Auflösung von Bildern erhöhen kann. Sie werden sowohl bei klassischen (sichtbaren) Bildern als auch im Mikroskopiebereich verwendet. Damit kann man sogar physikalisch vorgegebene Beugungsgrenzen sowie die Unstetigkeitsrelation der Photonen überwinden. Sehr vereinfachend zusammengefasst kann man damit Dinge sichtbar machen, welche eigentlich nicht mehr sichtbar sind.

Eine der heute bekanntesten Methoden ist Multi-exposure image noise reduction: Dabei werden mehrere Aufnahmen von einem Objekt gemacht und alle Daten miteinander verrechnet. Das Ergebnisbild aus z.B. 10 Fotos ist ein wesentlich rauschfreieres und somit klareres sowie schärferes Foto. Das können Sie mit den meisten modernen Grafiksoftware-Werkzeugen (wie Photoshop) auch selbst ausprobieren. (Das Video von The Photon Collective erklärt How to Average Layers In Photoshop auf Englisch dies sowie schriftlich bei Adobe im Artikel About image stacks auf Englisch).

Single-frame deblurring erlaubt aus einem einzigen Foto die bekannten Fehler des Objektives herauszurechnen, z.B. Chromatische Aberration, Kissen- oder Tonnenverzerrung.

Man ist sogar bereits dabei, mittels Computational imaging um die Ecke zu schauen. D.h. man kann rechnerisch Dinge sehen, die man eigentlich nicht sehen kann.

Die Beispiele deuten bereits an, dass hierbei riesige bis gigantische Datenmengen anfallen, die in Datenbanken abgespeichert und dann auch noch miteinander verrechnet, also verarbeitet werden müssen. Wer als Patient jemals in einem CT oder MRT lag, erhält anschließend eine angefüllte CD mit den Bildern. Aber das sind die komprimierten Enddaten der bereits in weiteren Schritten davor aus nochmals viel größeren Datenmengen erzeugten Analysebildern.

Alle Verfahren sind derart kompliziert, dass sie selbst von Fachleuten meist nur in Ansätzen erklärt werden können und definitiv den Rahmen dieses Artikels übersteigen. Wer sich dafür interessiert, wird auf einführende Literatur in die Materie unten verwiesen.

Fazit: Ohne extreme Rechenleistung in Mehrkern-CPUs (Zentrale Recheneinheiten) Mehrkern-GPUs (Grafische Recheneinheiten) sowie heute Mehrkern-NPUs (Neuronale Recheneinheiten) sind diese Verfahren nicht handhabbar.

Modell

Erklärungs-Modell: Computational Photography und Künstliche Intelligenz / Artificial Intelligence
Wie jedes Modell vereinfacht es komplexe Zusammenhänge, ist aber zum Verständnis hilfreich.
Alle Details zu dieser Info-Grafik sind im Gesamttext erklärt.

Computational Photography

Computational Photography bildet eine Untergruppe des Computational imaging.

Computational Photography ist im englischsprachigen Raum seit langem bekannt, jedoch im technikfeindlichen Deutschland noch weitgehend unbekannt. Dies zeigt sich bereits am weitgehenden Fehlen deutscher Begriffe dafür. - Eigentlich müsste man es rechnergestützte Fotografie nennen.

Für Computational Photography müssen digitale Daten vorliegen, damit sie maschinenlesbar sind. D.h. konkret, dass man dies mit analogem Film nicht durchführen kann. (Dazu müsste man dessen Daten erste digitalisieren.)

Mit diesen digitalen Daten werden komplexe Berechnungen durchgeführt, welche optische Prozesse ergänzen und ersetzen. D.h. das, was wir Menschen sehen (oder sehen wollen), wird besonders herausgearbeitet.

Kurz gesagt erlaubt Computational Photography Nachteile oder Beschränkungen der Optiken (aus Glas etc.) auszugleichen. Stark verkürzt, erlaubt Computational Photography trotz schlechter Objektive hochwertige Bilder zu machen.

Im einfachsten Fall erlaubt Computational Photography Bildendergebnisse zu produzieren, die mit herkömmlichen optischen Kameras nicht hätten erzeugt werden können.

Im Extremfall kann Computational Photography soweit gehen, dass man zur Bilderzeugung kein Objektiv und keine Kamera mehr benötigt. D.h. optische Grenzen und sogar physikalische Gesetze können damit, wenn nicht überwunden, so doch erheblich gestreckt werden.

Man könnte Computational Photography auch als Anreicherung sehen, z.B. der klassischen 2D-Fotografie und 2D-Videografie durch 3D-Elemente (Vektoren), oder durch Zeitelemente, Wellenlängen und Polarisation des Lichtes oder sonstige gewünschte Informationen (Kontext) zum Bild.

Der Fachbegriff Computational Photography wurde immer weiter ausgedehnt und umfasst heute auch:

Bereits bekannte optische Prozesse, die man in Algorithmen goss, und somit für optische Änderungen jeglicher Art nutzbar machte.
Computer graphics - am Rechner völlig künstlich erzeugte Grafiken jeglicher Art (2- und 3-dimensional).
Computer vision: Technik und Wissenschaft, wie Computer selbständig Bilder analysieren. Wir kennen derzeit die weit verbreiteten Anwendungen: Objekterkennung in der Form automatische Gesichtserkennung und Tiererkennung.
Des weiteren sind Ereigniserkennung (Feueralarm, Fehlen eines Teiles in der Produktionskette in Firmen), Video tracking (Verfolgung bewegter Objekte mittels automatischer Kamerasteuerung), 3D pose estimation (wie verändern sich Körper bei Bewegungen - im Idealfall der komplexe Mensch, wobei dies anhand eines 2-dimensionalen Bildes errechnet wird), Indizierung von Bildern (in weltweiten Suchmaschinen und auf dem eigenen PC), Motion estimation (Bewegungserkennung anhand von Vektoren, wobei es ebenfalls um die Veränderung von 2-dimensionalen Standbildern zu 3-dimensionalen Bewegungen geht - z.B. Video) sowie angewandte Optik: z.B. in der Fotografie oder Videografie.

Im Grunde handelt es sich bei Computational Photography um bekannte Verfahren, die jedoch nun kombiniert auf die Fotografie angewandt werden.

Je mehr man sich mit Computational Photography beschäftigt, umso öfter taucht der bereits frühe Bezug zu 3D auf. De facto handelt es sich in vielen Fällen um dreidimensionale Probleme und Fragestellungen, die jedoch mit nur zweidimensionalen Bildern gelöst werden müssen.

Computational Photography kann auch Nachteile des Sensors ausgleichen und so z.B. das im Bild letztendlich sichtbare Rauschen reduzieren.

Die Pixel-Shift-Methode ist auch eine Art Computational Photography. Dabei werden gemäß der Bayer-Matrix 4 Aufnahmen gemacht, die jeweils um 1 Pixel versetzt sind. Danach wird das Gesamtbild errechnet.

HDR - um z.B. einen sehr großen Dynamikumfang aufzunehmen, zu komprimieren und im Endergebnis für das menschliche Auge / den Ausdruck sichtbar zu machen, gilt als eines der ältesten Verfahren der Computational Photography.

Auch Panorama - Photo-Stitching - das Zusammensetzen einer großen Aufnahme aus zahlreichen Einzelaufnahmen bis hin zu Giga-Pixel-Fotos (Gigapixel mosaicing) war eines der ersten angewandten Verfahren der Computational Photography.

Bereits in den 2010er Jahren wurde die Kombination von HDR- und Panorama-Aufnahmen möglich. Das zeigt, dass frühere Spezialaufgaben mit mehr verfügbarer Rechenleistung auch kombinierbar werden.

Plenoptische Kameras = Lichtfeldkameras nehmen nicht nur die Intensität des Lichtes auf (wie jede Kamera), sondern auch noch die Richtung des vom Motiv reflektierten Lichtes. Das Ergebnisbild mündet schließlich in ein Hologramm. Damit lassen sich interessante Dinge durchführen, wie z.B., den Fokuspunkt erst nach der Aufnahme festlegen. D.h. man macht ein Foto und legt später am PC fest, wo man die exakte Schärfenebene legen möchte. Ferner lässt sich so auch nachträglich die Schärfentiefe / Tiefenschärfe in Ort und Ausdehnung festlegen.
Alle seit Jahren marktreifen Kameras konnten sich bisher nicht durchsetzen. Das belegt ganz nebenbei auch, dass wirklich revolutionäre neue Techniken weder von den meisten Kameraherstellern, noch den allermeisten Fotografen wirklich gewollt sind. Daraus schließe ich im Übrigen auch, dass Computational Photography und AI/KI sich definitiv nicht zuerst bei den klassischen Fotografen durchsetzen werden. Jene sind überwiegend zu konservativ und wünschen sich nur eine minimale Evolution je neuem Kameramodell.

Computational illumination: Hierbei wird die Beleuchtung des fotografierten Objektes verändert. Das kann vom einfachen Aufhellen weit reichen, bis hin zur Veränderung des Lichteinfallwinkels (Sonnenstandes).

Computational Photography erlaubte bereits Anfang 2018 z.B., dass man beim Auslösen 9 Bilder automatisch zusammenrechnet und so die 9-fache Sensor-Fläche erhält, was einen Smartphone-Sensor theoretisch mit einem Micro-Four-Thirds-Sensor konkurrieren lässt.

Smartphones mit 3 Kameras nach hinten waren seit 2018 Standard. Bald werden wir 5 oder mehr verwenden. In Stanford wurden an der Universität schon vor vielen Jahren bereits 128 Kameras parallel geschaltet und haben Aufnahmen erzeugt, die als undenkbar galten. Tragbare Modelle mit 16 Sensoren und kleinen Objektiven wurden 2017 bereits verwendet.

Gleichzeitig wird durch Bildung arithmetischer Mittel das Rauschen reduziert und überdies ist parallel HDRI automatisch möglich.

Alles erfolgt hierbei automatisch und für den Nutzer de facto gleichzeitig und blitzschnell: ein Knopfdruck - keine Einstellungen erforderlich.

Ferner kann man Objektive in mm Brennweite und Blendenzahl und somit das Bokeh nachträglich in einer App bestimmen, wobei dies auf jedes einzelne Pixel separat durchgeführt wird und bei 12 MP bei Smartphones bereits binnen Sekundenbruchteilen funktioniert.

Dabei kann man sogar bestimmen, was vom fotografierten Objekt im Fokus sein soll und wo der Bokeheffekt einsetzen soll. Dies ist bei Porträtaufnahmen mit einem f1,4 Objektiv der Profiklasse bereits sehr schwierig, da man kaum Nasenspitze, Auge und Ohr scharf erhält. Man will im Idealfall Blende 5,6 bis f8 für das Gesicht, aber dahinter und davor einen weichen Übergang zu f1,4. Mit einem Smartphone und Computational Photography funktioniert diese spezielle Schärfentiefe / Tiefenschärfen- und Bokeh-Gestaltung bereits heute.

Apple bot 2018 bereits einen nachträglichen Beleuchtungseffekt, mit dem man z.B. bestimmte Gesichtspartien heller gestalten kann, so wie dies mit einem Blitz oder sonstigen Studio-Hilfsmitteln gemacht worden wäre.

Die Grenze zwischen Computational Photography und Künstlicher Intelligenz ist fließend. De facto greifen sie in der Fotografie ineinander. Auch die Grenzen zu Video und Virtual Reality (VR) sowie zu Augmented Reality (AR) und 3D-Video Games verschwimmen dadurch zunehmend.

Artificial Intelligence (AI) / Künstliche Intelligenz (KI)

Wenn man erkennt, dass unsere gesamte Kultur letztendlich das Produkt der Intelligenz ist, dann besitzt die künstliche Intelligenz das Potenzial, unser Leben zu verändern.

Grundsätzlich muss man zuerst einmal ein paar Begriffe klären, die ständig unsauber vermischt bis falsch durcheinander gewirbelt werden. Allerdings ist der Ausdruck Künstliche Intelligenz nicht so sauber definiert, wie man es als Wissenschaftler wünschen würde.

Bitte ziehen Sie zum Überblick immer wieder die Info-Grafik zu Rate, welche als Modell die Zusammenhänge im Überblick erklärt.

Vereinfachend ausgedrückt, ist AI die Wissenschaft, Maschinen dazu zu bringen, menschliche Aufgaben auszuführen.

Der Ausdruck lässt sich mindestens auf die 1950er Jahre zurückdatieren, als Menschen versuchten, mit Computern Probleme zu lösen.

AI wird meist in zwei logische Kategorien unterteilt: der symbolischen und der datenbasierten.

Der symbolische Ansatz strebt den Zugang zur Intelligenz über die begriffliche Ebene.

Die datenbasierte Methode verwendet hingegen sehr große Datenmengen, welche man der Maschinen beibringt oder sie selbst lernen lässt. Letzteres wird machine learning (Maschinen-Lernen) genannt.

Mit maschinellem Lernen erreicht man zwei generelle Ziele: Klassifizierung und Voraussage.

Das Lernen selbst wird wiederum in zwei Kategorien unterteilt:

Supervised learning: Der Trainer gibt der Maschine Beispiele und die Lösung (z.B. 10 Fotos von einer Person und den passenden Namen dazu). Viele sprechen hierbei auch von trainieren.

Unsupervised learning: Der Mensch gibt der Maschine nur Beispiele ohne jede Lösung vor und fordert sie auf, selbst etwas über Muster etc. herauszufinden. Viele sprechen hierbei auch von selbstlernend.

Gibt man der Maschine ein Ziel vor, so nennt man den Vorgang reinforcement learning (Belohnung, Bestärkung). Z.B. die Vorgabe, zwei Fotos für ein Panorama so lange an allen Schnittstellen anzupassen, bis es über die gesamte Länge in allen Details passt.

Der direkte Vorteil beim Maschinenlernen liegt bereits darin, dass Menschen viel einfacher und schneller Beispiele für etwas liefern können, als logische Strukturen oder gar Programmcode für den PC zu erstellen. D.h. bereits das Machine-learning spart Zeit.

Danach wird es jedoch erst richtig interessant, weil der Computer dann in einer Kreisbewegung - Machine Learning Life Cycle genannt - sich selbst in seiner Arbeit optimiert: Frage stellen, Daten sammeln, den Algorithmus trainieren, es ausprobieren, Rückmeldung sammeln und auswerten, sowie das dadurch Gelernte für den kommenden Kreislauf als Verbesserung verwenden.

In der Vergangenheit lieferten Maschinen durch diesen Vorgang eine Lösung zu einer Anfrage / einem Problem. Dieses oft als mechanistisch bezeichnete alte Vorgehen konnten viele Menschen noch geistig nachvollziehen (oder sie bildeten sich dies zumindest ein) und hießen es somit gut.

Inzwischen liefern Maschinen jedoch auf Fragen nicht nur Antworten, sondern erzeugen selbst Lösungsalgorithmen, die potentiell in der Lage sind, jedes Problem / jede Frage zu lösen und auch jede menschliche Arbeit zu übernehmen.

Diese Maschinen und deren Programmierer können uns jedoch nicht mehr erklären, wie sie dazu gekommen sind.

Fotografisch gesprochen liefern Maschinen heute bereits die mathematischen Lösungswege, um jedes Bild in ein anderes umzuwandeln.

Sie können in einem evolutionären Ansatz / Modell sogar ihre eigenen Verbesserungen an andere KI-Systeme vererben, die sie weiter optimieren (ähnlich Lebewesen nach der Darwin'schen Theorie), um Probleme ständig noch effizienter zu lösen. Und sie können damit andere Maschinen selbständig anlernen.

Es geht sogar noch weiter: Waren bisher große Datenmengen an verschiedenen realen Beispielen erforderlich, so können Generative Adversarial Networks (GAN) sogar aus wenigen Datensätzen sich selbst weitere Beispiele für ihr eigenes Lernen erzeugen und sich damit selbst optimieren.

Zum Nicht-mehr-Erklären-können ein kleiner ketzerischer Hinweis: Menschen machen sich da oft auch etwas vor. Wie z.B. Entscheidungen im Straßenverkehr fallen, wird zwar nachträglich oft irgendwie rationalisiert. Aber harte Fakten und wirkliche Logik sind dabei nicht immer vorhanden. So gebe ich ganz offen zu, dass ich manchmal irgendwie merkwürdig auf dem Gehweg laufenden oder sich irgendwie auffällig benehmenden Menschen etwas weiter ausweiche, weil ich so ein Gefühl habe, sie könnten plötzlich auf die Fahrbahn schreiten etc. Aber de facto tritt das Befürchtete dann doch nicht immer ein. - Und ganz nebenbei ist inzwischen erwiesen, dass in fast allen ganz spezifisch heruntergebrochenen engen Teilaufgaben KI-Maschinen treffsicherer = fehlerfreier arbeiten als Menschen. Denken Sie nur an die Millionen durch Menschen verursachten kleinen Pkw-Unfälle jedes Jahr. - Man sollte also vorsichtig sein mit Ausdrücken wie rationales Geschöpf und Krone der Schöpfung.

Bei KI sollen Software-Agenten möglichst automatisch ein Ziel erreichen. Umgangssprachlich meint man damit oft ein Kopieren der Verhaltensweisen des Menschen, wie das Lernen und die Problemlösung. Dies soll dazu führen, dass die Maschine / der PC Entscheidungen selbständig trifft, die nicht eindeutig / trivial sind.

Allerdings lebt die Definition des Begriffes: Fast alles, was früher als KI galt (z.B. Buchstabenerkennung oder der Autopilot in Flugzeugen), wird heute eher als normale Routineaufgabe der Maschinen angesehen. D.h. die Definition wird laufend auf noch komplexere Fragestellungen eingeengt (zuerst Schach, dann Go).

Als Wissenschaft existiert AI seit 1956. Allerdings arbeiten viele weitere Disziplinen (wie Neurowissenschaften oder Psychologie) auch daran.

Man unterscheidet ferner starke KI (general AI, Artificial General Intelligence, AGI, strong AI), die einem Menschen entspricht, und schwache KI (narrow AI, weak AI), die begrenzte Aufgaben - also konkrete Problem-/Aufgabenfelder - lösen kann.

Hier bestehen meines Erachtens viele Missverständnisse, die zur allgemeinen Ablehnung oder pauschalen ethischen oder philosophischen Kritik resp. Aussagen über die angebliche Unmöglichkeit der Umsetzung führen. Ideelles Ziel vieler Forscher ist die starke KI, aber de facto auf absehbare Zeit erreichbar ist derzeit nur die schwache KI. Derzeit sind wir noch weit entfernt von jener ominösen technologischen Singularität - dem Punkt, an dem künstliche Intelligenz die menschliche insgesamt erreicht resp. übertrifft.

Ferner besteht ein grundlegendes Problem bereits darin, dass die menschliche Intelligenz meist nicht sauber definiert wird. So unterscheiden Wissenschaftler im Bereich KI z.B.:

Kognitive Intelligenz (bei Schach und Go haben die klügsten Menschen gegen Maschinen bereits verloren),

Sensomotorische Intelligenz (hier ist der Mensch derzeit noch weit überlegen),

Emotionale Intelligenz (hier leisten Maschinen bisher sehr wenig),

Soziale Intelligenz (auch hier bieten Maschinen derzeit fast nichts).

Im Zusammenhang mit AI wird immer wieder die Untergruppe Maschinelles Lernen / Machine learning genannt. Dabei wird Wissen aus Erfahrung gewonnen. D.h. ein Rechner lernt aus eingegebenen Beispielen und kann diese Einzelfälle abstrahieren und verallgemeinern.

Ein Teil davon, das auf neuronalen Netzwerken basiert, ist wiederum Deep Learning: Das automatische Erlernen von hochkomplexen Strukturen, Vorgängen und Verhaltensweisen anhand sehr großer Datenmengen. D.h. der Rechner lernt nicht einfach auswendig. Bekannt geworden sind u.a. Aktienanalysen, Betrugsaufdeckung und medizinische Diagnoseverfahren. - Im Bereich Deep Learning spielt sich derzeit der Schwerpunkt der Forschung ab, und hieraus kommen derzeit auch die meisten praktischen Ergebnisse, welche die Welt verändern.

Es besteht eine Verbindung zum Data-Mining, wobei man dort eher ganz neue Muster sucht. - Aber auch die KI wird vor allem für ihre Fähigkeit gelobt, uns unbekannte Muster zu erkennen und dann anzuwenden.

Es finden sich jedoch eine Vielzahl an Neuronalen Netzwerken: Recurrent neural networks (RNN) werden z.B. für die Spracherkennung verwendet, wie sie heute bereits auf Smartphones und in Call-Centern im Einsatz ist.

Wenn Deep Learning sich mit der Bildanalyse beschäftigt, nennt man dies CNN - Convolution neural network. Eine Untergruppe davon ist die Computer Vision, die sich mit der Objekt-Erkennung beschäftigt. Damit erkennt man z.B. Menschen, Gesichter, Augen in einer Szene. - In diesem Bereich erkennen Sie ganz deutlich den Zusammenhang von KI und Computational Photography. Siehe das Info-Grafik oben.

KI-Systeme müssen heute u.a. folgenden Kriterien erfüllen:
Sie müssen lernen können - das gilt als integraler Bestandteil eines KI-Systems, wobei man wiederum unterscheidet zwischen zuerst (durch Menschen) antrainiertem Lernen und selbständigem Lernen.
Sie müssen mit Unsicherheit umgehen können und probabilistische Informationen auswerten können - D.h. es muss mit mehreren Lösungsmöglichkeiten arbeiten können. Dabei unterscheidet man wiederum zwischen dem Suchen von Lösungen und dem Planen (Zielformulierung und dann auch Problemformulierung zur Zielerreichung), das bis hin zur Ausarbeitung kompletter Aktionsfolgen gehen kann, die dann wiederum ein automatisches System (z.B. Roboter oder anderes KI-System) durchführen kann.
Sie müssen logische Prozesse mit mathematischen und informationstechnischen Mitteln bearbeiten.

Vor allem auf diesem Feld der schwachen KI wurden in den letzten Jahren bedeutende Fortschritte erzielt. Und hier wiederum mit künstlichen neuronalen Netzen, die das menschliche Denken / Gehirn nachbilden sollen (man nennt dies auch Bottom-up-Ansatz). Hierbei spricht man auch gerne von Deep Learning: Im Bereich der Fotografie beruht vor allem die Gesichtserkennung hierauf. Hierbei werden die Systeme nicht mehr im Grunde programmiert, sondern trainiert. D.h. das neuronale Netz lernt weitgehend selbständig anhand der vorgelegten Bilder. Um jedoch gleich die dazu erforderliche Rechenleistung festzuhalten: Wir sprechen hier von Netzwerken an speziellen Großrechnern, nicht von herkömmlichen Heim-PCs, auf denen so etwas abläuft. Exakt diese mangelnde Rechenleistung schließt meines Erachtens auch klassische Fotokameras auf absehbare Zeit davon aus.

Für die Fotografie sind zahlreiche Teilgebiete der KI hilfreich oder können dies sein / werden.

Wissensbasierte Systeme: Sie bieten als Expertensysteme Antworten auf fotografische Fragen. Dazu verwenden sie formalisiertes Fachwissen in Datenbanken und ziehen daraus logische Schlüsse, um Fragen des Anwenders zu beantworten. Dies beginnt bei der Fehlersuche (z.B. an der Kamera), kann jedoch bis hin zur Lichtgestaltung und Bildgestaltung reichen.

Musteranalyse und Mustererkennung: Sogenannte visuelle Intelligenz kann Bildinhalte analysieren, erkennen und auswerten. Bekannt ist bisher vor allem die Gesichtserkennung. De facto beruhen jedoch auch die Augenerkennung bei Augen-Autofokus-Systemen darauf. Ferner beruht die Bilderkennung in Software auf KI, sofern sie eigenständig Bildinhalte analysiert und danach das Bild so textlich verschlagwortet (z.B. für Bild-Suchmaschinen).

Mustervorhersage: So kann man z.B. aus bisherigen Bewegungen eines Motives im Sport u.a. voraussagen, wohin die Person sich zukünftig bewegt. Dies verhilft dem AF-System zu höherer Treffsicherheit. Aber auch aus den Zitterbewegungen des Fotografen kann das System berechnen, wie es das Objektiv oder den Bildstabilisator in der Kamera einstellen muss, damit beim in der Zukunft liegenden Betätigen des Auslösers dennoch ein scharfes Bild entsteht. Dies ist im Übrigen ein Beispiel für die Kombination von Software mit Hardware für die Bildverbesserung. Meist handelt es sich bei KI eher um Software-basierte Optimierungen.

Mittels Robotik lassen sich Videokameras steuern, um z.B. eine Person immer im Bild zu halten. Ähnliches ließe sich beim Panning herstellen, sodass der Roboterarm die Fotokamera mit jedem vorbeifahrenden Rennwagen selbständig mitzieht und dabei Aufnahmen auslöst. - Aber mittels einer anderen KI-Lösung: fluttered shutter - einem unregelmäßig arbeitenden Verschluss an der Kamera - sowie einer Fourier Transformation funktioniert das auch einfacher. D.h. scharfe Fotos von extrem schnell sich bewegenden Objekten sind möglich.

Festzuhalten bleibt jedoch, dass viele Dinge, welche heute in den Fotoapparaten eingebaut werden, keine eigentlichen KI-Systeme darstellen, sondern nur das zusammengefasste Ergebnis jener KI-Systeme. D.h. man baut eine kleine Datenbank mit Antworten auf Anfragen / Muster etc. oder nur einen durch KI herausgefundenen Algorithmus ein.

Um es klar zu sagen: Für die paar tausend Euro einer Fotokamera erhält man kein komplettes KI-System, das sich selbstlernend einem Problem nähert und es löst. Dafür sind eher Millioneninvestitionen oder sogar - wie im Bereich selbstfahrende Pkw - Milliarden erforderlich.

Daraus folgt, dass vieles, was heute den Namen KI trägt, nur im weitesten Sinne dazu gehört.

Für viele Fotografen und Kamerahersteller ist KI/AI inzwischen schlichtweg zu einem inhaltslosen Marketing-Schlagwort (Slogan: AI-powered) verkommen.

Im Übrigen arbeitet unser Gehirn auch im für Fotografen wichtigen Bereich des Sehens mit ähnlichen Methoden: Hyperacuity ist ein optisches Phänomen bei Menschen, die mit den Augen bis zu zehnmal kleinere Dinge unterscheiden können, als die Retina auflösen kann. D.h. hier werden im Gehirn optische Daten ähnlich zu Computational Photography und KI aufbereitet.

Vorteile

KI bietet zahlreiche Vorteile.

Teure Objektive lassen sich durch preiswerte ersetzen

Beschädigte oder nicht perfekte Objektive (in der Produktion durch die übliche Serienstreuung) können dennoch verwendet werden, indem man dem Objektiv spezifische Korrekturdaten mitgibt.

Gewicht und Größe von Objektiven lassen sich reduzieren, indem man weniger Linsen einbaut, kleinere Linsen verwendet etc. Dies ergibt zwar eine deutlich geringe primäre Abbildungsleistung, aber jenes Endergebnis wird digital korrigiert.

Um es klar festzuhalten: bereits deshalb wird Computational Photography von allen im Fotobereich tätigen Firmen verwendet werden. Kosten senken ist heute identisch mit Gewinn erhöhen. Preisvorteile werden heute eher selten an die Endkunden weitergegeben. Die Produkt- und vor allem Objektivpreise steigen i.d.R. jährlich an. - Siehe hierzu Moderne Objektive und RAW-Betrug.

Noch wichtiger sind diese Vorteile jedoch bei Kleinstkameras, weil hierdurch erst eine hohe Bildqualität erzeugt werden kann. - Mit anderen Worten: Computational Photography erlaubt es, mit kleinen Sensoren und viel Rechenleistung große Sensoren bis hin zu APS-C sowie große und schwere Objektive zu ersetzen (siehe Sensor-Sterben.)

Arbeitserleichterung auf Seiten der Fotografen und Videografen

Viele Arbeitsschritte vor und nach der Aufnahme können zukünftig entfallen.

Kurzum: Alles, was Sie heute noch mühsam in Lightroom und Photoshop stundenlang bearbeiten, wird Ihnen KI abnehmen und in Sekunden automatisch erledigen.

Die stumpfsinnige und zeitraubende Bildverschlagwortung funktioniert heute bereits in ersten Ansätzen und wird bald komplett von KI-Agenten übernommen werden. Genauer gesagt wird es wohl andersherum laufen. Sie stellen eine Anfrage, und erst dann wird der Agent alle Ihre Fotos (wo auch immer diese lagern) durchsuchen und die Ergebnisse Ihnen vorlegen. D.h. man legt keine großen Datenbanken mit Schlagwörtern mehr an.

KI-Systeme werden auch lernen, Ihren Fotostil zu analysieren und dann automatisch alle Bearbeitungsschritte hierzu optimieren. Dies wird sogar dann funktionieren, wenn Sie nicht einmal selbst wissen, dass und welchen Fotostil Sie besitzen.

Die Software / Kamera wird dem Fotografen zukünftig optimale Aufnahmewinkel, Brennweiten und Abstände vorschlagen für den gewünschten Effekt.

Studio-Fotografen müssen ein Motiv / Objekt nicht mehr unter allen Lichtbedingungen aufnehmen, damit sich der launische und wechselhafte Kunde das optimale aussuchen kann. Die Veränderung des Lichtes lässt sich auch nachträglich am PC durchführen.

Verwacklungsunschärfe wird sich herausrechnen lassen und der bisher klare Fall für die Tonne (Lösch-Taste) kann sich (mittels joint deconvolution) zum scharfen Foto entwickeln, das man verkaufen kann.

Sogar einen falsch gesetzten Fokus oder eine falsche Blendenwahl (Schärfentiefenbereich / Tiefenschärfebereich) wird man nachträglich (in jede Richtung) korrigieren können.

Man wird zukünftig noch hochwertigere Fotos und Videos bei noch weniger Licht aufnehmen können. Videos von Menschen vor einem Sternenhimmel funktionieren schon seit einigen Jahren. D.h. wir sprechen über Fotos und Videos bei fast völliger Dunkelheit.

Physikalische Grenzen wie die Beugung oder optische Grenzen der bereits heute konstruierten Objektive können mit Computational Photography und KI, wenn nicht überwunden, so doch deutlich weiter hinausgestreckt werden. D.h. Sie können auch mit alten Objektiven eine software-bedingt laufend höhere Bildqualität erzielen.

Das zukünftige Kamera-/Video-Gesamtsystem wird kleiner und leichter werden.

Zeitlupen-Aufnahmen werden zukünftig auch mit 30 Bildern in der Sekunde möglich sein, da Algorithmen die Fehlenden 1, 2, 5, 10 etc. Bilder zwischen den beiden Einzel-Bildern perfekt errechnen.

Alle Kameradetails lassen sich bald nachträglich ändern. D.h. selbst wenn Sie mit einer 20 Mega-Pixel-Kamera und einem Weitwinkel-Objektiv das Foto aufgenommen haben, kann man daraus bald eine 100 MP-Aufnahme mit einem Teleobjektiv generieren. Die KI dafür wird bereits entwickelt. Fehlendes wird dabei logisch ersetzt, also besser als jedes Objektiv und Kamera es könnte. Nicht nur bei Pflanzen, auch bei Tieren und Menschen sind die Oberflächen-Strukturen erstaunlich genau berechenbar.

Zukünftig können fehlende Teile in Bildern ersetzt werden, auch wenn nur eine einzige Aufnahme vorliegt. So kann man bald alle Personen aus einem Bild nicht nur herausretuschieren, sondern den fehlenden Teil dort korrekt ersetzen. So lassen sich z.B. von Touristen überfüllte Schlossplätze nicht nur leeren, sondern das Schloss korrekt in allen Details erscheinen. Oder man wird umgekehrt leer Räume, Landschaften korrekt mit Personen und Tieren sowie Fahrzeugen und anderen Gegenständen im zueinander passenden Größenverhältnis füllen können.

Ferner werden sich alle Winkel, Perspektiven und selbst Aufnahme-Höhen spielend simulieren lassen. D.h. Sie machen eine Aufnahme auf Augenhöhe bei Nebel und das System macht daraus eine Drohnenaufnahme bei Sonnenschein.

Oder Sie haben unglücklicher Weise den falschen Hintergrund für das Foto gewählt und müssen sich nun in Photoshop abmühen, das wieder zu retuschieren. Eine KI-Software macht dies bereits für ganze Videos - und zwar ohne den bisher erforderlichen grünen oder blauen Hintergrund.

Es war Ihnen nicht möglich, das Motiv ganz aufzunehmen? Dinge realistisch zu vervollständigen, ist heute eine der Möglichkeiten der KI.

Sie wollen alle Personen in einer Gruppenaufnahme mit offenen Augen und einem Lächeln darstellen. Kein Problem: Einfach im Dauerfeuer draufhalten, den Rest macht dann eine KI-Software (Image stacks from multi-shot images).

Sie wollen etwas / Personen hinter einem dichten Gebüsch fotografieren, das Ihnen die Aussicht auf das Motiv komplett versperrt? Mittels vieler Aufnahmen mit leicht versetztem Standort (synthetic aperture view) gelingt eine erstaunlich brauchbare zusammengerechnete Aufnahme des eigentlich Unsichtbaren hinter dem Gebüsch.

Sie wollen in einem Raum Blitz verwenden, um eine Person hell zu fotografieren, die aus dem Fenster schaut, aber dennoch das Umgebungslicht von außen ohne Spiegelungen (der Person in der Scheibe) mitaufnehmen. Mittels Doppelaufnahmen (mit und ohne Blitz) sowie Verrechnung ist dies möglich.

Sie besitzen alte Schwarz-Weiß-Fotografien. Früher musste man sie mühsam von Hand kolorieren. Das kann heute eine KI-System treffsicher und schnell.

Facebook bietet seit 2018 eine 3D-Foto-Funktion an, für 2D-Bilder, die man mit dem Smartphone gemacht hat.

Sie haben vor Jahren eine Gruppenaufnahme mit vielen Personen in mehreren Reihen gemacht. Nun haben Sie sich jedoch von Ihrem Partner getrennt. Kein Problem: Die Einzelperson lässt sich nicht nur aus dem Foto entfernen, sondern die Reihen auch wieder perfekt zur Gruppe schließen.

Es stellt sich sogar die Frage, ob man sich zukünftig überhaupt noch an den Ort der Aufnahme begeben muss, oder ob man das Foto auch komplett künstlich - nach Ihren Vorgaben - erzeugen kann. - Diese kühne These von mit erregte 2017 Kopfschütteln, Widerspruch und viele Hass-E-Mails. Mitte der 2020er Jahre war es die die bereits milliardenfach erzeugte Realität durch das Prompting - also die Zeileneingabe bei GenKI-Software zur Bild- und Video-Erzeugung.

Überdies stellt sich die Frage, ob es zukünftig überhaupt noch teurer Models für Studioaufnahmen bedarf, denn perfekt aussehende Menschen lassen sich bereits heute am Computer erzeugen. Eigentlich wollten Sie sowieso schon immer einmal Mona Lisa als Model. Wo es noch Probleme gibt, ist bei der 3D-Bewegung von Körpern, die angesichts der vielen menschlichen Muskeln hoch komplex ist. Aber auch dies ist eher eine Frage der Rechenleistung, die sich in 10 Jahren verhundertfacht bis vertausendfacht. Aber die hohe Rechenleistung wird bald nicht mehr nötig sein, denn es existiert bereits jetzt eine KI, die selbst automatisch effizientere KI-Systeme entwickelt, als jeder Mensch es kann.

Oder Sie wollen die Jahreszeit ändern. Das wird bald für jeden Fotografen kein Problem mehr sein. Machen Sie eine Aufnahme im Sommer. Das KI-System rechnet es in eine Winterlandschaft um. Sie glauben es nicht? Das konnte eine KI-Software bereits Ende 2017 - und zwar bei ganzen Videos - nicht nur Standbildern. Auch das Umrechnen einer Tagesszene in eine Nachtszene sowie umgekehrt ist inzwischen ebenfalls möglich. Oder das Wetter im Bild ändern - Regen in Sonnenschein oder umgekehrt.

Oder Sie wollen ein Bild aufnehmen, das ganz gewiss in Wettbewerben gewinnt. Das wird zukünftig keine Herausforderung mehr sein. KI konnte bereits die Bewertung von Bildern bei Menschen auswerten und vorhersagen. Der Folgeschritt, daraus das optimale Bild zu erstellen, ist für Künstliche Intelligenz geradezu einfach.

Damit lässt sich auch die eigene überquellende Sammlung an Fotos ausdünnen, indem ein Algorithmus nur die besten davon automatisch auswählt. Das wird sogar noch weiter gehen, dass die Kamera zukünftig ständig aufnimmt / filmt, aber überhaupt nur noch die jeweils besten Fotos / Filmsequenzen speichert. - Mehrere Smartphones arbeiten seit 2018 in Ansätzen bereits so.

Oder noch weitergedacht: Sie wollen etwas fotografieren, das es überhaupt nicht gibt?

NVIDIA-Forscher zeigten bereits Ende 2018, dass man aus mehreren Fotos von völlig unterschiedlichen Personen eine perfekte Porträtaufnahme einer gar nicht existenten Person herstellen kann.

Im Frühjahr 2019 stellten NVIDIA-Forscher ihr neues System vor, das aus einer primitiven, gemalten Landschaft (im Grund nur ein paar Farbflächen) eine gestochen scharfe Landschaftsfotografie erzeugte.

Aber noch viel mehr ist kein Problem mehr: Stellen Sie sich einfach etwas bildlich vor. Seit Januar 2018 kann eine KI-Software Ihre Gehirnströme auslesen und daraus das von ihnen visualisierte Bild am Monitor erstellen.

Falls Sie das Foto lieber per Sprache oder Texteingabe erzeugen wollen, so funktioniert dies seit 2018 ebenfalls. - Daraus folgt für Videografen, dass sie mit einem ausführlichen Drehbuch einen kompletten Film ohne Landschaft, Tiere und Menschen drehen können. Dann entfällt auch jede Neuaufnahme, weil eine Person wieder einmal den Text nicht gelernt hat, und vor allem jede mühsame Nachbearbeitung, Schneiden etc. - Nicht träumen: Erste Firmen haben das bereits in einer Variante umgesetzt. Sie schreiben einen Artikel, reichen diesen an die Maschine, und die KI-Software sucht anhand der selbst analysierten Kernthemen / Schlüsselwörter in Ihrem Artikel aus allen bisher veröffentlichen Videos der Welt das relevante Material zusammen und schneidet daraus dann einen neuen Film zu Ihrem Thema. Das funktioniert heute in Sekunden, wozu früher Spezialisten in Nachrichtensendern viele Stunden benötigten.

Im Frühsommer 2019 veröffentlichten russische Forscher, die für Samsung arbeiten, dass sie aus einem einzigen Standbild (Zeichnung Schwarz-Weiß-Foto, Farbfoto etc.) eine Dreidimensionale Animation / Video machen können, auf der die abgebildete Person täuschend echt spricht. D.h. nicht nur die Sprache, sondern auch die gesamte Mimik und Teile der Oberkörper-Gestik kann nun aus einem einzigen Standbild binnen Sekunden erzeugt werden.

Sie wollen eine völlig neue Aufnahme vom Kölner Dom machen? Kein Problem: KI untersucht alle jemals veröffentlichten Fotos dazu und berechnet dann Perspektiven, die neu sind. Danach kann eine andere KI die vom Publikum am besten beurteilten 5 Perspektiven auswählen. Falls Sie dann nicht selbst den Mut besitzen, auf den Dachfirst eines der benachbarten Häuser zu steigen, macht das auch nichts. Eigentlich benötigt KI heute den Fotografen nicht mehr. (Er stört - wie die Kunden.) KI kann aus den bereits vorhandenen Fotos jede andere Perspektive berechnen und selbst das neue Foto erzeugen.

Sie wollen die Niagara-Fälle aufnehmen und zwar vom Nordufer bei Sonnenaufgang am 21. Juni um 5 Uhr Ortszeit. Abgesehen davon, dass Sie aber nicht vor Ort weilen, wollen Sie das alles auch noch zurückdatieren. Verschiedene KI kann das alles bereits. So lässt sich der Zustand der Niagara-Fälle um 1800 herstellen. Andere KI kann dann die Sicht von einer 60 Meter hohen Riesentanne am Nordufer erzeugen und dann das Foto mit Sonnenaufgang am längsten Tag so gestalten, wie es der letzte Mohikaner beim Aufwachen in der Baumkrone gesehen hätte.

Als ich bis 2019 dies verfasste war nicht alles perfekt, und noch konnte ein guter Fotograf mit versiertem Auge, die Unterschiede zum Original erkennen. Aber das waren bereits damals letztendlich nur technische Feinheiten, die sich mit mehr Rechenleistung lösen lassen.

Nachteile und Einschränkungen

Manches steckt noch in den Kinderschuhen. Aber vieles hat seit 2010 erheblich an Fahrt gewonnen. Sollte sich die Entwicklungsgeschwindigkeit fortsetzen, wird sich die Fotografie und Videografie bereits in den kommenden 10-20 Jahren massiv verändern. - Wie optimistisch im Sinne der Fotografen ich damals war: Bereits 2023 - also nur 5 Jahre später - kollabierte die Welt für die klassischen Fotografen.

Wenn sich nur die Hälfte dessen, was ich an (jedoch hier nicht zur Publikation freigegebenen) Forschungs-Projekten in Laboren gesehen habe, in marktreife Produkte entwickelt, so werden sich klassische Foto- und Filmkameras schwer tun sowie auch manche Berufsfotografen ihre letzten Einnahmequellen dahinschwinden sehen.

Dennoch ist zu große Euphorie oder Panic unangebracht. Oft fehlten in der Geschichte für Umsetzung von Erfindungen schlicht das Geld. Oder die (auch durch hirnlose Manager, Medienvertreter und Politiker erzeugte) Euphorie in der Startphase erwies sich als übertriebener Hype. Man denke nur an die Internet-Welle, die um das Jahr 2000 kollabierte. Oft folgt auf revolutionäre Erfindungen ein desillusionierendes langes Tal der Tränen, nachdem dann erst die übrig gebliebenen wirklich sinnvollen Anwendungen den Markt veränderten.

Künstliche Intelligenz benötigt: granulare Daten - sehr feine und strukturierte Informationen, zudem sehr große Datenmengen und schließlich sehr unterschiedliche Daten, um Muster zu erkennen, zu lernen und dann zuverlässige Entscheidungen daraus treffen zu können.

Derzeit ist KI weitgehend datenabhängig. Sofern diese Daten korrekt sind, ist das Ergebnis ebenfalls korrekt. Sobald die Datenqualität jedoch schlecht ist oder auch nur schwankt, so sinkt die Treffsicherheit deutlich.

Derzeit sind viele KI-Systeme noch merklich segmentiert. Sie können meist nur eine bestimmte Spezialaufgabe effizient durchführen.

Während man manche Dinge der Computational Photography wie HDR, oder Panorama-Funktionen bereits in Kameras fest eingebaut hat, indem man bestimmte Prozesse vereinfacht und hart kodiert hat, so wird dies nicht mit allem funktionieren.

Natürlich lassen sich auch zahlreiche Ergebnisse der AI/KI in eine kleine Datenbank eingeben und in Kameras implementieren und dort als Standardfälle abrufen. Auch die Aufrüstung des internen Speichers einer Kamera auf 1 Tera-Byte oder mehr ist bald möglich.

Aber echte künstliche Intelligenz und Deep Learning erfordern auch heute noch wirklich riesige Rechenleistung. Allein das selbstfahrende Auto von Google soll 2018 fast 1 Gigabyte an Umwelt-Daten je Sekunde verarbeitet haben, um die Verkehrssituation um sich herum zu beurteilen. Und das meine ich auch mit der absolut unzureichenden Infrastruktur in Deutschland. Für KI gibt es hierzulande derzeit keine brauchbare (Funk-) Netzinfrastruktur - und wie viele Techniker analysiert haben, wird es sie auch auf absehbare Zeit nicht in der Fläche geben.

Selbst auf absehbare Zeit (10 Jahre) sehe ich dies nicht in mobilen Systemen erzielbar. Damit scheiden alle mobilen Systeme ohne Anschluss an Großrechner / Netzwerke kurzfristig aus.

Deshalb schlägt hier die Stunde der Smartphones, die bereits heute über eine viel größere Rechenleistung verfügen als klassische Fotokameras, die sie bei Bedarf einer einzigen Aufgabe zu fast 100% zuweisen können. Ferner besitzen sie durch das Funknetz Zugriff auf alle Ressourcen der Welt. Falls es sein muss, kann man über Funk sogar ganze Netzwerke von Großrechnern zusammenschalten. - Und dann klappt es auch mobil mit dem Nachbarn Deep learning. - Man schickt eine Aufgabe vom Smartphone an das Netzwerk und erhält von dort die bearbeitete Lösung zurück. Dafür reicht sogar die drittklassige Infrastruktur in Deutschland.

Viele erforderliche Dinge scheiterten bereits früher bei der klassischen Fotografie: Stereoaufnahmen oder Multi-Sensoren mit mehreren Objektiven lassen sich nicht durchsetzen. Ferner lassen sich auf absehbare Zeit mit großen Sensoren - auch bei nachgelagerten Hochleistungsprozessoren - nicht die erforderlichen Bildgeschwindigkeiten von 1.000 Bilder in der Sekunde oder mehr erzielen wie bei den kleinen Sensoren der Smartphone-Klasse. Damit fehlen hier bereits wichtige Hardware-Grundlagen der Computational Photography.

Überhaupt sehe ich den Einsatz der neuen Technologien kurzfristig eher bei unbedarften Fotografen, die sich nicht mit der komplexen Materie der Fotografie beschäftigen wollen, sondern einfach nur sehr gute bis perfekte Ergebnisse bei Foto und Video wünschen - aber das sofort und ohne Mühe. - Sämtliche alten Lernregeln für gute oder perfekte Fotos, dass man als Fotograf hartnäckig an einer Sache bleiben soll und mindestens 10.000 Stunden Training benötigt, eine klar definierte Absicht mit einem genau visualisierten Ziel für das aufzunehmende ideale Foto sowie Originalität etc. haben muss, um gute Fotos machen zu können, werden zwar nicht völlig außer Kraft gesetzt. Aber die KI macht das zukünftig für jeden Fotografen - auch für Anfänger. Somit kann und wird jeder zukünftig auf die gesamte fotografische Erfahrung aller jemals veröffentlichenden Fotografen zurückgreifen, und zwar automatisch - ohne, dass er es sogar weiß. KI wird Ihnen sogar erlauben, einen kompletten fotografischen Stil auszuwählen, selbst, wenn Sie überhaupt nicht wissen, was dies ist oder von wem er stammt. KI kann für jeden Anfänger sogar einen völlig neuen fotografischen Stil entwickeln - bereits beim ersten Foto.

Ferner gibt es zahlreiche Spezialgebiete wie Immobilien, wo 3D-Raumaufnahmen mit VR-Brillen die Besichtigung zu Hause ermöglichen (volumetric filmmaking).

Solange sich klassische Fotografen darüber streiten / aufregen, ob der gewohnte Schalter beim neuen Kameramodell 1 cm weiter links oder rechts liegt, sehe ich keinen ernsthaften Wunsch nach modernster Technologie. Zukünftige Foto- und Video-Kameras werden sowieso völlig anders aussehen als die Monster, die man heute mit sich herumschleppt. - Diese Zukunft spielt auch nicht im fernen 25. Jahrhundert. Viele Smartphone-Benutzer halten spätestens seit 2017 die Zukunft bereits in Händen.

Selbstredend werden hochwertige, große, schwere, teure Objektive und große Sensoren sowie die passenden Gehäuse darum herum nicht verschwinden, denn mit besserer Grund-Hardware lassen sich mit Computational Photography und KI nochmals eine höhere Bildqualität erzeugen - vermutlich eher zu Hause am PC mit Internet-Anschluss. Aber das dürfte für wirklich die meisten Anwender dann mehr als gut-genug sein.

Um es provokant zusammenzufassen: Die Entwicklungen der Künstlichen Intelligenz und der Computational Photography sind nicht aufzuhalten - auch nicht von noch so doktrinären vereinigten deutschen und französischen Technikfeinden inklusive Enquete-Kommissionen sowie Verbotsvorschriften (wie z.B. der DS-GVO). - Dies galt auch Ende 2024 für den von den deutschen Grünen durch die EU getriebenen sogenannten AI-Act, welcher dank der Macht jener politischen Agitatoren in den wichtigen Ausschüssen und Gremien bei der Detailumsetzung alles (in Europa) verhindern soll. Die Entwicklung wird sich sogar jährlich beschleunigen. Das Einzige, was es 2018 (und in Deutschland bis heute) einschränkt und massiv ausbremst sind der Geldmangel und die heruntergekommene Infrastruktur - vor allem in Deutschland. Dennoch folgt daraus, dass wir die Fotografie im Jahre 2030 nicht mehr wiedererkennen werden. Ferner sollten die USA-feindlichen Deutschen endlich mit Ihrer geradezu hetzerischen Pauschal-Schelte aufhören. Es ist inzwischen nämlich China, das die größten Fortschritte beim Masseneinsatz von KI macht.

Es wird auch dann noch Fotografie resp. Videos geben. Aber deren Erzeugung wird völlig anders ablaufen und völlig andere Geräte dazu verwenden als heute in der klassischen Fotografie angewandt und derzeit heiß als zukunftssicher diskutiert werden.

Bald darauf wird man den Beruf des Fotografen kaum mehr benötigen, wie viele andere Arbeitskräfte auch. Der Grund dafür liegt darin, dass er mit Daten zu tun hat. Das können KI-Maschinen effizienter.

Mit anderen Worten: Künstliche Intelligenz ist weder böse noch gut. Bei KI geht es nur um die Frage der Kompetenz. Und bei allem, das mit Daten und Datenbe- sowie -verarbeitung zu tun hat, sind Computer bereits heute überlegen, sprich kompetenter. Selbst wenn es den kreativsten Berufsfotografen gelänge, KI um ein paar Prozentpunkte zu übertreffen, wäre dies in unserer Gesellschaft des 80/20-Denkens (resp. des Gut-genug) für die meisten Menschen irrelevant.

D.h. heißt nicht, dass die Fotografie oder Videografie als Hobby verschwindet. Die industrielle Revolution ersetzte PS durch Watt, aber ermöglichte dadurch erst z.B. das Hobby Reiten für viele. Es wird jedoch zu einer Veränderung der Inhalte kommen: Menschen werden genormte reproduzierende Tätigkeiten (z.B. Passbilder, Hochzeitsfotografie) an Maschinen verlieren. Nur höchste Kreativität schützt etwas und eine Zeitlang vor Verdrängung. Aber KI-Forscher arbeiten bereits an der künstlichen Kreativität. Auch sie wird vermutlich früher kommen, als manche Menschen glauben. Denn viele halten Kreativität auch nur für ein Folge- resp. Abfallprodukt der Intelligenz. Erste positive KI-Ergebnisse im Bereich Literatur, Film, Musik und Malerei lassen sich bereits finden.

Man sollte jedoch auch das - wie ich es nenne - Zauberlehrlingsparadigma erkennen: KI macht, was Sie sich wünschen, aber nicht unbedingt, was Sie wollen. Wenn Sie von KI z.B. verlangen, ein Foto von sich zu erstellen und zu veröffentlichen, das mit Sicherheit weltweit das höchste Interesse erweckt, so wird das wie beim Zauberlehrling geschehen. Pech, wenn die KI Sie dann nackt darstellt.

Bevor die aktuelle Euphorie bei Sprachcomputern zu groß wird und manche Fotografen schon einen hochwertigen Beratungsservice zu Fotografen am Telefon von den Herstellern erwarten, muss ich allerdings erwähnen, dass man inzwischen auch KI-Systeme erfunden hat, welche nicht nur Fragen in jeder von Ihnen gewünschten Sprache beantworten, sondern sogar perfekt lügen.

Dennoch werden Foto- und Video-Kameras immer intelligenter und beginnen, die Welt so zu sehen, zu interpretieren und zu verstehen, wie Menschen dies tun. Sie erkennen Objekte und verstehen, was diese sind und tun, sowie was sie zukünftig tun werden. Bis hin zur Beurteilung, Bewertung der Details und Auswahl des Kernthemas ist es dann nur noch ein kleiner Schritt. Kurzum: Eine KI-Kamera wird letztendlich zum selbständigen Fotografen, der eine Szene analysiert, bewertet und die Kernaussage davon festhält. Das ist nicht mehr die passive camera obscura.

Ferner wird sich unser Verhältnis zu Fotos und Videos nach der ersten digitalen Revolution nun nochmals - und zwar viel stärker - verändern. Man kann Computational Photography und Künstliche Intelligence auch so definieren, dass sie aus einem realen Abbild das Bild von der Welt machen, das sich der Fotograf wünscht. Es stellt sich somit grundsätzlich die Frage, was Bilder sind und was sie für uns bedeuten. Durch Computational Photography und Künstliche Intelligence bearbeitete Fotos stimmen definitiv nicht mehr mit dem überein, was Menschen sehen können. Das wird auch unseren Blick auf die Welt verändern. Das hatte ich bereits 2018 verfasst. Es gilt noch heute. Aber erst seit Mitte der 2020er Jahre glauben es die meisten Fotografen (halbwegs).

Kritische Analysen, Anmerkungen und Kommentare zu den Quellen und Testergebnissen sowie Belegen - Weitere Informationen zur Künstlichen Intelligenz

Im Folgenden finden Sie kommentierte Quellen und Belege sowie Analysen für alle Test-Ergebnisse und Kritiken zu Aussagen zur KI sowie Anmerkungen zu den jeweiligen Testpersonen. Die positiven wie kritischen Einschätzungen im Artikel werden gestützt durch die hier angeführten Belege und Quellen. Sie sollten auf jeden Fall einen Blick in jene Quellen werfen, oder zumindest die zur jeweiligen Quelle angeführten Details beachten.

Die Autoren der internationalen Wikipedia erklären im Artikel Computational photography auf Englisch wichtige Details.

Der Oberbegriff für Computational photography ist Computational imaging den die englischen Autoren bei der US-Wikipedia beschreiben.

Wikipedia liefert im Artikel Synthetic-aperture radar auf Englisch eine Einführung in das Thema der völlig anderen Art der Bilderzeugung.

Das Phänomen der Super-resolution imaging definieren Autoren in der internationalen Wikipedia auf Englisch.

Den auch bei Menschen auffindbaren wissenschaftlichen Begriff der Hyperacuity definiert die internationale Wikipedia.

Autoren der internationalen Wikipedia liefern im Artikel Superlens Definitionen auf Englisch zu diesem spannenden Thema.

In der Elektronik und Wellenlehre spielen Metamaterials viele Rollen, welche englische Autoren der Wikipedia erklären.

Die völlig anders gearteten Verschlüsse Coded aperture werden bei der internationalen Wikipedia zum Thema lensless imaging erklärt.

Auch Coherent diffraction imaging ist ein Bildgebungsverfahren, das ohne klassische Objektive auskommt, wie die Autoren der US-Wikipedia darlegen.

In der Medizin sind KI-gestützte Bildgebungsverfahren wie Computed tomography CT, wie Wikipedia auf Englisch beschreibt, schon länger wichtig.

Ein weiteres Bildgebungsverfahren ist Seismic inversion, welches die Autoren für die internationale Wikipedia beschreiben.

Seit vielen Jahren von Fotografen verwendet ist das HDR High-dynamic-range imaging, erklärt von den englischen Autoren der Wikipedia. Auch dies basiert auf KI-Anwendungen.

Noch älter dürfte das KI-gestützte Verfahren der Panorama- Fotografie sein, das die internationale Wikipedia auf Englisch vorstellt.

Ein früher hochgelobtes und von den Fotozeitschriften gehyptes Verfahren war die Light-field camera - also Plenoptische Kameras - wie Wikipedia sie beschreibt. Durchsetzen konnte sie sich bei den konservativen Fotografen nie.

Das weite Feld der Computer graphics liefert die Wikipedia auf Englisch in einem ersten Überblick.

Das große Feld der Computer vision reißt der Artikel der internationalen Wikipedia auf Englisch kurz an.

Das Maschinelle Sehen = Bildverstehen ist ein Unterkapitel oder Teilbereich der Computer vision. Die deutsche Wikipedia liefert hierzu eine kurze Einführung.

Künstliche Intelligenz liefert einen wichtigen Beitrag zur Image restoration Bildwiederherstellung, wie die internationale Wikipedia darlegt.

Die Definition von Artificial intelligence klingt kompliziert bei Wikipedia auf Englisch und noch komplizierter im Artikel Künstliche Intelligenz auf Deutsch bei Wikipedia, ist jedoch keineswegs so klar und sauber definiert, wie viele oft denken.

Die Autoren der deutschen Wikipedia erklären im Artikel Maschinelles Lernen diesen Teilbereich. Dazu passen die englischen Artikel Machine learning sowie Deep learning der internationalen Wikipedia. Dazu passt die didaktisch locker aufbereitete Erklärung von vas3k Machine Learning for Everyone, die eine allgemeine Betrachtung auf Englisch liefert.

Marc Levoy von der Stanford Universität liefert im folgenden englischen Artikel New Techniques in Computational photography als PDF mit 73 PowerPoint-Seiten weitreichende Informationen zu KI in der Fotografie.

Im Magazin Future of Life wurden bereits im Artikel Benefits & Risks of Artificial Intelligence vom 14.11.2015 auch Sicherheitsaspekte beleuchtet.

Der Artikel Artificial Intelligence - What it is and why it matters - liefert auf Englisch eine kommerzielle Betrachtung zu KI.

Bereits am 22.10.2018 beschrieb auch Devin Coldewey bei Techcrunch im englischen Artikel The future of photography is code in einer allgemeinen Betrachtung, dass die Fotografie sich zur PC-Kodierung wandeln wird.

James Vincent schrieb für das Magazin The Verge im Artikel Artificial intelligence is going to supercharge surveillance in einer allgemeiner Betrachtung wie KI die Überwachung zukünftig steuern und beeinflussen wird.

Vasily Zubarev lieferte am 03.06.2020 für PetaPixel im Artikel Computational photography part I: What is computational photography? eine allgemeine Betrachtung. Dieser folgte Computational photography part II: Computational sensors and optics vom 07.06.2020. Darauf folgte am 09.06.2020 Computational photography part III: Computational lighting, 3D scene and augmented reality Aber alles blieb - so typisch für die meisten Fotofachmagazine jener Zeit - relativ vage und verlief sich in einer allgemeinen Betrachtung.

Dr. Raj Ramesh erklärt im nächsten englischen Video What is Artificial Intelligence? alles Wichtige zur KI in 5 Minuten. Es handelt sich um ein didaktisch hervorragendes Video über die Zusammenhänge der AI - What is AI - For People in a Hurry.

Radhika Rajkumar liefert im Artikel What is AI? Everything you need to know about Artificial Intelligence vom 05.06.2024 alles Wichtige zur KI in Schriftform auf Englisch - inklusive Language models, ChatGPT und allen anderen Fachwörtern.

Die letzten beiden Werke kann man nur jedem wirklich empfehlen. Wer nur diese beiden konsumiert, hat danach mehr von KI verstanden, als die meisten sogenannter Fachautoren bei Fotomagazine Ihnen ständig in langatmigen Artikeln mit sperrigen Details, die sie selbst nicht wirklich begriffen haben, erzählen.

Die angebliche KI-Revolution Ende 2022

Als Ende 2022 OpenAI mit ChapGPT 3.5 und im März 2023 mit Version 4 auf die Öffen6lichkeit traf, staunte letztere nicht schlecht. Plötzlich stand KI im Zentrum. Aber dahin hatte sie sich seit Jahrzehnten hingearbeitet. Bereits das hätte jedem schon anhand der Versionsnummer 4 auffallen sollen.

GPT steht für Generative Pre-trained Transformer. Es handelte sich um ein LLM - ein Large Language Model, das schlichtweg über viele Jahre mit vielen Inhalten des Internets gefüttert wurde und dabei teilweise selbst Zusammenhänge und Strukturen 'erlernte'. Hauptsächlich wurden jene auch als Chat-Bots zum Unterhalten in verschiedenen Sprachen zum Beantworten von Fragen verwendet. Die zweithäufigste Anwendung waren zuerst das Erstellen von Texten und Artikeln, die nicht nur Schullehrern bei Aufsätzen, sondern auch Universitätsprofessoren bei Hausarbeiten und Forschungsarbeiten etc. Kopfzerbrechen bereiteten, weil sie oft sehr gute Ergebnisse lieferten.

Ab 2023 wurden die Bildgeneratoren als GenKI (Generative Künstliche Intelligenz) von den einen gefeiert und den Fotografen verteufelt. Die frühen Fehler wie 32 Frontzähne und 8 Finger konnten schnell behoben werden. Bereits 2024 fanden mehrere Studien heraus, dass die Mehrzahl der Betrachter nicht mehr zwischen einem mit einer dedizierten Kamera optisch aufgenommenen Bild und einem GenKI-Bild unterscheiden konnten. Nicht nur die Bildqualität, sondern auch die Ausgabegröße hatte sich signifikant verbessert. Dass Foto-Wettbewerbe angesichts der dortigen Schlampigkeit und Korruption bei der Beurteilung darauf hereinfielen, war erwartbar. Aber Ende 2024 waren so ziemlich alle Bildgrößen im Internet (auch bis 3.000 * 2.000 Pixel) sehr lebensecht durch GenKI herstellbar.

Ab 2024 geschah exakt dasselbe im Bereich Video, weil GenKI auch Filme erzeugen konnte. Bereits 2023 hatten viele Werkzeuge Ton und Musik künstlich erzeugt. Im erstaunlich guten Zusammenspiel zeigten sie schon 2024, was zumindest in kurzen Filmsequenzen bereits möglich war, und was auf alle Videografen hier zurollte.

Hinzu kam, dass alle Software-Firmen auf GenKI umschwenkten und die sogenannten Creatoren, also die Fotografen und Videografen im Regen stehen ließen. Sie sollten nur noch den teuren Umstieg auf GenKI-Software bezahlen, damit die Großkonzerne sie dann arbeitslos machen konnten. Das schlechteste Bild lieferte dabei Adobe 2024 ab.

Ende 2024 standen die klassischen Fotografen mit ihren dedizierten optischen Kameras bereits vor dem KI-Scherbenhaufen, und es war klar, dass es sogar in der Videografie auch nur noch eine kurze Schonfrist geben würde.

Man war sogar schon viel weiter, indem man Roboter nicht nur alleine durch strukturierte KI, sondern mit selbstlernenden Sprachmodellen trainierte - 'quasi kreuzte' -, damit sie mittels eigenen Kameras ihre Umgebung selbst erfahren und analysieren. Das waren nicht mehr tumbe einarmige Robots, welche ungeliebte, weil unsichere Fotografen in Sicherheitszonen ersetzten, sondern eine ernstzunehmende Gefahr (nicht nur) für den Beruf des Fotografen.

Hilfe / Feedback

Liebe Leserinnen und Leser,

damit diese umfangreichen, kostenlosen, wissenschaftlich fundierten Informationen weiter ausgebaut werden können, bin ich für jeden Hinweis von Ihnen dankbar.

Deshalb freue ich mich über jede schriftliche Rückmeldung, Fehlerkorrekturen, Ergänzungen, Neue Informationen etc. Ihrerseits per E-Mail oder Kontakt-Formular.

Um meine Neutralität zumindest auf dem hier beschriebenen Feld der Fotografie und Videografie wahren zu können, nehme ich bewusst von keinem Hersteller, Importeur oder Vertrieb irgendwelche Zuwendungen jeglicher Art für das Verfassen der absolut unabhängigen Artikel an. Auch von Zeitschriften oder Magazinen aus dem Fotobereich erhalte ich keinerlei Zuwendungen.

Deshalb freue ich mich, wenn Sie mein unabhängiges Engagement für Sie durch einen gelegentlichen Kauf bei Amazon über die hier angegebenen Links unterstützen. Es ist gleichgültig, welches Produkt Sie über diesen Link kaufen. - Es kann auch jede andere Ware außerhalb des Fotobereiches sein. Alle Preise sind und bleiben für Sie gleich niedrig, wie wenn Sie direkt zu Amazon gehen. Aber durch Ihren Klick auf meinen Link erhalte ich evtl. Monate später eine sehr kleine prozentuale Prämie (Cents je Kauf), welche mir hilft, die hohen Kosten bei der Erstellung der Artikel zumindest teilweise zu decken. - Bitte starten Sie Ihre Einkäufe bei mir.

Herzlichen Dank an alle für Ihre bisherige Unterstützung.

Ja, ich möchte die Unabhängigkeit dieser Seite unterstützen und kaufe über diesen Link bei Amazon

Pflichtangabe: Als Amazon-Partner verdiene ich an qualifizierten Verkäufen. Alle derartigen sogenannten 'bezahlten Links' zu Amazon sind farblich in Rot gekennzeichnet.

Ich wünsche Ihnen weiterhin viel Freude beim Fotografieren und Filmen.

Foto Video Design - Dr. Schuhmacher

Anfang