Heidelberger Akademie der Wissenschaften [Hrsg.]: Jahrbuch ... / Heidelberger Akademie der Wissenschaften: Jahrbuch 2022 (2023)

Metadaten

Heidelberger Akademie der Wissenschaften [Hrsg.]
Jahrbuch ... / Heidelberger Akademie der Wissenschaften: Jahrbuch 2022 — 2023

DOI Kapitel:

A. Das akademische Jahr 2022

https://doi.org/10.11588/diglit.67410.4

DOI Kapitel:

II. Wissenschaftliche Vorträge

https://doi.org/10.11588/diglit.67410.12

DOI Artikel:

Brox, Thomas: Wie Deep Learning die Bildbearbeitung verändert hat

https://doi.org/10.11588/diglit.67410.13

DOI Seite / Zitierlink:

https://doi.org/10.11588/diglit.67410#0038

Lizenz: Freier Zugang - alle Rechte vorbehalten

Faksimile

2 cm

OCR-Volltext

Hinweise zum OCR-Text

II. Wissenschaftliche Vorträge

Thomas Brox
„Wie Deep Learning die Bildbearbeitung verändert hat"
Sitzung der Mathematisch-naturwissenschaftlichen Klasse am
21. Januar 2022
Jedes Bild erzählt eine kleine Geschichte. Wenn wir ein Bild sehen, können wir
viel über das sagen, was in einer Szene passiert. Computer Vision hat zum Ziel
diese Fähigkeit, die Umgebung wahrzunchmen, auf den Computer zu übertragen.
Für uns Menschen erscheint diese Aufgabe trivial. Sobald ich Ihnen das Bild aber
nur als Zahlenkolonne zeige, und all die Verarbeitungsleistung, die unser Gehirn
normalerweise zur Bildverarbeitung nutzt, nicht mehr zur Verfügung steht, sind
wir mit der Aufgabe völlig überfordert.
Schon in den 20er Jahren haben sich Psychologen mit der Frage beschäftigt,
wie die menschliche Wahrnehmung mit dem visuellen Stimulus zusammenhängt.
So leitet Wertheimer eine seiner berühmtesten Abhandlungen ein mit: „Ich stehe
am Fenster und sehe ein Haus, Bäume, Himmel. Und könnte nun, aus theore-
tischen Gründen, abzuzählen versuchen und sagen: da sind . . . 327 Helligkeiten
(und Farbtöne). Habe ich „327“? Nein; [ich habe] Himmel, Haus, Bäume.“ Es
geht also vor allem darum, Rohdaten in semantisch sinnvolle Einheiten zu über-
führen, also Muster in den Daten zu erkennen.
Dabei besteht Verwechslungsgefahr. Die Lautsprecherbox aus dem vorigen
Bild ähnelt sehr dem Muster, das wir vom Hinterkopf eines Radfahrers erhalten.
Kleine Unterschiede in den Mustern können also sehr große Auswirkungen für
deren Bedeutung haben. Die Sache wird kompliziert, weil gleichzeitig die Variati-
on derselben Sache sehr groß sein kann. Die Muster von Hundebildern sehen teils
sehr unterschiedlich aus. Wir müssen also eine Repräsentation lernen, in denen all
diese Hundebilder ähnlich sind und sich trotzdem Lautsprecherboxen von Hin-
terköpfen unterscheiden lassen. (Abb. 1)
Das war bis vor nicht allzu langer Zeit noch sehr problematisch. Noch 2010
haben sich zahlreiche Wissenschaftler damit befasst, wie sie bessere Merkmale de-
finieren können. Eine damals beliebte und erfolgreiche Methode war es, lokale
Bildbereiche in Histogramme von Orientierungen der Bildkanten zu überführen
und diese Histogramme dann geeignet zusammengesetzt und normalisiert dem
Klassifikator zu übergeben. Sie können sich vorstellen, dass diese Beschreibung
nicht nur wenig präzise war, sondern auch viele Variationen in den Daten nicht
hinreichend widerspiegeln konnte.

38

Benutzerdefinierte Attribute

⛔ ⚠

Entwurf speichern

Vorhandene Entwürfe

`▾` Entwürfe zur aktuellen Annotation (`0`)

`▾` Entwürfe zur aktuellen Seite (`0`)

`▸` Entwürfe zu anderen Bänden/Seiten (`0`)

`▾` Vorlagen (`0`)

Zitieren dieser Seite

Feedback

Entwurf speichern

Vorhandene Entwürfe

▾ Entwürfe zur aktuellen Annotation (0)

▾ Entwürfe zur aktuellen Seite (0)

▸ Entwürfe zu anderen Bänden/Seiten (0)

▾ Vorlagen (0)

`▾` Entwürfe zur aktuellen Annotation (`0`)

`▾` Entwürfe zur aktuellen Seite (`0`)

`▸` Entwürfe zu anderen Bänden/Seiten (`0`)

`▾` Vorlagen (`0`)