II. Wissenschaftliche Vorträge
Fast noch wichtiger: Die Idee beschränkt sich nicht auf Bildklassifikation.
Wenn ich stattdessen jeden einzelnen Punkt im Bild einer Klasse zuordnen will,
was für das Szenenverständnis noch wichtiger ist, kann ich auch dies über Deep
Learning erreichen. Wenn ich jeden Bildpunkt klassifizieren möchte, muss ich den
Ansatz jedoch ein wenig abändern. Es reicht nämlich nicht mehr, das Bild nur
zu analysieren und einer Klasse zuzuordnen, stattdessen muss ich ein Ergebnis
auf hoher Auflösung aus dem Analyseergebnis synthetisieren. Dafür verwendet
man sogenannte Encoder-Decoder Architekturen, die bekannteste ist das U-Net.
(Abb. 2) Der Encoder entspricht einem normalen Klassifikationsnetzwerk, aber
nun hat man zusätzlich den Decoder, der aus den Merkmalen auf verschiedenen
Auflösungsstufen ein hochaufgelöstes Ergebnis zusammensetzt. Sogenannte Skip-
Connections sorgen dafür, dass dem Decoder Informationen hoher Auflösung
aus dem Encoder zur Verfügung stehen. Mit dem U-Net haben wir uns 2015 an
verschiedenen biomedizinischen Bildanalysewettbewerben beteiligt und auf An-
hieb die meisten gewonnen. In der medizinischen Bildanalyse hatte man damals
für jedes Einzelproblem, teils sogar für jeden neuen Datensatz aus einem anderen
Aufnahmegerät, ein eigenes Verfahren entwickelt. Wir konnten nun mit ein und
demselben Verfahren all diese Probleme angehen. Nur die Trainingsdaten änder-
ten sich, der Ansatz blieb der Gleiche. Dies hat das Feld enorm verändert. Wenn
Sie heute zu einer Konferenz für medizinische Bildverarbeitung gehen, sehen Sie
nur noch Deep Learning. Der Vorteil ist auch, dass Biologen und Mediziner un-
abhängiger von Informatikern agieren können, denn die Trainingsdaten sammeln
und annotieren können sie sowieso selbst am besten, und am Verfahren selbst
müssen sie meist nichts mehr ändern.
Der Einfluss von Deep Learning bleibt jedoch nicht auf Mustererkennungs-
aufgaben beschränkt. Interessanterweise konnte man damit auch ganz klassische
Bildanalyseaufgaben wie die Bewegungsschätzung in Bildfolgen sehr erfolgreich
angehen. Das gleiche gilt für die Tiefenberechnung aus Stereobildern. An der
Netzwerkarchitektur muss man dabei gegenüber dem U-Net wenig ändern. Für
solche Korrelationsaufgaben hat es sich aber bewährt einen Korrelationslayer hin-
zuzufügen, der explizit die Merkmale des einen Bildes mit denen des anderen
Bildes vergleicht.
Viele andere Bildanalyseaufgaben stellen sich letztlich als Mustererkennungs-
aufgaben heraus. Zum Beispiel erfordert die 3D Handposenschätzung die Er-
kennung und Kombination von Mustern. Genauso die Vorhersage von künftigen
Positionen von Personen in einer Straßenszene: Dies ist letztlich Mustererken-
nung mit ein wenig zusätzlicher Statistik. Beides beherrschen tiefe Netzwerke sein-
gut. Eine interessante Eigenschaft von Deep Learning ist, dass größere Modelle
eigentlich immer bessere Ergebnisse liefern als kleinere Modelle, selbst wenn die
Aufgabe einfach ist und die Trainingsdaten beschränkt sind. Der Effekt wird noch
größer, wenn auch die Menge der Trainingsdaten mitwächst. Dadurch sind Daten
40
Fast noch wichtiger: Die Idee beschränkt sich nicht auf Bildklassifikation.
Wenn ich stattdessen jeden einzelnen Punkt im Bild einer Klasse zuordnen will,
was für das Szenenverständnis noch wichtiger ist, kann ich auch dies über Deep
Learning erreichen. Wenn ich jeden Bildpunkt klassifizieren möchte, muss ich den
Ansatz jedoch ein wenig abändern. Es reicht nämlich nicht mehr, das Bild nur
zu analysieren und einer Klasse zuzuordnen, stattdessen muss ich ein Ergebnis
auf hoher Auflösung aus dem Analyseergebnis synthetisieren. Dafür verwendet
man sogenannte Encoder-Decoder Architekturen, die bekannteste ist das U-Net.
(Abb. 2) Der Encoder entspricht einem normalen Klassifikationsnetzwerk, aber
nun hat man zusätzlich den Decoder, der aus den Merkmalen auf verschiedenen
Auflösungsstufen ein hochaufgelöstes Ergebnis zusammensetzt. Sogenannte Skip-
Connections sorgen dafür, dass dem Decoder Informationen hoher Auflösung
aus dem Encoder zur Verfügung stehen. Mit dem U-Net haben wir uns 2015 an
verschiedenen biomedizinischen Bildanalysewettbewerben beteiligt und auf An-
hieb die meisten gewonnen. In der medizinischen Bildanalyse hatte man damals
für jedes Einzelproblem, teils sogar für jeden neuen Datensatz aus einem anderen
Aufnahmegerät, ein eigenes Verfahren entwickelt. Wir konnten nun mit ein und
demselben Verfahren all diese Probleme angehen. Nur die Trainingsdaten änder-
ten sich, der Ansatz blieb der Gleiche. Dies hat das Feld enorm verändert. Wenn
Sie heute zu einer Konferenz für medizinische Bildverarbeitung gehen, sehen Sie
nur noch Deep Learning. Der Vorteil ist auch, dass Biologen und Mediziner un-
abhängiger von Informatikern agieren können, denn die Trainingsdaten sammeln
und annotieren können sie sowieso selbst am besten, und am Verfahren selbst
müssen sie meist nichts mehr ändern.
Der Einfluss von Deep Learning bleibt jedoch nicht auf Mustererkennungs-
aufgaben beschränkt. Interessanterweise konnte man damit auch ganz klassische
Bildanalyseaufgaben wie die Bewegungsschätzung in Bildfolgen sehr erfolgreich
angehen. Das gleiche gilt für die Tiefenberechnung aus Stereobildern. An der
Netzwerkarchitektur muss man dabei gegenüber dem U-Net wenig ändern. Für
solche Korrelationsaufgaben hat es sich aber bewährt einen Korrelationslayer hin-
zuzufügen, der explizit die Merkmale des einen Bildes mit denen des anderen
Bildes vergleicht.
Viele andere Bildanalyseaufgaben stellen sich letztlich als Mustererkennungs-
aufgaben heraus. Zum Beispiel erfordert die 3D Handposenschätzung die Er-
kennung und Kombination von Mustern. Genauso die Vorhersage von künftigen
Positionen von Personen in einer Straßenszene: Dies ist letztlich Mustererken-
nung mit ein wenig zusätzlicher Statistik. Beides beherrschen tiefe Netzwerke sein-
gut. Eine interessante Eigenschaft von Deep Learning ist, dass größere Modelle
eigentlich immer bessere Ergebnisse liefern als kleinere Modelle, selbst wenn die
Aufgabe einfach ist und die Trainingsdaten beschränkt sind. Der Effekt wird noch
größer, wenn auch die Menge der Trainingsdaten mitwächst. Dadurch sind Daten
40