Anders & Wunderlich: Der Geschichten-Podcast

Der Mensch hat die Sprache beim Geschichtenerzählen erfunden. Geschichten erklären die Welt. Sie können uns Mut oder Angst, Freude oder Trauer fühlen lassen, uns Wissen oder Weisheit vermitteln. Eine Geschichte ist kein Werk, sondern ein Akt. Wir denken, schreiben, sprechen und Du hörst uns zu – so kommt sie erst in die Welt. Wir haben über 75 Stunden im Archiv, professionell produziert und kostenlos zu hören. Viele Geschichten sind phantastisch, die meisten regen zum Nachdenken an, einige sind Erlebniserzählungen und hin und wieder sind sie auch komisch. Alle Geschichten sind exklusiv für unseren Podcast geschrieben, gesprochen, aufgenommen, geschnitten und abgemischt. Wir machen keine Werbung, haben keinen Sponsor und es gibt weder Paywall noch Abonnement. Um unabhängig zu bleiben und unsere Arbeit zu finanzieren, suchen wir allerdings nach Unterstützer*innen und haben uns für ‚Steady‘ aus Berlin entschieden. Wer uns monatlich ein paar Euro widmet, kann uns im Blog oder im eigenen Feed zuhören, wie wir uns nach der Aufnahme einer Geschichte über die Hintergründe, Gedanken und Ideen dazu unterhalten. (Gut. Das ist zu hochgestochen und klingt langweiliger, als es ist...

https://morgenradio.de

subscribe
share






Expl0377: Deep Learning


Wenn man kleine Kinder hat, erklärt man ihnen die Welt. „Nein, das ist keine Katze. Das macht ‘Wau’. Und wenn es ‘Wau’ macht, dann ist es ein Hund“. Eine gar nicht einfache Lernaufgabe, aber dank unseres Gehirns durchaus machbar. Computer konnten das bislang nicht so gut. Das scheint durch „Deep Learning“ nun anders zu werden.

Download der Episode hier.
Beitragsbild: By No machine-readable author provided. Gengiskanhg assumed (based on copyright claims). – No machine-readable source provided. Own work assumed (based on copyright claims)., CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=442506
Opener: „John Oliver: Stephen Hawking Interview (HBO)“ von LastWeekTonight
Musik: „Sad Robot“ von Pornophonique / CC BY-NC-SA 3.0

+Skript zur Sendung
Ich mag ja den Ausdruck „Digital Native“ nicht. Weil er nicht meine Generation meint. Aber, hey!, ich habe schon Basic-Programme für den vergessenen VC 20 geschrieben, da hatten die Informatiker noch nicht ‘mal die Eins entdeckt. Alles, was wir hatten, waren Nullen!

Eines hat sich auf jeden Fall in all’ den Jahren nicht geändert. Wir standen schon immer ganz kurz vor dem Durchbruch zur künstlichen Intelligenz. Das dachten die ersten Informatiker schon in den Fünzigern. Und in den Neunzigern wurde da noch einmal viel Geld und Arbeit drauf geworfen.

Aber egal, welche Handschrift- oder Spracherkennung man ausprobierte, immer waren die Ergebnisse ausgesprochen bescheiden. Spracherkennung hilft halt nicht, wenn der Text nur zu 98% richtig ist. Das Korrigieren frisst dann den Zeitgewinn wieder auf. Jetzt ist es also wieder soweit. Und das dank Deep Learning.

Nicht nur Siri und Cortana erkennen so Sprachen – und das mittlerweile ganz gut, nein auch Google Brain kann nun endlich Katzen auf Fotos erkennen! Hurra! Damit ist ja schon einmal 15% der Inhalte im Internet abgedeckt. Schön, die künstliche Intelligenz steht vor der Tür. Dann kucken wir doch einmal, was Deep Learning so ist. Ich tu’ jetzt also ‘mal so, als hätte ich das begriffen, o.k.?

Nehmen wir also die Handschrifterkennung als Beispiel. Das ist ja für uns ein Kinderspiel. Stimmt ja gar nicht, aber meistens kriegen wir das leidlich hin. Wenn wir dem Rechner also jetzt das beibringen wollen, dann fangen wir mit den Buchstaben und Ziffern an.

Also, Herr Computer, die „0“, das ist so ein Kringel, ein Kreis. Meist oben geschlossen. Und die „6“, na ja, das ist auch ein Kringel, zugegeben, aber nur ein kleiner Kringel. Links steht noch ein Stückchen ‘raus, verstehste?

Man kann sich vorstellen, dass das bei vielen Handschriften so nicht klappt. Der eine schließt den Kreis nicht richtig und beim anderen ist der Bauch der Sechs fast so groß wie der der Null. Also müssen wir uns noch mehr Merkmale zur Beschreibung ausdenken. Und immer mehr. Alles kleine Formeln, alles Algorithmen, die der Rechner dann durchackern muss.

Dieses Problem nennt man „feature extraction“. Welche „features“ eines Problems sind die sinnvollsten, um sie dem Computer beizubringen? Das ist der springende Punkt und das Problem. Man hatte beim Arbeiten an der künstlichen Intelligenz bald erkannt, dass man dem Computer, sollte er einen Text wirklich verstehen, erst einmal die ganze Welt erklären müsste.

Nur wenn er weiß, was eine Kuh wirklich ist, bringt ihn ein Satz wie „Das Gras frisst die Kuh“ nicht ins Schleudern. Grammatikalisch korrekt. Und keiner von uns stellt sich vor, das böses, fleischfressendes Gras die arme Kuh auf der Weide verdaut. Weil wir wissen, was eine Kuh ist. Weltwissen, nennt man das. Viel Arbeit, das zu lehren, viele Formeln, viele, viele Algorithmen.

Am besten wäre es also, der Computer könnte sich das selber beibringen. Wie wir das ja auch erlernen. Wenn wir unseren Kindern 1000 Bilder von Katzen und 1000 Bildern von Hunden zeigen und dabei immer brav „Miau“ und „Wau“ sagen, dann klappt das schon irgendwann. Weil unser Hirn vernetzt ist und mehr Zustände kennt als Eins und Null.

Darum brauchen wir erst ein Modell, dass diese Arbeitsweise nachstellt. Ein sogenanntes „Neuronales Netzwerk“. Wir basteln und also erst einmal eine künstliche Nervenzelle, ein Neuron. Also, wir programmieren das. Und dieses Neuron hat auf, sagen wir, vier Leitungen Input. Und diese vier Leitungen kann es auch verschieden bewerten. Erst wenn im Neuron ein Reizwert erreicht wir, sagen wir z.B. der Zahlenwert 4, dann leitet es auch ein Signal weiter. Auf seiner Ausgansleitung. Auf Leitung eins, der wichtigen, kommt also der Wert zwei rein. Auf zwei und drei jeweils der Wert 1 und auf Leitung vier herrscht Schweigen. Das reicht, vier ist erreicht, ab mit dem Signal. Im Hirn würde man das einen Erregungszustand nennen.

Und diese programmierten Neuronen, die vernetzen wir alle miteinander. Die Ausgangsleitung von unserem ersten Beispielneuron führt in das nächste Neuron, das noch drei Eingänge von anderen Neuronen hat. Und mit ganz vielen Grafikkarten und Rechnern, wenn wir so um die $ 100.000 an Nvidia-Chips kaufen, können wir uns ein Netzwerk mit einer Million Neuronen basteln.

Jetzt, dank des Internets, nehmen wir eine Million Bilder von Katzen und werfen die in unser Netzwerk: Hier, künstliches Gehirn, nimm dies und lerne! Das sind eine Million Katzen! Finde die Gemeinsamkeiten!

Kurze Unterbrechung: Stellen wir uns die alte Methode noch einmal vor. Ein Programmierer muss die Features einer Katze extrahieren. „Also, pass auf, eine Katze hat Fell, meistens. Zwei Ohren, zwei Augen, so spitze Ohren, ein Maul mit Zähnen, aber das sieht man meistens nicht. Vier Beine und einen Schwanz. Meist hat sie irgendein Muster. Mal Streifen, selten Punkte. Und die sind braun, schwarz, weiß und rot. Und sie schauen immer arrogant. Manchmal grumpy.“

Bei diesem Regelwerk würden die meisten Bilder nicht als Katzenbilder durchgehen. Wenn sich die Katze wegdreht, die Augen schließt, das Maul aufmacht, kein Fell hat oder keinen Schwanz. Wenn sie freundlich kuckt. Oder aber – und das ist natürlich meistens so – wenn sie nicht ganz auf dem Foto ist.

Wenn sich aber unser neuronales Netz jetzt ein Katzenfoto anschaut, dann entsteht im dreidimensionalen Netzwerk eine Art von Erregungsmuster. Wie eine Wolke. Bestimmte Areale sind aktiviert und andere nicht. Wie auf Scans des menschlichen Gehirns, wie wir sie mittlerweile alle kennen.

Und beim nächsten Katzenfoto entsteht wieder eine andere Wolke im künstlichen Gehirn, andere Areale sind aktiviert. Vielleicht, weil die Katze auf dem Foto gerade eine Maus frisst. Nach einiger Zeit hat der Rechner also eine Million Erregungsmuster, Wolken gesammelt. Das ist der Layer 1, die Schicht Nummer Eins.

Deep Learning heißt nämlich DEEP Learning, weil es halt mehrere Schichten gibt. Schicht Nummer zwei analysiert jetzt nicht mehr die Katzenfotos, sondern die gerade erkannten Erregungswolken im Netzwerk und versucht, damit etwas anzufangen.

Und da legen wir jetzt noch ein paar Schichten darauf. Und ein paar Dimensionen mehr – denn die Metaphern, die ich verwende, sind eher simpel, aber fragt bitte nicht weiter… Also noch mehr Layer und Schichten und – voilá – der Rechner kann Katzen erkennen. Weil das Foto, das er da vorgesetzt bekommt, der Meta-Meta-Meta-Meta-Wolke der Erregungswolken entspricht, die entstanden sind, als er in seiner Jugend eine Million Katzenfotos angesehen hat.

So funktioniert Siri, Cortana und die autonomen Autos. So funktioniert es, wenn ihr eure Google-App fragt: „Zeig’ mir Fotos von Katzen mit gestreiftem Fell.“ Da wird keine Datenbank abgerufen. Google Brain weiß genau, was Katzen mit gestreiftem Fell sind. Mittlerweile werden bei Google 15% aller Suchaufgaben von Deep-Learning-Modellen erledigt.

Und nachdem Google und Microsoft und IBM alle an der Entwicklung eines Quantencomputers arbeiten, könnte die künstliche Intelligenz wirklich bald einen Sprung nach vorne machen.

Aber, das sei auch gesagt: Deep Learning ist gerade hip, in aller Munde und das Buzzword schlechthin in der Informatik. Aber es ist durchaus nicht das einzige Modell. Es kann durchaus sein, das auch dieser Sprungversuch nicht richtig klappt. Und in fünf Jahren das nächste Modell entwickelt werden muss.

Aber cool – hey, cool ist das schon, oder?


fyyd: Podcast Search Engine
share








 February 8, 2016  15m