Sprich zu mir

Die Station sprich zu mir zeigt, wie ein Neuronales Netz zur Erkennung von Buchstaben in gesprochener Sprache verwendet wwerden kann. Dazu sprichst du einen Text in das Mikrophon. Deine Stimme wird aufgenommen und in kleine aufeinanderfolgende Schnipsel zerlegt.

Für jedes dieser Schnipsel wird der Frequenzgang bestimmt. D.h. Der Ton, den Du gemacht hast wird in eine Reihe von sich überlagernden Frequenzen zerlegt und ihre Amplitude bestimmt. Im Grunde ist das das gleiche Verfahren, wie MP3-Dateien erstellt werden.

Somit erhält man für jeden Zeitpunkt einen Frequnzgang, d.h. eine Reihe von Zahlen. Diese legt man als Eingangssignale an ein Neuronales Netz an. Diese hat für jeden möglichen Buchstaben einen Ausgang, der anzeigt mit welcher Wahrscheinlichkeit er der aufgezeichnete Laut war. Das funktioniert im Grunde genauso wie an der Station Neuronale Zahlen. Allerdings macht man das nicht nur einmal sondern für jeden Schnipsel der Aufnahme.

Dadurch erhält man eine Sequenz von möglichen Buchstaben. Kommt derselbe Buchstabe in mehreren Schnipseln hintereinander vor, wird er zu einem zusammengefasst. Dadurch ergibt sich der erkannt Text.

Das neuronale Netz ist deutlich größer als das der Station Neuronale Zahlen. Allein die Anzahl der Outputs ist schon größer (mindestens 26 plus eine Pause). Aber auch die Anzahl der Schichten des Netzes ist dehr viel höher.

Deine Herausforderung

Spreche einen Text ein und beobachte, wie das neuronale Netz ihn analysiert. Finde heraus wieviele Schichten das Netz hat.