performant spiking systems - ETH E

DISS. ETH NO. 23704
PERFORMANT SPIKING SYSTEMS
A thesis submitted to attain the degree of
DOCTOR OF SCIENCES of ETH ZURICH
(Dr. sc. ETH ZURICH)
presented by
Peter Udo Diehl
MSc, Technische Universität Berlin & Humbold-Universität zu Berlin
BSc, Technische Universität Dortmund
born on 06.05.1989
citizen of Germany
accepted on the recommendation of
Matthew Cook
Kevan Martin
Rajit Manohar
2016
i
Abstract
Understanding the brain requires multi-functional models that incorporate neuroscience data in a meaningful manner. Focusing solely on multi-functionality
(i.e., being able to perform a variety of tasks) will lead to models that are
highly capable of performing the tasks (e.g. deep learning) but give little insight on how the brain works. Similarly, models focusing solely on including
biological data are rarely capable of distilling the mechanisms that are essential for their function (as opposed to side effects). This thesis focuses on models that are multi-functional (e.g., models which perform well on established
machine learning benchmarks) and that simultaneously aim at biological relevance. The thesis is divided into models that stem from machine learning and
are adapted to be more biologically plausible, and models which start from a
biological perspective and are then improved and tested on their functionality.
Based on deep learning (a recent machine learning technique that set records
in virtually all areas of machine learning), we developed techniques to convert those rate-based neural networks (NN) to spiking neural networks (SNN).
Those conversion techniques are applied to a range of networks, i.e. fullyconnected, convolutional, and recurrent NNs, and to different applications
including handwritten digit recognition, sentiment analysis and question classification. The resulting SNNs closely match the performance of their ratebased counterparts, which has proved highly challenging to achieve with
other SNNs. Such SNNs have the advantage that they can be run on highly
energy-efficient neuromorphic hardware.
Despite their strong performance on benchmarks, SNNs developed using the
presented conversion methods do not incorporate important biological data.
Especially the methods used to learn the connection strengths, rely on mechanisms that are unlikely to exist in a similar way in the brain. This and
other issues are addressed by models in the later part of the thesis, which
are modelled based on biological findings. We start by describing a model
for handwritten digit recognition which uses excitatory and inhibitory neuv
Abstract
rons, winner-take-all dynamics, homoeostatic mechanisms and spike-timingdependent plasticity (STDP) to learn to recognize digits in an unsupervised
fashion. Typical machine learning benchmarks are tailored for specific applications (usually learning a function to map an input to an output) and enable
a straight forward comparison of the recognition performance of different
models. However, many natural settings are not captured by learning a function but rather by learning a relation, i.e. where it is not clear what is input
and what is output but which is typically better described as an association.
Therefore we developed a model that learns and infers such a 3-way relations
using only biologically plausible components. On top of the described 3-way
model we explore how to scale-up the model, and how structural plasticity
interacts with STDP within it. We find that structural plasticity and STDP can
decrease the noise of the responses and increase learning speed. As the last
part of the thesis we present an algorithm to increase the number of plastic
connections that can be simulated on a SpiNNaker neuromorphic hardware
board by a factor of seven. This is important to be able to implement the larger
scale models described here on SpiNNaker and use its energy-efficiency and
real-time simulation speed.
The combination of the fields of machine learning, computational neuroscience
and neuromorphic computing that is presented in this work offers great potential to drive all of the three fields forward and thereby not only enabling
us to create more intelligent and energy-efficient systems but also to gain a
better understanding of our own intelligence.
vi
Zusammenfassung
Um die Funktionsweise des Gehirns besser zu verstehen, werden multifunktionale (Hirn-) Modelle benötigt, welche auf neurowissenschaftlichen Daten
beruhen. Alleiniger Fokus auf vielseitige Funktionalität führt zu Modellen
die zwar gute Leistung erzielen (siehe zum Beispiel ”deep learning”), aber
wenig Einsicht in die Funktionsweise des Gehirns ermöglichen. Gleichermaßen sind Modelle, die einzig darauf fokussiert sind biologische Daten abzubilden, oft nicht geeignet um die Mechanismen zu identifizieren, die essenziell für die Funktionalität sind (im Gegensatz zu Randerscheinungen). Trotz
umfangreicher vorhandener Literatur zu beiden Themen, ist die Forschung
über Themen auf deren Schnittstelle begrenzt. Aus diesen Gründen liegt
der Fokus dieser Arbeit auf Modellen die sowohl vielseitige Funktionalität
aufzeigen (zum Beispiel Modelle die gute Ergebnisse bei etablierten Benchmarks im Maschinellen Lernen erzielen) als auch auf biologische Relevanz
ausgelegt sind. Die Arbeit ist unterteilt in Modelle die aus dem Bereich des
Maschinellen Lernens stammen und für mehr biologische Plausibilität adaptiert wurden und in Modelle die aus der biologischen Perspektive starten und
dann auf Leistung optimiert und getest werden.
Auf Grundlage von ”deep learning” (eine Methode die in nahezu allen Gebieten des Maschinellen Lernens neue Rekorde aufgestellt hat) haben wir
Methoden entwickelt um diese Ratenbasierten Neuronalen Netzwerke (NN)
in ”spiking” NNs umzuwandeln (SNN; NNs die Aktionspotentiale zur Kommunikation nutzen). Diese Methoden zur Konvertierung werden auf eine
Reihe von Netzwerken angewandt (traditionellen vollständig verbundenen
NNs, ”convolutional” NNs und rekurrenten NNs) und auf verschiedene Aufgaben wie die Erkennung von handschriftlichen Ziffern, Sentimentanalyse
(Gefühlserkennung in Text) und die Klassifizierung von Fragen getestet. Die
resultierenden SNNs erzielen ähnliche Ergebnisse wie ihr jeweiliges ratenbasiertes Pendant, was sich als große Herausforderung erwiesen hat. Solche
SNNs haben den Vorteil, dass sie auf energieeffizienter ”Neuromorpher Hardvii
Zusammenfassung
ware” angewendet werden können.
Trotz der guten Leistung in Benchmarks haben SNNs, die durch Konvertierung
kreiert wurden, nur begrenzten Bezug zu biologischen Daten. Besonders
die Methoden, die verwendet wurden um die Verbindungen der Netzwerke
zu lernen, beruhen auf Mechanismen die wahrscheinlich nicht in dieser Art
im Gehirn existieren. Dieses und andere Themen werden von Modellen
im nächsten Teil dieser Arbeit adressiert. Das erste biologisch inspirierte
Modell wird für die Erkennung von handschriftlichen Ziffern getestet und
basiert auf biologisch plausiblen Elementen wie einer Kombination von exitatorischen und inhibitorischen Neuronen, ”winner-take-all” Dynamik, homoeostatischen Mechanismen und Lernregeln, die die Verbindungen aufgrund
der Ankunftszeiten von Aktionspotientialen verändern. Das Netzwerk lernt
Ziffern zu erkennen ohne jegliche Form von Hinweisen oder ”Beaufsichtigung”, das heißt selbst ohne Hinweise darauf wie viele Arten von Ziffern
existieren oder welche Ziffer gerade gezeigt wird. Typische Benchmarks im
Maschinellen Lernen sind auf eine spezifische Aufgabe ausgerichtet (für gewöhnlich das Lernen einer Eingabe-Ausgabe Funktion). Dies ermöglicht den
einfachen Vergleich von Systemen mit unterschiedlicher Architektur. Leider
stellt eine solche Art von Test nicht fest, wie gut ein System ist, wenn man es
für viele der Aufgaben die in der realen Welt auftreten würden benutzt. Der
Grund ist, dass viele Sachverhalte eher mit Hilfe von Relationen dargestellt
werden können als mit Funktionen; das heißt es ist oft nicht klar, was die
Eingabe und was die Ausgabe ist, sondern es ist relevant was die Assoziation bzw. / das Verhältnis zweier Entitäten zueinander ist. Auf dieser Einsicht basierend haben wir ein Modell entwickelt, welches Relationen zwischen 3 Variablen lernen und inferieren kann und aus biologisch plausiblen
Elementen besteht. Aufbauend auf diesem 3 Variablen Modell wird dargstellt
wie man größere und komplexere Netzwerke kreieren kann und welche Wirking strukturelle Plastizität in Kombination mit den verwendenten Lernmechanismen hat. Es stellt sich heraus, dass strukturelle Plastizität sowohl das
Rauschen verringern als auch die Lerngeschwindigkeit erhöhen kann. Der
letzte Teil dieser Arbeit beinhaltet einen Algorithmus der die maximale Anzahl an plastischen Verbindungen, die auf einem SpiNNaker Board (einer
Neuromorphen Hardware Plattform) simuliert werden können, um den Faktor 7 erhöht. Dies ist wichtig um die energieeffizienten Echtzeit Simulationen
auf SpiNNaker mit größeren Netzwerken durchführen zu können.
Die in dieser Arbeit verwendete Kombination von Ansätzen aus den Feldern
des Maschinellen Lernens, theoretischen Neurowissenschaften und Neuromorpher Hardware offeriert großes Potential alle drei Felder voran zu treiben
und dadurch nicht nur intelligentere und energieeffizientere Systeme zu kreieren, sondern auch ein besseres Verständnis unserer eigenen Intelligenz zu
entwickeln.
viii