DISS. ETH NO. 23704 PERFORMANT SPIKING SYSTEMS A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH ZURICH) presented by Peter Udo Diehl MSc, Technische Universität Berlin & Humbold-Universität zu Berlin BSc, Technische Universität Dortmund born on 06.05.1989 citizen of Germany accepted on the recommendation of Matthew Cook Kevan Martin Rajit Manohar 2016 i Abstract Understanding the brain requires multi-functional models that incorporate neuroscience data in a meaningful manner. Focusing solely on multi-functionality (i.e., being able to perform a variety of tasks) will lead to models that are highly capable of performing the tasks (e.g. deep learning) but give little insight on how the brain works. Similarly, models focusing solely on including biological data are rarely capable of distilling the mechanisms that are essential for their function (as opposed to side effects). This thesis focuses on models that are multi-functional (e.g., models which perform well on established machine learning benchmarks) and that simultaneously aim at biological relevance. The thesis is divided into models that stem from machine learning and are adapted to be more biologically plausible, and models which start from a biological perspective and are then improved and tested on their functionality. Based on deep learning (a recent machine learning technique that set records in virtually all areas of machine learning), we developed techniques to convert those rate-based neural networks (NN) to spiking neural networks (SNN). Those conversion techniques are applied to a range of networks, i.e. fullyconnected, convolutional, and recurrent NNs, and to different applications including handwritten digit recognition, sentiment analysis and question classification. The resulting SNNs closely match the performance of their ratebased counterparts, which has proved highly challenging to achieve with other SNNs. Such SNNs have the advantage that they can be run on highly energy-efficient neuromorphic hardware. Despite their strong performance on benchmarks, SNNs developed using the presented conversion methods do not incorporate important biological data. Especially the methods used to learn the connection strengths, rely on mechanisms that are unlikely to exist in a similar way in the brain. This and other issues are addressed by models in the later part of the thesis, which are modelled based on biological findings. We start by describing a model for handwritten digit recognition which uses excitatory and inhibitory neuv Abstract rons, winner-take-all dynamics, homoeostatic mechanisms and spike-timingdependent plasticity (STDP) to learn to recognize digits in an unsupervised fashion. Typical machine learning benchmarks are tailored for specific applications (usually learning a function to map an input to an output) and enable a straight forward comparison of the recognition performance of different models. However, many natural settings are not captured by learning a function but rather by learning a relation, i.e. where it is not clear what is input and what is output but which is typically better described as an association. Therefore we developed a model that learns and infers such a 3-way relations using only biologically plausible components. On top of the described 3-way model we explore how to scale-up the model, and how structural plasticity interacts with STDP within it. We find that structural plasticity and STDP can decrease the noise of the responses and increase learning speed. As the last part of the thesis we present an algorithm to increase the number of plastic connections that can be simulated on a SpiNNaker neuromorphic hardware board by a factor of seven. This is important to be able to implement the larger scale models described here on SpiNNaker and use its energy-efficiency and real-time simulation speed. The combination of the fields of machine learning, computational neuroscience and neuromorphic computing that is presented in this work offers great potential to drive all of the three fields forward and thereby not only enabling us to create more intelligent and energy-efficient systems but also to gain a better understanding of our own intelligence. vi Zusammenfassung Um die Funktionsweise des Gehirns besser zu verstehen, werden multifunktionale (Hirn-) Modelle benötigt, welche auf neurowissenschaftlichen Daten beruhen. Alleiniger Fokus auf vielseitige Funktionalität führt zu Modellen die zwar gute Leistung erzielen (siehe zum Beispiel ”deep learning”), aber wenig Einsicht in die Funktionsweise des Gehirns ermöglichen. Gleichermaßen sind Modelle, die einzig darauf fokussiert sind biologische Daten abzubilden, oft nicht geeignet um die Mechanismen zu identifizieren, die essenziell für die Funktionalität sind (im Gegensatz zu Randerscheinungen). Trotz umfangreicher vorhandener Literatur zu beiden Themen, ist die Forschung über Themen auf deren Schnittstelle begrenzt. Aus diesen Gründen liegt der Fokus dieser Arbeit auf Modellen die sowohl vielseitige Funktionalität aufzeigen (zum Beispiel Modelle die gute Ergebnisse bei etablierten Benchmarks im Maschinellen Lernen erzielen) als auch auf biologische Relevanz ausgelegt sind. Die Arbeit ist unterteilt in Modelle die aus dem Bereich des Maschinellen Lernens stammen und für mehr biologische Plausibilität adaptiert wurden und in Modelle die aus der biologischen Perspektive starten und dann auf Leistung optimiert und getest werden. Auf Grundlage von ”deep learning” (eine Methode die in nahezu allen Gebieten des Maschinellen Lernens neue Rekorde aufgestellt hat) haben wir Methoden entwickelt um diese Ratenbasierten Neuronalen Netzwerke (NN) in ”spiking” NNs umzuwandeln (SNN; NNs die Aktionspotentiale zur Kommunikation nutzen). Diese Methoden zur Konvertierung werden auf eine Reihe von Netzwerken angewandt (traditionellen vollständig verbundenen NNs, ”convolutional” NNs und rekurrenten NNs) und auf verschiedene Aufgaben wie die Erkennung von handschriftlichen Ziffern, Sentimentanalyse (Gefühlserkennung in Text) und die Klassifizierung von Fragen getestet. Die resultierenden SNNs erzielen ähnliche Ergebnisse wie ihr jeweiliges ratenbasiertes Pendant, was sich als große Herausforderung erwiesen hat. Solche SNNs haben den Vorteil, dass sie auf energieeffizienter ”Neuromorpher Hardvii Zusammenfassung ware” angewendet werden können. Trotz der guten Leistung in Benchmarks haben SNNs, die durch Konvertierung kreiert wurden, nur begrenzten Bezug zu biologischen Daten. Besonders die Methoden, die verwendet wurden um die Verbindungen der Netzwerke zu lernen, beruhen auf Mechanismen die wahrscheinlich nicht in dieser Art im Gehirn existieren. Dieses und andere Themen werden von Modellen im nächsten Teil dieser Arbeit adressiert. Das erste biologisch inspirierte Modell wird für die Erkennung von handschriftlichen Ziffern getestet und basiert auf biologisch plausiblen Elementen wie einer Kombination von exitatorischen und inhibitorischen Neuronen, ”winner-take-all” Dynamik, homoeostatischen Mechanismen und Lernregeln, die die Verbindungen aufgrund der Ankunftszeiten von Aktionspotientialen verändern. Das Netzwerk lernt Ziffern zu erkennen ohne jegliche Form von Hinweisen oder ”Beaufsichtigung”, das heißt selbst ohne Hinweise darauf wie viele Arten von Ziffern existieren oder welche Ziffer gerade gezeigt wird. Typische Benchmarks im Maschinellen Lernen sind auf eine spezifische Aufgabe ausgerichtet (für gewöhnlich das Lernen einer Eingabe-Ausgabe Funktion). Dies ermöglicht den einfachen Vergleich von Systemen mit unterschiedlicher Architektur. Leider stellt eine solche Art von Test nicht fest, wie gut ein System ist, wenn man es für viele der Aufgaben die in der realen Welt auftreten würden benutzt. Der Grund ist, dass viele Sachverhalte eher mit Hilfe von Relationen dargestellt werden können als mit Funktionen; das heißt es ist oft nicht klar, was die Eingabe und was die Ausgabe ist, sondern es ist relevant was die Assoziation bzw. / das Verhältnis zweier Entitäten zueinander ist. Auf dieser Einsicht basierend haben wir ein Modell entwickelt, welches Relationen zwischen 3 Variablen lernen und inferieren kann und aus biologisch plausiblen Elementen besteht. Aufbauend auf diesem 3 Variablen Modell wird dargstellt wie man größere und komplexere Netzwerke kreieren kann und welche Wirking strukturelle Plastizität in Kombination mit den verwendenten Lernmechanismen hat. Es stellt sich heraus, dass strukturelle Plastizität sowohl das Rauschen verringern als auch die Lerngeschwindigkeit erhöhen kann. Der letzte Teil dieser Arbeit beinhaltet einen Algorithmus der die maximale Anzahl an plastischen Verbindungen, die auf einem SpiNNaker Board (einer Neuromorphen Hardware Plattform) simuliert werden können, um den Faktor 7 erhöht. Dies ist wichtig um die energieeffizienten Echtzeit Simulationen auf SpiNNaker mit größeren Netzwerken durchführen zu können. Die in dieser Arbeit verwendete Kombination von Ansätzen aus den Feldern des Maschinellen Lernens, theoretischen Neurowissenschaften und Neuromorpher Hardware offeriert großes Potential alle drei Felder voran zu treiben und dadurch nicht nur intelligentere und energieeffizientere Systeme zu kreieren, sondern auch ein besseres Verständnis unserer eigenen Intelligenz zu entwickeln. viii
© Copyright 2024 ExpyDoc