Das Prinzip Belohnung – Reinforcement Learning als Funktionsentwicklung 4.0

Dank Reinforcement Learning können Neuronale Netze autonom und vorausschauend eingreifen und Regler unterstützen, Sollwerte auch unter Störeinflüssen zu halten. IAV bringt die Methodik des „bestärkenden Lernens“ in die Automobilentwicklung und hat sie etwa bei Projekten zur Ladedruckregelung angewandt – mit dem Ziel, das Konzept Neuronale Netze fit für die Serie zu machen.

Künstliche Intelligenz (KI), die eigenständig und erfolgreich Atari-Games spielt – solche Meldungen gehen regelmäßig durch die Medien. Möglich wird das durch Reinforcement Learning. Beim „bestärkenden Lernen“ erlernt ein Software-Agent durch das Prinzip Belohnung selbstständig eine Strategie. Ein bisschen ist es wie bei der Konditionierung: Die richtige Entscheidung wird belohnt – in der Welt der KI: mit einem positiven Feedback versehen – und daher künftig angestrebt. So verbessert die KI durch Versuch und Irrtum ihre Erfahrung und dadurch ihre Leistung. Das birgt gerade auch für die Entwicklung im Automotive-Bereich enormes Potenzial. „Bei IAV sehen wir Reinforcement Learning als einen wichtigen Baustein zukünftiger Funktionsentwicklungen“, sagt Dr. Christian Kruschel, Teamleiter Data Science. „Damit lassen sich Probleme lösen, für die es bislang noch keine zufriedenstellende Antwort gab.“

das prinzip belohnung horiz

Neuronale Netze als Ergänzung vorhandener Regler

IAV hat die Methode bereits erfolgreich für Kunden eingesetzt und in externen wie internen Projekten mit Neuronalen Netzen bestehende Regler ergänzt und die Performance signifikant verbessert. So konnte ein mit Reinforcement Learning trainiertes Neuronales Netz in einem Projekt die Ladedruckregelung optimieren und dafür sorgen, dass die gewünschten Sollwerte schnell und ohne überschwingendes Verhalten des Ladedrucks erreicht werden. Das Ergebnis sieht nicht nur der Entwickler, der Fahrer spürt es am Verhalten seines Autos. „Besonders in dynamischen Situationen, in denen die verwendeten Regler eine schlechte Performance aufweisen, können Neuronale Netze als ergänzende Größe eingesetzt werden“, sagt Dr. Dennis Schmidt, Data Scientist bei IAV. Durch Reinforcement Learning lernen sie, wie der Regler verstärkt oder gedämpft werden muss, um das Optimum zum aktuellen Zeitpunkt und vorausschauend in der Zukunft zu erreichen. „Das Konzept, Regler in kritischen Situationen zu ergänzen, ist nicht neu – häufig haben die derzeitigen Modelle aber nicht die Flexibilität, um auf komplexe, dynamische Situationen adäquat zu reagieren.“

«Mit Reinforcement Learning lassen sich Pro­bleme lösen, auf 
die es bislang noch keine zufriedenstellende Antwort gab.»

Dr. Christian Kruschel — Teamleiter Data Science bei IAV

Aktiv statt reaktiv

Per Reinforcement Learning trainierte Systeme haben einen großen Vorteil: Sie erkennen, dass in der Zukunft ein Fehler eintreten könnte, und greifen aktiv ein, um ihn zu verhindern. „Viele verwendete Regler hingegen können nur auf die Regelabweichung zwischen dem Ist- und dem Soll-Wert und damit erst nachjustierend reagieren“, so Schmidt. Neuronale Netze allein als Regler einzusetzen, sei aber noch eine Wunschvorstellung. „Solange die Qualitätskriterien, die für konventionelle Regler gelten, nicht für Neuronale Netze sichergestellt sind, verlassen wir uns nicht allein auf dieses Verfahren“, sagt Kruschel. „Das wäre mit unserem hohen Qualitätsanspruch nicht vereinbar.“ Auch müsse man in jedem System neu abwägen, welche Methodik man verwende. „Ein Neuronales Netz ist nur eine von vielen Möglichkeiten, auch wenn es gerade im Trend liegt“, so Kruschel. Grundsätzlich lasse sich die Vorgehensweise auf ähnliche Use Cases übertragen.

Fit für die Serie

Dank einer Absicherungsstrategie macht IAV Neuronale Netze für den Einsatz in der Serie fit – obwohl deren Entscheidungsprozesse anders als bei herkömmlichen Verfahren nicht transparent und daher nur schwer abzusichern sind. „Vereinfacht gesagt können wir nicht vorhersagen, wie sie in unbekannten Situationen reagieren“, erklärt Kruschel. Um das zu lösen, hat IAV mit Forschungspartnern ein Konzept namens Safety Supervisor speziell für steuergerätenahe Anwendungen entwickelt. Er ist ein überwachendes System, dem das Neuronale Netz die von ihm errechneten Ergebnisse meldet. Der Safety Supervisor entscheidet selbstständig, ob er dem Resultat trauen kann oder ein Ersatzsystem einschalten muss, um auf Nummer sicher zu gehen.

«Wir können schnell Daten verarbeiten, ein Neuronales Netz durch unser Hochleistungscluster effizient trainieren und es ebenso schnell ins Steuergerät bringen.»

Dr. Christian Kruschel — Teamleiter Data Science bei IAV

Optimierter Datenverarbeitungsprozess

Eine weitere Herausforderung: Das Neuronale Netz wird auf einem High Performance Cluster entwickelt und trainiert; die Rechenressourcen übersteigen dabei die Bedingungen, die auf einem Steuergerät herrschen. Nicht nur der Speicher limitiert die Größe des Neuronalen Netzes, auch die Ausführungszeit im Steuergerät muss unter einer Millisekunde sein. Die Lösung heißt Neural Network Compression: Mit ihr lassen sich Neuronale Netze so verkleinern, dass sie wenig Ressourcen benötigen, aber trotzdem die gleiche Performance liefern. „Wir können schnell Daten verarbeiten, ein Neuronales Netz durch unser Hochleistungscluster effizient trainieren und es ebenso schnell ins Steuergerät bringen“, sagt Kruschel. „Der ganze Datenverarbeitungsprozess ist bei uns optimiert.“ IAV nutzt hierbei einen vollautomatisierten Workflow – und setzt auch auf sein Domainwissen. „Wir vereinen umfassendes Know-how im Automotive-Bereich und in neusten Methoden Künstlicher Intelligenz, entwickeln unsere Methoden im Haus und bringen die Lösungen sicher zur Serienreife – kurzum: Bei IAV können wir alles aus einer Hand anbieten.“

Der Artikel erschien in der automotion 03/2020, dem Automotive Engineering-Fachmagazin von IAV. Hier können Sie die automotion kostenfrei bestellen.

Bleiben Sie auf dem Laufenden.

Anmeldung zum Newsletter