Mehr Sicherheit im Luftraum dank Reinforcement Learning

Künstliche Intelligenz (KI) macht das Fliegen sicherer. Sie hilft mit, Flugpläne und -Routen zu optimieren. Das spart auch Zeit und Treibstoff ein. Forschende der Hochschule Luzern trainierten dazu ein KI-System mittels der Lernmethode Reinforcement Learning. Dabei motivieren die Forschenden die Systeme durch «bestärkendes Lernen» und Belohnungen.

Von Oliver Klaffke

Vom Spiel- zum Forschertrieb: Die Faszination für das japanische Brettspiel Go hat unseren Forscher Thomas Koller, dazu gebracht, sich mit einem besonderen KI-Lernansatz zu beschäftigen: Dem Reinforcement Learning (RL). Diese Lernmethode ist ein Teilbereich des Maschinellen Lernens. Damit entwickelt man Computerprogramme, die aus Erfahrung selber lernen können, ohne dass ihnen der Mensch etwas beibringen muss. Sie können ihre Fähigkeiten selbstständig weiter entwickeln. Etwa so, wie ein Kind, das lernt, dass eine Kochplatte heiss ist, nachdem es sich das erste Mal verbrannt hat, lernen Computer beim «Reinforcement Learning» aus Fehlern und Erfolgen.

Beim Reinforcement Learning (RL) lernen Systeme, indem sie Feedback erhalten. RL ist ein Teilgebiet des Maschinellen Lernens (ML). Dieses Erklärvideo bietet einen einfachen Einstieg ins Thema Maschine Learning.

Wie wirkungsvoll RL ist, zeigte sich erstmals bei «AlphaGo». Das war die erste KI, die den weltbesten menschlichen Go-Spieler schlagen konnte.

Mehr über den «AlphaGo»-Erfolg und Kollers Faszination

Das japanische Brettspiel Go gilt als das komplexeste aller weltweit bekannten Strategiespiele. Lange Zeit dachte man, es sei unmöglich, dass eine Maschine den Menschen im Go-Spiel besiegen könne. Das Spiel schien dafür zu komplex zu sein: Das Spielbrett hat 19 x 19 Felder. Es erlaubt so viele mögliche Züge für die Steine, dass es zu komplex schien, dass ein Computer alle im Voraus berechnen könnte. Im März 2016 jedoch musste sich die analoge Go-Welt dem digitalen AlphaGo geschlagen geben. Das Programm besiegte den Südkoreaner Lee Sedol, der als einer der weltbesten Profispieler angesehen wird. «Das hat mich damals wahnsinnig fasziniert», sagt Koller.

Nach dem Sieg in Go erhielt die Lernmethode des Reinforcement Learnings (RL) Aufwind. Die Google-Tochter Deepmind verwendete sie, um eine Software zu entwickeln, die Menschen auch bei alten Atari-Spielen besiegen konnte. «Das zeigt, dass es mit dem RL möglich ist, Systeme zu bauen, die auch in sehr komplexen Situationen gute Entscheidungen treffen können», sagt Koller.

Der Vorteil des Reinforcement Learnings gegenüber anderen KI-Lernansätzen: Das Durchrechnen aller Möglichkeiten ist dabei nicht notwendig.

Darum eignet sich RL auch, den Flugverkehr zu unterstützen: Tausende von Flugzeugen fliegen jeden Tag über die Schweiz. Damit sie sicher und nach Flugplan unterwegs sind, regeln Flugverkehrsleitende den Luftverkehr. Wenn die Zahl der Flüge aber weiter zunimmt, könnte die menschliche Flugüberwachung an ihre Grenzen stossen.

Erstmals belegt: Der Flugverkehr kann unterstützt werden

Da kann Künstliche Intelligenz Abhilfe schaffen: Koller hat dazu Anfang 2024 ein Forschungsprojekt im Rahmen des Algorithmic Business Research Lab (ABIZ), der Hochschule Luzern – Informatik, abgeschlossen. Unter seiner Leitung hat ein Forschungsteam eine Software entwickelt, die den Flugverkehr über der Schweiz regelt – so, wie es auch Flugverkehrsleitende können.

Industriepartner des Forschungsprojekts war Skyguide, das Unternehmen, das den Flugverkehr über der Schweiz steuert und überwacht und SkySoft, das Software für diese Überwachung entwickelt. Die ABIZ-Forschenden konnten erstmals belegen, dass KI-Systeme, die mit dem «Reinforcement Learning» arbeiten, die Steuerung des Flugverkehrs unterstützen können.

Unterstützung für die Flugverkehrsleitenden

Wo könnte das konkret zum Einsatz kommen? Flugverkehrsleitende (früher nannte man sie Fluglotsen oder -lotsinnen) legen für Flugzeuge die Flughöhen fest. Sie geben Flugrouten, Starts und Landungen frei. Sie verhindern, dass sich Flugzeuge im Luftverkehr zu nahekommen. Diese Aufgaben erledigen sie mehr oder minder gleichzeitig. Von ihren Entscheidungen hängt das Leben hunderter Menschen ab. Das «Reinforcement Learning»-System könnte sie dabei unterstützen: Es könnte als ein zweites Sicherheitssystem ihre Entscheidungen überprüfen. Auch könnte es zum Beispiel unbemannte Flugobjekte wie Transportdrohnen selbstständig überwachen.

Kritische Situationen im Flugverkehr vermeiden

Ein einzelner Flugverkehrsleitender oder eine einzelne Flugverkehrsleitende steuert jeweils mehrere Flugzeuge gleichzeitig. Er oder sie gibt Anweisungen und versucht so, kritische Situationen zu vermeiden. Es gilt etwa zu verhindern, dass Flugzeuge ihren Mindestabstand unterschreiten. «In der Fachsprache nennt man dies einen <Konflikt>», erklärt Thomas Koller.

Dementsprechend haben er und sein Forschungs-Team ihr Programm so trainiert, dass es versucht, kurzfristige, mittelfristige und langfristige Konflikte auf den Flugrouten von Flugzeugen zu vermeiden. In den vergangenen knapp dreieinhalb Jahren hat das System von Thomas Koller mit reellen und zufälligen Flugdaten geübt. «Es hatte also genügend Gelegenheit zu lernen und aus seinen Fehlern die richtigen Schlüsse zu ziehen.»

Wie geht das genau? Reinforcement Learning bewirkt, dass die Software aktiv durch die Konsequenzen der eigenen Entscheidungen lernt. Sie wird dadurch immer besser. «Das System wird für Entscheidungen, die es trifft, belohnt oder bestraft; je nachdem, welche Konsequenzen sie hatten», erklärt Koller. Ähnlich wie ein Mensch, der auch durch Erfahrung lernt, lernt das Programm durch die Bewertung der Folgen des eigenen Handelns. So kann es im Laufe der Zeit immer mehr Fehler vermeiden. Dahinter steht zudem das Prinzip der sogenannten Neuronalen Netzwerke. Sie arbeiten ähnlich wie die Verknüpfungen von Nervenzellen im Gehirn. Diese verändern sich beim Lernen auch ständig und führen so zu immer besseren Lernergebnissen.

Reinforcement Learning funktioniert also anders als zum Beispiel KI-Modelle, die auf grossen Sprachmodellen (LLMs) basieren, wie etwa ChatGPT. Deren Intelligenz besteht darin, die Abfolge von Wörtern anhand von statistischen Wahrscheinlichkeiten vorauszusagen.

Selbständig lernen in anspruchsvollen Situationen

Die Neuronalen Netzwerke, auf denen das «Reinforcement Learning» beruht, machen das autonome Lernen in komplexen Situationen auch für ein Computerprogramm möglich. Es entscheidet sich für eine bestimmte Aktion. Je nachdem, ob diese Entscheidung zum Erfolg führt oder nicht, lernt das Programm. Damit ist es gegenüber anderen Formen des Maschinenlernens im Vorteil. Bei Programmen, die etwa lernen können, Bilder zu erkennen, muss ein Mensch die Bilder im Vorfeld betrachten und der Software mitteilen, worum es sich beim Bild handelt.

«Das Entscheidende ist, dass die Software immer mit einer Umwelt, mit anderen Akteuren interagiert. Sie kann sich also an neue Situationen anpassen», sagt Koller. Solche neuen Situationen sind bei der Flugüberwachung an der Tagesordnung. Beim Reinforcement Learning probiert die Software verschiedene Entscheidungen aus. Sie bewertet die Konsequenzen diverser Varianten, also der verschiedenen Handlungsoptionen. Schliesslich lernt sie, welche in jeder Situation die beste Entscheidung ist.

Streben nach «Rewards»: So viel Lob wie möglich einheimsen

Das Programm wird «belohnt», wenn es mit seinen Entscheidungen ein bestimmtes Ziel oder Meilensteine in einem Prozess erreicht. Es lernt am Schluss die Aktionen, für die es die meisten Belohnungen bekommt. Fachleute nennen diese Belohnungen «Rewards»: «Es geht um die Maximierung von Rewards», sagt Koller.

Das System des ABIZ-Teams heimste sich jede Menge Lob ein: Es fällte tausende von Entscheidungen anhand von reellen Flugdaten. Es vermied viele Konflikte und konnte den Flugverkehr in der Computer-Simulation sicher steuern. «Wir sind mit der Leistung unseres Systems soweit zufrieden», sagt Koller.

Das ABIZ-Team verglich die Leistung des Computerprogramms mit den Entscheidungen, die die Flugverkehrsleitenden in der Realität getroffen hatten. Dafür griffen die Forschenden auf Flugdaten des Schweizer Luftraums von neun Tagen zurück. Es waren Daten, die auch den menschlichen Flugverkehrsleitenden für ihre Entscheidungen zur Verfügung standen.

Konflikte frühzeitig erkennen und vermeiden

Es zeigte sich, dass das ABIZ-System bei der Vermeidung mittel- und langfristiger Konfliktsituationen mehr als zehnmal besser als die menschlichen Flugverkehrsleitenden war. Wenn es aber darum ging, kurzfristige Konflikte zu vermeiden, waren die Menschen im Skyguide-Tower überlegen: Sie schafften es, solche komplett zu vermeiden, während die Software das noch nicht konnte. Sie liess noch etwa einen Konflikt pro Tag zu. Fliegen die Flugzeuge nur nach dem Flugplan, ohne Flugverkehrsleitende, ergeben sich etwa 60 Konflikte täglich.

Flugzeuge halten die geplante Routen und Zeiten besser ein, und sie sparen Treibstoff: Reinforcement Learning leistet einen Beitrag zu einem sichereren und gleichzeitige weniger umweltschädlichen Flugverkehr (Bildquelle: Skyguide).

Flugzeiten einhalten: Dank Lob gings immer besser

Die Aufgabe, den Flugverkehr zu regeln ist für einen Computer nicht einfach: Bei den Entscheidungen der Fluglosen und des ABIZ-Systems ging es nicht nur darum, Konflikte zu vermeiden. Es galt auch dafür zu sorgen, dass die Flugzeuge nicht allzu weit vom geplanten Kurs abkamen und die Ankunftszeiten möglichst genau eingehalten wurden. Dafür mussten die Flugrouten optimiert werden. «Auch hier haben wir mit Rewards gearbeitet», sagt Koller. So wurde das System immer besser darin, Konflikte zu vermeiden und gleichzeitig den Flugplan einzuhalten.

Treibstoff einsparen: Das System sorgt für neue Möglichkeiten

Reinforcement Learning kann auch verwendet werden, um bei der Flugüberwachung zusätzliche Aspekte zu berücksichtigen,. «Wir haben das System auch so trainiert, dass der Treibstoffverbrauch reduziert wird und weniger Änderungen in den Kurs- und Flughöhen notwendig sind», erklärt Koller. So könnte es auch einen Beitrag zu einem sichereren und gleichzeitig weniger umweltschädlichen Flugverkehr zu leisten.

Künftig neue Regeln im Luftraum evaluieren?

So könnte das ABIZ-System auch bei der Weiterentwicklung des Flugverkehrs eine Rolle spielen. «RL bietet sich auch an, um neue Regeln im Luftraum zu evaluieren», sagt Thomas Koller. Heute findet der Luftverkehr über der Schweiz auf Luftstrassen statt. Das sind festgelegte Bereiche, in denen Flugzeuge fliegen dürfen. Prinzipiell sei es vorstellbar, dass man sich von solchen definierten Flugrouten verabschiede und Flugzeuge unter der Kontrolle von Flugverkehrsleitenden überall fliegen könnten.

Ob das sicher funktioniert, lässt sich nicht in der Realität testen. Die ABIZ-Software könnte einen solch freien Flugverkehr aber simulieren. Skyguide könnte damit hypothetische Varianten zu prüfen. «Das ist einer der grossen Vorteile von KI-Systemen», sagt Koller. Man kann beliebig viele «Was wäre wenn»-Szenarien durchspielen. Dies erlaubt bessere strategische Entscheide zu fällen – in der Kombination von menschlicher und maschineller Intelligenz.

Veröffentlicht am: 18. März 2024

Maschinen-Trainer, Go-Spieler und Studiengangleiter: Thomas Koller ist Dozent und leitet den Master-Studiengang Science in Engineering an der Hochschule Luzern – Informatik. Seine Lehr- und Forschungsschwerpunkte liegen beim Reinforcement Learning, Machine Learning und Deep Learning.

Lesetipp: Mehr über Kollers Faszination für Go erfahren Sie in diesem Blog-Beitrag «Der Maschinen-Trainer und das jahrtausendealte Spiel».

Forschung für innovative KI-Ansätze im Flugverkehr: Ein ABIZ-Forschungsteam unter der Leitung von Thomas Koller arbeitete am Projekt Maschinenunterstütztes Management des oberen schweizerischen Luftraums für autonome Flugobjekte. Das Team erforschte neue Ansätze aus der künstlichen Intelligenz zum Überwachen des Flugverkehrs von autonomen Flugobjekten. Die Forschenden entwickelten einen Prototyp, der mithelfen soll, Flugbewegungen zu administrieren und zu kontrollieren.

Das ABIZ-Research Lab forscht, entwickelt und berät: Das ABIZ-Forschungsteam der Hochschule Luzern – Informatik unterstützt Industrie- und Kooperationspartner. Es entwickelt mit ihnen Geschäftsmodelle und Dienstleistungen auf der Basis komplexer Algorithmen (Algorithmic Business). Nebst Forschung und Entwicklung bietet das ABIZ-Team folgende Dienstleistungen an: Beratung betreffend Digital Business, Vor-Ort-Schulungen, Audits und Coachings in den Bereichen Künstliche Intelligenz, Maschinelles Lernen, Bildverarbeitung und Datenanalyse.

Holen Sie sich einen Bachelor: Der zukunftsweisende Studiengang Artificial Intelligence & Machine Learning legt seinen Fokus auf die Schlüsseltechnologien der Künstlichen Intelligenz.

Blick in die KI-Zukunft: Folgen Sie unserer X-Seite über AI & Machine Learning: Dort verfolgen und kommentieren Expertinnen und Experten der Hochschule Luzern die neuesten Entwicklungen im Bereich der KI.

🚀Besuchen Sie unsere Info-Anlässe

Informatik-Blog abonnieren: Hier erhalten Sie Tipps und Neuigkeiten aus der Welt der IT. Wir porträtieren Menschen und schreiben über Technologien, welche die Hochschule Luzern – Informatik mitprägen. Abonnieren Sie unseren Blog und bleiben Sie informiert.

Aktuelles aus unserem Departement auf LinkedIn. 👀 Jetzt folgen!