Schlagwort-Archive: Machine Learning

Künstliche Vorurteile & ihre Vermeidung

So stolperte Amazon in die Bias-Falle: Seit 2014 hat ein Team aus einem guten Dutzend Maschine-Learning-Spezialisten in Edinburgh an einer KI-Anwendung gewerkelt, die anhand von Bewerbungsunterlagen geeignete Kandidaten ermitteln sollte. Das Problem dabei: Die KI wertete Frauen ab und fischte aus dem digitalen Bewerbungsstapel lediglich die Männer heraus.

Der Grund: Eine Verzerrung („Bias“) der Trainingsdaten. Machine-Learning-Modelle müssen anhand von „korrekten“ Beispieldaten trainiert werden, etwa den Bewerbungsunterlagen von erfolgreichen Mitarbeitern. Da es hier aber um technische Berufe ging, spiegelt der Trainingsdatensatz deren Problematik wieder: Männer stellen die Mehrheit. Das Modell hat also gelernt, dass ein wichtiges Merkmal erfolgreicher Kandidaten das männliche Geschlecht ist.

Das Problem von Amazon zeigt, dass die Auswahl der Trainingsdaten entscheidend ist für den Erfolg einer KI-Anwendung. Mit dem richtigen Dataset kann die KI-Anwendung korrekt arbeiten – egal, ob es um Kandidatenauswahl oder jede andere Art von Aufgabe geht. Doch einfach ist die Bestimmung eines Dataset nicht, es können eine Reihe von Schwierigkeiten auftauchen.

Repräsentativität – Verzerrung durch Auswahl der Daten

Ein Dataset muss für seinen Anwendungsbereich repräsentativ sein, also (annähernd) vollständig über sämtliche möglichen Merkmale und Merkmalskombinationen streuen. Sonst kommt es zu schlechten Ergebnissen: Da gab es diese KI, die Schiedsrichter in einem Schönheitswettbewerb spielen sollte. Natürlich ist sie mit Fotos von Models trainiert worden, doch „Persons of Color“ waren dabei unterrepräsentiert. Und so wurden nur europäisch oder asiatisch aussehende Menschen als schön gekennzeichnet.

Doch wie erhält man einen repräsentativen Datensatz? Lediglich möglichst viele Daten zu sammeln, führt nicht weiter. Auch eine noch so große Datenmenge bewirkt nicht, dass der Datensatz insgesamt repräsentativ für etwas ist, was in der Soziologie „Grundgesamtheit“ heißt. Damit ist der Bereich gemeint, für den diese Daten eine Aussage treffen sollen – beispielsweise die Grundgesamtheit „deutsche Gesellschaft“ oder „Verbraucher zwischen 16 und 46“.

Damit eine valide Aussage entsteht, muss die Auswahl des Datensatzes zufällig sein, ohne Regeln, Voraussetzungen oder Vorurteile. Eine reine und wissenschaftlich korrekte Zufallsauswahl ist in der Praxis allerdings unmöglich. Data Scientists müssen also auf eine Heuristik zurückgreifen, bei der Merkmalsvielfalt und Vollständigkeit wichtige Kriterien sind. Was das genau bedeutet, hängt vom Anwendungsbereich ab. So müsste eine Computer-Vision-Anwendung, die Hunde von Katzen unterscheiden kann, für ihre Trainingsdaten Fotos von allen möglichen Hunde- und Katzenrassen präsentiert bekommen.

Framing – Verzerrung in der Realität

Ein weiteres heuristisches Kriterium ist Framing: Der Realitätsbereich, in dem die KI-Anwendung eingesetzt wird, ist häufig bereits verzerrt. Die Amazon-KI ist ein gutes Beispiel dafür. Technische Berufe sind üblicherweise sehr stark männlich „geframet“. Dies beginnt beim geringen Interesse der Mädchen für MINT-Fächer in den Schulen, setzt sich in den entsprechenden Studiengängen fort und wird schließlich zur Realität des überwiegend männlichen Berufs.

Es ist offensichtlich, dass hier Talente verloren gehen. So ist es für die Kandidatenauswahl eine gute Idee, gleich viele Profile von Männern und Frauen als Trainingsdatensatz zusammenzustellen. Doch das Framing betrifft nicht nur das Geschlecht. Ein anderes Merkmal könnte der (Aus-)Bildungsabschluss sein. In einem „ungeframeten“ Datensatz könnten unter Umständen auch Kandidaten ohne Hochschulabschluss oder Quereinsteiger ganz ohne formelle Abschlüsse vorkommen.

Das zeigt, dass die anfängliche Entscheidung über Ziel und Aufgabe der KI-Anwendung wichtig ist. Wer die Wirklichkeit lediglich abbilden will, muss auf Repräsentativität des Datensatzes achten, wer normative Ziele hat, eher auf eine mögliche Verzerrung das Realitätsbereichs. Wenn beispielsweise eine KI-Anwendung zur Auswahl von Bewerbern dafür sorgen soll, dass normalerweise wenig berücksichtigte Kandidaten eine größere Chance bekommen, muss der Datensatz entsprechend korrigiert werden.

Bestätigungsfehler – Verzerrung durch Vor-Urteile

Hier taucht allerdings sofort das nächste Problem bei der Auswahl von Daten auf: Der Bestätigungsfehler. Er kann in drei unterschiedlichen Varianten vorkommen:

  • Die Daten werden intuitiv ausgewählt, weil sie sich „richtig anfühlen“ und mit den Vorannahmen des Auswählenden übereinstimmen. Das Ergebnis der KI-Anwendung ist dann genau das, was der menschliche Nutzer „immer schon wusste“. In diesem Fall fehlt es an einem genauen Konzept zur Daten- und Merkmalsselektion und der Aufmerksamkeit für Verzerrungen.
  • Die Daten werden systematisch so ausgewählt, dass sie zu dem vermuteten oder gewünschten Ergebnis passen. Leider passiert das häufig in Unternehmen: Eine in der Hierarchie höher stehende Person akzeptiert nur eine bestimmte Datenauswahl und erreicht damit das erwartete und nützliche Ergebnis.
  • Die Daten besitzen einen unerkannten Bias und werden auch für den Test des Neuronetzes genutzt. Diese Vorgehensweise ist häufig, ein Dataset wird geteilt und je die Hälfte zum Training und zum Überprüfen der Ergebnisse eingesetzt. In diesem Fall bestätigt sich der Bias in einem vermeintlich validen Ergebnis – Entwickler kennen das als „Garbsage in, Garbage out“.

Der letzte Punkt ist besonders wichtig. Ein ML-Modell sollte möglichst immer an Daten getestet werden, die entweder direkt aus der Praxis kommen oder auf andere Weise gewonnen werden. In der Bilderkennung beispielsweise sollten die Datasets aus unterschiedlichen Quellen kommen, um mögliche VErzerrungen besser zu erkennen.

Seltene Ereignisse – Verzerrung durch den Faktor Zeit

Eine weitere Form der Verzerrung ist das Problem der seltenen Ereignisse, das besonders für autonome Fahrzeuge kritisch ist. Ihre ML-Modelle werden mit Aufzeichnungen von Fahrsituationen trainiert, etwa Videodaten aus Fahrerperspektive oder 360°-Darstellungen von Lidar-Scannern, die Bilder mit Laser-Abtastung erzeugen. Waymo und andere Entwickler autonomer Fahrzeuge zeichnen jede gefahrene Meile auf und bauen so nach und nach einen Datensatz aus alltäglichen Fahrsituationen auf.

Inzwischen sind diese Datasets gigantisch und erfassen viele, aber leider nicht alle denkbaren Fahrsituationen. Denn jeder menschliche Autofahrer kennt seltene Ereignisse – etwa der bunte Spielzeugball, der über die Straße rollt und Sekundenbruchteile später von einem rennenden Kleinkind verfolgt wird. Wie oft erlebt jemand diese Situation in seinem Leben tatsächlich? Keinmal, einmal, zweimal? Die meisten wohl selten. Trotzdem reagiert jeder Mensch sofort richtig. Damit eine Auto-KI diese Situation zweifelsfrei erkennt, müssen die Trainingsdaten eigentlich viele Varianten enthalten, etwa rollende Bälle unterschiedlicher Größe, Spielzeuge mit Rädern oder Haustiere.

Nur: Seltene Ereignisse in der Realität sind in einem durch Beobachtung erzeugten Dataset ebenfalls selten. Dies zeigte sich an einem tragischen Unfall mit einem autonomen Auto. Die KI erkannte die Gefahr nicht, als eine Frau nachts bei schlechter Beleuchtung ihr Fahrrad quer über eine mehrspurige Straße schob. Es gibt kaum einen Ausweg, als einfach immer weiter echte Fahrdaten zu sammeln. Deshalb ist hier ausnahmsweise die Größe des Datensatzes recht wichtig. Den größten hat Tesla, aus diesem Grunde sprechen einige KI-Experten dem Unternehmen von Elon Musk Vorteile bei der Entwicklung eines autonomen Autos zu.

Das ideale Dataset gibt es nicht

Die oben geschilderten Verzerrungen in Datasets sind nur einige Probleme. Es gibt noch weitere Verzerrungen, die in vielen Situationen zu Schwierigkeiten führen: Zu wenige geeignete Daten trotz eines großen Datasets, fehlerhafte Daten, den Mittelwert verzerrende Extremwerte, zu strenge oder zu schwache Auswahlkriterien für Daten, falsch ausgewählte Merkmale für das Training und einiges mehr.

Ohne Sorgfalt und Überlegung bei der Auswahl der Daten wird es nicht gelingen, durch das Training ein valides ML-Modell zu erhalten. Es gibt jedoch ein paar Daumenregeln. Sie helfen unter anderem dem Management eines Unternehmens, Voraussetzungen und Konsequenzen der jeweiligen Maschine-Learning-Anwendungen zu verstehen.

  • Ein sehr großes (Millionen Entitäten) Dataset ist keine Garantie für gültige Ergebnisse. Allerdings muss ein sehr klein wirkendes (wenige 100 Entitäten) Dataset besonders kritisch geprüft werden.
  • Annahmen und Voraussetzungen müssen geklärt werden. Es ist sinnvoll, in der Vorbereitungsphase eines ML-Projekts zu beschreiben, welche Annahmen für den Aufgabenbereich gelten und welche in den Trainingsdaten versteckt sein könnten.
  • Trainingsdaten sollten einerseits zufällig ausgewählt werden und andererseits möglichst breit streuen. Historische Daten aus dem eigenen Unternehmen sind oft weniger geeignet, da sie spezifische Verzerrungen enthalten können. Die finden sich dann in den Ergebnissen wieder.
  • Videobeobachtungen enthalten nur das, was tatsächlich beobachtet wurde und nicht das, was insgesamt beobachtet werden kann. Sie sind mit Vorsicht zu genießen, profitieren allerdings von der Größe des Datasets.

Quellen

  1. 7 Common Biases That Skew Big Data Results (Information Week)
  2. AI can Help Create a Better World. If we Build it Right (SingularityHub)
  3. AI has a bias problem that needs to be fixed (World Economic Forum)
  4. Amazon scraps secret AI recruiting tool that showed bias against women (Reuters)
  5. Four Mistakes You Make When Labeling Data (Towards Data Science)
  6. Four Types of Machine Learning Bias (Alegion)
  7. Problems in Machine Learning Models? Check your Data First (Towards Data Science)
  8. This is How AI Bias Really Happens and why it’s so Hard to Fix (Technology Review)
  9. To fix algorithmic bias, we first need to fix ourselves (Quartz)
  10. Towards Fairness in ML with Adversarial Networks (Go Data Driven)
  11. We need to build machine learning tools to augment machine learning engineers (O’Reilly Radar)

Bildquelle: Secondside / Adobe Stock

Die Lage der KI-Forschung

State of AI 2019 Report herunterladen

Eine Suche in Google Trends zeigt es deutlich: Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) ist weltweit ein Hype. Der Suchbegriff wird etwa doppelt so häufig abgefragt wie am Anfang des Jahrzehnts. Dabei handelt es sich nicht um einen kurzlebigen Trend. Obwohl es ganz offensichtlich gewisse Konjunkturen gibt, ist das Interesse am Suchbegriff seit einigen Jahren kontinuierlich hoch. Und wer in das Suchfeld von Google den Begriff „Artificial Intelligence“ eingibt, erhält die ersten zehn von ungefähr 436 Millionen Webseiten zu diesem Stichwort präsentiert.

Es ist nur sehr schwer möglich, hier noch einen einigermaßen fundierten Überblick zu behalten. Einen ebenso wichtigen wie interessanten Ausschnitt aus der KI zeigt der Bericht State of AI 2019. Die beiden Autoren Nathan Benaich und Ian Hogarth sind langjährige Beobachter der KI-Szene als Investoren und Wissenschaftler. Sie präsentieren nach eigener Auskunft auf 136 Seiten „einen Schnappschuss der exponentiellen Entwicklung der KI mit einem Schwerpunkt auf Entwicklungen in den letzten zwölf Monaten“. Der Bericht widmet sich fünf wichtigen Schlüsselbereichen innerhalb der künstlichen Intelligenz und präsentiert sie in den folgenden Abschnitten:

  • Research: Forschungsergebnisse und technologische Durchbrüche.
  • Talent: Berufsbilder und Personalgewinnung in der KI.
  • Industry: KI-Unternehmen und ihre Finanzierung.
  • China: Neue KI-Trends in China.
  • Politics: Die Behandlung der KI im Rahmen von Politik und Gesellschaft.

Da der Bericht nur schwer zusammenzufassen ist, habe ich einige besonders interessante Themen ausgewählt und sie jeweils in einem Kurzartikel dargestellt. Wer einen lesen möchte: Einfach auf den grauen Balken mit dem Thema klicken.

[toggle title=“Reinforcement Learning“]

Reinforcement Learning

Diese Form von Deep Learning ist in den letzten Jahren intensiv erforscht worden. Das Prinzip: Software-Agenten lernen zielorientiertes Verhalten durch Versuch und Irrtum. Sie agieren dabei in einer Umgebung, die ihnen positive oder negative Belohnungen als Reaktion auf ihre Handlungen gibt. Für das Training von neuronalen Netzwerken sind die KI-Entwickler dazu übergegangen, Computerspiele wie beispielsweise Montezuma’s Revenge (Jump’n’Run), Quake III Arena (Egoshooter) oder Star Craft II (Echtzeit-Strategiespiel) einzusetzen.

Solche Umgebungen, aber auch speziell angefertigte Computersimulationen eignen sich hervorragend dazu, Verhalten zu variieren und anschließend erfolgreiches Verhalten zu wiederholen. Darüber hinaus sind die Belohnungen bereits in die Games integriert. In der realen Welt sind variantenreiche Lernumgebungen nicht so einfach umzusetzen, etwa für die Robotik.

So hat OpenAI eine Roboterhand in einer Simulation darin trainiert, physikalische Objekte zu manipulieren. Auch das zweibeinige Gehen wird gerne in Simulationen geprobt, denn es ist weniger einfach, als wir Menschen intuitiv glauben. Um nicht regelmäßig teuren Elektroschrott zu erzeugen, werden gehende Roboter deshalb ebenfalls in Simulationen trainiert. Dabei wird unter anderem Reinforced Learning genutzt.

Simulationen und Computerspiele eignen sich gut zum Trainieren von lernfähigen Systemen, da sie kostengünstig und weithin verfügbar sind. Im Grunde kann jeder Entwickler damit arbeiten, auch ohne Risikokapital im Hintergrund. Darüber hinaus können die Spielumgebungen unterschiedlich komplex gestaltet werden. Das ist einer der Gründe, warum Open World Games wie Grand Theft Auto gerne beim grundlegenden Training von Deep-Learning-Modellen für das autonome Fahren genutzt werden.

Sind Games und Simulationen also die optimale Umgebung für das KI-Training? Sicher nicht, wie auch die Autoren des Berichts nahelegen. Denn jede simulierte Welt ist deutlich weniger komplex als die wirkliche Welt. Im Normalfall wird das Ergebnis niemals ein austrainiertes KI-Modell sein, das direkt und ohne Probleme in der Wirklichkeit eingesetzt werden kann. Die Erfahrungen mit den bisherigen KI-Anwendungen für fahrerlose Autos zeigen, dass hier auch ein altbekanntes Prinzip für die Optimierung von Prozessen gilt: Die letzten Prozent der zu trainierende Fähigkeiten machen mindestens so viel Aufwand wie der Rest.

[/toggle]

[toggle title=“Natural Language Processing“]

Natural Language Processing

Alexa, Siri & Co. haben in den letzten Jahren gezeigt, dass Natural Language Processing (NLP) recht weit fortgeschritten ist und es zahlreiche alltagstauglich Anwendungen gibt — in bestimmten Bereichen. Schwierig sind echte Dialoge mit Rückbezügen auf vorher Gesagtes. Außerdem kommt das menschliche Gehirn immer noch besser mit dem uneigentlichen Sprechen wie Ironie oder Hyperbeln zurecht. Wer mit Alexa redet, muss eindeutig und in Anweisungsform sprechen, typisch menschliche Unschärfen in der Aussage führen meist nicht zum Ergebnis.

Die Erkenntnis zahlreicher Projekte: Vortrainierte Sprachmodelle verbessern die Ergebnisse von NLP deutlich. Im Bereich Computer Vision sind damit große Erfolge erzielt worden. So werden beispielsweise viele neuronale Netze für die Bilderkennung mit ImageNet vortrainiert und erst dann mit weiterem Training an den speziellen Anwendungsfall angepasst. Dieses Dataset besteht aus momentan knapp 14,2 Millionen Bildern, die nach fast 22.000 semantischen Kategorien indiziert sind. Diese wiederum sind nach den Prinzipien der lexikalisch-semantischen Datenbank WordNet organisiert.

Eine vergleichbare Vorgehensweise ist auch bei NLP sinnvoll, denn es ist aufwendig, valide Trainingsdaten für Teilaufgaben zu entwickeln — beispielsweise das Bestellen einer Pizza, wie es Google Duplex beherrschen soll. Google hat vor einiger Zeit eine Technik für das Vortrainieren von NLP-Modellen als Open Source freigegeben. Das Ergebnis heißt BERT (Bidirectional Encoder Representations from Transformers) und basiert auf demselben Neuronetz wie Google Translator. BERT kann vergleichsweise einfach durch ein Zusatztraining an die jeweilige Aufgabe angepasst werden.

Zudem kann BERT auch durch weitere Lernverfahren ergänzt werden, beispielsweise durch Multi-Task Learning (MTL). Eine Demo dieser Möglichkeiten bietet Microsoft Research mit seinem Multi-Task Deep Neural Network (MT-DNN). Dabei werden verschiedene, aber verknüpfte Aufgaben gleichzeitig gelernt, wodurch der Lernfortschritt größer wird. Pate war hier eine Eigenheit des menschlichen Lernens: Wer bereits gut auf Inlinern skaten kann, lernt das Schlittschuhfahren deutlich schneller als jemand ohne Inliner-Erfahrung.

Der Einsatz vortrainierter Modelle hat in der Computer Vision manchen Durchbruch gebracht, Benaich und Hogarth hoffen, dass dies ebenso für das Verständnis menschlicher Sprache durch neuronale Netze gilt.

[/toggle]

[toggle title=“Rückkehr der symbolischen KI“]

Rückkehr der symbolischen KI

Das Verstehen natürlicher Sprache ist ein wesentliches Element von Sprachassistenten. Doch zahlreiche Praktiker sind mit reinen KI-Modellen über ein Problem gestolpert: Domänenwissen lässt sich einem Neuronetz nicht ohne weiteres antrainieren, denn das Training ist aufwendig und die Gewinnung von validen Datasets teuer.

Hier kommt dann ein Ansatz ins Spiel, der Mitte der achtziger Jahre als der Königsweg zur künstlichen Intelligenz galt: Symbolische KI, die unter anderem mit Verzeichnissen von Regeln und Alltagswissen arbeitet, um das Schlussfolgern aus Common-Sense-Sachverhalten zu ermöglichen. Die bekannteste Datenbank dieser Art ist Cyc und wird seit 1984 schrittweise aufgebaut.

Dieser Ansatz galt über lange Jahre hinweg als gescheitert, da selbst eine noch so große Datenbank nicht das gesamte Weltwissen enthalten kann. Doch als Partnerverfahren ist Domänenwissen inzwischen wieder wertvoll für KI. Denn eine Datenbank wie Cyc kann ein Deep-Learning-System durch Wissensprimitive ergänzen, sodass das Training sich ausschließlich High-Level-Sachverhalten widmen kann.

[/toggle]

[toggle title=“Autonome Fahrzeuge“]

Autonome Fahrzeuge

Roboterautos und andere autonome Fahrzeuge gehören zu den wichtigsten Zukunftsvisionen bei KI. Einer der Vorreiter ist Waymo, dessen autonome Fahrzeugflotte auf den US-Straßen mehr als 16 Millionen Kilometer bewältigt und dabei wichtige Fahrdaten gesammelt hat. Die Daten von weiteren 11 Milliarden Kilometern in Computersimulationen kommen hinzu. Allein im letzten Jahr haben die 110 Waymo-Wagen in Kalifornien mehr als 1,5 Millionen Kilometer bewältigt.

Hinzu kommt der Datensatz von Tesla, der durch Auswertung aller von jedem einzelnen Tesla-Modell gefahrenen Kilometer entsteht. Die genaue Fahrleistung ist unbekannt, wird aber auf mehr als zwanzig Milliarden Kilometer geschätzt. Was die Menge der Daten angeht, dürfte Tesla einen uneinholbaren Vorsprung vor der Konkurrenz haben. Hinzu kommt: Das Unternehmen entwickelt seinen eigenen KI-Chip. Die Analysten des institutionellen Investors ArkInvest schätzen, dass Teslas Konkurrenten beim autonomen Fahren drei Jahre hinterher fahren.

Es ist allerdings sehr schwer, den tatsächlichen Erfolg der einzelnen Anbieter von Robotertaxis einzuschätzen. Einen kleinen Hinweis geben die von der kalifornischen Straßenbehörde veröffentlichten Disengagement-Reports. Danach schaffen Fahrzeuge von Waymo eine Jahresfahrleistung von fast 50.000 Kilometern mit lediglich einem oder zwei Aussetzern („Disengagements“), bei denen der menschliche Testfahrer übernehmen musste. Zum Vergleich: Auch Mercedes testet in Kalifornien. Doch 2018 waren es nur vier Fahrzeuge mit wenigen hundert Kilometern Fahrleistung, aber etlichen hundert Aussetzern.

Von Tesla gibt es übrigens keine Angaben dazu. Das Unternehmen sammelt zurzeit in erster Linie Fahrdaten, vermutlich um seine Modelle in Simulationen zu trainieren. Trotz des Vorsprung: Selbst der Datensatz von Tesla ist im Vergleich zu den menschlichen Fahrleistungen winzig. So wird die Gesamtfahrleistung nur der kalifornischen Autofahrer für das Jahr 2017 auf knapp 570 Milliarden Kilometer geschätzt. Dem stehen etwa 485.000 Autounfälle gegenüber, was einem Disengagement auf jeweils 1,2 Millionen Kilometer entspricht. Kurz: Das Robotertaxi scheint noch einige Zeit entfernt zu sein.

[/toggle]

[toggle title=“Robotic Process Automation“]

Robotic Process Automation

Robotic Process Automation (RPA) hat nichts mit Robotik zu tun, sondern ist ein Verfahren der Prozessautomatisierung und nachfolgend der Kostensenkung in Unternehmen. Das klingt im ersten Moment langweilig, ist aber ein spannendes Anwendungsgebiet in der KI. Denn es wird in der Praxis bereits eingesetzt und ist zu einem Markt mit hohen Erwartungen geworden: Anbieter wie UiPath sind mit 800 Millionen Dollar und Automation Anywhere mit 550 Millionen Dollar Risikokapital ausgestattet.

Für Unternehmen, die mit der Digitalisierung ihrer Prozesse kämpfen, ist RPA eine interessante Sache. Vereinfacht ausgedrückt ersetzen RPA-Anwendungen die menschlichen Endanwender in der vorhandenen Software-Infrastruktur. Dadurch ist es möglich, Prozesse zu automatisieren, die mehrere Anwendungen übergreifen, vor allem, wenn es keine definierten Software-Schnittstellen dafür gibt. RPA-Anwendungen sind in aller Regel lernfähig, sodass sie vergleichsweise leicht auch an exotische Altysteme anzupassen sind.

[/toggle]

[toggle title=“Demand Forecasting“]

Demand Forecasting

Ein brandneues Thema ist Demand Forecasting nicht, unter dem Stichwort Bedarfsermittlung wird es bereits seit längerer Zeit mit statistischen Methoden oder Fuzzy Logic umgesetzt. Es geht dabei um die Prognose der Anforderung bestimmter Ressourcen anhand von historischen Daten. Dabei wird zunehmend Machine Learning eingesetzt, um auch externe Daten (Wetter, Verkehr, Kundenströme usw.) zu berücksichtigen.

Es gibt einige Branchen und Anwendungsgebiete, in denen Demand Forecasting erfolgreich eingesetzt wird: So ermitteln Energieversorger beispielsweise den Strombedarf anhand von Wetterinformationen, Betriebsdaten und gemessenen Leistungsanforderungen. Zur Vorbereitung auf Starkregenfälle mit anschließenden Überflutung-Szenarien erschließt Machine Learning auf der Basis von historischen hydrologischen Daten neue Wege der Vorhersage von Fluten.

In Handel, Logistik, Gastronomie, Hotellerie und Touristik ordnet Machine Learning Ressourcen deutlich flexibler zu als herkömmliche Methoden. Ein Beispiel: Die Nachfrage nach bestimmten Produkten oder Services ist unter anderem vom Wetter, der aktuellen Verkehrslage in der Region, jahreszeitlichen Trends, aktuellen Moden bei Farbe oder Form und vielen anderem abhängig. Mit Machine Learning werden solche Faktoren berücksichtigt.

Große Supermarktketten müssen täglich Entscheidungen über Aufnahme, Streichung oder Nachbestellung von Millionen Einzelposten treffen. Ohne KI-Verfahren wird dies in der Zukunft schwer möglich sein, da einfache „Daumenregeln“ zu Schnelldrehern und Produktplatzierungen die immer dynamischer werdende Nachfrage kaum noch abbilden.

[/toggle]

Digitalboom in China

China Internet Report 2019 herunterladen

China hat es geschafft: Es besitzt in einigen Bereichen der Digitalwirtschaft einen deutlichen technologischen Vorsprung gegenüber Deutschland und Europa.. Ob es nun um Elektromobilität, 5G-Mobilfunk oder künstliche Intelligenz geht – in China ist Realität, worüber Deutschland noch umständlich diskutiert.

Ein Beispiel: Hierzulande sind laut Statista lediglich 228 Elektrobusse unterwegs. In China dagegen fahren nach Untersuchungen von Bloomberg etwa 421.000 dieser Gefährte. Städte wie Guangzhou und Shenzhen haben inzwischen ihre gesamte Busflotte auf Elektromobilität umgerüstet. Im Moment betreiben chinesische Nahverkehrsanbieter etwa 20 Prozent der Busse elektrisch, bis 2040 sollen es 70 Prozent werden.

Chinas Digitalwirtschaft boomt enorm

Auch in der Digitalwirtschaft prescht China vorneweg, wie der China Internet Report 2019 der englischsprachigen South China Morning Post zeigt. Er bietet eine Vielzahl an interessanten Zahlen zu verschiedenen Branchen der Digitalwirtschaft und zur Internetnutzung in China. Der Bericht zeigt deutlich: Dank des riesigen Binnenmarkts skalieren beispielsweise Apps oft schneller als im englischsprachigen Raum. Darüber hinaus sind die chinesischen Entwickler durchaus innovativ und werden inzwischen häufig selbst kopiert. So zogen die superkurzen Videos von TikTok eine Welle an Nachahmern hinter sich her.

Solche Entwicklungen zeigen, dass mit China zu rechnen ist. Dabei hat das Land neben dem Binnenmarkt ein weiteren Vorteil: Als Nachzügler und ehedem unterentwickeltes Land konnte es einige technologische Zwischenstufen einfach überspringen. So bedeutet Internetnutzung in China in erster Linie mobiles Internet und eine große Mehrheit nutzt auch Mobile Payment. Die unterschiedlichen Zahlungsdienste haben etwa 583 Millionen Nutzer, was einer Verbreitung von 42 Prozent entspricht – es gab vorher kein gut ausgebautes Bankensystem. In Deutschland nutzen dagegen lediglich gut 4,1 Millionen Personen oder etwa zwei Prozent das mobile Bezahlen.

Daran zeigt sich eine Besonderheit von China: Die Bevölkerung steht technologischen Neuerungen sehr offen gegenüber. Sie interessiert sich in höherem Maße für die Sharing-Ökonomie wie beispielsweise Ridesharing. Hier gibt es zwar eine ganze Reihe von Anbietern, doch absoluter Marktführer (91 %) ist Didi Xuching. Auch Smart Speaker mit Sprachschnittstelle haben sich in einem Jahr rasant verbreitet. So wird inzwischen jedes zweite Neugerät in China ausgeliefert.

Bald haben 176 Millionen Chinesen 5G-Mobilfunk

Die deutsche Politik konnte sich trotz der desaströsen Erfahrungen mit der Versteigerung der UMTS-Lizenzen nicht zurückhalten: Auch die 5G-Lizenzen sind wieder versteigert worden, für sechs Milliarden Euro. Das bindet natürlich enorme Mengen von Investitionskapital, führt zu einer eher negativen Konkurrenzsituation und für die zukünftigen 5G-Nutzer sicher wieder mal zu überteuerten, aber schlechten Mobilfunkverbindungen.

China dagegen hat das 5G-Problem mehr oder weniger per Anweisung geregelt. Die Regierung hat die drei großen Telkos zur Zusammenarbeit bei 5G verdonnert und zahlreiche Auflagen gemacht. Dafür geht es dann recht schnell voran. Bis Ende des Jahres sollen 200.000 Basisstationen online sein, sodass in einigen Metropolregionen 167 Millionen Person potenziell Zugriff darauf haben.

Die Konsequenz: In Deutschland hat der Staat ein paar Euro, mit denen er Haushaltslöcher stopfen kann. China kann dagegen den technischen Vorsprung in Sachen 5G ausbauen. Der ist ohnehin nicht klein, denn der Telko-Riese Huawei aus Shenzhen bietet die zur Zeit technisch fortgeschrittensten und ausgereiftesten 5G-Netzwerkkomponenten an.

Der Vorsprung bei Computer Vision wächst

Künstliche Intelligenz (KI) wird in China besonders stark gefördert. Die Regierung hat dieses Thema als eines der wirtschaftlichen und technologischen Schlüsselthemen für die nächsten 50 Jahre identifiziert und entsprechende strategische Förderprogramme aufgelegt. Besonders stark ist China im Bereich Computer Vision, vor allem bei der Gesichtserkennung.

  • So wird Gesichtserkennung auf einem Bahnhof in Shenzhen zum Bezahlen genutzt. Pendler scannen ihr Gesicht auf einem Tablet am Eingang und lassen den Fahrpreis von ihrem Bankkonto einziehen. E-Commerce-Riese Alibaba hat ein Hotel, in dem sich die Zimmertüren durch Gesichtserkennung öffnen.
  • Doch auch andere Formen von Machine Learning sind im Einsatz. So bietet Alibaba die Positions- und Fahrdaten seiner Lieferfahrzeuge den lokalen Verwaltungen an, die damit die Anfahrtszeiten von Krankenwagen durch bessere Planung verkürzen.
  • Eine wichtige KI-Anwendung ist die Personenerkennung durch Kameras an allen möglichen Standorten. Sie dient einerseits der Verbrechensaufklärung und andererseits der Vorbereitung des von der chinesischen Regierung propagierten Social-Score-Systems. Dort gibt es für „vertrauenswürdiges Verhalten“ Punkte, für das Gegenteil Punktabzüge.

Wirtschaft und Regierung investieren in Zukunftsbranchen

Der Vorsprung in Sachen Gesichtserkennung liegt an der leichten Verfügbarkeit von Daten. Mangels Datenschutz und durch die hohe Verbreitung von Social-Media-Profilen mit Fotos und Videos haben chinesische KI-Entwickler Zugriff auf eine gigantische Menge an „gelabelten“ Trainingsdaten für die Entwicklung von Anwendungen.

Entsprechend investiert die Wirtschaft in China stark in KI. Der chinesische Anteil der globalen KI-Investments ist innerhalb von fünf Jahren von drei auf 14 Prozent angestiegen. Auch das Thema autonome Fahrzeuge wird stark unterstützt. So haben zahlreiche chinesische Städte ihre Straßen ganz oder teilweise für fahrerlose Autos geöffnet und verteilen Lizenzen an interessierte Unternehmen aus aller Welt.

Zwar nutzt die chinesische Suchmaschine Baidu mit ihrer KI-Tochter die Hälfte dieser Lizenzen, doch in der anderen Hälfte des Lizenzpools tauchen auch deutsche Autohersteller wie BMW, Mercedes und Audi auf. Der Grund ist ganz einfach: Während in Deutschland noch über mögliche rechtliche Probleme diskutiert wird, können die Unternehmen in China bereits Testfahrzeuge einsetzen.