Eine wichtige Anwendung des Maschinellen Lernens sind Empfehlungssysteme. Jeder dürfte im Alltag schon einmal damit in Kontakt damit gekommen sein.
– Bei Online-Händlern:
„Kunden, die Produkt A gekauft haben, haben sich auch Produkt B angesehen“
– Bei Musik-, Film- oder Hörbuch-Streamingdiensten:
Nächster vorgeschlagener Titel
– Bei Social-Media-Diensten Facebook/YouTube:
Nächstes Video oder Foto
Beispiel:
Yannik trifft sich mit Mo und erzählt, was ihm heute Morgen passiert ist. Yannik: „Ich glaube, mein Smartphone hört mich ab. Heute Morgen surfe ich bei Amazon herum und unterhalte mich mit meiner Freundin darüber, ob wir am Abend nicht mal Pulp Fiction gucken sollen. Später dann schaue ich bei Amazon wieder rein, und gleich auf der Startseite wird mir Pulp Fiction empfohlen als ein Film, der mich interessieren würde. Das kann doch kein Zufall sein!“
Mo, die seit einiger Zeit bei einer Marketingagentur ein Praktikum macht, sagt: „Immer mit der Ruhe. Ehe du zu solchen Verschwörungstheorien greifst, sollten wir uns mal ansehen, wie so ein Empfehlungsmechanismus funktioniert. Wir hatten da letzte Woche in der Agentur eine Präsentation, die mir das zum ersten Mal verständlich erklärt hat.“ Mo holt ihr iPad heraus und startet ihre Tabellenkalkulation. Sie tippt ein paar Zeilen ein und sagt zu Yannik: „So, pass mal auf. Wir gehen das jetzt mal zusammen durch!“
Folgende Leute schauen sich nacheinander folgende Filme an und bewerten diese. Eine 0 heißt: der Film hat dem/r Nutzer*In nicht gefallen, ein Daumen rauf heißt, der Film hat gefallen. Ein Fragezeichen: der Nutzer hat den Film noch nicht gesehen.
Blade-runner | Fight Club | Matrix 1 | Herr der Ringe 1 | Mad Max Fury Road | Hangover | Pulp Fiction | |
Anna | 0 | 👍🏼 | 0 | 👍🏼 | 0 | 0 | 0 |
Bernd | 👍🏼 | 👍🏼 | 👍🏼 | 0 | 👍🏼 | 👍🏼 | 👍🏼 |
Chris | 👍🏼 | 0 | 👍🏼 | 👍🏼 | 👍🏼 | 0 | 👍🏼 |
Dilek | 👍🏼 | 👍🏼 | 👍🏼 | 👍🏼 | 0 | 0 | 0 |
Eric | 👍🏼 | 👍🏼 | 👍🏼 | 0 | 0 | 0 | 👍🏼 |
Yannik | 👍🏼 | 👍🏼 | 👍🏼 | 0 | 👍🏼 | 0 | ? |
Es gibt fünf Nutzer*Innen, die schon alle sieben Filme gesehen haben, und Yannik, der außer Pulp Fiction schon alle Filme gesehen hat. Der Filmanbieter versucht jetzt vorherzusagen, wie Yannik Pulp Fiction finden wird. Wenn er glaubt, dass Yannik den Film gut findet, wird der Anbieter Yannik diesen Film vorschlagen.
Selbstcheck: Überlege selbst, wie man vorgehen könnte, um herauszufinden, wie Yannik diesen Film wohl findet. Als Menschen versuchen wir, auf der Basis von Leuten mit ähnlichen Gewohnheiten Vorschläge zu machen. Zum Beispiel: Eric mag intelligente Science Fiction, aber keine sinnlose Action oder Kumpelfilme mit viel Alkohol und plattem Humor.
Eine Maschine ist natürlich nicht in der Lage, sich in einen Menschen einzufühlen und sich ein inneres Bild der Person zu machen. Die Maschine geht rein mathematisch/algorithmisch vor.
Wie funktioniert das?
Kollaboratives Filtern
Das Kollaborative Filtern (engl. collaborative filtering) ist eine wichtige Grundlagentechnik der angewandten KI. In unserem Fall macht das Filtern keine Annahmen über die Inhalte der Filme oder die inneren Einstellungen der Personen, sondern verrechnet einfach nur die gemachten Bewertungen und sucht nach Ähnlichkeiten im Verhalten der Nutzer. Das Verhalten der Nutzer ist ja durch die Bewertungen der Filme dokumentiert.
Erst mal müssen wir unsere Ausgangsdaten digitalisieren. In diesem Fall ist das ziemlich einfach: Ein „Daumen rauf“ kodieren wir mit 1, wo hingegen eine 0 steht, lassen wir die 0 stehen. Nun haben wir eine Tabelle, die bis auf die eine Zelle unten rechts aus Einsen und Nullen besteht, ein Traum für einen ML-Algorithmus.
Blade-runner | Fight Club | Matrix I | Herr der Ringe I | Mad Max Fury Road | Hangover | Pulp Fiction | Ähnlichkeit | |
Anna | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 2 |
Bernd | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 5 |
Chris | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 4 |
Dilek | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 4 |
Eric | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 4 |
Yannik | 1 | 1 | 1 | 0 | 1 | 0 | ? |
Nun brauchen wir nur noch ein Verfahren, das rein mechanisch funktioniert. Du ahnst es schon: Wir brauchen einen Algorithmus, und der lautet so:
1 – Gehe die Tabelle für jede Person zeilenweise durch und schaue für jeden Film, ob die Präferenz der Person mit Yanniks übereinstimmt, also beide 1 (like) oder beide 0 (dislike); wenn ja, dann zähle das als +1, wenn nein, also bei unterschiedlichen Bewertungen, dann zähle das als 0.
2 – Summiere die Übereinstimmungen in der letzten Spalte „Ähnlichkeit“.
3 – Schaue dir das Ergebnis an. Mit wem hat Yannik die meisten Punkte gemein? Welche Bewertung hat diese Person dem Film Pulp Fiction gegeben? Richtig, die meisten Übereinstimmungen gibt es mit Bernd, also nimmt man an, dass er auch Pulp Fiction ebenso bewertet wie Bernd. Da Bernd den Film gut findet, nimmt die Software an, dass auch Yannik den Film gut findet.
Nachdem Mo das Yannik erklärt hat, sagt dieser: „Ach, so simpel geht das? Aber was ist, wenn ich manchmal tagelang Sachen vorgeschlagen bekomme, die ich überhaupt nicht mag?“
Mo antwortet: „Aber das ist doch ein guter Hinweis darauf, dass du a) nicht abgehört wirst und b) der Algorithmus auch Fehler machen kann. Und es gibt bei dem Filmbeispiel natürlich auch keine Garantie, dass der Film Pulp Fiction dir wirklich gefällt.“
Yannik: „Stimmt. Man tendiert dazu, manche Sachen überzubewerten. Jetzt, wo ich weiß, wie es funktioniert, ist es eigentlich ziemlich einfach. Ich werde mir also Pulp Fiction mal ansehen und dir morgen sagen, ob er mir wirklich gut gefallen hat.“
Dieses Modell ist natürlich extrem vereinfacht. Bei einem riesigen Streamingdienst wie Netflix, Amazon Prime oder Hulu haben wir Millionen von Nutzern und Hunderttausende Filme, und die Berechnungen können nur mit einem riesigen Rechenaufwand durchgeführt werden. Interessant ist aber, dass das System – ohne irgendetwas über die Persönlichkeit der Nutzer zu wissen – zu relativ guten Vorhersagen kommt. An diesem Beispiel können wir im Kern schon sehen, wie die KI-Verfahren mit Kundendaten funktionieren.
Wir haben mindestens drei Elemente:
1 Die Kundendaten, in diesem Fall die Filmpräferenzen, möglichst in Zahlen kodiert.
2 Das Modell oder den Algorithmus, das ist nichts anderes als ein Rechenverfahren, das die Zahlen verrechnet.
3 Die Vorhersage oder Prediction. Man speist die Daten ein, über die man eine Vorhersage machen will, und erhält auf der Basis von 1. und 2. eine errechnete Antwort.
Je nach der Anzahl und Qualität der Ausgangsdaten ist diese Antwort mehr oder weniger gut, d.h. ein Algorithmus kann auch danebenliegen, weil a) nicht genügend aussagekräftige oder sogar widersprüchliche Daten zur Beantwortung einer Frage vorliegen, oder weil b) der gewählte Algorithmus vielleicht nicht ausgereift genug ist, um diese Frage zu beantworten.
Der Algorithmus, der in unserem Beispiel diese Zuordnung macht, heißt übrigens K-Nearest-Neighbor, also nächste Nachbarn. Und das ist ja in diesem Fall ein guter Name. Denn in dem Beispiel ist Bernd, was den Filmgeschmack betrifft, der „nächste Nachbar“ zu Yannik, also ihm am ähnlichsten.
Hier ist der K-Nächste-Nachbarn-Algorithmus noch mal im Video erklärt:
Erweiterte Modelle
Selbstverständlich ist das Modell nicht auf Filme beschränkt. Oft wird es bei Shopping-Portalen wie Amazon oder Ebay eingesetzt, wo Millionen von Kunden sich Millionen von Produkten anschauen. Bei den Bewertungen von Produkten gibt es oft genauere Angaben als „Like“ oder „Not Like“. Besonders beliebt sind 5-Sterne- oder 10-Punkte-Skalen (z.B. bei Amazon oder Booking). Man kann sich also leicht vorstellen, dass die Berechnung von Vorhersagen auf der Basis solcher Daten millionenfach komplexer ist als unser Beispiel. Aber das ist heutzutage kein Problem, da große Firmen wie Amazon ganze „Farmen“ voll von Computern haben, die Tag und Nacht mit solchen Datenmengen rechnen können. Das Entscheidende ist, dass die Vorschläge hier allein aufgrund von statistischen Ähnlichkeiten gemacht werden.
Vorteile/Nachteile:
Die Vorteile dieser Methode sind:
a) Man muss nichts über die Nutzer wissen, nur deren Bewertungen kennen.
b) Die Empfehlungen funktionieren auch über Produktkategorien hinweg: Hennes mag z.B. Bike-Zubehör und guckt außerdem gerne Sport-Dokus über die Tour de France. Das könnte eventuell auf mehrere Sport-Freaks zutreffen.
c) Wenn sich die Geschmäcker ändern oder neue Filme/Produkte hinzukommen, passt der Algorithmus das Modell an. Denn die Liste der Likes ändert sich ja ständig mit neuen Nutzern und neuen Filmen oder Produkten.
Die wirtschaftliche Seite
Unternehmen, die Empfehlungssysteme einsetzen, versprechen sich davon wirtschaftliche Vorteile. Zum Beispiel wollen sie ihre Nutzer länger in ihren Diensten halten, eine höhere Beteiligung erzielen z.B. durch mehr Kommentare oder Bewertungen oder einfach mehr Umsatz durch Zusatzverkäufe generieren.
Beispiel:
Der 1-Millionen-Netflix Price
Von 2006 – 2009 veranstaltete der Videostream-Anbieter Netflix einen Wettbewerb, in dem es darum ging, den damals bestehenden Vorschlagsalgorithmus um 10 Prozent besser zu machen. Als Preisgeld wurde dafür 1 Million Dollar ausgelobt. Netflix stellte dazu einen Datensatz mit 100 Millionen Bewertungen von 480.189 Nutzern über 17.770 Filme bereit, wobei die Nutzerdaten anonymisiert wurden.
Im September 2009 zahlte Netflix 1 Millionen Dollar an ein Team von KI-Experten, die eine Verbesserung der Vorhersagen um knapp über 10 Prozent erreicht haben. https://www.netflixprize.com https://en.wikipedia.org/wiki/Netflix_Prize
Übung: Warum zahlt Netflix so viel Geld für eine relativ geringe Verbesserung von 10 Prozent? Rechnen wir einmal nach. Nehmen wir an, durch bessere Film- und Serien-Vorschläge sind die Netflix-User zufriedender mit dem Angebot, und daraus folgt, insgesamt 100.000 Nutzer kündigen nicht nach 6 Monaten, sondern erst nach 8 Monaten. Sie sind also zwei Monaten länger Netflix-User.
Im Monat kostet Netflix 10 Dollar. Wie viel verdient Netflix dann mit diesen 100.000 Usern zusätzlich?
Musterlösung: 100.000 User x 2 Monate x 10 Dollar/Monat = 2 Millionen Dollar.
Wird dir jetzt klarer, warum es heißt:
Daten sind das neue Öl?
Auch da, wo es nicht sofort offensichtlich ist, dass man damit mehr Geld verdient, werden Empfehlungssysteme eingesetzt, z.B. bei YouTube, TikTok oder Facebook. Was könnte die Motivation der Betreiber sein, möglichst gute Vorschläge für die Postings, die man als nächstes sieht, oder für Videos zu machen
Psychologische/Gesellschaftliche Seite
Wir haben gesehen, dass Empfehlungssysteme gut für die Firmen sind, die diese einsetzen. Welche Vor- und Nachteile haben nun die User davon?
Vorteile | Nachteile |
User lernen neue interessante Inhalte kennen | User werden manipuliert |
Man wird zu bequem, selber zu suchen | |
Filterblasen (man nutzt immer dasselbe Angebot) |
Ein weiterer kritischer Punkt ist, dass bei dem jeweiligen Anbieter riesige Datenmengen über jeden einzelnen Nutzer gesammelt werden. Sollten diese Daten öffentlich werden oder Hackern in die Hände fallen, könnte das Nachteile für die jeweiligen Nutzer haben.
Welche Daten können problematisch sein?
Daten über:
– sexuelle Orientierung
– politische Einstellung
– welche Inhalte werden intensiv genutzt
– ist jemand krank oder anderweitig benachteiligt (z.B. Rechtschreibschwäche)
– Eventuell lassen bestimmte Filme/Produkte auch auf bestimmte Einstellungen oder Lebensweisen schließen (Homosexualität, Gewaltbereitschaft, Neigung zu politischem Extremismus)
Medien zu Vertiefung:
Einfache Erklärung:
https://de.wikipedia.org/wiki/Kollaboratives_Filtern
Katharina Nocun: Was Amazon alles über uns weiß
https://futurezone.at/netzpolitik/was-amazon-alles-ueber-uns-weiss/400367864