KI - Technik und Anwendungen

6 Überwachtes Lernen I – Lineare Regression

In den folgenden Kapiteln wollen wir uns die wichtigsten Machine Learning-Methoden jeweils an Beispielen ansehen und versuchen, diese zu verstehen. Die benötigte Mathematik wollen wir dabei auf ein Minimum begrenzen. Für diejenigen, die die Mathematik dahinter verstehen wollen, geben wir am Ende der Kapitel Hinweise auf weiterführende Medien.

Was heißt Regression?
Regression oder Regressionsanalyse ist ein mathematisches Verfahren, das einen bestimmten Zielwert wie den Preis eines Produkts auf andere Werte, z.B. das Alter des gebrauchten Produkts, zurückführt. (Regression bedeutet Zurückgehen, Zurückführung.) Wenn man den Zusammenhang von Preis und Produktalter festgestellt hat, kann man die Regressionsanalyse auch für die Vorhersage von Preisen bei einem bestimmten Produktalter nutzen. Eine ganz einfache Form der Regression ist die sogenannte Lineare Regression, die einen Wert (Produktalter) auf einen anderen Wert (Preis) abbildet. Linear bedeutet, dass man annimmt, dass die Abhängigkeit der Werte voneinander in einem festen Verhältnis steht.

Lineare Regression (engl. linear regression)
Ein Beispiel: Ella will ihr gebrauchtes Handy verkaufen. Die Marke, die sie hat, ist sehr langlebig, sodass selbst zwei Jahre alte Geräte noch gekauft werden. Sie schaut auf einer Website für gebrauchte Handys nach, was die Geräte ungefähr kosten, und findet jede Menge Angebote für genau ihren Handytyp in dem Zustand „gebraucht, gut“. Ausgerechnet für ihr Handy, das 12 Monate alt ist, fehlt aber ein Preisbeispiel. Wie kann sie schätzen, was das Handy noch wert ist? Ella schreibt die Daten, die sie auf der Website gefunden hat, in eine Tabelle und trägt sie danach in ein Schaubild ein.

Alter / Monate 3 6 9 12 15 18 21
Preis 400 350 310 ? 200 180 150

pastedGraphic.png

Ella geht auf eine andere Website und findet weitere Preisbeispiele für ihr Handy, aber wieder fehlt ein Wert für ein 12 Monate altes Handy. Jetzt hat sie noch mehr Daten, aber die machen es ihr nicht gerade leichter. Da die Preise voneinander abweichen, ist sie nur noch verwirrter, was ihr gebrauchtes Handy nun wert ist. (Der Neupreis des Handys lag bei 420 Euro. Wir lassen den Neupreis mal außer Betracht, da neue Handys meist sehr viel teurer angeboten werden, dann aber, gebraucht, im Preis schnell fallen.

Also haben wir folgende Tabelle:

Angebot 1 2 3 4 5 6 7 8 9 10
Alter 3 6 9 12 15 18 21 3 9 18
Preis 400 350 310 ? 200 180 150 370 280 195

 

pastedGraphic_1.png

Wie würdest du das Problem lösen? In der ersten Grafik kann man sich noch vorstellen, dass man dort eine etwas geschwungene Kurve einzeichnen kann, die alle Preispunkte berührt. In der zweiten Grafik wäre das schon eine ziemliche Achterbahnfahrt. Wir wollen es uns einfach machen und den Zusammenhang zwischen Alter und Preis mit einer Geraden schätzen.

 Wie kann man also eine Gerade über die Grafik legen, die eine möglichst gute Einschätzung abgibt? Bestimmt hast du es schon durch Ausprobieren herausbekommen: Die Gerade muss so liegen, dass die Abweichung von allen einzelnen Punkten so gering wie möglich ist. Das würde allerdings heißen, dass die Vorhersage des Preises für alle einzelnen Punkte nie 100 Prozent exakt ist, sondern immer einen gewissen Fehler enthalten wird.

Entscheidend ist, dass dieser Fehler so gering wie möglich ist, denn das wäre die beste Preisschätzung. Wir brauchen eine Gerade mit einer Steigerung a, die die Y-Achse bei b schneidet und möglichst nah an allen Punkten (geringer Fehler) vorbeiläuft. Die Steigung dieser Geraden a ist etwa -13 (also eine fallende Gerade), und der Schnittpunkt mit der Y-Achse b ist etwa 421.

Daraus ergibt sich folgender Preis für Ellas Handy.

pastedGraphic_2.png

Preis = 421,45 Euro – 13,32 Euro x 12 = 261,56 Euro

 

Was hat das Ganze nun mit ML zu tun?
Wir erinnern uns, ML funktioniert so, dass man eine Reihe von Trainingsdaten in eine Maschine einspeist und daraus ein Modell errechnen lässt. Das Modell ist in unserem Fall die Gerade, beschrieben durch den Schnittpunkt b und die Steigung a. Wir wollen die Mathematik dahinter erst mal übergehen. Für Ella mag die einfache Schätzung ausreichen, aber für eine Firma, die mit gebrauchten Handys handelt, kann man wohl kaum mit dem Lineal herumexperimentieren. Das braucht man auch nicht, denn es gibt fertige Algorithmen, die automatisch die Regression aus Beispieldaten ermitteln. Wir sehen auch, dass die Realität nie 100 Prozent linear abbildbar ist. Auch die beste Gerade kann immer noch Fehler enthalten, das heißt, sie trifft dann nicht alle Punkte.

 

Wie funktioniert das?
Lineare Regression ist ein Algorithmus, in den wir eine Reihe von Daten einspeisen, von denen wir vermuten, dass diese in einem linearen Zusammenhang stehen. Als Ergebnis spuckt die Lineare Regression im einfachsten Fall eine Gerade aus, die den linearen Zusammenhang illustriert. In den allerseltensten Fällen trifft die Gerade ALLE Punkte der Ausgangsdaten. Es wird also die Gerade berechnet, die die geringsten Abweichungen – also den geringsten Fehler – von allen Punkten hat. Diese Gerade kann nun zur Vorhersage von Werten genutzt werden, für die wir noch kein Beispiel haben. Die Lineare Regression funktioniert auch, wenn man nicht nur zwei Wertedimensionen hat, sondern mehrere, seien es 3, 10, 100 oder Tausende. (Man spricht dann von einer Multivarianten Linearen Regression.)

Vorteile/Nachteile
Vorteile: Der Vorteil der LR ist, dass es sich dabei um ein einfaches Rechenverfahren handelt, das Tabellenkalkulationen wie Excel und selbst Taschenrechner schon fertig eingebaut haben. (In Excel findet man das als Trendlinie im Menü Daten: „Diagrammelement hinzufügen“.) Auch bei großen Datenmengen mit vielen Einzelfaktoren findet man immer eine Lösung. Vorausgesetzt, es gibt den vermuteten linearen Zusammenhang.

Nachteile: Das Verfahren setzt voraus, dass es wirklich einen linearen Zusammenhang zwischen den Werten gibt, was nicht immer der Fall sein muss. Siehe dazu unten das Beispiel unter „Gesellschaft und Individuum“.

Wirtschaft
In der Wirtschaft kann man die Lineare Regression vielfältig einsetzen, zum Beispiel bei der Preisfindung oder bei der Prognose für die Wirkung von Werbung. Insofern handelt es sich bei LR um ein für viele Planungsaufgaben wichtiges Verfahren. Aber auch in der Forschung, z.B. in der Medizin, Pharma oder Chemie, will man oft den Zusammenhang von zwei oder mehreren Variablen herausfinden, z.B. von Wirkstoffen und Wirkung bei Medikamenten oder von Dünger und Pflanzenwachstum.

 Gesellschaft und Individuum
Für die richtige Anwendung der LR ist es erforderlich, dass die richtigen Faktoren erkannt werden, sonst kann es zu fehlerhaften Prognosen und Empfehlungen kommen. Ein Beispiel ist die Erwartung des Klimawandels. Im unteren Schaubild gibt es Phasen, wo der Temperaturverlauf im Durchschnitt scheinbar linear ist. Schau dir mal die Phasen 1850 bis 1910, 1910 bis 1945, 1945 bis 1980 und 1980 bis 2020 an. Insgesamt scheint der Temperaturverlauf jedoch nicht linear anzusteigen.

ÜBUNG 1: a) Wie groß ist in unserem Handybeispiel der Wertverlust des Handys im Monat? b) Wann wäre nach unserer Regressionsformel das Handy gar nichts mehr wert?

ÜBUNG 2: Interaktives Widget, das noch zu entwicklen ist, an dem man LR ausprobieren kann. Eventuell zweites Beispiel.

Weiterführende Medien:

Mathematik an einem Beispiel als Video

Video Lineare Regression / Weitz HAW

https://www.youtube.com/watch?v=sHT33y694N8

Lineare Regression einfach erklärt (mit Mathematik)

https://novustat.com/statistik-blog/klassiker-lineare-regression-einfach-erklaert.html

Mathematik (auf Uni Niveau)

https://www.mathematik.uni-marburg.de/~lohoefer/pharma/kap-3-ws03.pdf

Algorithmus Lineare Regression (Mathematik)

Zum Abschluss noch für die Mathefreaks der Algorithmus, der uns zum Linearen Regressionsmodell führt.

Zunächst berechnen wir die Summen und Mittelwerte der x und y Werte.

Summe der X = 102

Summe der Y = 2435

Mittelwert X = 11,333

Mittelwert Y = 270,555

Als nächstes berechnen wir Abweichungen aller einzelnen x Werte vom Mittelwert X und quadrieren diese:

(X – Mx)^2 :: SQx – Sum of squares (Abweichung von MX)^2 = 374

Dann multiplizieren wir alle Abweichungen der einzelnen X zum Mittelwert X und alle Abweichungen der einzelnen Y vom Mittelwert Y.

(X – Mx)(Y – My): SP – Sum of products (Produkt der Abweichungen) = -4966,66 

Die Steigung b erhalten wir nun in dem wir das Produkt der Abweichungen durch die Summe der Quadratischen Abweichungen von X dividieren. 

b = SP/SQX = -4966,66/374 = -13,3

Schließlich brauchen wir noch den Y Wert, wo die Gerade die Y Achse schneidet also a. Hierzu nehmen wir den Mittelwert Y minus b x Mittelwert Y

a = MY – bMX = 270,555 – (-13,3*11,33)  = 421,3635

Die gesuchte Formel der Regressionsgraden ist dann:

ŷ = -13,3 x + 412,36

Hier sieht man noch einmal schön den Unterschied zwischen dem Algorithmus, das ist die Beschreibung, wie man die Daten verarbeiten muss, und dem Model: Das ist die Formel, die am Ende herauskommt.