Загрузка страницы

Data Mining mit R und Shiny: Zusammenhänge erkennen, Zielgruppen finden

Beim Data Mining geht es darum, Erkenntnisse aus vorhandenen Daten zu gewinnen (im Gegensatz zu Machine Learning: Prognosen bei neuen Daten vornehmen). Hier wird ein einfaches Entscheidungsbaum-Modell vorgestellt, das auch für Laien leicht interpretierbare Ergebnisse liefert.

Wurde beim Untergang der Titanic der Grundsatz eingehalten, dass Frauen und Kinder zuerst gerettet werden sollen? Der Entscheidungsbaum ermöglicht eine differenzierte Antwort: Es wurden wesentlich mehr Frauen als Männer gerettet, bei den Frauen spielte allerdings die Passagierklasse eine größere Rolle als das Alter. Bei den Männern hatten die (wenigen) Kinder bis 6 Jahre deutlich höhere Überlebenschancen als die Älteren.

Mit einer App (erstellt unter R mit Shiny) kann man Szenarien durchspielen: So erlaubt der Entscheidungsbaum (hier: Algorithmus rpart) Ersatzvariablen, sodass bei Fehlwerten (hier: Alter) die betreffenden Passagiere dennoch in die weitere Verzweigung eingehen. Zudem kann man durch eine Gewichtung der Modellvariablen (genauer: einen Kostenvektor) die erste Verzweigung vorgeben. Wie sieht es aus, wenn zuerst nach Passagierklasse verzweigt wird? Oder zuerst nach Alter statt nach Geschlecht?

Entscheidungsbäume können dem Anwender viel Arbeit abnehmen, die mit klassischer Statistik mehr Zeit kosten würde:

Gruppen zusammenfassen. Hier: erste und zweite Klasse gemeinsam vs. dritte Klasse. Anderes Beispiel: Bei einem Telefonkonzern mit 40 Vertragsarten kann ein Entscheidungsbaum auf einen Blick zeigen, dass fünf Vertragsarten mit ähnlich niedriger Kundenzufriedenheit problematisch sind, während es bei 35 Vertragsarten gut läuft.

Zudem können Entscheidungsbäume bei kontinuierlichen Merkmalen Schwellwerte bestimmen. Hier: Bei welchen Altersschwellen zeigen sich die deutlichsten Unterschiede hinsichtlich der Überlebenschancen? Anderes Beispiel: Technischen Produktionsprozess: Bei welcher Dauer in einer bestimmten Stufe wird es kritisch hinsichtlich der Qualitätskontrolle?

R-Code für die Shiny App: https://github.com/fjodor/ShinyApps

R Schulungen: https://statistik-dresden.de/leistungen/r-schulungen
Twitter: https://twitter.com/StatistikInDD
Facebook: https://www.facebook.com/statistikdresden/
Blog: https://statistik-dresden.de/statistik-blog

Statistiken zu Musik-Charts:
https://www.youtube.com/playlist?list=PL4ZUlAlk7QifbzVe9GAIi4PaxXEgTkTT6

Видео Data Mining mit R und Shiny: Zusammenhänge erkennen, Zielgruppen finden канала StatistikinDD
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
2 октября 2019 г. 18:27:05
00:11:26
Яндекс.Метрика