Zum Hauptinhalt springen

MACHINE LEARNING

Supervised vs Unsupervised Learning

Die zwei Grundpfeiler des Machine Learning erklärt: Was ist der Unterschied, wann nutzen Sie welches, und wie funktionieren sie in der Praxis?

Grundlagen · Mit Beispielen · Aktuell 2025

Wenn Sie sich mit Machine Learning beschäftigen, stoßen Sie schnell auf zwei zentrale Begriffe: Supervised Learning und Unsupervised Learning. Diese zwei Paradigmen sind die Grundlage für fast alle ML-Anwendungen. Der entscheidende Unterschied liegt in den Trainingsdaten: Haben Sie Labels oder nicht?

Der Kernunterschied

Supervised Learning

Lernen mit Lehrer: Das Modell bekommt Beispiele mit den richtigen Antworten und lernt, diese für neue Daten vorherzusagen.

Unsupervised Learning

Lernen ohne Lehrer: Das Modell findet selbstständig Muster und Strukturen in den Daten, ohne vorgegebene Antworten.

Supervised Learning: Lernen mit Lehrer

Beim Supervised Learning (überwachtes Lernen) trainieren wir ein Modell mit gelabelten Daten. Das bedeutet: Für jeden Input kennen wir den gewünschten Output. Das Modell lernt die Beziehung zwischen Input und Output und kann diese dann auf neue, unbekannte Daten anwenden.

Zwei Hauptaufgaben

Klassifikation

Vorhersage einer Kategorie aus einer festen Menge von Klassen.

Beispiele: Spam/Nicht-Spam, Krankheit/Gesund, Tierart auf einem Bild

Regression

Vorhersage eines kontinuierlichen numerischen Wertes.

Beispiele: Hauspreis, Temperatur morgen, Umsatzprognose

Praxisbeispiele

Spam-Erkennung

Klassifikation

E-Mails werden als 'Spam' oder 'Kein Spam' gelabelt. Das Modell lernt Muster (verdächtige Wörter, Absender) und klassifiziert neue E-Mails automatisch.

Hauspreisvorhersage

Regression

Mit Daten wie Größe, Lage, Baujahr und historischen Preisen lernt das Modell, Preise für neue Immobilien vorherzusagen.

Bilderkennung

Klassifikation

Millionen gelabelter Bilder ('Katze', 'Hund', 'Auto') trainieren Modelle wie ImageNet. Grundlage für autonomes Fahren und medizinische Diagnostik.

Sprachübersetzung

Sequenz-zu-Sequenz

Paare von Sätzen in verschiedenen Sprachen dienen als Training. Das Modell lernt, neue Texte zu übersetzen.

Typische Algorithmen

Lineare RegressionVorhersage numerischer Werte
Logistische RegressionBinäre Klassifikation
Random ForestRobuste Klassifikation/Regression
Support Vector MachinesKomplexe Klassifikation
Neuronale NetzeKomplexe Muster (Bilder, Text)
Gradient Boosting (XGBoost)Tabellarische Daten

Unsupervised Learning: Muster entdecken

Beim Unsupervised Learning (unüberwachtes Lernen) gibt es keine Labels. Das Modell erhält nur die Rohdaten und muss selbstständig Strukturen, Muster oder Gruppierungen finden. Das ist besonders wertvoll, wenn Sie nicht wissen, wonach Sie suchen.

Hauptaufgaben

Clustering

Gruppierung ähnlicher Datenpunkte ohne vorgegebene Kategorien.

Beispiele: Kundensegmente, Dokumenten-Gruppen, Gen-Cluster

Dimensionsreduktion

Vereinfachung komplexer Daten bei Erhalt wichtiger Informationen.

Beispiele: Visualisierung hochdimensionaler Daten, Feature-Kompression

Anomalie-Erkennung

Identifikation ungewöhnlicher Datenpunkte, die vom Muster abweichen.

Beispiele: Betrugserkennung, Qualitätskontrolle, Cybersecurity

Praxisbeispiele

Kundensegmentierung

Clustering

Ohne vorgegebene Kategorien findet das Modell Kundengruppen mit ähnlichem Verhalten. Basis für personalisiertes Marketing.

Anomalie-Erkennung

Anomalie-Erkennung

Das Modell lernt 'normale' Muster und erkennt Abweichungen. Anwendung bei Kreditkartenbetrug, Netzwerksicherheit, Qualitätskontrolle.

Empfehlungssysteme

Assoziationsanalyse

Netflix und Spotify finden Muster in Nutzerverhalten und empfehlen ähnliche Inhalte, ohne explizite Kategorien zu kennen.

Themenmodellierung

Dimensionsreduktion

Aus großen Textsammlungen werden automatisch Themen extrahiert. Nützlich für Nachrichtenanalyse und Dokumenten-Organisation.

Typische Algorithmen

K-Means ClusteringGruppierung ähnlicher Datenpunkte
Hierarchisches ClusteringBaumstruktur von Gruppen
DBSCANClustering mit Rauschfilterung
PCADimensionsreduktion, Visualisierung
t-SNE / UMAPHochdimensionale Visualisierung
AutoencodersFeature Learning, Kompression

Direkter Vergleich

AspektSupervised LearningUnsupervised Learning
TrainingsdatenGelabelte Daten (Input + korrekter Output)Ungelabelte Daten (nur Input)
LernzielVorhersage von Outputs für neue InputsMuster und Strukturen in Daten finden
FeedbackDirektes Feedback durch LabelsKein direktes Feedback
Typische AufgabenKlassifikation, RegressionClustering, Dimensionsreduktion
DatenanforderungBraucht große Mengen gelabelter DatenFunktioniert mit rohen, ungelabelten Daten
AufwandHoch (Labeling ist teuer und zeitaufwändig)Niedriger (keine Labels nötig)

Semi-Supervised Learning: Das Beste aus beiden Welten

In der Praxis haben Sie oft viele ungelabelte Daten, aber nur wenige gelabelte. Das Labeln ist teuer und zeitaufwändig. Semi-Supervised Learning nutzt beide Datentypen und erreicht oft erstaunlich gute Ergebnisse mit einem Bruchteil der Labels.

Vorteile von Semi-Supervised Learning

  • Kombiniert wenige gelabelte mit vielen ungelabelten Daten
  • Nutzt die Struktur ungelabelter Daten für bessere Generalisierung
  • Reduziert Labeling-Kosten um bis zu 90%
  • Besonders wertvoll bei teuren Labels (Medizin, Recht)
  • Foundation Models wie GPT nutzen Semi-Supervised Pre-Training

Wann nutzen Sie welches?

Supervised Learning wählen, wenn...

  • Sie konkrete Vorhersagen brauchen (Ja/Nein, Preis, Kategorie)
  • Sie genügend gelabelte Trainingsdaten haben (oder beschaffen können)
  • Sie wissen, was Sie vorhersagen wollen
  • Genauigkeit kritisch ist (medizinische Diagnose, Finanzen)

Unsupervised Learning wählen, wenn...

  • Sie Muster in Daten entdecken wollen, ohne zu wissen welche
  • Labeling zu teuer oder unmöglich ist
  • Sie Daten explorieren und verstehen wollen
  • Sie Anomalien ohne definierte 'Normalität' finden wollen

Trends 2025

Der Machine-Learning-Markt wächst von etwa $48 Milliarden (2025) auf geschätzte $310 Milliarden bis 2032. Einige aktuelle Entwicklungen:

Häufig gestellte Fragen

Keine ist 'besser'. Die Wahl hängt von Ihrer Aufgabe ab. Supervised Learning ist ideal, wenn Sie konkrete Vorhersagen brauchen und gelabelte Daten haben (z.B. Spam-Erkennung). Unsupervised Learning ist richtig, wenn Sie Muster in Daten entdecken wollen und keine Labels haben (z.B. Kundensegmentierung).
Es variiert stark. Einfache Labels (Spam/Nicht-Spam) kosten wenige Cent pro Datenpunkt. Komplexe Labels (medizinische Diagnosen, detaillierte Bildsegmentierung) können mehrere Euro pro Datenpunkt kosten und erfordern Experten. Für große Datensätze sind das schnell sechsstellige Beträge. Das ist der Hauptgrund, warum Unsupervised und Semi-Supervised Learning so attraktiv sind.
Reinforcement Learning ist eine dritte Kategorie. Das Modell lernt durch Interaktion mit einer Umgebung und erhält Belohnungen oder Strafen. Es gibt keine vordefinierten 'richtigen' Antworten wie beim Supervised Learning, aber auch ein klares Ziel (maximale Belohnung). Anwendungen: Spielstrategien, Robotersteuerung, RLHF für ChatGPT. Mehr dazu in unserem Reinforcement Learning Guide.
Ja, das ist Semi-Supervised Learning und wird immer wichtiger. Man nutzt wenige gelabelte und viele ungelabelte Daten. Foundation Models wie GPT und BERT nutzen diese Technik: Sie lernen zuerst unüberwacht aus riesigen Textmengen (Pre-Training) und werden dann mit wenigen gelabelten Beispielen feingetunt (Fine-Tuning).
Die wichtigsten: scikit-learn für klassische ML-Algorithmen (Regression, Clustering, etc.), TensorFlow oder PyTorch für Deep Learning, pandas für Datenverarbeitung, NumPy für numerische Operationen. Für Einsteiger ist scikit-learn der beste Start mit einer konsistenten API für alle Algorithmen.