Skip to main content

KI Modellfamilien - Übersicht (Stand April 2026)

Übersicht gängiger KI-Modellfamilien

Diese Übersicht beschreibt verbreitete KI-Modellfamilien, ihre Herkunft, typische Ausprägungen, die grundsätzliche lokale Nutzbarkeit, den inhaltlichen Fokus sowie eine grobe Einordnung ihrer Verbreitung.
Sie dient der schnellen Orientierung und erhebt keinen Anspruch auf Vollständigkeit.

Grundsätzliche Hinweise

  • Modellbezeichnungen sind nicht einheitlich standardisiert.
  • Viele Namen bestehen aus einer Kombination aus:
    • Modellfamilie
    • Versions- oder Generationsnummer
    • Größenangabe
    • Spezialisierung oder Einsatzschwerpunkt
  • Begriffe wie mini, pro, thinking, reasoning, vision oder turbo sind häufig anbieterspezifisch.
  • Die lokale Nutzbarkeit hängt zusätzlich von Faktoren wie Quantisierung, Kontextlänge, RAM, VRAM und CPU/GPU-Leistung ab.

Tabelle: Gängige Modellfamilien


Modellfamilie

Herkunft / Anbieter

Typische Ausprägungen

Lokal nutzbar

Grobe lokale Anforderung

Verbreitung

Typischer Fokus

Llama

Meta

z. B. 1B, 3B, 8B, 70B

Ja

kleine bis mittlere Varianten gut lokal nutzbar; große Varianten eher für starke Systeme

sehr hoch

Allround, Chat, Assistenz, Basis für viele lokale Setups

Qwen

Alibaba / Qwen Team

z. B. 0.6B, 4B, 8B, 14B, 32B, MoE-Varianten

Ja

kleine und mittlere Varianten gut lokal; größere Varianten deutlich anspruchsvoller

sehr hoch

multilingual, Coding, Reasoning, Tools

DeepSeek

DeepSeek

z. B. kleine Distill-Modelle, größere Reasoning-Varianten

Ja, vor allem kleine Varianten

kleine Modelle gut lokal; große Modelle nur eingeschränkt sinnvoll lokal

hoch

Reasoning, Analyse, Mathematik

Gemma

Google DeepMind / Google

z. B. 2B, 4B, 12B, 27B, Gemma-4-Varianten

Ja

kleine Modelle lokal gut einsetzbar; größere Varianten benötigen mehr Speicher

mittel bis hoch

allgemeine Nutzung, Reasoning, teils multimodal

Mistral

Mistral AI

z. B. 7B, Small, Large, Mixtral, Devstral, Magistral

Teilweise

offene kleinere Modelle lokal gut nutzbar; große Varianten eher nicht

hoch

Allround, Coding, Reasoning

Phi

Microsoft

z. B. Mini-, Multimodal- und Reasoning-Varianten

Ja

meist vergleichsweise ressourcenschonend

mittel bis hoch

effiziente lokale Nutzung, kompakte Modelle

GPT / o-Serie

OpenAI

z. B. GPT-4.x, mini, nano, o-Modelle

in der Regel nein

primär Cloud-/API-Nutzung

sehr hoch

allgemeine Nutzung, Reasoning, Produktivbetrieb

Claude

Anthropic

Haiku, Sonnet, Opus

in der Regel nein

primär Cloud-/API-Nutzung

hoch

Sprachverständnis, Analyse, Assistenz

Gemini

Google

Flash, Pro

in der Regel nein

primär Cloud-/API-Nutzung

hoch

allgemeine Nutzung, multimodale Verarbeitung

Grok

xAI

verschiedene Grok-Varianten

in der Regel nein

primär Cloud-/API-Nutzung

mittel

allgemeine Nutzung, Echtzeit-/Plattformintegration

Command / Aya

Cohere

Command, Aya

eher nein

primär API-/Unternehmensnutzung

mittel

Enterprise, RAG, mehrsprachige Anwendungen


Einordnung der Größenangaben

Bedeutung von B

Das Kürzel B steht in der Regel für Billion, also Milliarden Parameter.

Beispiele:

  • 7B = 7 Milliarden Parameter
  • 14B = 14 Milliarden Parameter
  • 70B = 70 Milliarden Parameter

Grundsätzlich gilt:

  • kleinere B-Werte = geringerer Ressourcenbedarf
  • größere B-Werte = tendenziell höhere Leistungsfähigkeit, aber auch höherer Speicherbedarf

Bedeutung von Angaben wie A4B

Zusätze wie A4B oder ähnliche Schreibweisen kommen häufig bei Mixture-of-Experts-Modellen (MoE) vor.

Dabei gilt typischerweise:

  • die erste Größenangabe beschreibt die Gesamtgröße des Modells
  • die A-Angabe beschreibt die aktiv genutzten Parameter pro Verarbeitungsschritt

Beispiel:

  • 26B A4B = Modell mit 26 Milliarden Parametern insgesamt, davon sind pro Schritt etwa 4 Milliarden aktiv

Wichtig ist dabei:

  • auch wenn nur ein Teil aktiv genutzt wird, muss lokal oft das gesamte Modell geladen werden
  • dadurch kann der Speicherbedarf weiterhin hoch bleiben

Typische Zusatzbezeichnungen

Kürzel / Begriff

Übliche Bedeutung

B

Milliarden Parameter

AxxB

aktivierte Milliarden Parameter, häufig bei MoE

MoE

Mixture of Experts

mini / nano / small / flash / fast

kleinere, schnellere oder günstigere Variante

pro / large / opus / ultra / heavy

leistungsstärkere Variante

reasoning / thinking

auf mehrstufiges Denken oder Problemlösen optimiert

vision

Bildverarbeitung möglich

multimodal

Verarbeitung mehrerer Eingabetypen, z. B. Text und Bild

instruct / IT

für Anweisungen bzw. Chatnutzung optimiert

preview

Vorabversion

turbo

meist auf Geschwindigkeit optimiert, jedoch nicht einheitlich definiert


Grobe Einschätzung lokaler Anforderungen

Die folgende Übersicht dient als praxisnahe Orientierung für lokale Nutzung, etwa mit Ollama oder vergleichbaren Laufzeitumgebungen:

Modellgröße

Grobe Einschätzung

1B bis 4B

leicht lokal nutzbar

7B bis 8B

gut lokal nutzbar

12B bis 14B

mittlere Anforderungen

26B bis 32B

hohe Anforderungen

70B und größer

meist nur mit leistungsstarker Hardware sinnvoll

MoE-Modelle

abhängig von Gesamtgröße und aktivem Anteil; Speicherbedarf kann trotz Effizienz hoch bleiben


Verbreitung der Modellfamilien

Die Verbreitung lässt sich nur grob einordnen, da keine einheitlichen Vergleichswerte über alle Anbieter hinweg vorliegen.

Sehr stark verbreitet

  • Llama
  • Qwen
  • DeepSeek
  • GPT

Stark verbreitet

  • Claude
  • Gemini
  • Mistral
  • Gemma

Mittel bis stark verbreitet

  • Phi
  • Cohere Command / Aya
  • Grok

Typische Fokusse nach Modellfamilie

Modellfamilie

Typischer Schwerpunkt

Llama

allgemeine lokale Nutzung, Allround

Qwen

multilingual, Coding, Reasoning

DeepSeek

Reasoning, Analyse

Gemma

allgemeine Nutzung, effiziente moderne Open-Modelle

Mistral

Allround, teils Coding und Reasoning

Phi

kompakte, effiziente Modelle

GPT

allgemeine Nutzung, starke Cloud-Modelle

Claude

Sprachverständnis, Analyse, Assistenz

Gemini

multimodal, allgemeine Nutzung

Grok

plattformnahe Assistenz, allgemeine Nutzung

Command / Aya

Enterprise, RAG, Mehrsprachigkeit



Aktuelle Hauptversionen gängiger Modellfamilien

Stand: 21. April 2026

Modellfamilie

Aktuelle Hauptversion / aktuelle Linie

Typische aktuelle Varianten

OpenAI GPT / o-Serie

GPT-5.4 als aktuelle Frontier-Modelllinie; zusätzlich

GPT-5.4-mini und

GPT-5.4-nano. Die ältere Reasoning-Linie

o3 / o4-mini ist weiterhin dokumentiert, wird aber in den OpenAI-Modellseiten teils bereits als abgelöst eingeordnet. (OpenAI Entwickler)

GPT-5.4, GPT-5.4-mini, GPT-5.4-nano, o3, o4-mini

Claude

Claude 4.7 ist aktuell die neueste genannte Generation; Anthropic hebt insbesondere

Claude Opus 4.7 hervor. In den Modelllinien bleiben außerdem Sonnet und Haiku

als Klassen relevant. (Claude API Docs)

Opus 4.7, Sonnet 4.5+, Haiku 4.5+

Gemini

Gemini 3.1 Pro ist aktuell die neueste hervorgehobene Pro-Generation in den Gemini-API-Modellseiten. Zusätzlich werden

Gemini 3 Flash und Gemini 3.1 Flash-Lite geführt. Parallel ist Gemini 2.5 Pro

weiterhin dokumentiert. (Google AI for Developers)

Gemini 3.1 Pro, Gemini 3 Flash, Gemini 3.1 Flash-Lite, Gemini 2.5 Pro

Gemma

Gemma 4 ist die aktuelle Hauptgeneration. Google listet für diese Generation die Größen E2B, E4B,31B und 26B A4B. (Google AI for Developers)

Gemma 4 E2B, E4B, 31B, 26B A4B

Llama

Llama 4 ist die aktuelle Hauptgeneration. Meta nennt derzeit insbesondere

Llama 4 Scout und Llama 4 Maverick als veröffentlichte Modelle. (ai.meta.com)

Llama 4 Scout, Llama 4 Maverick

Mistral

Bei Mistral ist die aktuelle Hauptlinie breit aufgefächert. In den Modellübersichten werden besonders Mistral Large 3, Devstral 2 und Mistral Medium 3.1

als aktuelle Featured-Modelle hervorgehoben. (Mistral AI)

Mistral Large 3, Devstral 2, Mistral Medium 3.1

Qwen

Qwen3 ist die aktuelle Hauptgeneration der allgemeinen Qwen-Familie. Daneben existiert mit Qwen3-Coder eine spezialisierte Coding-Linie. (Qwen)

Qwen3-0.6B bis 32B, Qwen3-30B-A3B, Qwen3-235B-A22B, Qwen3-Coder

DeepSeek

DeepSeek-V3.2 ist die aktuelle allgemeine Hauptlinie laut DeepSeek. Zusätzlich wird

DeepSeek-V3.2-Speciale genannt. In der Praxis bleibt auch DeepSeek-R1 als Reasoning-Linie sehr relevant. (DeepSeek)

DeepSeek-V3.2, DeepSeek-V3.2-Speciale, DeepSeek-R1

Phi

Phi-4

wird von Microsoft als aktuelle Hauptgeneration der Phi-Familie hervorgehoben. (

Microsoft Azure

)

Phi-4, Phi-4-mini, weitere spezialisierte Phi-4-Varianten je Plattform

Grok

Grok 4.1

ist aktuell die neueste genannte Hauptversion in den xAI-News; zuvor wurde

Grok 4

eingeführt. (

xAI

)

Grok 4.1, Grok 4 Heavy, Grok Code Fast 1

Command / Aya

Bei Cohere ist

Command A

die aktuelle zentrale Hauptlinie; zusätzlich gibt es spezialisierte Varianten wie

Command A Reasoning

und

Command A Vision

.

Aya

bleibt die mehrsprachige Modellfamilie. (

Cohere

)

Command A, Command A Reasoning, Command A Vision, Aya


DSGVO-Einordnung beim Einsatz von KI-Modellen

Einsatzszenario

Beispiel

DSGVO-Einordnung

Typische Prüfpunkte

Risikoniveau

Rein lokal, offline

Modell läuft auf eigenem Rechner oder internem Server ohne externe Datenübertragung

Datenschutzrechtlich meist

am einfachsten

zu bewerten, weil keine automatische Übermittlung an einen externen KI-Anbieter erfolgt. Die DSGVO bleibt dennoch anwendbar, sobald personenbezogene Daten verarbeitet werden. (

EDPB

)

Rechtsgrundlage, Zweckbindung, Zugriffskontrolle, Protokollierung, Löschkonzept, Berechtigungskonzept

Niedrig bis mittel

Lokal im Unternehmensnetz, mit mehreren Nutzern

Interner KI-Server für Mitarbeitende

Ebenfalls vergleichsweise günstig, aber organisatorisch anspruchsvoller als Einzelnutzung. Es sind interne Rollen, Berechtigungen und Schutzmaßnahmen sauber zu regeln. (

CNIL

)

Rollen und Verantwortlichkeiten, TOMs, Zugriffstrennung, Logging, Datenschutzinformationen, interne Richtlinien

Mittel

Selbst gehostet in eigenem Rechenzentrum oder bei EU-Hoster

Eigene KI-Anwendung auf VPS oder dediziertem Server in der EU

Häufig gut beherrschbar, sofern Hosting, Fernzugriffe und Administratorenzugänge sauber geregelt sind. Auch bei EU-Hosting sind Verträge und technische Maßnahmen erforderlich. (

CNIL

)

AV-Vertrag, Serverstandort, Admin-Zugriffe, Verschlüsselung, Backups, Löschung, Incident-Prozesse

Mittel

Externe API / Cloud innerhalb der EU

KI-Dienst mit Verarbeitung in der EU

DSGVO-relevant und regelmäßig prüfungsbedürftig. EU-Standort erleichtert die Bewertung, ersetzt aber keine Prüfung von Rechtsgrundlage, Transparenz und Verträgen. (

EDPB

)

Anbieterrolle, AV-Vertrag oder Rollenabgrenzung, Zweckbindung, Datennutzung durch Anbieter, Speicherfristen, Betroffenenrechte

Mittel bis hoch

Externe API / Cloud mit Drittlandtransfer

US- oder sonstiger Nicht-EU-Anbieter

Regelmäßig

prüfungsintensiver

, weil zusätzlich Fragen zu internationaler Datenübermittlung, Schutzmechanismen und Anbieterzugriffen zu klären sind. Für US-Anbieter kann das EU-US Data Privacy Framework relevant sein, sofern der konkrete Empfänger darunter fällt. (

European Commission

)

Drittlandtransfer, Zertifizierung/Transfermechanismus, Vertragslage, Subprozessoren, Transparenz, Datennutzung für Training oder Verbesserung

Hoch

Nutzung mit anonymisierten oder wirksam pseudonymisierten Daten

Vorverarbeitete Fälle ohne direkte Personenbeziehbarkeit

Kann die datenschutzrechtlichen Risiken deutlich senken. Ob Daten oder sogar ein Modell als anonym gelten, ist jedoch im Einzelfall zu prüfen; die EDPB behandelt diese Frage ausdrücklich als fallbezogene Bewertung. (

EDPB

)

Qualität der Anonymisierung/Pseudonymisierung, Re-Identifikationsrisiko, Trennung von Zusatzwissen, Zugriffskonzepte

Niedrig bis mittel

Nutzung mit sensiblen Daten

Gesundheitsdaten, Sozialdaten, Beschäftigtendaten, besondere Kategorien

Besonders kritisch. Hier steigen die Anforderungen an Rechtsgrundlage, Schutzmaßnahmen, Zugriffsbeschränkungen und Dokumentation deutlich. (

CNIL

)

Art. 9 DSGVO, Erforderlichkeit, Datensparsamkeit, Schutzbedarf, DPIA, Zugriffstrennung, Verschlüs


DSGVO-Einordnung nach Modellfamilie

Hinweis: Diese Übersicht ist eine praxisnahe Orientierung für Dokumentationszwecke und keine Rechtsberatung. Maßgeblich ist immer der konkrete Einsatz: lokal, selbst gehostet, über API/Cloud, mit oder ohne personenbezogene Daten. Die EDPB hat klargestellt, dass die DSGVO auch für KI-Modelle gilt. (Anthropic)

Modellfamilie

Typischer Betriebsmodus

DSGVO-Tendenz

Modellbezug / praktische Einordnung

Prüfschwerpunkt

Llama

häufig

lokal / self-hosted

, da offen herunterladbar und „deploy anywhere“ beworben

günstig bis mittel

, wenn lokal betrieben

Für Llama ist der DSGVO-Vorteil vor allem der

lokale oder eigene Betrieb

: Meta stellt die Modelle zum Download bereit und beschreibt sie als überall deploybar. Dadurch kann eine externe Übermittlung an einen Modellanbieter oft vermieden werden. (

llama.com

)

Serverstandort, interne Zugriffe, Logging, Löschung, keine unnötige Cloud-Anbindung

Gemma

häufig

lokal / self-hosted

günstig bis mittel

, wenn lokal betrieben

Gemma ist als offene Modellfamilie für lokale Nutzung relevant. Datenschutzrechtlich ist sie daher typischerweise

einfacher

als reine Cloud-Modelle, sofern keine personenbezogenen Daten an externe Dienste fließen. Die DSGVO-Frage hängt hier eher am Hosting als am Modellnamen. (

Anthropic

)

Lokale Verarbeitung, Zugriffskonzepte, Datenminimierung

Mistral

hybrid

: Cloud, private Cloud, VPC, on-prem

mittel

, bei on-prem günstiger

Mistral bewirbt ausdrücklich

private Deployments

, VPC- und On-Prem-Optionen sowie „your data stays within your walls“. Dadurch ist Mistral aus DSGVO-Sicht oft flexibler als reine SaaS-Modelle. Zusätzlich gibt es ein DPA. (

Mistral AI

)

AV-Vertrag, Hosting-Variante, Admin-Zugriffe, Datenfluss zwischen Cloud und On-Prem

Phi

oft

lokal

, alternativ Azure-/Microsoft-Umfeld

günstig bis mittel

, je nach Hosting

Phi ist als kleine Modellfamilie gut für lokale Nutzung geeignet; Microsoft positioniert Phi zudem unter dem Aspekt „privacy and security“. Datenschutzrechtlich ist lokal am einfachsten, bei Azure-Betrieb kommt die übliche Cloud-/Vertragsprüfung hinzu. (

Microsoft Azure

)

Lokal vs. Azure, Verträge, Region, Speicherort

Qwen

sowohl

lokal

als auch

Cloud/API

lokal günstiger

, Cloud

mittel bis hoch

Qwen ist als Modellfamilie lokal nutzbar, hat aber auch einen eigenen API-/Cloud-Zugang. Für die DSGVO ist deshalb wichtig,

welcher Weg genutzt wird

. Bei lokaler Nutzung ist die Bewertung deutlich einfacher als bei Verarbeitung über die Qwen-Cloud. (

qwen.ai

)

Ob lokal oder API, Anbieterrolle, Übermittlung, vertragliche Einbindung

DeepSeek

sowohl

lokal

als auch

Cloud/API

lokal klar günstiger

, Cloud

hoch

Bei DeepSeek ist der Modellbezug besonders wichtig: Die Modelle können lokal laufen, aber die DeepSeek-Privacy-Policy sagt ausdrücklich, dass personenbezogene Daten zur Diensterbringung

in der Volksrepublik China verarbeitet und gespeichert

werden können. Für personenbezogene Daten ist deshalb der

lokale Betrieb

deutlich günstiger. (

cdn.deepseek.com

)

Drittlandtransfer, Speicherort China, sensible Daten vermeiden, möglichst self-hosted

GPT / o-Serie

typischerweise

Cloud/API

mittel bis hoch

OpenAI ist klar cloud-orientiert. Positiv ist: Für Business-Angebote gibt es ein DPA; für Kunden im EWR/der Schweiz wird dieses mit

OpenAI Ireland Ltd.

geschlossen. OpenAI erklärt außerdem, dass

Business-Daten standardmäßig nicht zum Training verwendet werden

. Trotzdem bleibt Cloud-Verarbeitung DSGVO-prüfungsintensiv. (

OpenAI

)

Rechtsgrundlage, AV/DPA, Anbieterrolle, Transfermechanismus, Speicher- und Löschregeln

Claude

typischerweise

Cloud/API

mittel bis hoch

Claude ist primär ein Cloud-Modell. Bei Anthropic ist relevant, dass es für Consumer-Nutzung eine

Opt-in-Logik

zur Datennutzung für Trainings-/Verbesserungszwecke gibt; zugleich verweist Anthropic für Unternehmen auf Trust-/Compliance-Unterlagen. Für DSGVO-Zwecke ist Claude daher vor allem als

vertrags- und plattformabhängiges Cloud-Modell

zu prüfen. (

Anthropic

)

Consumer vs. Business trennen, Opt-in/Datennutzung, Verträge, Speicherort

Gemini

typischerweise

Cloud/API

mittel bis hoch

Bei Gemini ist die Unterscheidung zwischen

unpaid

und

paid tiers

besonders relevant: Google weist für Unpaid Services darauf hin, dass Eingaben/Ausgaben von Menschen geprüft und zur Produktverbesserung genutzt werden können und dass

keine sensiblen, vertraulichen oder personenbezogenen Daten

eingereicht werden sollen. Für Paid Tiers heißt es, dass Prompts/Responses

nicht

zur Produktverbesserung genutzt werden. (

Google AI for Developers

)

Tarifmodell, Datennutzung zur Verbesserung, Human Review, sensible Daten nur in geeignetem Vertragsrahmen

Grok

typischerweise

Cloud/API

hoch

Grok ist derzeit im Kern ein cloudbasiertes Modellangebot. Für DSGVO-Zwecke ist es daher ähnlich wie andere Cloud-Modelle zu behandeln: rechtliche Grundlage, Datenfluss, Empfänger, Speicherort und Nutzungsbedingungen sind vor produktivem Einsatz mit personenbezogenen Daten zu prüfen. (

Anthropic

)

Vertragslage, Speicherort, Empfänger, Drittlandtransfer

Command / Aya (Cohere)

typischerweise

API/Enterprise, teils private deployment

mittel, bei Private Deployment günstiger

Cohere ist für DSGVO-Zwecke relativ interessant, weil das Unternehmen sowohl

DPA

,

Zero Data Retention

für Enterprise-Fälle als auch

private deployment options

nennt. In der Privacy Policy steht zugleich, dass Trial-/Research-Umgebungen

nicht

für personenbezogene Daten gedacht sind. (

Cohere

)

Produktstufe prüfen, DPA anfordern, ZDR/Retention, Private Deployment bevorzugen

Kurztext für unter die Tabelle

Einordnung:
Der DSGVO-Bezug hängt bei KI-Modellen nicht nur am Hersteller, sondern stark am typischen Betriebsmodus der jeweiligen Modellfamilie. Open-weight-Modelle wie Llama, Gemma oder oft auch Qwen/DeepSeek/Mistral können lokal oder selbst gehostet betrieben werden und sind deshalb datenschutzrechtlich häufig günstiger zu bewerten. Cloud-first-Modelle wie GPT, Claude, Gemini oder Grok erfordern regelmäßig eine vertiefte Prüfung von Rechtsgrundlage, Vertragslage, Speicherort, möglichem Drittlandtransfer und Datenverwendung durch den Anbieter. (Anthropic)

Noch kürzere Fassung

Gruppe

DSGVO-Tendenz

Typische Modelle

Open-weight / lokal betreibbar

meist günstiger

Llama, Gemma, Phi, oft Qwen, DeepSeek, Mistral (

llama.com

)

Cloud-first / API-zentriert

meist prüfungsintensiver

GPT, Claude, Gemini, Grok, Command (

OpenAI

)


Zusammenfassung

Zur schnellen Einordnung kann folgende Struktur verwendet werden:

[Familie] + [Version] + [Größe] + [Spezialisierung]

Beispiele:

  • Gemma 4 27B IT
  • Qwen3 14B
  • DeepSeek R1
  • Claude Sonnet
  • GPT-4.1 mini

Dabei gilt:

  • Familie = Modellreihe
  • Version = Generation oder Entwicklungsstand
  • Größe = Parameteranzahl
  • Spezialisierung = Einsatzschwerpunkt oder Optimierung