KI Modellfamilien - Übersicht (Stand April 2026) - Arbeitsdokument

Übersicht gängiger KI-Modellfamilien
Diese Übersicht beschreibt verbreitete KI-Modellfamilien, ihre Herkunft, typische Ausprägungen, die grundsätzliche lokale Nutzbarkeit, den inhaltlichen Fokus sowie eine grobe Einordnung ihrer Verbreitung.
Sie dient der schnellen Orientierung und erhebt keinen Anspruch auf Vollständigkeit.
Grundsätzliche Hinweise
Modellbezeichnungen sind nicht einheitlich standardisiert.
Viele Namen bestehen aus einer Kombination aus:
Modellfamilie
Versions- oder Generationsnummer
Größenangabe
Spezialisierung oder Einsatzschwerpunkt
Begriffe wie 
mini, 
pro, 
thinking, 
reasoning, 
vision oder 
turbo sind häufig anbieterspezifisch.
Die lokale Nutzbarkeit hängt zusätzlich von Faktoren wie Quantisierung, Kontextlänge, RAM, VRAM und CPU/GPU-Leistung ab.

Tabelle: Gängige Modellfamilien

Modellfamilie
Herkunft / Anbieter
Typische Ausprägungen
Lokal nutzbar
Grobe lokale Anforderung
Verbreitung
Typischer Fokus
Llama
Meta
z. B. 1B, 3B, 8B, 70B
Ja
kleine bis mittlere Varianten gut lokal nutzbar; große Varianten eher für starke Systeme
sehr hoch
Allround, Chat, Assistenz, Basis für viele lokale Setups
Qwen
Alibaba / Qwen Team
z. B. 0.6B, 4B, 8B, 14B, 32B, MoE-Varianten
Ja
kleine und mittlere Varianten gut lokal; größere Varianten deutlich anspruchsvoller
sehr hoch
multilingual, Coding, Reasoning, Tools
DeepSeek
DeepSeek
z. B. kleine Distill-Modelle, größere Reasoning-Varianten
Ja, vor allem kleine Varianten
kleine Modelle gut lokal; große Modelle nur eingeschränkt sinnvoll lokal
hoch
Reasoning, Analyse, Mathematik
Gemma
Google DeepMind / Google
z. B. 2B, 4B, 12B, 27B, Gemma-4-Varianten
Ja
kleine Modelle lokal gut einsetzbar; größere Varianten benötigen mehr Speicher
mittel bis hoch
allgemeine Nutzung, Reasoning, teils multimodal
Mistral
Mistral AI
z. B. 7B, Small, Large, Mixtral, Devstral, Magistral
Teilweise
offene kleinere Modelle lokal gut nutzbar; große Varianten eher nicht
hoch
Allround, Coding, Reasoning
Phi
Microsoft
z. B. Mini-, Multimodal- und Reasoning-Varianten
Ja
meist vergleichsweise ressourcenschonend
mittel bis hoch
effiziente lokale Nutzung, kompakte Modelle
GPT / o-Serie
OpenAI
z. B. GPT-4.x, mini, nano, o-Modelle
in der Regel nein
primär Cloud-/API-Nutzung
sehr hoch
allgemeine Nutzung, Reasoning, Produktivbetrieb
Claude
Anthropic
Haiku, Sonnet, Opus
in der Regel nein
primär Cloud-/API-Nutzung
hoch
Sprachverständnis, Analyse, Assistenz
Gemini
Google
Flash, Pro
in der Regel nein
primär Cloud-/API-Nutzung
hoch
allgemeine Nutzung, multimodale Verarbeitung
Grok
xAI
verschiedene Grok-Varianten
in der Regel nein
primär Cloud-/API-Nutzung
mittel
allgemeine Nutzung, Echtzeit-/Plattformintegration
Command / Aya
Cohere
Command, Aya
eher nein
primär API-/Unternehmensnutzung
mittel
Enterprise, RAG, mehrsprachige Anwendungen

Einordnung der Größenangaben
Bedeutung von 
B
Das Kürzel B steht in der Regel für Billion, also Milliarden Parameter.
Beispiele:
7B = 7 Milliarden Parameter
14B = 14 Milliarden Parameter
70B = 70 Milliarden Parameter
Grundsätzlich gilt:
kleinere B-Werte = geringerer Ressourcenbedarf
größere B-Werte = tendenziell höhere Leistungsfähigkeit, aber auch höherer Speicherbedarf
Bedeutung von Angaben wie 
A4B
Zusätze wie A4B oder ähnliche Schreibweisen kommen häufig bei Mixture-of-Experts-Modellen (MoE) vor.
Dabei gilt typischerweise:
die erste Größenangabe beschreibt die Gesamtgröße des Modells
die A-Angabe beschreibt die aktiv genutzten Parameter pro Verarbeitungsschritt
Beispiel:
26B A4B = Modell mit 26 Milliarden Parametern insgesamt, davon sind pro Schritt etwa 4 Milliarden aktiv
Wichtig ist dabei:
auch wenn nur ein Teil aktiv genutzt wird, muss lokal oft das gesamte Modell geladen werden
dadurch kann der Speicherbedarf weiterhin hoch bleiben

Typische Zusatzbezeichnungen
Kürzel / Begriff
Übliche Bedeutung
B
Milliarden Parameter
AxxB
aktivierte Milliarden Parameter, häufig bei MoE
MoE
Mixture of Experts
mini / nano / small / flash / fast
kleinere, schnellere oder günstigere Variante
pro / large / opus / ultra / heavy
leistungsstärkere Variante
reasoning / thinking
auf mehrstufiges Denken oder Problemlösen optimiert
vision
Bildverarbeitung möglich
multimodal
Verarbeitung mehrerer Eingabetypen, z. B. Text und Bild
instruct / IT
für Anweisungen bzw. Chatnutzung optimiert
preview
Vorabversion
turbo
meist auf Geschwindigkeit optimiert, jedoch nicht einheitlich definiert

Grobe Einschätzung lokaler Anforderungen
Die folgende Übersicht dient als praxisnahe Orientierung für lokale Nutzung, etwa mit Ollama oder vergleichbaren Laufzeitumgebungen:
Modellgröße
Grobe Einschätzung
1B bis 4B
leicht lokal nutzbar
7B bis 8B
gut lokal nutzbar
12B bis 14B
mittlere Anforderungen
26B bis 32B
hohe Anforderungen
70B und größer
meist nur mit leistungsstarker Hardware sinnvoll
MoE-Modelle
abhängig von Gesamtgröße und aktivem Anteil; Speicherbedarf kann trotz Effizienz hoch bleiben

Verbreitung der Modellfamilien
Die Verbreitung lässt sich nur grob einordnen, da keine einheitlichen Vergleichswerte über alle Anbieter hinweg vorliegen.
Sehr stark verbreitet
Llama
Qwen
DeepSeek
GPT
Stark verbreitet
Claude
Gemini
Mistral
Gemma
Mittel bis stark verbreitet
Phi
Cohere Command / Aya
Grok

Typische Fokusse nach Modellfamilie
Modellfamilie
Typischer Schwerpunkt
Llama
allgemeine lokale Nutzung, Allround
Qwen
multilingual, Coding, Reasoning
DeepSeek
Reasoning, Analyse
Gemma
allgemeine Nutzung, effiziente moderne Open-Modelle
Mistral
Allround, teils Coding und Reasoning
Phi
kompakte, effiziente Modelle
GPT
allgemeine Nutzung, starke Cloud-Modelle
Claude
Sprachverständnis, Analyse, Assistenz
Gemini
multimodal, allgemeine Nutzung
Grok
plattformnahe Assistenz, allgemeine Nutzung
Command / Aya
Enterprise, RAG, Mehrsprachigkeit


Aktuelle Hauptversionen gängiger Modellfamilien
Stand: 21. April 2026
Modellfamilie
Aktuelle Hauptversion / aktuelle Linie
Typische aktuelle Varianten
OpenAI GPT / o-Serie
GPT-5.4  als aktuelle Frontier-Modelllinie; zusätzlich 
GPT-5.4-mini  und 
GPT-5.4-nano. Die ältere Reasoning-Linie 
o3 / o4-mini ist weiterhin dokumentiert, wird aber in den OpenAI-Modellseiten teils bereits als abgelöst eingeordnet. (OpenAI Entwickler)
GPT-5.4, GPT-5.4-mini, GPT-5.4-nano, o3, o4-mini
Claude
Claude 4.7  ist aktuell die neueste genannte Generation; Anthropic hebt insbesondere 
Claude Opus 4.7 hervor. In den Modelllinien bleiben außerdem Sonnet und Haiku
 als Klassen relevant. (Claude API Docs)
Opus 4.7, Sonnet 4.5+, Haiku 4.5+
Gemini
Gemini 3.1 Pro ist aktuell die neueste hervorgehobene Pro-Generation in den Gemini-API-Modellseiten. Zusätzlich werden 
Gemini 3 Flash und Gemini 3.1 Flash-Lite  geführt. Parallel ist Gemini 2.5 Pro
 weiterhin dokumentiert. (Google AI for Developers)
Gemini 3.1 Pro, Gemini 3 Flash, Gemini 3.1 Flash-Lite, Gemini 2.5 Pro
Gemma
Gemma 4 ist die aktuelle Hauptgeneration. Google listet für diese Generation die Größen E2B, E4B,31B und 26B A4B. (Google AI for Developers)
Gemma 4 E2B, E4B, 31B, 26B A4B
Llama
Llama 4 ist die aktuelle Hauptgeneration. Meta nennt derzeit insbesondere 
Llama 4 Scout und Llama 4 Maverick als veröffentlichte Modelle. (ai.meta.com)
Llama 4 Scout, Llama 4 Maverick
Mistral
Bei Mistral ist die aktuelle Hauptlinie breit aufgefächert. In den Modellübersichten werden besonders Mistral Large 3, Devstral 2 und Mistral Medium 3.1
 als aktuelle Featured-Modelle hervorgehoben. (Mistral AI)
Mistral Large 3, Devstral 2, Mistral Medium 3.1
Qwen
Qwen3  ist die aktuelle Hauptgeneration der allgemeinen Qwen-Familie. Daneben existiert mit Qwen3-Coder eine spezialisierte Coding-Linie. (Qwen)
Qwen3-0.6B bis 32B, Qwen3-30B-A3B, Qwen3-235B-A22B, Qwen3-Coder
DeepSeek
DeepSeek-V3.2 ist die aktuelle allgemeine Hauptlinie laut DeepSeek. Zusätzlich wird 
DeepSeek-V3.2-Speciale  genannt. In der Praxis bleibt auch DeepSeek-R1 als Reasoning-Linie sehr relevant. (DeepSeek)
DeepSeek-V3.2, DeepSeek-V3.2-Speciale, DeepSeek-R1
Phi
Phi-4
 wird von Microsoft als aktuelle Hauptgeneration der Phi-Familie hervorgehoben. (
Microsoft Azure
)
Phi-4, Phi-4-mini, weitere spezialisierte Phi-4-Varianten je Plattform
Grok
Grok 4.1
 ist aktuell die neueste genannte Hauptversion in den xAI-News; zuvor wurde 
Grok 4
 eingeführt. (
xAI
)
Grok 4.1, Grok 4 Heavy, Grok Code Fast 1
Command / Aya
Bei Cohere ist 
Command A
 die aktuelle zentrale Hauptlinie; zusätzlich gibt es spezialisierte Varianten wie 
Command A Reasoning
 und 
Command A Vision
. 
Aya
 bleibt die mehrsprachige Modellfamilie. (
Cohere
)
Command A, Command A Reasoning, Command A Vision, Aya

DSGVO-Einordnung beim Einsatz von KI-Modellen
Einsatzszenario
Beispiel
DSGVO-Einordnung
Typische Prüfpunkte
Risikoniveau
Rein lokal, offline
Modell läuft auf eigenem Rechner oder internem Server ohne externe Datenübertragung
Datenschutzrechtlich meist 
am einfachsten
 zu bewerten, weil keine automatische Übermittlung an einen externen KI-Anbieter erfolgt. Die DSGVO bleibt dennoch anwendbar, sobald personenbezogene Daten verarbeitet werden. (
EDPB
)
Rechtsgrundlage, Zweckbindung, Zugriffskontrolle, Protokollierung, Löschkonzept, Berechtigungskonzept
Niedrig bis mittel
Lokal im Unternehmensnetz, mit mehreren Nutzern
Interner KI-Server für Mitarbeitende
Ebenfalls vergleichsweise günstig, aber organisatorisch anspruchsvoller als Einzelnutzung. Es sind interne Rollen, Berechtigungen und Schutzmaßnahmen sauber zu regeln. (
CNIL
)
Rollen und Verantwortlichkeiten, TOMs, Zugriffstrennung, Logging, Datenschutzinformationen, interne Richtlinien
Mittel
Selbst gehostet in eigenem Rechenzentrum oder bei EU-Hoster
Eigene KI-Anwendung auf VPS oder dediziertem Server in der EU
Häufig gut beherrschbar, sofern Hosting, Fernzugriffe und Administratorenzugänge sauber geregelt sind. Auch bei EU-Hosting sind Verträge und technische Maßnahmen erforderlich. (
CNIL
)
AV-Vertrag, Serverstandort, Admin-Zugriffe, Verschlüsselung, Backups, Löschung, Incident-Prozesse
Mittel
Externe API / Cloud innerhalb der EU
KI-Dienst mit Verarbeitung in der EU
DSGVO-relevant und regelmäßig prüfungsbedürftig. EU-Standort erleichtert die Bewertung, ersetzt aber keine Prüfung von Rechtsgrundlage, Transparenz und Verträgen. (
EDPB
)
Anbieterrolle, AV-Vertrag oder Rollenabgrenzung, Zweckbindung, Datennutzung durch Anbieter, Speicherfristen, Betroffenenrechte
Mittel bis hoch
Externe API / Cloud mit Drittlandtransfer
US- oder sonstiger Nicht-EU-Anbieter
Regelmäßig 
prüfungsintensiver
, weil zusätzlich Fragen zu internationaler Datenübermittlung, Schutzmechanismen und Anbieterzugriffen zu klären sind. Für US-Anbieter kann das EU-US Data Privacy Framework relevant sein, sofern der konkrete Empfänger darunter fällt. (
European Commission
)
Drittlandtransfer, Zertifizierung/Transfermechanismus, Vertragslage, Subprozessoren, Transparenz, Datennutzung für Training oder Verbesserung
Hoch
Nutzung mit anonymisierten oder wirksam pseudonymisierten Daten
Vorverarbeitete Fälle ohne direkte Personenbeziehbarkeit
Kann die datenschutzrechtlichen Risiken deutlich senken. Ob Daten oder sogar ein Modell als anonym gelten, ist jedoch im Einzelfall zu prüfen; die EDPB behandelt diese Frage ausdrücklich als fallbezogene Bewertung. (
EDPB
)
Qualität der Anonymisierung/Pseudonymisierung, Re-Identifikationsrisiko, Trennung von Zusatzwissen, Zugriffskonzepte
Niedrig bis mittel
Nutzung mit sensiblen Daten
Gesundheitsdaten, Sozialdaten, Beschäftigtendaten, besondere Kategorien
Besonders kritisch. Hier steigen die Anforderungen an Rechtsgrundlage, Schutzmaßnahmen, Zugriffsbeschränkungen und Dokumentation deutlich. (
CNIL
)
Art. 9 DSGVO, Erforderlichkeit, Datensparsamkeit, Schutzbedarf, DPIA, Zugriffstrennung, Verschlüs

DSGVO-Einordnung nach Modellfamilie
Hinweis: Diese Übersicht ist eine praxisnahe Orientierung für Dokumentationszwecke und keine Rechtsberatung. Maßgeblich ist immer der konkrete Einsatz: lokal, selbst gehostet, über API/Cloud, mit oder ohne personenbezogene Daten. Die EDPB hat klargestellt, dass die DSGVO auch für KI-Modelle gilt. (Anthropic)
Modellfamilie
Typischer Betriebsmodus
DSGVO-Tendenz
Modellbezug / praktische Einordnung
Prüfschwerpunkt
Llama
häufig 
lokal / self-hosted
, da offen herunterladbar und „deploy anywhere“ beworben
günstig bis mittel
, wenn lokal betrieben
Für Llama ist der DSGVO-Vorteil vor allem der 
lokale oder eigene Betrieb
: Meta stellt die Modelle zum Download bereit und beschreibt sie als überall deploybar. Dadurch kann eine externe Übermittlung an einen Modellanbieter oft vermieden werden. (
llama.com
)
Serverstandort, interne Zugriffe, Logging, Löschung, keine unnötige Cloud-Anbindung
Gemma
häufig 
lokal / self-hosted
günstig bis mittel
, wenn lokal betrieben
Gemma ist als offene Modellfamilie für lokale Nutzung relevant. Datenschutzrechtlich ist sie daher typischerweise 
einfacher
 als reine Cloud-Modelle, sofern keine personenbezogenen Daten an externe Dienste fließen. Die DSGVO-Frage hängt hier eher am Hosting als am Modellnamen. (
Anthropic
)
Lokale Verarbeitung, Zugriffskonzepte, Datenminimierung
Mistral
hybrid
: Cloud, private Cloud, VPC, on-prem
mittel
, bei on-prem günstiger
Mistral bewirbt ausdrücklich 
private Deployments
, VPC- und On-Prem-Optionen sowie „your data stays within your walls“. Dadurch ist Mistral aus DSGVO-Sicht oft flexibler als reine SaaS-Modelle. Zusätzlich gibt es ein DPA. (
Mistral AI
)
AV-Vertrag, Hosting-Variante, Admin-Zugriffe, Datenfluss zwischen Cloud und On-Prem
Phi
oft 
lokal
, alternativ Azure-/Microsoft-Umfeld
günstig bis mittel
, je nach Hosting
Phi ist als kleine Modellfamilie gut für lokale Nutzung geeignet; Microsoft positioniert Phi zudem unter dem Aspekt „privacy and security“. Datenschutzrechtlich ist lokal am einfachsten, bei Azure-Betrieb kommt die übliche Cloud-/Vertragsprüfung hinzu. (
Microsoft Azure
)
Lokal vs. Azure, Verträge, Region, Speicherort
Qwen
sowohl 
lokal
 als auch 
Cloud/API
lokal günstiger
, Cloud 
mittel bis hoch
Qwen ist als Modellfamilie lokal nutzbar, hat aber auch einen eigenen API-/Cloud-Zugang. Für die DSGVO ist deshalb wichtig, 
welcher Weg genutzt wird
. Bei lokaler Nutzung ist die Bewertung deutlich einfacher als bei Verarbeitung über die Qwen-Cloud. (
qwen.ai
)
Ob lokal oder API, Anbieterrolle, Übermittlung, vertragliche Einbindung
DeepSeek
sowohl 
lokal
 als auch 
Cloud/API
lokal klar günstiger
, Cloud 
hoch
Bei DeepSeek ist der Modellbezug besonders wichtig: Die Modelle können lokal laufen, aber die DeepSeek-Privacy-Policy sagt ausdrücklich, dass personenbezogene Daten zur Diensterbringung 
in der Volksrepublik China verarbeitet und gespeichert
 werden können. Für personenbezogene Daten ist deshalb der 
lokale Betrieb
 deutlich günstiger. (
cdn.deepseek.com
)
Drittlandtransfer, Speicherort China, sensible Daten vermeiden, möglichst self-hosted
GPT / o-Serie
typischerweise 
Cloud/API
mittel bis hoch
OpenAI ist klar cloud-orientiert. Positiv ist: Für Business-Angebote gibt es ein DPA; für Kunden im EWR/der Schweiz wird dieses mit 
OpenAI Ireland Ltd.
 geschlossen. OpenAI erklärt außerdem, dass 
Business-Daten standardmäßig nicht zum Training verwendet werden
. Trotzdem bleibt Cloud-Verarbeitung DSGVO-prüfungsintensiv. (
OpenAI
)
Rechtsgrundlage, AV/DPA, Anbieterrolle, Transfermechanismus, Speicher- und Löschregeln
Claude
typischerweise 
Cloud/API
mittel bis hoch
Claude ist primär ein Cloud-Modell. Bei Anthropic ist relevant, dass es für Consumer-Nutzung eine 
Opt-in-Logik
 zur Datennutzung für Trainings-/Verbesserungszwecke gibt; zugleich verweist Anthropic für Unternehmen auf Trust-/Compliance-Unterlagen. Für DSGVO-Zwecke ist Claude daher vor allem als 
vertrags- und plattformabhängiges Cloud-Modell
 zu prüfen. (
Anthropic
)
Consumer vs. Business trennen, Opt-in/Datennutzung, Verträge, Speicherort
Gemini
typischerweise 
Cloud/API
mittel bis hoch
Bei Gemini ist die Unterscheidung zwischen 
unpaid
 und 
paid tiers
 besonders relevant: Google weist für Unpaid Services darauf hin, dass Eingaben/Ausgaben von Menschen geprüft und zur Produktverbesserung genutzt werden können und dass 
keine sensiblen, vertraulichen oder personenbezogenen Daten
 eingereicht werden sollen. Für Paid Tiers heißt es, dass Prompts/Responses 
nicht
 zur Produktverbesserung genutzt werden. (
Google AI for Developers
)
Tarifmodell, Datennutzung zur Verbesserung, Human Review, sensible Daten nur in geeignetem Vertragsrahmen
Grok
typischerweise 
Cloud/API
hoch
Grok ist derzeit im Kern ein cloudbasiertes Modellangebot. Für DSGVO-Zwecke ist es daher ähnlich wie andere Cloud-Modelle zu behandeln: rechtliche Grundlage, Datenfluss, Empfänger, Speicherort und Nutzungsbedingungen sind vor produktivem Einsatz mit personenbezogenen Daten zu prüfen. (
Anthropic
)
Vertragslage, Speicherort, Empfänger, Drittlandtransfer
Command / Aya (Cohere)
typischerweise 
API/Enterprise, teils private deployment
mittel, bei Private Deployment günstiger
Cohere ist für DSGVO-Zwecke relativ interessant, weil das Unternehmen sowohl 
DPA
, 
Zero Data Retention
 für Enterprise-Fälle als auch 
private deployment options
 nennt. In der Privacy Policy steht zugleich, dass Trial-/Research-Umgebungen 
nicht
 für personenbezogene Daten gedacht sind. (
Cohere
)
Produktstufe prüfen, DPA anfordern, ZDR/Retention, Private Deployment bevorzugen
Kurztext für unter die Tabelle
Einordnung:
Der DSGVO-Bezug hängt bei KI-Modellen nicht nur am Hersteller, sondern stark am typischen Betriebsmodus der jeweiligen Modellfamilie. Open-weight-Modelle wie Llama, Gemma oder oft auch Qwen/DeepSeek/Mistral können lokal oder selbst gehostet betrieben werden und sind deshalb datenschutzrechtlich häufig günstiger zu bewerten. Cloud-first-Modelle wie GPT, Claude, Gemini oder Grok erfordern regelmäßig eine vertiefte Prüfung von Rechtsgrundlage, Vertragslage, Speicherort, möglichem Drittlandtransfer und Datenverwendung durch den Anbieter. (Anthropic)
Noch kürzere Fassung
Gruppe
DSGVO-Tendenz
Typische Modelle
Open-weight / lokal betreibbar
meist günstiger
Llama, Gemma, Phi, oft Qwen, DeepSeek, Mistral (
llama.com
)
Cloud-first / API-zentriert
meist prüfungsintensiver
GPT, Claude, Gemini, Grok, Command (
OpenAI
)

Zusammenfassung
Zur schnellen Einordnung kann folgende Struktur verwendet werden:
[Familie] + [Version] + [Größe] + [Spezialisierung]
Beispiele:
Gemma 4 27B IT
Qwen3 14B
DeepSeek R1
Claude Sonnet
GPT-4.1 mini
Dabei gilt:
Familie = Modellreihe
Version = Generation oder Entwicklungsstand
Größe = Parameteranzahl
Spezialisierung = Einsatzschwerpunkt oder Optimierung