STT-Benchmark

Eigene Messungen · 25 Modelle · Deutsches Audio · Stand 08.06.2026

Das beste Modell ist nicht das bekannteste.

Die großen, bekannten STT-Modelle sind Generalisten, über Dutzende Sprachen optimiert und für Deutsch selten die erste Wahl. Wir messen selbst, auf echtem deutschem Audio, und legen jede Zahl offen.

Die Frage ist nicht „wer ist Platz 1“, sondern „bestes Modell wofür“.

01Warum wir selbst messen

Hersteller messen sich selbst. Wir messen nach.

Hersteller berichten ihre Benchmark-Zahlen selbst — und die fallen erwartbar gut aus. Deshalb messen wir regelmäßig nach: flächendeckend über den Markt, offene Modelle auf eigener Infrastruktur, geschlossene APIs mit denselben Fixtures gegengemessen — damit unsere Kunden immer das aktuell beste Modell bekommen, nicht das bekannteste. Raven ist bewusst hersteller-unabhängig gebaut und setzt auf Open Source, damit deine Daten in der EU bleiben und du nicht an einen Anbieter gekettet bist.

02Der Trade-off

Genauigkeit kostet. Finde deinen Punkt.

Eine Tabelle zeigt Rangplätze. Diese Karte zeigt, was sie dich kostet. Wähle die Achse, die für dich zählt.

★ GPT-Audio ausgelassen (Ausreißer)

DE-SpezialistMultilingualself-hosted · eigene GPUbestes Modell

03Bestes Modell wofür

Die Messkonsole.

Ein gemeinsamer WER verfälscht. Wähl Audiotyp und Hosting — die Rangfolge richtet sich danach.

25 Modelle · Gesamt · sortiert nach WERBestes für dieses Dataset ★DE-Spezialistself-hosted

Modell▲	WER · Gesamt▲	CER · Gesamt▲	DER▲	Kosten▲	Tempo▲	Sprachen▲	Hosting▲
Qwen3-ASR-Flash · Sync DashScope	4,1 %★	2,0 %	n. v.	1,93 €	6,3×	MULTI	API
Qwen3-ASR-Flash · Datei DashScope	4,2 %	2,0 %	n. v.	1,77 €	1,5×	MULTI	API
Whisper-LV3 German primeline · self	5,1 %	2,1 %	n. v.	eigene GPU	9,6×	DE	SELF
CrisperWhisper nyrahealth · self	5,4 %	2,6 %	n. v.	eigene GPU	3,3×	MULTI	SELF
Qwen3-Omni-Flash DashScope	5,5 %	3,0 %	n. v.	4,69 €	4,5×	MULTI	API
Whisper-LV3-Turbo German primeline · self	5,8 %	2,9 %	n. v.	eigene GPU	16,1×	DE	SELF
Gladia Gladia · EU	6,1 %	3,3 %	16,3 %	9,35 €	2,8×	MULTI	EU
Universal-2 AssemblyAI	6,2 %	3,5 %	18,7 %	4,14 €	2,2×	MULTI	API
Voxtral-Mini 2507 Mistral · EU	6,2 %	3,2 %	–	1,84 €	8,3×	MULTI	EU
Voxtral-Mini 2602 Mistral · EU	6,2 %	3,2 %	15,1 %	2,76 €	8,8×	MULTI	EU
Whisper-1 OpenAI	6,2 %	3,2 %	n. v.	5,52 €	10,1×	MULTI	API
Parakeet primeline · self	6,3 %	2,7 %	n. v.	eigene GPU	35,9×	DE	SELF
Chirp 3 (via OpenRouter) Google · OpenRouter	6,5 %	3,6 %	n. v.	14,72 €	5,5×	MULTI	API
GPT-4o-mini-transcribe OpenAI	6,7 %	3,7 %	n. v.	1,60 €	12,8×	MULTI	API
Qwen3-ASR-1.7B Qwen · self	6,9 %	3,3 %	n. v.	eigene GPU	7,1×	MULTI	SELF
Gemini 2.5 Flash Google	7,1 %	3,4 %	n. v.	0,67 €	7,2×	MULTI	API
Voxtral-Mini-3B Mistral · self	7,5 %	3,7 %	n. v.	eigene GPU	8,2×	MULTI	SELF
Whisper-LV3 OpenAI · self	7,5 %	4,5 %	n. v.	eigene GPU	9,4×	MULTI	SELF
Qwen3-Omni-Turbo DashScope	7,9 %	3,8 %	n. v.	7,85 €	4,4×	MULTI	API
Whisper-LV3-Turbo Groq	8,1 %	4,7 %	n. v.	0,61 €	29×	MULTI	API
GPT-4o-transcribe-diarize OpenAI	9,7 %	4,8 %	18,2 %	–	2,4×	MULTI	API
Nova (EU) Deepgram · EU	9,7 %	4,9 %	16,7 %	3,96 €	27,9×	MULTI	EU
Nova (US) Deepgram	9,8 %	4,9 %	16,5 %	3,96 €	8,8×	MULTI	API
Voxtral-Small 2507 Mistral · EU	18,9 %	13,1 %	n. v.	0,08 €	24,9×	MULTI	EU
GPT-Audio OpenAI	49,2 %	36,5 %	n. v.	50,87 €	8×	MULTI	API

WER strict · CER · DER · normalisiert · pro Dataset gemessen

04Die Datasets

Warum ein Durchschnitt lügt.

Jedes Dataset misst eine andere Schwierigkeit — von sauber vorgelesenen Sätzen bis zu frei gesprochener Rede. Ein gemittelter WER mischt alles und verschweigt, wofür ein Modell wirklich taugt. Keines dieser Sets ist ein echtes Meeting; zusammen sind sie eine Untergrenze für die deutsche Wortfehlerrate.

FLEURS Lesesprache

Vorgelesene Sätze aus dem Google FLEURS-Datensatz. Sauber artikuliert, kontrollierte Aufnahmebedingungen — misst die Grundgenauigkeit auf klarer Lesesprache.

MLS Hörbücher

Multilingual LibriSpeech — professionell eingelesene Hörbücher. Lange, sauber gelesene Passagen, neben FLEURS die einfachste Disziplin. Modelle, die mit spontaner Sprache kämpfen, holen sich hier ihre Punkte zurück — deshalb lügt der Gesamtdurchschnitt.

German Mixed gemischt · gelesen

Der meistzitierte deutsche ASR-Benchmark (flozi00 & primeLine): CommonVoice-Aufnahmen und Hörbücher, neu transkribiert. Gemischte Quellen, aber durchweg gelesene Sprache — schwerer als reine Lesesätze, jedoch nicht spontan und kein Meeting. Ein allgemeines Genauigkeits-Signal.

VoxPopuli spontane Rede

Frei gesprochene Parlamentsreden mit Saalakustik, Versprechern und Fülllauten. Von den vier am nächsten an echtem gesprochenem Deutsch — formell und kein Meeting, aber der realistischste Test hier.

05Die 3 Dimensionen

Eine Zahl verschweigt zu viel.

Wir messen auf mehreren unabhängigen Achsen — damit du das Modell nach deinem Trade-off wählst, nicht nach einem gemittelten Gesamtwert.

Gemessen

Genauigkeit WER · CER

Wie viele Wörter (WER) bzw. Zeichen (CER) das Modell falsch versteht. Niedriger ist besser — gemessen pro Dataset, nicht als ein gemittelter Wert.

2,1 %bester WER auf gemischtem Audio (German Mixed). Über alle vier Datasets: 4,1.

gegen geprüfte Referenz, normalisiert

Gemessen

Tempo RTFx

Wie viele Minuten Audio pro Minute Rechenzeit durchlaufen. 10× heißt: 10 Minuten Meeting in 1 Minute transkribiert.

36×schnellstes gemessenes Modell — so viel Audio pro Minute Rechenzeit.

auf identischem Audio gemessen

Gemessen

Wer hat wann gesprochen DER

Ordnet jeden Satz dem richtigen Sprecher zu. Weil Raven jeden Teilnehmer auf einer eigenen Spur aufnimmt, kennen wir die richtige Antwort exakt — kein geschätztes Referenz-Audio.

15,1 %beste Diarization Error Rate auf einem echten 2-Sprecher-Meeting · 6 Modelle gemessen.

per-Spur-Aufnahme = exakte Referenz-Diarisierung

In Arbeit · kommt als nächstes1 Achse

Dialekt-Fairness IntentBei starkem Dialekt zählt nicht jeder Buchstabe, sondern ob die Aussage ankommt. Eine Intent-Metrik bewertet das fairer als die reine Wortfehlerrate.

Metrik-Design

06Wie wir messen

Vier Prinzipien. Keine Ausreden.

Eigene Messungen

Keine Hersteller-Zahlen, jedes Modell selbst getestet — auf identischem Audio und mit identischer Metrik.

Echtes deutsches Audio

Parlamentsreden, vorgelesene Sätze, Hörbücher und gemischte Quellen — echte Aufnahmen statt synthetischer Testsätze, von sauberer Lesesprache bis frei gesprochener Rede.

Ein Verfahren für alle

Self-hosted und kommerzielle APIs, gleiche Daten, gleiche Metriken. Wo Messungen fehlen, zeigen wir leere Zellen statt geglätteter Durchschnitte.

Offene Methodik

Aufbau und Daten sind nachvollziehbar und reproduzierbar. Jede Zahl ist auf ihr Dataset zurückführbar.

07Und jetzt dein Audio

Bester gemessener WER über alle vier Datasets: 4,1 %. Kosten je 1000 Min. von 0,08 € bis 50,87 €, Tempo bis 36× Echtzeit.

Willst du wissen, welches Modell deine Meetings am besten versteht?

Raven nimmt jeden Sprecher auf einer eigenen Spur auf, routet automatisch zum passenden Modell und hält die Auswertung in Deutschland. Dieselbe Mess-Disziplin, die du oben siehst — angewendet auf dein echtes Audio.

Jetzt vormerkenAlle Zahlen selbst gemessen