RavenSTT-Benchmark
Eigene Messungen · 25 Modelle · Deutsches Audio · Stand 08.06.2026

Das beste Modell ist nicht das bekannteste.

Die großen, bekannten STT-Modelle sind Generalisten, über Dutzende Sprachen optimiert und für Deutsch selten die erste Wahl. Wir messen selbst, auf echtem deutschem Audio, und legen jede Zahl offen.

Die Frage ist nicht „wer ist Platz 1“, sondern „bestes Modell wofür“.

01Warum wir selbst messen

Hersteller messen sich selbst. Wir messen nach.

Hersteller berichten ihre Benchmark-Zahlen selbst — und die fallen erwartbar gut aus. Deshalb messen wir regelmäßig nach: flächendeckend über den Markt, offene Modelle auf eigener Infrastruktur, geschlossene APIs mit denselben Fixtures gegengemessen — damit unsere Kunden immer das aktuell beste Modell bekommen, nicht das bekannteste. Raven ist bewusst hersteller-unabhängig gebaut und setzt auf Open Source, damit deine Daten in der EU bleiben und du nicht an einen Anbieter gekettet bist.

02Der Trade-off

Genauigkeit kostet. Finde deinen Punkt.

Eine Tabelle zeigt Rangplätze. Diese Karte zeigt, was sie dich kostet. Wähle die Achse, die für dich zählt.

0%5%10%15%20%0,1 €0,5 €1 €5 €10 €eigene GPU · kostenlos↑ GENAUER · WER %← GÜNSTIGER · € / 1000 Min

★ GPT-Audio ausgelassen (Ausreißer)

DE-SpezialistMultilingualself-hosted · eigene GPUbestes Modell
03Bestes Modell wofür

Die Messkonsole.

Ein gemeinsamer WER verfälscht. Wähl Audiotyp und Hosting — die Rangfolge richtet sich danach.

25 Modelle · Gesamt · sortiert nach WERBestes für dieses Dataset DE-Spezialistself-hosted
ModellWER · GesamtCER · GesamtDERKostenTempoSprachenHosting
Qwen3-ASR-Flash · Sync
DashScope
4,1 %2,0 %n. v.1,93 €6,3×MULTIAPI
Qwen3-ASR-Flash · Datei
DashScope
4,2 %2,0 %n. v.1,77 €1,5×MULTIAPI
Whisper-LV3 German
primeline · self
5,1 %2,1 %n. v.eigene GPU9,6×DESELF
CrisperWhisper
nyrahealth · self
5,4 %2,6 %n. v.eigene GPU3,3×MULTISELF
Qwen3-Omni-Flash
DashScope
5,5 %3,0 %n. v.4,69 €4,5×MULTIAPI
Whisper-LV3-Turbo German
primeline · self
5,8 %2,9 %n. v.eigene GPU16,1×DESELF
Gladia
Gladia · EU
6,1 %3,3 %16,3 %9,35 €2,8×MULTIEU
Universal-2
AssemblyAI
6,2 %3,5 %18,7 %4,14 €2,2×MULTIAPI
Voxtral-Mini 2507
Mistral · EU
6,2 %3,2 %1,84 €8,3×MULTIEU
Voxtral-Mini 2602
Mistral · EU
6,2 %3,2 %15,1 %2,76 €8,8×MULTIEU
Whisper-1
OpenAI
6,2 %3,2 %n. v.5,52 €10,1×MULTIAPI
Parakeet
primeline · self
6,3 %2,7 %n. v.eigene GPU35,9×DESELF
Chirp 3 (via OpenRouter)
Google · OpenRouter
6,5 %3,6 %n. v.14,72 €5,5×MULTIAPI
GPT-4o-mini-transcribe
OpenAI
6,7 %3,7 %n. v.1,60 €12,8×MULTIAPI
Qwen3-ASR-1.7B
Qwen · self
6,9 %3,3 %n. v.eigene GPU7,1×MULTISELF
Gemini 2.5 Flash
Google
7,1 %3,4 %n. v.0,67 €7,2×MULTIAPI
Voxtral-Mini-3B
Mistral · self
7,5 %3,7 %n. v.eigene GPU8,2×MULTISELF
Whisper-LV3
OpenAI · self
7,5 %4,5 %n. v.eigene GPU9,4×MULTISELF
Qwen3-Omni-Turbo
DashScope
7,9 %3,8 %n. v.7,85 €4,4×MULTIAPI
Whisper-LV3-Turbo
Groq
8,1 %4,7 %n. v.0,61 €29×MULTIAPI
GPT-4o-transcribe-diarize
OpenAI
9,7 %4,8 %18,2 %2,4×MULTIAPI
Nova (EU)
Deepgram · EU
9,7 %4,9 %16,7 %3,96 €27,9×MULTIEU
Nova (US)
Deepgram
9,8 %4,9 %16,5 %3,96 €8,8×MULTIAPI
Voxtral-Small 2507
Mistral · EU
18,9 %13,1 %n. v.0,08 €24,9×MULTIEU
GPT-Audio
OpenAI
49,2 %36,5 %n. v.50,87 €MULTIAPI
WER strict · CER · DER · normalisiert · pro Dataset gemessen
04Die Datasets

Warum ein Durchschnitt lügt.

Jedes Dataset misst eine andere Schwierigkeit — von sauber vorgelesenen Sätzen bis zu frei gesprochener Rede. Ein gemittelter WER mischt alles und verschweigt, wofür ein Modell wirklich taugt. Keines dieser Sets ist ein echtes Meeting; zusammen sind sie eine Untergrenze für die deutsche Wortfehlerrate.

FLEURS Lesesprache

Vorgelesene Sätze aus dem Google FLEURS-Datensatz. Sauber artikuliert, kontrollierte Aufnahmebedingungen — misst die Grundgenauigkeit auf klarer Lesesprache.

MLS Hörbücher

Multilingual LibriSpeech — professionell eingelesene Hörbücher. Lange, sauber gelesene Passagen, neben FLEURS die einfachste Disziplin. Modelle, die mit spontaner Sprache kämpfen, holen sich hier ihre Punkte zurück — deshalb lügt der Gesamtdurchschnitt.

German Mixed gemischt · gelesen

Der meistzitierte deutsche ASR-Benchmark (flozi00 & primeLine): CommonVoice-Aufnahmen und Hörbücher, neu transkribiert. Gemischte Quellen, aber durchweg gelesene Sprache — schwerer als reine Lesesätze, jedoch nicht spontan und kein Meeting. Ein allgemeines Genauigkeits-Signal.

VoxPopuli spontane Rede

Frei gesprochene Parlamentsreden mit Saalakustik, Versprechern und Fülllauten. Von den vier am nächsten an echtem gesprochenem Deutsch — formell und kein Meeting, aber der realistischste Test hier.

05Die 3 Dimensionen

Eine Zahl verschweigt zu viel.

Wir messen auf mehreren unabhängigen Achsen — damit du das Modell nach deinem Trade-off wählst, nicht nach einem gemittelten Gesamtwert.

Gemessen

Genauigkeit WER · CER

Wie viele Wörter (WER) bzw. Zeichen (CER) das Modell falsch versteht. Niedriger ist besser — gemessen pro Dataset, nicht als ein gemittelter Wert.

2,1 %bester WER auf gemischtem Audio (German Mixed). Über alle vier Datasets: 4,1.
gegen geprüfte Referenz, normalisiert
Gemessen

Tempo RTFx

Wie viele Minuten Audio pro Minute Rechenzeit durchlaufen. 10× heißt: 10 Minuten Meeting in 1 Minute transkribiert.

36×schnellstes gemessenes Modell — so viel Audio pro Minute Rechenzeit.
auf identischem Audio gemessen
Gemessen

Wer hat wann gesprochen DER

Ordnet jeden Satz dem richtigen Sprecher zu. Weil Raven jeden Teilnehmer auf einer eigenen Spur aufnimmt, kennen wir die richtige Antwort exakt — kein geschätztes Referenz-Audio.

15,1 %beste Diarization Error Rate auf einem echten 2-Sprecher-Meeting · 6 Modelle gemessen.
per-Spur-Aufnahme = exakte Referenz-Diarisierung
In Arbeit · kommt als nächstes1 Achse
Dialekt-Fairness IntentBei starkem Dialekt zählt nicht jeder Buchstabe, sondern ob die Aussage ankommt. Eine Intent-Metrik bewertet das fairer als die reine Wortfehlerrate.
Metrik-Design
06Wie wir messen

Vier Prinzipien. Keine Ausreden.

01

Eigene Messungen

Keine Hersteller-Zahlen, jedes Modell selbst getestet — auf identischem Audio und mit identischer Metrik.

02

Echtes deutsches Audio

Parlamentsreden, vorgelesene Sätze, Hörbücher und gemischte Quellen — echte Aufnahmen statt synthetischer Testsätze, von sauberer Lesesprache bis frei gesprochener Rede.

03

Ein Verfahren für alle

Self-hosted und kommerzielle APIs, gleiche Daten, gleiche Metriken. Wo Messungen fehlen, zeigen wir leere Zellen statt geglätteter Durchschnitte.

04

Offene Methodik

Aufbau und Daten sind nachvollziehbar und reproduzierbar. Jede Zahl ist auf ihr Dataset zurückführbar.

07Und jetzt dein Audio

Bester gemessener WER über alle vier Datasets: 4,1 %. Kosten je 1000 Min. von 0,08 € bis 50,87 €, Tempo bis 36× Echtzeit.

Willst du wissen, welches Modell deine Meetings am besten versteht?

Raven nimmt jeden Sprecher auf einer eigenen Spur auf, routet automatisch zum passenden Modell und hält die Auswertung in Deutschland. Dieselbe Mess-Disziplin, die du oben siehst — angewendet auf dein echtes Audio.

Jetzt vormerkenAlle Zahlen selbst gemessen