Das beste Modell ist nicht das bekannteste.
Die großen, bekannten STT-Modelle sind Generalisten, über Dutzende Sprachen optimiert und für Deutsch selten die erste Wahl. Wir messen selbst, auf echtem deutschem Audio, und legen jede Zahl offen.
Die Frage ist nicht „wer ist Platz 1“, sondern „bestes Modell wofür“.
Hersteller messen sich selbst. Wir messen nach.
Hersteller berichten ihre Benchmark-Zahlen selbst — und die fallen erwartbar gut aus. Deshalb messen wir regelmäßig nach: flächendeckend über den Markt, offene Modelle auf eigener Infrastruktur, geschlossene APIs mit denselben Fixtures gegengemessen — damit unsere Kunden immer das aktuell beste Modell bekommen, nicht das bekannteste. Raven ist bewusst hersteller-unabhängig gebaut und setzt auf Open Source, damit deine Daten in der EU bleiben und du nicht an einen Anbieter gekettet bist.
Genauigkeit kostet. Finde deinen Punkt.
Eine Tabelle zeigt Rangplätze. Diese Karte zeigt, was sie dich kostet. Wähle die Achse, die für dich zählt.
★ GPT-Audio ausgelassen (Ausreißer)
Die Messkonsole.
Ein gemeinsamer WER verfälscht. Wähl Audiotyp und Hosting — die Rangfolge richtet sich danach.
| Modell▲ | WER · Gesamt▲ | CER · Gesamt▲ | DER▲ | Kosten▲ | Tempo▲ | Sprachen▲ | Hosting▲ |
|---|---|---|---|---|---|---|---|
Qwen3-ASR-Flash · Sync DashScope | 4,1 %★ | 2,0 % | n. v. | 1,93 € | 6,3× | MULTI | API |
Qwen3-ASR-Flash · Datei DashScope | 4,2 % | 2,0 % | n. v. | 1,77 € | 1,5× | MULTI | API |
| 5,1 % | 2,1 % | n. v. | eigene GPU | 9,6× | DE | SELF | |
| 5,4 % | 2,6 % | n. v. | eigene GPU | 3,3× | MULTI | SELF | |
Qwen3-Omni-Flash DashScope | 5,5 % | 3,0 % | n. v. | 4,69 € | 4,5× | MULTI | API |
| 5,8 % | 2,9 % | n. v. | eigene GPU | 16,1× | DE | SELF | |
Gladia Gladia · EU | 6,1 % | 3,3 % | 16,3 % | 9,35 € | 2,8× | MULTI | EU |
Universal-2 AssemblyAI | 6,2 % | 3,5 % | 18,7 % | 4,14 € | 2,2× | MULTI | API |
| 6,2 % | 3,2 % | – | 1,84 € | 8,3× | MULTI | EU | |
| 6,2 % | 3,2 % | 15,1 % | 2,76 € | 8,8× | MULTI | EU | |
Whisper-1 OpenAI | 6,2 % | 3,2 % | n. v. | 5,52 € | 10,1× | MULTI | API |
| 6,3 % | 2,7 % | n. v. | eigene GPU | 35,9× | DE | SELF | |
Chirp 3 (via OpenRouter) Google · OpenRouter | 6,5 % | 3,6 % | n. v. | 14,72 € | 5,5× | MULTI | API |
GPT-4o-mini-transcribe OpenAI | 6,7 % | 3,7 % | n. v. | 1,60 € | 12,8× | MULTI | API |
| 6,9 % | 3,3 % | n. v. | eigene GPU | 7,1× | MULTI | SELF | |
Gemini 2.5 Flash Google | 7,1 % | 3,4 % | n. v. | 0,67 € | 7,2× | MULTI | API |
| 7,5 % | 3,7 % | n. v. | eigene GPU | 8,2× | MULTI | SELF | |
| 7,5 % | 4,5 % | n. v. | eigene GPU | 9,4× | MULTI | SELF | |
Qwen3-Omni-Turbo DashScope | 7,9 % | 3,8 % | n. v. | 7,85 € | 4,4× | MULTI | API |
Whisper-LV3-Turbo Groq | 8,1 % | 4,7 % | n. v. | 0,61 € | 29× | MULTI | API |
GPT-4o-transcribe-diarize OpenAI | 9,7 % | 4,8 % | 18,2 % | – | 2,4× | MULTI | API |
Nova (EU) Deepgram · EU | 9,7 % | 4,9 % | 16,7 % | 3,96 € | 27,9× | MULTI | EU |
Nova (US) Deepgram | 9,8 % | 4,9 % | 16,5 % | 3,96 € | 8,8× | MULTI | API |
| 18,9 % | 13,1 % | n. v. | 0,08 € | 24,9× | MULTI | EU | |
GPT-Audio OpenAI | 49,2 % | 36,5 % | n. v. | 50,87 € | 8× | MULTI | API |
Warum ein Durchschnitt lügt.
Jedes Dataset misst eine andere Schwierigkeit — von sauber vorgelesenen Sätzen bis zu frei gesprochener Rede. Ein gemittelter WER mischt alles und verschweigt, wofür ein Modell wirklich taugt. Keines dieser Sets ist ein echtes Meeting; zusammen sind sie eine Untergrenze für die deutsche Wortfehlerrate.
Vorgelesene Sätze aus dem Google FLEURS-Datensatz. Sauber artikuliert, kontrollierte Aufnahmebedingungen — misst die Grundgenauigkeit auf klarer Lesesprache.
Multilingual LibriSpeech — professionell eingelesene Hörbücher. Lange, sauber gelesene Passagen, neben FLEURS die einfachste Disziplin. Modelle, die mit spontaner Sprache kämpfen, holen sich hier ihre Punkte zurück — deshalb lügt der Gesamtdurchschnitt.
Der meistzitierte deutsche ASR-Benchmark (flozi00 & primeLine): CommonVoice-Aufnahmen und Hörbücher, neu transkribiert. Gemischte Quellen, aber durchweg gelesene Sprache — schwerer als reine Lesesätze, jedoch nicht spontan und kein Meeting. Ein allgemeines Genauigkeits-Signal.
Frei gesprochene Parlamentsreden mit Saalakustik, Versprechern und Fülllauten. Von den vier am nächsten an echtem gesprochenem Deutsch — formell und kein Meeting, aber der realistischste Test hier.
Eine Zahl verschweigt zu viel.
Wir messen auf mehreren unabhängigen Achsen — damit du das Modell nach deinem Trade-off wählst, nicht nach einem gemittelten Gesamtwert.
Genauigkeit WER · CER
Wie viele Wörter (WER) bzw. Zeichen (CER) das Modell falsch versteht. Niedriger ist besser — gemessen pro Dataset, nicht als ein gemittelter Wert.
Tempo RTFx
Wie viele Minuten Audio pro Minute Rechenzeit durchlaufen. 10× heißt: 10 Minuten Meeting in 1 Minute transkribiert.
Wer hat wann gesprochen DER
Ordnet jeden Satz dem richtigen Sprecher zu. Weil Raven jeden Teilnehmer auf einer eigenen Spur aufnimmt, kennen wir die richtige Antwort exakt — kein geschätztes Referenz-Audio.
Vier Prinzipien. Keine Ausreden.
Eigene Messungen
Keine Hersteller-Zahlen, jedes Modell selbst getestet — auf identischem Audio und mit identischer Metrik.
Echtes deutsches Audio
Parlamentsreden, vorgelesene Sätze, Hörbücher und gemischte Quellen — echte Aufnahmen statt synthetischer Testsätze, von sauberer Lesesprache bis frei gesprochener Rede.
Ein Verfahren für alle
Self-hosted und kommerzielle APIs, gleiche Daten, gleiche Metriken. Wo Messungen fehlen, zeigen wir leere Zellen statt geglätteter Durchschnitte.
Offene Methodik
Aufbau und Daten sind nachvollziehbar und reproduzierbar. Jede Zahl ist auf ihr Dataset zurückführbar.
Bester gemessener WER über alle vier Datasets: 4,1 %. Kosten je 1000 Min. von 0,08 € bis 50,87 €, Tempo bis 36× Echtzeit.
Willst du wissen, welches Modell deine Meetings am besten versteht?
Raven nimmt jeden Sprecher auf einer eigenen Spur auf, routet automatisch zum passenden Modell und hält die Auswertung in Deutschland. Dieselbe Mess-Disziplin, die du oben siehst — angewendet auf dein echtes Audio.










