Modelle

SovrGPT routet jede Anfrage auf einen selbst gehosteten Serverless-Inferenz-Endpunkt in einer EU-Region. Es gibt keinen US-Proxy oder US-Gateway im kritischen Pfad. Die Endpunkte skalieren auf null herunter, wenn sie nicht gebraucht werden — was den Preis drückt, aber Cold-Starts erzeugt.

Der Katalog umfasst vier Modell-Klassen, alle EU-souverän:

Sprach-Modelle (LLMs) — sieben Tiers für Chat, Reasoning, Vision und Code.
Embeddings & Re-Ranker — für Retrieval-Augmented-Generation (RAG).
Text-to-Speech (TTS) — supertonic-3, self-hosted in der EU.
Speech-to-Text (STT) — Voxtral (Mistral, Paris/EU).

Alle vier sind über die OpenAI-kompatible API adressierbar und im Chat direkt nutzbar.

Aktueller Katalog (Stand 2026-05)

Tier	Modell-ID	HF-Quelle	Lizenz	Cold-Start
`default`	`qwen3.5-9b`	`Qwen/Qwen3.5-9B`	Apache 2.0	~30–90 s
`balanced`	`qwen3.6-27b`	`Qwen/Qwen3.6-27B`	Apache 2.0	~60–180 s
`premium`	`qwen3.5-35b-a3b`	`Qwen/Qwen3.5-35B-A3B` (MoE)	Apache 2.0	~90–240 s
`reasoning`	`qwen3.5-9b-deepseek-v4-flash`	`Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash`	Apache 2.0	~60–180 s
`vision`	`gemma-4-26b-a4b`	`google/gemma-4-26B-A4B-it`	Apache 2.0	~60–180 s
`coder`	`qwen3-coder-next-fp8`	`Qwen/Qwen3-Coder-Next-FP8` (MoE)	Apache 2.0	~8–15 min
`llama`	`llama-3.1-8b`	`NousResearch/Meta-Llama-3.1-8B-Instruct`	Llama Community	~60–180 s

Live-Stand jederzeit über GET /api/v1/models abrufbar — siehe API-Referenz.

Embedding- & Rerank-Modelle (RAG)

Für Retrieval-Augmented-Generation-Pipelines stehen zusätzlich Embedding- und Rerank-Modelle bereit — ebenfalls vollständig EU-souverän auf RunPod, ohne US-Proxy. Adressierbar über die OpenAI-kompatible POST /api/v1/embeddings- und die Cohere-kompatible POST /api/v1/rerank-Route.

Typ	Modell-ID	HF-Quelle	Lizenz	Dimensionen
Embedding	`bge-m3`	`BAAI/bge-m3`	MIT	1024
Embedding	`nomic-embed-code`	`nomic-ai/nomic-embed-code`	Apache 2.0	3584
Rerank	`bge-reranker-base`	`BAAI/bge-reranker-base`	Apache 2.0	—

bge-m3 — Mehrsprachiges Dense-Embedding mit starker deutscher Retrieval-Qualität. Standard-Embedder; OpenAI-Aliase wie text-embedding-3-small werden automatisch hierauf gemappt.
nomic-embed-code — Code-spezialisiertes Embedding für Repository-Suche und Code-RAG.
bge-reranker-base — Cross-Encoder, der eine Kandidatenliste nach Relevanz zu einer Query neu ordnet. Ideal als zweite Stufe nach einer Embedding-Suche.

Diese Modelle sind ebenfalls Scale-to-Zero (Cold-Start 1–4 min, Modell-Pull) und erscheinen mit kind: "embedding" bzw. kind: "rerank" in GET /api/v1/models.

Sprache: Speech-to-Text & Text-to-Speech (Voice)

SovrGPT spricht und hört — beides EU-souverän. Im Chat über das Mikrofon-Symbol (Diktat statt Tippen) und den Lautsprecher-Button („Vorlesen") an jeder Antwort; programmatisch über die OpenAI-kompatible Audio-API.

Funktion	Modell-ID	Anbieter / Hosting	Sprachen	Kann
TTS — schnell	`supertonic-3`	self-hosted, Railway `europe-west4`	31 inkl. Deutsch	10 feste Stimmen, kein Cold-Start
TTS — expressiv + Cloning	`cosyvoice-3`	self-hosted, RunPod-EU (GPU)	Deutsch nativ (+ en/fr/es/it/ru/…)	Emotion, Inline-Tags, eigene Stimme klonen
TTS — Alternative	`voxtral-mini-tts`	Mistral, Paris (DSGVO)	mehrsprachig	Fallback
Speech-to-Text (STT)	`voxtral-mini-transcribe`	Mistral, Paris (DSGVO)	mehrsprachig inkl. Deutsch	Diktat/Transkription

TTS — Supertonic 3 (Standard): ein ~99M-Parameter-ONNX-Modell, das vollständig auf SovrGPT-Infrastruktur in der EU läuft (kein Dritt-SaaS). Zehn Stimmen (M1–M5 männlich, F1–F5 weiblich), mit Expression-Tags (<breath>, <sigh>) inline. Ausgabe wav/flac/ogg. Kein Cold-Start — erste Wahl für schnelle, feste Ansagen.
TTS — CosyVoice 3 (expressiv, Apache 2.0): GPU-Modell auf RunPod-EU, nativ Deutsch (inkl. korrektem „ü"). Kann, was Supertonic nicht kann:
- Inline-Tags mitten im Text: [laughter], [breath], <laughter>…</laughter>, <strong>…</strong> (Betonung).
- Emotion / Sprechstil per natürlichsprachiger Anweisung (emotion: "Sprich sehr traurig und langsam.").
- Zero-Shot-Voice-Cloning: eine eigene Stimme aus einem Referenzclip (≤ 30 s) klonen — kein Training. Eingebaute Stimme: de-thorsten.
- Opt-in via provider: "cosyvoice". Scale-to-zero: warm ~6 s, Cold-Start möglich. Kein eingebautes Wasserzeichen → KI-Kennzeichnung auf Anwendungsebene. Voll dokumentiert in der Audio-API.
STT — Voxtral (Mistral, Paris): mehrsprachige Transkription mit starker deutscher Qualität, DSGVO-konform in der EU gehostet. (Ein voll self-hosted STT-Pfad — faster-whisper auf RunPod-EU — ist in Vorbereitung.)
Provider-Wahl: supertonic (Default), cosyvoice (expressiv/Cloning) und mistral (Fallback) — pro Request über das provider-Feld wählbar; ohne Angabe entscheidet der Server-Default (Supertonic). Alle erscheinen mit kind: "tts" bzw. kind: "stt" in GET /api/v1/models.

Vollständige API-Beispiele (curl + SDK): Audio-API.

Welches Modell wofür?

Default (qwen3.5-9b) — Schnellantworten, Boilerplate, einfache Code-Aufgaben, deutsche Texte. Erste Wahl für interaktive Chats.
Balanced (qwen3.6-27b) — Mehr Argumentationstiefe, längere Texte, anspruchsvolleres Coding. Für Anwendungen, bei denen Qualität vor Latenz geht.
Premium (qwen3.5-35b-a3b) — Mixture-of-Experts: 35 B Parameter, aber nur 3 B aktiv pro Token. Liefert Qualität nahe 70B-Modellen zu deutlich geringeren GPU-Kosten.
Reasoning (qwen3.5-9b-deepseek-v4-flash) — DeepSeek-V4-Distill auf Qwen-Backbone. Gibt sichtbare <think>…</think>-Schritte aus, geeignet für Mathematik, Logik, Schritt-für-Schritt-Auswertungen.
Vision (gemma-4-26b-a4b) — Liest Bilder im Chat (PNG/JPG/WebP). Multimodal in Englisch sehr stark, in Deutsch sehr gut.
Coder (qwen3-coder-next-fp8) — 80B-Hybrid-MoE mit 3B aktiven Parametern (FP8, 2× H100 Tensor-Parallel). Spezialisiert auf agentic Code-Aufgaben mit nativem qwen3_coder-Tool-Parser. Ideal als Backend für Cursor/Copilot-artige Workflows oder Repository-weite Refactors. 32k Kontext. Cold-Start lang (8–15 min) — für Production-Workloads den Warmup-Pin oder Scheduled-Pin nutzen.
Llama (llama-3.1-8b) — Llama-spezifische Workloads, Re-Train-Vergleiche oder bei Lizenz-Vorgaben „Built with Llama".

Cold-Start verstehen

Warm: Modell ist auf einem GPU-Worker geladen, Antwort < 5 s.
Cold: Worker muss neu hochfahren, Image laden, Modell-Weights pullen — je nach Modell 30 s bis 5 Minuten.
Pay-per-use: Während Idle-Zeit kostet das Modell nichts. Aber: Erste Anfrage nach längerer Pause ist langsam. Für Production-Cron-Jobs empfehlen wir, einen Warm-Up-Call vorzuschalten.

Tools im Chat

Diese Werkzeuge sind unabhängig vom Modell verfügbar:

Web-Suche — Brave-Search-API, EU-konform, 2 000 Anfragen/Monat im Free-Tier.
Bild-Generierung — Z-Image-Turbo (schnell) oder FLUX.2-klein (höhere Qualität), beides Apache 2.0, EU-gehostet.
Video-Generierung — LTX-Video 2B (OpenRAIL-M), 5–8 s Clips bei 768×512.
Marketplace-Connectoren — Über 20 vorkonfigurierte MCP-Server (siehe Marketplace).

Umgang mit Tokens, Quoten, Limits

Standard-Plan: faire Nutzung, kein hartes Token-Limit.
Enterprise-Plan: dedizierte GPU-Worker (kein Cold-Start), garantierte Latenz, separate Vertragsanlage.
API-Calls werden pro Org abgerechnet — nicht pro User.

Die genauen Pricing-Stufen liegen unter /settings/usage (eingeloggt) und im Vertrag mit eNetworkers.