Modelle
Sieben Tiers, alle Open-Source, alle in der EU gehostet.
SovrGPT routet jede Anfrage auf einen selbst gehosteten Serverless-Inferenz-Endpunkt in einer EU-Region. Es gibt keinen US-Proxy oder US-Gateway im kritischen Pfad. Die Endpunkte skalieren auf null herunter, wenn sie nicht gebraucht werden — was den Preis drückt, aber Cold-Starts erzeugt.
Aktueller Katalog (Stand 2026-05)
| Tier | Modell-ID | HF-Quelle | Lizenz | Cold-Start |
|---|---|---|---|---|
default | qwen3.5-9b | Qwen/Qwen3.5-9B | Apache 2.0 | ~30–90 s |
balanced | qwen3.6-27b | Qwen/Qwen3.6-27B | Apache 2.0 | ~60–180 s |
premium | qwen3.5-35b-a3b | Qwen/Qwen3.5-35B-A3B (MoE) | Apache 2.0 | ~90–240 s |
reasoning | qwen3.5-9b-deepseek-v4-flash | Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash | Apache 2.0 | ~60–180 s |
vision | gemma-4-26b-a4b | google/gemma-4-26B-A4B-it | Apache 2.0 | ~60–180 s |
coder | qwen3-coder-next-fp8 | Qwen/Qwen3-Coder-Next-FP8 (MoE) | Apache 2.0 | ~8–15 min |
llama | llama-3.1-8b | NousResearch/Meta-Llama-3.1-8B-Instruct | Llama Community | ~60–180 s |
Live-Stand jederzeit über GET /api/v1/models abrufbar — siehe API-Referenz.
Embedding- & Rerank-Modelle (RAG)
Für Retrieval-Augmented-Generation-Pipelines stehen zusätzlich Embedding- und
Rerank-Modelle bereit — ebenfalls vollständig EU-souverän auf RunPod, ohne
US-Proxy. Adressierbar über die OpenAI-kompatible POST /api/v1/embeddings-
und die Cohere-kompatible POST /api/v1/rerank-Route.
| Typ | Modell-ID | HF-Quelle | Lizenz | Dimensionen |
|---|---|---|---|---|
| Embedding | bge-m3 | BAAI/bge-m3 | MIT | 1024 |
| Embedding | nomic-embed-code | nomic-ai/nomic-embed-code | Apache 2.0 | 3584 |
| Rerank | bge-reranker-base | BAAI/bge-reranker-base | Apache 2.0 | — |
bge-m3— Mehrsprachiges Dense-Embedding mit starker deutscher Retrieval-Qualität. Standard-Embedder; OpenAI-Aliase wietext-embedding-3-smallwerden automatisch hierauf gemappt.nomic-embed-code— Code-spezialisiertes Embedding für Repository-Suche und Code-RAG.bge-reranker-base— Cross-Encoder, der eine Kandidatenliste nach Relevanz zu einer Query neu ordnet. Ideal als zweite Stufe nach einer Embedding-Suche.
Diese Modelle sind ebenfalls Scale-to-Zero (Cold-Start 1–4 min, Modell-Pull) und
erscheinen mit kind: "embedding" bzw. kind: "rerank" in GET /api/v1/models.
Welches Modell wofür?
- Default (
qwen3.5-9b) — Schnellantworten, Boilerplate, einfache Code-Aufgaben, deutsche Texte. Erste Wahl für interaktive Chats. - Balanced (
qwen3.6-27b) — Mehr Argumentationstiefe, längere Texte, anspruchsvolleres Coding. Für Anwendungen, bei denen Qualität vor Latenz geht. - Premium (
qwen3.5-35b-a3b) — Mixture-of-Experts: 35 B Parameter, aber nur 3 B aktiv pro Token. Liefert Qualität nahe 70B-Modellen zu deutlich geringeren GPU-Kosten. - Reasoning (
qwen3.5-9b-deepseek-v4-flash) — DeepSeek-V4-Distill auf Qwen-Backbone. Gibt sichtbare<think>…</think>-Schritte aus, geeignet für Mathematik, Logik, Schritt-für-Schritt-Auswertungen. - Vision (
gemma-4-26b-a4b) — Liest Bilder im Chat (PNG/JPG/WebP). Multimodal in Englisch sehr stark, in Deutsch sehr gut. - Coder (
qwen3-coder-next-fp8) — 80B-Hybrid-MoE mit 3B aktiven Parametern (FP8, 2× H100 Tensor-Parallel). Spezialisiert auf agentic Code-Aufgaben mit nativemqwen3_coder-Tool-Parser. Ideal als Backend für Cursor/Copilot-artige Workflows oder Repository-weite Refactors. 32k Kontext. Cold-Start lang (8–15 min) — für Production-Workloads den Warmup-Pin oder Scheduled-Pin nutzen. - Llama (
llama-3.1-8b) — Llama-spezifische Workloads, Re-Train-Vergleiche oder bei Lizenz-Vorgaben „Built with Llama".
Cold-Start verstehen
- Warm: Modell ist auf einem GPU-Worker geladen, Antwort < 5 s.
- Cold: Worker muss neu hochfahren, Image laden, Modell-Weights pullen — je nach Modell 30 s bis 5 Minuten.
- Pay-per-use: Während Idle-Zeit kostet das Modell nichts. Aber: Erste Anfrage nach längerer Pause ist langsam. Für Production-Cron-Jobs empfehlen wir, einen Warm-Up-Call vorzuschalten.
Tools im Chat
Diese Werkzeuge sind unabhängig vom Modell verfügbar:
- Web-Suche — Brave-Search-API, EU-konform, 2 000 Anfragen/Monat im Free-Tier.
- Bild-Generierung — Z-Image-Turbo (schnell) oder FLUX.2-klein (höhere Qualität), beides Apache 2.0, EU-gehostet.
- Video-Generierung — LTX-Video 2B (OpenRAIL-M), 5–8 s Clips bei 768×512.
- Marketplace-Connectoren — Über 20 vorkonfigurierte MCP-Server (siehe Marketplace).
Umgang mit Tokens, Quoten, Limits
- Standard-Plan: faire Nutzung, kein hartes Token-Limit.
- Enterprise-Plan: dedizierte GPU-Worker (kein Cold-Start), garantierte Latenz, separate Vertragsanlage.
- API-Calls werden pro Org abgerechnet — nicht pro User.
Die genauen Pricing-Stufen liegen unter /settings/usage (eingeloggt) und im Vertrag mit eNetworkers.