SovrGPT Docs

Modelle

Sieben Tiers, alle Open-Source, alle in der EU gehostet.

SovrGPT routet jede Anfrage auf einen selbst gehosteten Serverless-Inferenz-Endpunkt in einer EU-Region. Es gibt keinen US-Proxy oder US-Gateway im kritischen Pfad. Die Endpunkte skalieren auf null herunter, wenn sie nicht gebraucht werden — was den Preis drückt, aber Cold-Starts erzeugt.

Aktueller Katalog (Stand 2026-05)

TierModell-IDHF-QuelleLizenzCold-Start
defaultqwen3.5-9bQwen/Qwen3.5-9BApache 2.0~30–90 s
balancedqwen3.6-27bQwen/Qwen3.6-27BApache 2.0~60–180 s
premiumqwen3.5-35b-a3bQwen/Qwen3.5-35B-A3B (MoE)Apache 2.0~90–240 s
reasoningqwen3.5-9b-deepseek-v4-flashJackrong/Qwen3.5-9B-DeepSeek-V4-FlashApache 2.0~60–180 s
visiongemma-4-26b-a4bgoogle/gemma-4-26B-A4B-itApache 2.0~60–180 s
coderqwen3-coder-next-fp8Qwen/Qwen3-Coder-Next-FP8 (MoE)Apache 2.0~8–15 min
llamallama-3.1-8bNousResearch/Meta-Llama-3.1-8B-InstructLlama Community~60–180 s

Live-Stand jederzeit über GET /api/v1/models abrufbar — siehe API-Referenz.

Embedding- & Rerank-Modelle (RAG)

Für Retrieval-Augmented-Generation-Pipelines stehen zusätzlich Embedding- und Rerank-Modelle bereit — ebenfalls vollständig EU-souverän auf RunPod, ohne US-Proxy. Adressierbar über die OpenAI-kompatible POST /api/v1/embeddings- und die Cohere-kompatible POST /api/v1/rerank-Route.

TypModell-IDHF-QuelleLizenzDimensionen
Embeddingbge-m3BAAI/bge-m3MIT1024
Embeddingnomic-embed-codenomic-ai/nomic-embed-codeApache 2.03584
Rerankbge-reranker-baseBAAI/bge-reranker-baseApache 2.0
  • bge-m3 — Mehrsprachiges Dense-Embedding mit starker deutscher Retrieval-Qualität. Standard-Embedder; OpenAI-Aliase wie text-embedding-3-small werden automatisch hierauf gemappt.
  • nomic-embed-code — Code-spezialisiertes Embedding für Repository-Suche und Code-RAG.
  • bge-reranker-base — Cross-Encoder, der eine Kandidatenliste nach Relevanz zu einer Query neu ordnet. Ideal als zweite Stufe nach einer Embedding-Suche.

Diese Modelle sind ebenfalls Scale-to-Zero (Cold-Start 1–4 min, Modell-Pull) und erscheinen mit kind: "embedding" bzw. kind: "rerank" in GET /api/v1/models.

Welches Modell wofür?

  • Default (qwen3.5-9b) — Schnellantworten, Boilerplate, einfache Code-Aufgaben, deutsche Texte. Erste Wahl für interaktive Chats.
  • Balanced (qwen3.6-27b) — Mehr Argumentationstiefe, längere Texte, anspruchsvolleres Coding. Für Anwendungen, bei denen Qualität vor Latenz geht.
  • Premium (qwen3.5-35b-a3b) — Mixture-of-Experts: 35 B Parameter, aber nur 3 B aktiv pro Token. Liefert Qualität nahe 70B-Modellen zu deutlich geringeren GPU-Kosten.
  • Reasoning (qwen3.5-9b-deepseek-v4-flash) — DeepSeek-V4-Distill auf Qwen-Backbone. Gibt sichtbare <think>…</think>-Schritte aus, geeignet für Mathematik, Logik, Schritt-für-Schritt-Auswertungen.
  • Vision (gemma-4-26b-a4b) — Liest Bilder im Chat (PNG/JPG/WebP). Multimodal in Englisch sehr stark, in Deutsch sehr gut.
  • Coder (qwen3-coder-next-fp8) — 80B-Hybrid-MoE mit 3B aktiven Parametern (FP8, 2× H100 Tensor-Parallel). Spezialisiert auf agentic Code-Aufgaben mit nativem qwen3_coder-Tool-Parser. Ideal als Backend für Cursor/Copilot-artige Workflows oder Repository-weite Refactors. 32k Kontext. Cold-Start lang (8–15 min) — für Production-Workloads den Warmup-Pin oder Scheduled-Pin nutzen.
  • Llama (llama-3.1-8b) — Llama-spezifische Workloads, Re-Train-Vergleiche oder bei Lizenz-Vorgaben „Built with Llama".

Cold-Start verstehen

  • Warm: Modell ist auf einem GPU-Worker geladen, Antwort < 5 s.
  • Cold: Worker muss neu hochfahren, Image laden, Modell-Weights pullen — je nach Modell 30 s bis 5 Minuten.
  • Pay-per-use: Während Idle-Zeit kostet das Modell nichts. Aber: Erste Anfrage nach längerer Pause ist langsam. Für Production-Cron-Jobs empfehlen wir, einen Warm-Up-Call vorzuschalten.

Tools im Chat

Diese Werkzeuge sind unabhängig vom Modell verfügbar:

  • Web-Suche — Brave-Search-API, EU-konform, 2 000 Anfragen/Monat im Free-Tier.
  • Bild-Generierung — Z-Image-Turbo (schnell) oder FLUX.2-klein (höhere Qualität), beides Apache 2.0, EU-gehostet.
  • Video-Generierung — LTX-Video 2B (OpenRAIL-M), 5–8 s Clips bei 768×512.
  • Marketplace-Connectoren — Über 20 vorkonfigurierte MCP-Server (siehe Marketplace).

Umgang mit Tokens, Quoten, Limits

  • Standard-Plan: faire Nutzung, kein hartes Token-Limit.
  • Enterprise-Plan: dedizierte GPU-Worker (kein Cold-Start), garantierte Latenz, separate Vertragsanlage.
  • API-Calls werden pro Org abgerechnet — nicht pro User.

Die genauen Pricing-Stufen liegen unter /settings/usage (eingeloggt) und im Vertrag mit eNetworkers.

Modelle