D
DeepSeek API-Leitfaden

DeepSeek V4 auf TokenHub — OpenAI-kompatible Thinking-model

Rufe die 2026er Flaggschiff-V4-Serie von DeepSeek (V4-Pro und V4-Flash) über den einheitlichen TokenHub /chat/completions-Endpunkt auf. Vollständig OpenAI-kompatibel — das offizielle openai SDK funktioniert sofort ohne Anpassungen. Streaming, Tool-Nutzung und Thinking-Modus mit reasoning_content werden unterstützt. 1M Kontextfenster, 384K max_tokens Ausgabe, nutzungsbasierte Abrechnung pro Token zu den Katalogpreisen von DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1API Key erhalten

  1. Besuche tokenhub.store und registriere ein Konto (GitHub-/Google-Anmeldung unterstützt)
  2. Gehe zu Dashboard → API Keys und klicke auf "Create New Key"
  3. Gehe zu Dashboard → Billing, um Credits aufzuladen (1 Credit = 1 USD)
  4. Kopiere den API Key (Format: th-xxxxxxxxxxxx...)
⚠️ Der API Key wird nur einmal bei der Erstellung angezeigt. Speichere ihn sicher; falls er verloren geht, erstelle einen neuen.

2API-Übersicht

Base URL

https://tokenhub.store/api/v1

Authentifizierung

Übergebe den API Key im Authorization-Header:

Header
Authorization: Bearer th-your-api-key

Endpunkt (OpenAI-kompatibel)

POST
/chat/completions

Chat Completion. Gleiches Schema wie OpenAI /v1/chat/completions, mit Streaming, Tools, JSON-Modus und DeepSeek-spezifischen Thinking-Feldern.

Direkt mit dem offiziellen openai SDK nutzbar — setze einfach base_url auf TokenHub und verwende deinen TokenHub API Key. Keine weiteren Codeänderungen erforderlich.

3Modelle & Preise

Die Preise gelten pro 1 Million Tokens (USD) basierend auf dem Listenpreis aus dem DeepSeek-Katalog (ohne angewendeten Aktionsrabatt). Sowohl die kanonische ID als auch der deepseek/*-Alias werden akzeptiert. Die Abrechnung verwendet die vom Upstream zurückgegebenen completion_tokens (die reasoning_tokens bereits enthalten).

Stufemodel-IDEingabeAusgabeHinweise
V4-Prodeepseek-v4-pro$1.80$3.602026 Top-Tier-Flaggschiff. Beste Qualität für Reasoning & Coding.
V4-Flashdeepseek-v4-flash$0.15$0.30Ultrakosteneffizientes Flaggschiff, etwa 12× günstiger als Pro; eine großartige Standardwahl für die Produktion.

4Anfrageparameter

ParameterTypErforderlichStandardBeschreibung
modelstringErforderlichDeepSeek V4 model-ID. Beispiel: "deepseek/deepseek-v4-flash".
messagesarrayErforderlichChatverlauf. Jedes Element ist { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerOptionalupstream defaultMaximale Ausgabe-Tokens. Wenn nicht angegeben, verwendet DeepSeek den Upstream-Standardwert (bis zu 384K). Im Thinking-Modus ENTHÄLT der Zähler reasoning_tokens — daher nicht zu klein setzen.
temperaturenumberOptional1.0Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_pnumberOptional1.0Nucleus-Sampling. Verwenden Sie temperature ODER top_p, nicht beides.
streambooleanOptionalfalseWenn true, werden Server-Sent Events (SSE)-Deltas zurückgegeben.
thinkingobjectOptional{type:'enabled'}DeepSeek-spezifisch. Übergeben Sie { type: 'disabled' } über extra_body, um die Reasoning-Phase für schnellere/günstigere Antworten zu überspringen. Standard: aktiviert.
reasoning_effortstringOptionalmediumThinking-Tiefe: low | medium | high. Höher = mehr Reasoning-Tokens, bessere Qualität, höhere Kosten.
toolsarrayOptionalListe der Tool-/Funktionsdefinitionen für die Tool-Nutzung (Function Calling).
tool_choicestring|objectOptionalautoSteuern Sie die Tool-Auswahl: auto | none | required | { type:'function', function:{ name } }.
response_formatobjectOptionalJSON-Modus: { "type": "json_object" } erzwingt, dass das model gültiges JSON zurückgibt.

5curl-Beispiele

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Python-Beispiel

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7JavaScript / Node.js-Beispiel

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Thinking Mode im Detail

DeepSeek V4 öffnet vor der endgültigen Antwort eine dedizierte Reasoning-Phase. Das sollten Sie wissen:

  • reasoning_content wird als SEPARATES Feld in der Assistant-Nachricht zurückgegeben (nicht innerhalb von content). Geben Sie es in Folgeturns nicht wieder zurück.
  • completion_tokens in usage enthält bereits reasoning_tokens — darauf rechnen wir ebenfalls ab. Prüfen Sie completion_tokens_details.reasoning_tokens, um zu sehen, wie viel in das Thinking geflossen ist.
  • Wenn max_tokens im Thinking-Modus zu niedrig gesetzt ist, führt das zu leerem content (alle Tokens werden vom Reasoning verbraucht). Lassen Sie es unset oder geben Sie mindestens 2000+ an.
  • Deaktivieren via extra_body: { thinking: { type: 'disabled' } } für latenzkritische Szenarien (Chat, Klassifizierung, einfache Extraktion).
  • reasoning_effort: 'low' | 'medium' | 'high' steuert, wie viel das model nachdenkt. 'high' liefert die besten Ergebnisse bei Mathematik/Coding; 'low' ist schneller.
  • Prompt Caching: Wenn Sie denselben System-Prompt wiederverwenden, gibt DeepSeek prompt_cache_hit_tokens separat zurück. TokenHub berechnet derzeit einheitlich zum Miss-Rate-Tarif ab (eine kleine Überberechnung im Austausch für vorhersehbare Preise).

9FAQ

Bereit zu starten?

Registrieren Sie sich bei TokenHub und beginnen Sie, DeepSeek V4 über unsere OpenAI-compatible API aufzurufen