DeepSeek API-Leitfaden

DeepSeek V4 auf TokenHub — OpenAI-kompatible Thinking-model

Rufe die 2026er Flaggschiff-V4-Serie von DeepSeek (V4-Pro und V4-Flash) über den einheitlichen TokenHub /chat/completions-Endpunkt auf. Vollständig OpenAI-kompatibel — das offizielle openai SDK funktioniert sofort ohne Anpassungen. Streaming, Tool-Nutzung und Thinking-Modus mit reasoning_content werden unterstützt. 1M Kontextfenster, 384K max_tokens Ausgabe, nutzungsbasierte Abrechnung pro Token zu den Katalogpreisen von DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1API Key erhalten

Besuche tokenhub.store und registriere ein Konto (GitHub-/Google-Anmeldung unterstützt)
Gehe zu Dashboard → API Keys und klicke auf "Create New Key"
Gehe zu Dashboard → Billing, um Credits aufzuladen (1 Credit = 1 USD)
Kopiere den API Key (Format: th-xxxxxxxxxxxx...)

⚠️ Der API Key wird nur einmal bei der Erstellung angezeigt. Speichere ihn sicher; falls er verloren geht, erstelle einen neuen.

2API-Übersicht

Base URL

https://tokenhub.store/api/v1

Authentifizierung

Übergebe den API Key im Authorization-Header:

Header

Authorization: Bearer th-your-api-key

Endpunkt (OpenAI-kompatibel)

POST

/chat/completions

Chat Completion. Gleiches Schema wie OpenAI /v1/chat/completions, mit Streaming, Tools, JSON-Modus und DeepSeek-spezifischen Thinking-Feldern.

Direkt mit dem offiziellen openai SDK nutzbar — setze einfach base_url auf TokenHub und verwende deinen TokenHub API Key. Keine weiteren Codeänderungen erforderlich.

3Modelle & Preise

Die Preise gelten pro 1 Million Tokens (USD) basierend auf dem Listenpreis aus dem DeepSeek-Katalog (ohne angewendeten Aktionsrabatt). Sowohl die kanonische ID als auch der deepseek/*-Alias werden akzeptiert. Die Abrechnung verwendet die vom Upstream zurückgegebenen completion_tokens (die reasoning_tokens bereits enthalten).

Stufe	model-ID	Eingabe	Ausgabe	Hinweise
V4-Pro	deepseek-v4-pro	$1.80	$3.60	2026 Top-Tier-Flaggschiff. Beste Qualität für Reasoning & Coding.
V4-Flash	deepseek-v4-flash	$0.15	$0.30	Ultrakosteneffizientes Flaggschiff, etwa 12× günstiger als Pro; eine großartige Standardwahl für die Produktion.

4Anfrageparameter

Parameter	Typ	Erforderlich	Standard	Beschreibung
model	string	Erforderlich	—	DeepSeek V4 model-ID. Beispiel: "deepseek/deepseek-v4-flash".
messages	array	Erforderlich	—	Chatverlauf. Jedes Element ist { role, content }. role ∈ system \| user \| assistant \| tool.
max_tokens	integer	Optional	upstream default	Maximale Ausgabe-Tokens. Wenn nicht angegeben, verwendet DeepSeek den Upstream-Standardwert (bis zu 384K). Im Thinking-Modus ENTHÄLT der Zähler reasoning_tokens — daher nicht zu klein setzen.
temperature	number	Optional	1.0	Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_p	number	Optional	1.0	Nucleus-Sampling. Verwenden Sie temperature ODER top_p, nicht beides.
stream	boolean	Optional	false	Wenn true, werden Server-Sent Events (SSE)-Deltas zurückgegeben.
thinking	object	Optional	{type:'enabled'}	DeepSeek-spezifisch. Übergeben Sie { type: 'disabled' } über extra_body, um die Reasoning-Phase für schnellere/günstigere Antworten zu überspringen. Standard: aktiviert.
reasoning_effort	string	Optional	medium	Thinking-Tiefe: low \| medium \| high. Höher = mehr Reasoning-Tokens, bessere Qualität, höhere Kosten.
tools	array	Optional	—	Liste der Tool-/Funktionsdefinitionen für die Tool-Nutzung (Function Calling).
tool_choice	string\|object	Optional	auto	Steuern Sie die Tool-Auswahl: auto \| none \| required \| { type:'function', function:{ name } }.
response_format	object	Optional	—	JSON-Modus: { "type": "json_object" } erzwingt, dass das model gültiges JSON zurückgibt.

5curl-Beispiele

bash

curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Python-Beispiel

python

from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7JavaScript / Node.js-Beispiel

typescript

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Thinking Mode im Detail

DeepSeek V4 öffnet vor der endgültigen Antwort eine dedizierte Reasoning-Phase. Das sollten Sie wissen:

reasoning_content wird als SEPARATES Feld in der Assistant-Nachricht zurückgegeben (nicht innerhalb von content). Geben Sie es in Folgeturns nicht wieder zurück.
completion_tokens in usage enthält bereits reasoning_tokens — darauf rechnen wir ebenfalls ab. Prüfen Sie completion_tokens_details.reasoning_tokens, um zu sehen, wie viel in das Thinking geflossen ist.
Wenn max_tokens im Thinking-Modus zu niedrig gesetzt ist, führt das zu leerem content (alle Tokens werden vom Reasoning verbraucht). Lassen Sie es unset oder geben Sie mindestens 2000+ an.
Deaktivieren via extra_body: { thinking: { type: 'disabled' } } für latenzkritische Szenarien (Chat, Klassifizierung, einfache Extraktion).
reasoning_effort: 'low' | 'medium' | 'high' steuert, wie viel das model nachdenkt. 'high' liefert die besten Ergebnisse bei Mathematik/Coding; 'low' ist schneller.
Prompt Caching: Wenn Sie denselben System-Prompt wiederverwenden, gibt DeepSeek prompt_cache_hit_tokens separat zurück. TokenHub berechnet derzeit einheitlich zum Miss-Rate-Tarif ab (eine kleine Überberechnung im Austausch für vorhersehbare Preise).

9FAQ

Bereit zu starten?

Registrieren Sie sich bei TokenHub und beginnen Sie, DeepSeek V4 über unsere OpenAI-compatible API aufzurufen

Credits aufladen API Key erhalten