Appelez la série V4 phare 2026 de DeepSeek (V4-Pro et V4-Flash) via le point de terminaison unifié /chat/completions de TokenHub. Totalement OpenAI-compatible — le SDK openai officiel fonctionne immédiatement. Le streaming, l’usage des outils et le mode de réflexion avec reasoning_content sont tous pris en charge. Fenêtre de contexte de 1M, sortie max de 384K, facturation par Token au tarif du catalogue DeepSeek.
th-xxxxxxxxxxxx...)https://tokenhub.store/api/v1Passez l’API Key dans l’en-tête Authorization :
Authorization: Bearer th-your-api-keyPOST/chat/completionsComplétion de chat. Même schéma que OpenAI /v1/chat/completions, avec streaming, tools, mode JSON et champs de réflexion spécifiques à DeepSeek.
La tarification est calculée par 1 million de Tokens (USD), selon le prix catalogue DeepSeek (aucune remise promotionnelle appliquée). L’identifiant canonique et l’alias deepseek/* sont tous deux acceptés. La facturation utilise les completion_tokens renvoyés par l’upstream (qui incluent déjà reasoning_tokens).
| Niveau | ID du model | Entrée | Sortie | Notes |
|---|---|---|---|---|
| V4-Pro | deepseek-v4-pro | $1.80 | $3.60 | Flagship haut de gamme 2026. Meilleure qualité de raisonnement et de code. |
| V4-Flash | deepseek-v4-flash | $0.15 | $0.30 | Flagship ultra rentable, environ 12× moins cher que Pro ; excellent choix par défaut pour la production. |
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
| model | string | Obligatoire | — | ID du model DeepSeek V4. Exemple : "deepseek/deepseek-v4-flash". |
| messages | array | Obligatoire | — | Historique du chat. Chaque élément est { role, content }. role ∈ system | user | assistant | tool. |
| max_tokens | integer | Optionnel | upstream default | Nombre maximal de Tokens de sortie. Si omis, DeepSeek utilise sa valeur par défaut upstream (jusqu’à 384K). En mode de réflexion, le compteur INCLUT les reasoning tokens — ne le définissez pas trop bas. |
| temperature | number | Optionnel | 1.0 | Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing. |
| top_p | number | Optionnel | 1.0 | Échantillonnage nucleus. Utilisez temperature OU top_p, pas les deux. |
| stream | boolean | Optionnel | false | Si true, renvoie des deltas Server-Sent Events (SSE). |
| thinking | object | Optionnel | {type:'enabled'} | Spécifique à DeepSeek. Passez { type: 'disabled' } via extra_body pour sauter la phase de raisonnement et obtenir des réponses plus rapides et moins coûteuses. Par défaut : enabled. |
| reasoning_effort | string | Optionnel | medium | Profondeur de réflexion : low | medium | high. Plus élevé = plus de reasoning tokens, meilleure qualité, coût plus élevé. |
| tools | array | Optionnel | — | Liste des définitions d’outil/fonction pour l’utilisation des outils (function calling). |
| tool_choice | string|object | Optionnel | auto | Contrôlez la sélection d’outil : auto | none | required | { type:'function', function:{ name } }. |
| response_format | object | Optionnel | — | Le mode JSON : { "type": "json_object" } force le model à renvoyer un JSON valide. |
curl https://tokenhub.store/api/v1/chat/completions \
-H "Authorization: Bearer th-your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek/deepseek-v4-flash",
"messages": [
{"role": "system", "content": "You are a concise assistant."},
{"role": "user", "content": "Explain CAP theorem in 3 bullets."}
],
"temperature": 0.3
}'from openai import OpenAI
client = OpenAI(
api_key="th-your-api-key",
base_url="https://tokenhub.store/api/v1",
)
resp = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
temperature=0.3,
messages=[
{"role": "system", "content": "You are a concise assistant."},
{"role": "user", "content": "Explain CAP theorem in 3 bullets."},
],
)
msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer: ", msg.content)
print("Usage: ", resp.usage)import OpenAI from "openai";
const client = new OpenAI({
apiKey: "th-your-api-key",
baseURL: "https://tokenhub.store/api/v1",
});
const resp = await client.chat.completions.create({
model: "deepseek/deepseek-v4-flash",
temperature: 0.3,
messages: [
{ role: "system", content: "You are a concise assistant." },
{ role: "user", content: "Explain CAP theorem in 3 bullets." },
],
});
const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer: ", msg.content);
console.log("Usage: ", resp.usage);DeepSeek V4 ouvre une phase de raisonnement dédiée avant de rédiger la réponse finale. Voici ce qu’il faut savoir :
Inscrivez-vous sur TokenHub et commencez à appeler DeepSeek V4 via notre API compatible OpenAI