Guide de l’API DeepSeek

DeepSeek V4 sur TokenHub — modèles de raisonnement OpenAI-compatible

Appelez la série V4 phare 2026 de DeepSeek (V4-Pro et V4-Flash) via le point de terminaison unifié /chat/completions de TokenHub. Totalement OpenAI-compatible — le SDK openai officiel fonctionne immédiatement. Le streaming, l’usage des outils et le mode de réflexion avec reasoning_content sont tous pris en charge. Fenêtre de contexte de 1M, sortie max de 384K, facturation par Token au tarif du catalogue DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Obtenez votre API Key

Visitez tokenhub.store et créez un compte (connexion GitHub / Google prise en charge)
Allez dans Dashboard → API Keys, cliquez sur "Create New Key"
Allez dans Dashboard → Billing pour ajouter des Credits (1 Credit = 1 $ USD)
Copiez l’API Key (format : th-xxxxxxxxxxxx...)

⚠️ L’API Key n’est affichée qu’une seule fois lors de sa création. Enregistrez-la en lieu sûr ; si vous la perdez, créez-en une nouvelle.

2Aperçu de l’API

Base URL

https://tokenhub.store/api/v1

Authentification

Passez l’API Key dans l’en-tête Authorization :

Header

Authorization: Bearer th-your-api-key

Endpoint (OpenAI-compatible)

POST

/chat/completions

Complétion de chat. Même schéma que OpenAI /v1/chat/completions, avec streaming, tools, mode JSON et champs de réflexion spécifiques à DeepSeek.

Intégration directe avec le SDK openai officiel — pointez simplement base_url vers TokenHub et utilisez votre API key TokenHub. Aucun autre changement de code requis.

3Modèles et tarification

La tarification est calculée par 1 million de Tokens (USD), selon le prix catalogue DeepSeek (aucune remise promotionnelle appliquée). L’identifiant canonique et l’alias deepseek/* sont tous deux acceptés. La facturation utilise les completion_tokens renvoyés par l’upstream (qui incluent déjà reasoning_tokens).

Niveau	ID du model	Entrée	Sortie	Notes
V4-Pro	deepseek-v4-pro	$1.80	$3.60	Flagship haut de gamme 2026. Meilleure qualité de raisonnement et de code.
V4-Flash	deepseek-v4-flash	$0.15	$0.30	Flagship ultra rentable, environ 12× moins cher que Pro ; excellent choix par défaut pour la production.

4Paramètres de requête

Paramètre	Type	Obligatoire	Par défaut	Description
model	string	Obligatoire	—	ID du model DeepSeek V4. Exemple : "deepseek/deepseek-v4-flash".
messages	array	Obligatoire	—	Historique du chat. Chaque élément est { role, content }. role ∈ system \| user \| assistant \| tool.
max_tokens	integer	Optionnel	upstream default	Nombre maximal de Tokens de sortie. Si omis, DeepSeek utilise sa valeur par défaut upstream (jusqu’à 384K). En mode de réflexion, le compteur INCLUT les reasoning tokens — ne le définissez pas trop bas.
temperature	number	Optionnel	1.0	Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_p	number	Optionnel	1.0	Échantillonnage nucleus. Utilisez temperature OU top_p, pas les deux.
stream	boolean	Optionnel	false	Si true, renvoie des deltas Server-Sent Events (SSE).
thinking	object	Optionnel	{type:'enabled'}	Spécifique à DeepSeek. Passez { type: 'disabled' } via extra_body pour sauter la phase de raisonnement et obtenir des réponses plus rapides et moins coûteuses. Par défaut : enabled.
reasoning_effort	string	Optionnel	medium	Profondeur de réflexion : low \| medium \| high. Plus élevé = plus de reasoning tokens, meilleure qualité, coût plus élevé.
tools	array	Optionnel	—	Liste des définitions d’outil/fonction pour l’utilisation des outils (function calling).
tool_choice	string\|object	Optionnel	auto	Contrôlez la sélection d’outil : auto \| none \| required \| { type:'function', function:{ name } }.
response_format	object	Optionnel	—	Le mode JSON : { "type": "json_object" } force le model à renvoyer un JSON valide.

5Exemples curl

bash

curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Exemple Python

python

from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Exemple JavaScript / Node.js

typescript

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Analyse approfondie du mode Thinking

DeepSeek V4 ouvre une phase de raisonnement dédiée avant de rédiger la réponse finale. Voici ce qu’il faut savoir :

reasoning_content est renvoyé dans un champ SÉPARÉ du message assistant (pas dans content). Ne le renvoyez pas dans les tours suivants.
completion_tokens dans usage INCLUT déjà reasoning_tokens — c’est aussi ce sur quoi nous facturons. Vérifiez completion_tokens_details.reasoning_tokens pour voir combien a été consacré au thinking.
Définir max_tokens trop bas en mode thinking entraîne un content vide (tous les tokens sont consommés par le raisonnement). Laissez-le non défini, ou fournissez au moins 2000+.
Désactivez via extra_body : { thinking: { type: 'disabled' } } pour les scénarios sensibles à la latence (chat, classification, extraction simple).
reasoning_effort : 'low' | 'medium' | 'high' contrôle la quantité de réflexion du model. 'high' donne les meilleurs résultats en math/coding ; 'low' est plus rapide.
Mise en cache des prompts : si vous réutilisez le même prompt système, DeepSeek renvoie prompt_cache_hit_tokens séparément. TokenHub facture actuellement de manière uniforme au taux de miss (un léger surcoût en échange d’une tarification prévisible).

9FAQ

Prêt à commencer ?

Inscrivez-vous sur TokenHub et commencez à appeler DeepSeek V4 via notre API compatible OpenAI

Recharger des Credits Obtenir une API Key