D
Guide de l’API DeepSeek

DeepSeek V4 sur TokenHub — modèles de raisonnement OpenAI-compatible

Appelez la série V4 phare 2026 de DeepSeek (V4-Pro et V4-Flash) via le point de terminaison unifié /chat/completions de TokenHub. Totalement OpenAI-compatible — le SDK openai officiel fonctionne immédiatement. Le streaming, l’usage des outils et le mode de réflexion avec reasoning_content sont tous pris en charge. Fenêtre de contexte de 1M, sortie max de 384K, facturation par Token au tarif du catalogue DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Obtenez votre API Key

  1. Visitez tokenhub.store et créez un compte (connexion GitHub / Google prise en charge)
  2. Allez dans Dashboard → API Keys, cliquez sur "Create New Key"
  3. Allez dans Dashboard → Billing pour ajouter des Credits (1 Credit = 1 $ USD)
  4. Copiez l’API Key (format : th-xxxxxxxxxxxx...)
⚠️ L’API Key n’est affichée qu’une seule fois lors de sa création. Enregistrez-la en lieu sûr ; si vous la perdez, créez-en une nouvelle.

2Aperçu de l’API

Base URL

https://tokenhub.store/api/v1

Authentification

Passez l’API Key dans l’en-tête Authorization :

Header
Authorization: Bearer th-your-api-key

Endpoint (OpenAI-compatible)

POST
/chat/completions

Complétion de chat. Même schéma que OpenAI /v1/chat/completions, avec streaming, tools, mode JSON et champs de réflexion spécifiques à DeepSeek.

Intégration directe avec le SDK openai officiel — pointez simplement base_url vers TokenHub et utilisez votre API key TokenHub. Aucun autre changement de code requis.

3Modèles et tarification

La tarification est calculée par 1 million de Tokens (USD), selon le prix catalogue DeepSeek (aucune remise promotionnelle appliquée). L’identifiant canonique et l’alias deepseek/* sont tous deux acceptés. La facturation utilise les completion_tokens renvoyés par l’upstream (qui incluent déjà reasoning_tokens).

NiveauID du modelEntréeSortieNotes
V4-Prodeepseek-v4-pro$1.80$3.60Flagship haut de gamme 2026. Meilleure qualité de raisonnement et de code.
V4-Flashdeepseek-v4-flash$0.15$0.30Flagship ultra rentable, environ 12× moins cher que Pro ; excellent choix par défaut pour la production.

4Paramètres de requête

ParamètreTypeObligatoirePar défautDescription
modelstringObligatoireID du model DeepSeek V4. Exemple : "deepseek/deepseek-v4-flash".
messagesarrayObligatoireHistorique du chat. Chaque élément est { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerOptionnelupstream defaultNombre maximal de Tokens de sortie. Si omis, DeepSeek utilise sa valeur par défaut upstream (jusqu’à 384K). En mode de réflexion, le compteur INCLUT les reasoning tokens — ne le définissez pas trop bas.
temperaturenumberOptionnel1.0Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_pnumberOptionnel1.0Échantillonnage nucleus. Utilisez temperature OU top_p, pas les deux.
streambooleanOptionnelfalseSi true, renvoie des deltas Server-Sent Events (SSE).
thinkingobjectOptionnel{type:'enabled'}Spécifique à DeepSeek. Passez { type: 'disabled' } via extra_body pour sauter la phase de raisonnement et obtenir des réponses plus rapides et moins coûteuses. Par défaut : enabled.
reasoning_effortstringOptionnelmediumProfondeur de réflexion : low | medium | high. Plus élevé = plus de reasoning tokens, meilleure qualité, coût plus élevé.
toolsarrayOptionnelListe des définitions d’outil/fonction pour l’utilisation des outils (function calling).
tool_choicestring|objectOptionnelautoContrôlez la sélection d’outil : auto | none | required | { type:'function', function:{ name } }.
response_formatobjectOptionnelLe mode JSON : { "type": "json_object" } force le model à renvoyer un JSON valide.

5Exemples curl

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Exemple Python

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Exemple JavaScript / Node.js

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Analyse approfondie du mode Thinking

DeepSeek V4 ouvre une phase de raisonnement dédiée avant de rédiger la réponse finale. Voici ce qu’il faut savoir :

  • reasoning_content est renvoyé dans un champ SÉPARÉ du message assistant (pas dans content). Ne le renvoyez pas dans les tours suivants.
  • completion_tokens dans usage INCLUT déjà reasoning_tokens — c’est aussi ce sur quoi nous facturons. Vérifiez completion_tokens_details.reasoning_tokens pour voir combien a été consacré au thinking.
  • Définir max_tokens trop bas en mode thinking entraîne un content vide (tous les tokens sont consommés par le raisonnement). Laissez-le non défini, ou fournissez au moins 2000+.
  • Désactivez via extra_body : { thinking: { type: 'disabled' } } pour les scénarios sensibles à la latence (chat, classification, extraction simple).
  • reasoning_effort : 'low' | 'medium' | 'high' contrôle la quantité de réflexion du model. 'high' donne les meilleurs résultats en math/coding ; 'low' est plus rapide.
  • Mise en cache des prompts : si vous réutilisez le même prompt système, DeepSeek renvoie prompt_cache_hit_tokens séparément. TokenHub facture actuellement de manière uniforme au taux de miss (un léger surcoût en échange d’une tarification prévisible).

9FAQ

Prêt à commencer ?

Inscrivez-vous sur TokenHub et commencez à appeler DeepSeek V4 via notre API compatible OpenAI