D
Guía de la API de DeepSeek

DeepSeek V4 en TokenHub — modelos de pensamiento compatibles con OpenAI

Llama a la serie insignia V4 de 2026 de DeepSeek (V4-Pro y V4-Flash) a través del endpoint unificado /chat/completions de TokenHub. Totalmente compatible con OpenAI — el SDK oficial de openai funciona directamente. Se admiten streaming, uso de herramientas y modo de pensamiento con reasoning_content. Ventana de contexto de 1M, 384K de salida máxima y facturación por token según el precio de catálogo de DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Obtén tu API Key

  1. Visita tokenhub.store y registra una cuenta (inicio de sesión con GitHub / Google compatible)
  2. Ve a Dashboard → API Keys y haz clic en "Create New Key"
  3. Ve a Dashboard → Billing para agregar Credits (1 Credit = $1 USD)
  4. Copia el API Key (formato: th-xxxxxxxxxxxx...)
⚠️ El API Key se muestra solo una vez al crearlo. Guárdalo de forma segura; si lo pierdes, crea uno nuevo.

2Resumen de la API

Base URL

https://tokenhub.store/api/v1

Autenticación

Pasa el API Key en el encabezado Authorization:

Header
Authorization: Bearer th-your-api-key

Endpoint (compatible con OpenAI)

POST
/chat/completions

Completion de chat. Misma estructura que OpenAI /v1/chat/completions, con streaming, tools, modo JSON y campos de pensamiento específicos de DeepSeek.

Uso directo con el SDK oficial de openai: solo apunta base_url a TokenHub y usa tu API key de TokenHub. No se requieren otros cambios de código.

3Modelos y precios

El precio es por 1 millón de tokens (USD), basado en el precio de lista del catálogo de DeepSeek (sin descuentos promocionales). Se aceptan tanto el ID canónico como el alias deepseek/*. La facturación usa completion_tokens devueltos por el upstream (que ya incluyen reasoning_tokens).

NivelID del modelEntradaSalidaNotas
V4-Prodeepseek-v4-pro$1.80$3.60Flagship de gama alta 2026. La mejor calidad en razonamiento y código.
V4-Flashdeepseek-v4-flash$0.15$0.30Flagship ultracoste-efectivo, ~12× más barato que Pro; excelente opción predeterminada para producción.

4Parámetros de la solicitud

ParámetroTipoRequeridoPredeterminadoDescripción
modelstringRequeridoID del model DeepSeek V4. Ejemplo: "deepseek/deepseek-v4-flash".
messagesarrayRequeridoHistorial del chat. Cada elemento es { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerOpcionalupstream defaultMáximo de tokens de salida. Si se omite, DeepSeek usa el valor predeterminado de su upstream (hasta 384K). En modo de pensamiento, el contador INCLUYE reasoning tokens — no lo establezcas demasiado bajo.
temperaturenumberOpcional1.0Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_pnumberOpcional1.0Muestreo nuclear. Usa temperature O top_p, no ambos.
streambooleanOpcionalfalseSi es true, devuelve deltas de Server-Sent Events (SSE).
thinkingobjectOpcional{type:'enabled'}Específico de DeepSeek. Pasa { type: 'disabled' } mediante extra_body para omitir la fase de razonamiento y obtener respuestas más rápidas y baratas. Valor predeterminado: enabled.
reasoning_effortstringOpcionalmediumProfundidad de razonamiento: low | medium | high. Más alto = más reasoning tokens, mejor calidad, mayor costo.
toolsarrayOpcionalLista de definiciones de herramientas/funciones para el uso de herramientas (function calling).
tool_choicestring|objectOpcionalautoControla la selección de herramientas: auto | none | required | { type:'function', function:{ name } }.
response_formatobjectOpcionalModo JSON: { "type": "json_object" } obliga al modelo a devolver JSON válido.

5Ejemplos de curl

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Ejemplo en Python

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Ejemplo en JavaScript / Node.js

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Análisis profundo de Thinking Mode

DeepSeek V4 abre una fase de razonamiento dedicada antes de escribir la respuesta final. Esto es lo que necesitas saber:

  • reasoning_content se devuelve como un campo SEPARADO en el mensaje del assistant (no dentro de content). No lo reenvíes en los siguientes turnos.
  • completion_tokens en usage ya INCLUYE reasoning_tokens — eso es también lo que facturamos. Revisa completion_tokens_details.reasoning_tokens para ver cuánto se dedicó al pensamiento.
  • Configurar max_tokens demasiado bajo en thinking mode provoca content vacío (todos los tokens se consumen en el razonamiento). Déjalo sin definir o asigna al menos 2000+.
  • Desactívalo mediante extra_body: { thinking: { type: 'disabled' } } para escenarios sensibles a la latencia (chat, clasificación, extracción simple).
  • reasoning_effort: 'low' | 'medium' | 'high' controla cuánto razona el modelo. 'high' da mejores resultados en matemáticas/coding; 'low' es más rápido.
  • Caché de prompt: si reutilizas el mismo system prompt, DeepSeek devuelve prompt_cache_hit_tokens por separado. TokenHub actualmente factura de forma uniforme al precio de miss (un pequeño sobrecargo a cambio de un precio predecible).

9Preguntas frecuentes

¿Listo para empezar?

Regístrate en TokenHub y empieza a llamar a DeepSeek V4 a través de nuestra API OpenAI-compatible