Guía de la API de DeepSeek

DeepSeek V4 en TokenHub — modelos de pensamiento compatibles con OpenAI

Llama a la serie insignia V4 de 2026 de DeepSeek (V4-Pro y V4-Flash) a través del endpoint unificado /chat/completions de TokenHub. Totalmente compatible con OpenAI — el SDK oficial de openai funciona directamente. Se admiten streaming, uso de herramientas y modo de pensamiento con reasoning_content. Ventana de contexto de 1M, 384K de salida máxima y facturación por token según el precio de catálogo de DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Obtén tu API Key

Visita tokenhub.store y registra una cuenta (inicio de sesión con GitHub / Google compatible)
Ve a Dashboard → API Keys y haz clic en "Create New Key"
Ve a Dashboard → Billing para agregar Credits (1 Credit = $1 USD)
Copia el API Key (formato: th-xxxxxxxxxxxx...)

⚠️ El API Key se muestra solo una vez al crearlo. Guárdalo de forma segura; si lo pierdes, crea uno nuevo.

2Resumen de la API

Base URL

https://tokenhub.store/api/v1

Autenticación

Pasa el API Key en el encabezado Authorization:

Header

Authorization: Bearer th-your-api-key

Endpoint (compatible con OpenAI)

POST

/chat/completions

Completion de chat. Misma estructura que OpenAI /v1/chat/completions, con streaming, tools, modo JSON y campos de pensamiento específicos de DeepSeek.

Uso directo con el SDK oficial de openai: solo apunta base_url a TokenHub y usa tu API key de TokenHub. No se requieren otros cambios de código.

3Modelos y precios

El precio es por 1 millón de tokens (USD), basado en el precio de lista del catálogo de DeepSeek (sin descuentos promocionales). Se aceptan tanto el ID canónico como el alias deepseek/*. La facturación usa completion_tokens devueltos por el upstream (que ya incluyen reasoning_tokens).

Nivel	ID del model	Entrada	Salida	Notas
V4-Pro	deepseek-v4-pro	$1.80	$3.60	Flagship de gama alta 2026. La mejor calidad en razonamiento y código.
V4-Flash	deepseek-v4-flash	$0.15	$0.30	Flagship ultracoste-efectivo, ~12× más barato que Pro; excelente opción predeterminada para producción.

4Parámetros de la solicitud

Parámetro	Tipo	Requerido	Predeterminado	Descripción
model	string	Requerido	—	ID del model DeepSeek V4. Ejemplo: "deepseek/deepseek-v4-flash".
messages	array	Requerido	—	Historial del chat. Cada elemento es { role, content }. role ∈ system \| user \| assistant \| tool.
max_tokens	integer	Opcional	upstream default	Máximo de tokens de salida. Si se omite, DeepSeek usa el valor predeterminado de su upstream (hasta 384K). En modo de pensamiento, el contador INCLUYE reasoning tokens — no lo establezcas demasiado bajo.
temperature	number	Opcional	1.0	Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_p	number	Opcional	1.0	Muestreo nuclear. Usa temperature O top_p, no ambos.
stream	boolean	Opcional	false	Si es true, devuelve deltas de Server-Sent Events (SSE).
thinking	object	Opcional	{type:'enabled'}	Específico de DeepSeek. Pasa { type: 'disabled' } mediante extra_body para omitir la fase de razonamiento y obtener respuestas más rápidas y baratas. Valor predeterminado: enabled.
reasoning_effort	string	Opcional	medium	Profundidad de razonamiento: low \| medium \| high. Más alto = más reasoning tokens, mejor calidad, mayor costo.
tools	array	Opcional	—	Lista de definiciones de herramientas/funciones para el uso de herramientas (function calling).
tool_choice	string\|object	Opcional	auto	Controla la selección de herramientas: auto \| none \| required \| { type:'function', function:{ name } }.
response_format	object	Opcional	—	Modo JSON: { "type": "json_object" } obliga al modelo a devolver JSON válido.

5Ejemplos de curl

bash

curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Ejemplo en Python

python

from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Ejemplo en JavaScript / Node.js

typescript

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Análisis profundo de Thinking Mode

DeepSeek V4 abre una fase de razonamiento dedicada antes de escribir la respuesta final. Esto es lo que necesitas saber:

reasoning_content se devuelve como un campo SEPARADO en el mensaje del assistant (no dentro de content). No lo reenvíes en los siguientes turnos.
completion_tokens en usage ya INCLUYE reasoning_tokens — eso es también lo que facturamos. Revisa completion_tokens_details.reasoning_tokens para ver cuánto se dedicó al pensamiento.
Configurar max_tokens demasiado bajo en thinking mode provoca content vacío (todos los tokens se consumen en el razonamiento). Déjalo sin definir o asigna al menos 2000+.
Desactívalo mediante extra_body: { thinking: { type: 'disabled' } } para escenarios sensibles a la latencia (chat, clasificación, extracción simple).
reasoning_effort: 'low' | 'medium' | 'high' controla cuánto razona el modelo. 'high' da mejores resultados en matemáticas/coding; 'low' es más rápido.
Caché de prompt: si reutilizas el mismo system prompt, DeepSeek devuelve prompt_cache_hit_tokens por separado. TokenHub actualmente factura de forma uniforme al precio de miss (un pequeño sobrecargo a cambio de un precio predecible).

9Preguntas frecuentes

¿Listo para empezar?

Regístrate en TokenHub y empieza a llamar a DeepSeek V4 a través de nuestra API OpenAI-compatible

Recargar Credits Obtener API Key