D
Guia da API do DeepSeek

DeepSeek V4 no TokenHub — Modelos de raciocínio OpenAI-Compatible

Acesse a série flagship V4 de 2026 do DeepSeek (V4-Pro e V4-Flash) via o endpoint unificado /chat/completions do TokenHub. Totalmente OpenAI-Compatible — o SDK oficial openai funciona imediatamente. Streaming, uso de ferramentas e modo de raciocínio com reasoning_content também são suportados. Janela de contexto de 1M, 384K max_tokens de saída e cobrança por token com base no preço do catálogo do DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Obtenha sua API Key

  1. Visite tokenhub.store e registre uma conta (login com GitHub / Google suportado)
  2. Vá para Dashboard → API Keys e clique em "Create New Key"
  3. Vá para Dashboard → Billing para adicionar Credits (1 Credit = $1 USD)
  4. Copie a API Key (formato: th-xxxxxxxxxxxx...)
⚠️ A API Key é exibida apenas uma vez na criação. Salve-a com segurança; se perdê-la, crie uma nova.

2Visão geral da API

Base URL

https://tokenhub.store/api/v1

Autenticação

Passe a API Key no cabeçalho Authorization:

Header
Authorization: Bearer th-your-api-key

Endpoint (OpenAI-compatible)

POST
/chat/completions

Conclusão de chat. Mesmo schema de OpenAI /v1/chat/completions, com streaming, tools, modo JSON e campos de raciocínio específicos do DeepSeek.

Use diretamente com o SDK oficial openai — basta apontar base_url para TokenHub e usar sua API Key do TokenHub. Nenhuma outra alteração no código é necessária.

3Modelos e preços

O preço é por 1 milhão de tokens (USD), com base no preço de tabela do catálogo do DeepSeek (sem desconto promocional aplicado). Tanto o ID canônico quanto o alias deepseek/* são aceitos. A cobrança usa os completion_tokens retornados pelo upstream (que já incluem reasoning_tokens).

NívelID do modelEntradaSaídaObservações
V4-Prodeepseek-v4-pro$1.80$3.60Flagship top-tier de 2026. Melhor qualidade de raciocínio e código.
V4-Flashdeepseek-v4-flash$0.15$0.30Flagship ultracusto-efetivo, cerca de 12× mais barato que o Pro; excelente padrão para produção.

4Parâmetros da requisição

ParâmetroTipoObrigatórioPadrãoDescrição
modelstringObrigatórioID do model DeepSeek V4. Exemplo: "deepseek/deepseek-v4-flash".
messagesarrayObrigatórioHistórico do chat. Cada item é { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerOpcionalupstream defaultMáximo de tokens de saída. Se omitido, o DeepSeek usa o padrão do upstream (até 384K). No modo de raciocínio, a contagem INCLUI tokens de raciocínio — não defina um valor muito baixo.
temperaturenumberOpcional1.0Sampling temperature, 0.0–2.0. Lower = more deterministic. DeepSeek recommends 0.0 for code, 1.3 for creative writing.
top_pnumberOpcional1.0Amostragem de núcleo. Use temperature OU top_p, não ambos.
streambooleanOpcionalfalseSe verdadeiro, retorna deltas de Server-Sent Events (SSE).
thinkingobjectOpcional{type:'enabled'}Específico do DeepSeek. Passe { type: 'disabled' } via extra_body para pular a fase de raciocínio e obter respostas mais rápidas/baratas. Padrão: habilitado.
reasoning_effortstringOpcionalmediumProfundidade do raciocínio: low | medium | high. Maior = mais reasoning tokens, melhor qualidade, maior custo.
toolsarrayOpcionalLista de definições de ferramentas/funções para uso de ferramentas (function calling).
tool_choicestring|objectOpcionalautoControle a seleção de ferramentas: auto | none | required | { type:'function', function:{ name } }.
response_formatobjectOpcionalModo JSON: { "type": "json_object" } força o model a retornar JSON válido.

5Exemplos de curl

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Exemplo em Python

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Exemplo em JavaScript / Node.js

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Análise Profunda do Modo de Raciocínio

DeepSeek V4 abre uma fase dedicada de raciocínio antes de escrever a resposta final. Veja o que você precisa saber:

  • reasoning_content é retornado como um campo SEPARADO na mensagem do assistant (não dentro de content). Não o envie de volta em turnos seguintes.
  • completion_tokens em usage já INCLUI reasoning_tokens — é isso também que cobramos. Verifique completion_tokens_details.reasoning_tokens para ver quanto foi gasto pensando.
  • Definir max_tokens muito baixo no modo de raciocínio leva a content vazio (todos os tokens são consumidos pelo raciocínio). Deixe sem definir, ou forneça pelo menos 2000+.
  • Desative via extra_body: { thinking: { type: 'disabled' } } para cenários sensíveis à latência (chat, classificação, extração simples).
  • reasoning_effort: 'low' | 'medium' | 'high' controla quanto o model pensa. 'high' traz os melhores resultados em matemática/código; 'low' é mais rápido.
  • Cache de prompt: se você reutilizar o mesmo system prompt, o DeepSeek retorna prompt_cache_hit_tokens separadamente. O TokenHub atualmente cobra uniformemente na taxa de miss (uma pequena cobrança adicional em troca de preço previsível).

9FAQ

Pronto para começar?

Cadastre-se no TokenHub e comece a chamar o DeepSeek V4 via nossa API OpenAI-compatible