D
Руководство по DeepSeek API

DeepSeek V4 в TokenHub — совместимые с OpenAI модели с режимом мышления

Вызывайте флагманскую серию DeepSeek 2026 V4 (V4-Pro и V4-Flash) через единый endpoint TokenHub /chat/completions. Полная совместимость с OpenAI — официальный openai SDK работает сразу без изменений. Поддерживаются streaming, использование tools и режим мышления с reasoning_content. Окно контекста 1M, максимальный вывод 384K, тарификация по токенам по ценам каталога DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Получите свой API Key

  1. Перейдите на tokenhub.store и зарегистрируйте аккаунт (поддерживается вход через GitHub / Google)
  2. Перейдите в Dashboard → API Keys и нажмите "Create New Key"
  3. Перейдите в Dashboard → Billing, чтобы добавить Credits (1 Credit = $1 USD)
  4. Скопируйте API Key (формат: th-xxxxxxxxxxxx...)
⚠️ API Key показывается только один раз при создании. Сохраните его в безопасном месте; если потеряете, создайте новый.

2Обзор API

Base URL

https://tokenhub.store/api/v1

Аутентификация

Передайте API Key в заголовке Authorization:

Header
Authorization: Bearer th-your-api-key

Endpoint (OpenAI-compatible)

POST
/chat/completions

Chat completion. Та же схема, что и у OpenAI /v1/chat/completions, с streaming, tools, JSON mode и специфичными для DeepSeek полями thinking.

Используйте как замену с официальным openai SDK — просто укажите base_url на TokenHub и используйте ваш TokenHub API key. Других изменений в коде не требуется.

3Модели и цены

Цена указана за 1 миллион Tokens (USD) и основана на каталожной цене DeepSeek (без промо-скидок). Принимаются как канонический ID, так и alias deepseek/*. Для биллинга используется completion_tokens, возвращаемый upstream (он уже включает reasoning_tokens).

ТарифID modelВходВыходПримечания
V4-Prodeepseek-v4-pro$1.80$3.60Флагманский топовый уровень 2026 года. Лучшее качество reasoning и кодинга.
V4-Flashdeepseek-v4-flash$0.15$0.30Ультраэкономичный флагман, примерно в 12 раз дешевле Pro; отличный выбор по умолчанию для production.

4Параметры запроса

ПараметрТипОбязательноПо умолчаниюОписание
modelstringОбязательноID model DeepSeek V4. Пример: "deepseek/deepseek-v4-flash".
messagesarrayОбязательноИстория чата. Каждый элемент имеет вид { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerНеобязательноupstream defaultМаксимальное количество output Tokens. Если не указано, DeepSeek использует значение upstream по умолчанию (до 384K). В режиме thinking счётчик ВКЛЮЧАЕТ reasoning tokens — не задавайте слишком маленькое значение.
temperaturenumberНеобязательно1.0Sampling temperature, 0.0–2.0. Ниже = более детерминированно. DeepSeek рекомендует 0.0 для code и 1.3 для творческого письма.
top_pnumberНеобязательно1.0Сэмплирование nucleus. Используйте temperature ИЛИ top_p, но не оба одновременно.
streambooleanНеобязательноfalseЕсли true, возвращает дельты Server-Sent Events (SSE).
thinkingobjectНеобязательно{type:'enabled'}Только для DeepSeek. Передайте { type: 'disabled' } через extra_body, чтобы пропустить фазу reasoning и получать более быстрые/дешёвые ответы. По умолчанию: enabled.
reasoning_effortstringНеобязательноmediumГлубина thinking: low | medium | high. Выше = больше reasoning tokens, лучше качество, выше стоимость.
toolsarrayНеобязательноСписок определений tool/function для использования tools (function calling).
tool_choicestring|objectНеобязательноautoУправление выбором tools: auto | none | required | { type:'function', function:{ name } }.
response_formatobjectНеобязательноJSON mode: { "type": "json_object" } заставляет model возвращать валидный JSON.

5Примеры curl

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Пример на Python

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Пример на JavaScript / Node.js

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Подробно о Thinking Mode

DeepSeek V4 открывает отдельную фазу reasoning перед тем, как сформировать финальный ответ. Вот что нужно знать:

  • reasoning_content возвращается как ОТДЕЛЬНОЕ поле в сообщении assistant (не внутри content). Не передавайте его обратно в следующих ходах.
  • completion_tokens в usage уже ВКЛЮЧАЕТ reasoning_tokens — именно по нему мы тоже выставляем счёт. Смотрите completion_tokens_details.reasoning_tokens, чтобы увидеть, сколько ушло на thinking.
  • Если задать слишком маленький max_tokens в thinking mode, content может оказаться пустым (все токены уйдут на reasoning). Оставьте его unset или задайте минимум 2000+.
  • Отключайте через extra_body: { thinking: { type: 'disabled' } } для сценариев, чувствительных к задержке (чат, классификация, простое извлечение).
  • reasoning_effort: 'low' | 'medium' | 'high' управляет тем, сколько model думает. 'high' даёт лучшие результаты в math/coding; 'low' быстрее.
  • Кэширование prompt: если вы повторно используете один и тот же system prompt, DeepSeek возвращает prompt_cache_hit_tokens отдельно. TokenHub сейчас тарифицирует всё по ставке miss rate (небольшая переплата в обмен на предсказуемую цену).

9FAQ

Готовы начать?

Зарегистрируйтесь в TokenHub и начните вызывать DeepSeek V4 через наш OpenAI-compatible API