Руководство по DeepSeek API

DeepSeek V4 в TokenHub — совместимые с OpenAI модели с режимом мышления

Вызывайте флагманскую серию DeepSeek 2026 V4 (V4-Pro и V4-Flash) через единый endpoint TokenHub /chat/completions. Полная совместимость с OpenAI — официальный openai SDK работает сразу без изменений. Поддерживаются streaming, использование tools и режим мышления с reasoning_content. Окно контекста 1M, максимальный вывод 384K, тарификация по токенам по ценам каталога DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Получите свой API Key

Перейдите на tokenhub.store и зарегистрируйте аккаунт (поддерживается вход через GitHub / Google)
Перейдите в Dashboard → API Keys и нажмите "Create New Key"
Перейдите в Dashboard → Billing, чтобы добавить Credits (1 Credit = $1 USD)
Скопируйте API Key (формат: th-xxxxxxxxxxxx...)

⚠️ API Key показывается только один раз при создании. Сохраните его в безопасном месте; если потеряете, создайте новый.

2Обзор API

Base URL

https://tokenhub.store/api/v1

Аутентификация

Передайте API Key в заголовке Authorization:

Header

Authorization: Bearer th-your-api-key

Endpoint (OpenAI-compatible)

POST

/chat/completions

Chat completion. Та же схема, что и у OpenAI /v1/chat/completions, с streaming, tools, JSON mode и специфичными для DeepSeek полями thinking.

Используйте как замену с официальным openai SDK — просто укажите base_url на TokenHub и используйте ваш TokenHub API key. Других изменений в коде не требуется.

3Модели и цены

Цена указана за 1 миллион Tokens (USD) и основана на каталожной цене DeepSeek (без промо-скидок). Принимаются как канонический ID, так и alias deepseek/*. Для биллинга используется completion_tokens, возвращаемый upstream (он уже включает reasoning_tokens).

Тариф	ID model	Вход	Выход	Примечания
V4-Pro	deepseek-v4-pro	$1.80	$3.60	Флагманский топовый уровень 2026 года. Лучшее качество reasoning и кодинга.
V4-Flash	deepseek-v4-flash	$0.15	$0.30	Ультраэкономичный флагман, примерно в 12 раз дешевле Pro; отличный выбор по умолчанию для production.

4Параметры запроса

Параметр	Тип	Обязательно	По умолчанию	Описание
model	string	Обязательно	—	ID model DeepSeek V4. Пример: "deepseek/deepseek-v4-flash".
messages	array	Обязательно	—	История чата. Каждый элемент имеет вид { role, content }. role ∈ system \| user \| assistant \| tool.
max_tokens	integer	Необязательно	upstream default	Максимальное количество output Tokens. Если не указано, DeepSeek использует значение upstream по умолчанию (до 384K). В режиме thinking счётчик ВКЛЮЧАЕТ reasoning tokens — не задавайте слишком маленькое значение.
temperature	number	Необязательно	1.0	Sampling temperature, 0.0–2.0. Ниже = более детерминированно. DeepSeek рекомендует 0.0 для code и 1.3 для творческого письма.
top_p	number	Необязательно	1.0	Сэмплирование nucleus. Используйте temperature ИЛИ top_p, но не оба одновременно.
stream	boolean	Необязательно	false	Если true, возвращает дельты Server-Sent Events (SSE).
thinking	object	Необязательно	{type:'enabled'}	Только для DeepSeek. Передайте { type: 'disabled' } через extra_body, чтобы пропустить фазу reasoning и получать более быстрые/дешёвые ответы. По умолчанию: enabled.
reasoning_effort	string	Необязательно	medium	Глубина thinking: low \| medium \| high. Выше = больше reasoning tokens, лучше качество, выше стоимость.
tools	array	Необязательно	—	Список определений tool/function для использования tools (function calling).
tool_choice	string\|object	Необязательно	auto	Управление выбором tools: auto \| none \| required \| { type:'function', function:{ name } }.
response_format	object	Необязательно	—	JSON mode: { "type": "json_object" } заставляет model возвращать валидный JSON.

5Примеры curl

bash

curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Пример на Python

python

from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Пример на JavaScript / Node.js

typescript

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Подробно о Thinking Mode

DeepSeek V4 открывает отдельную фазу reasoning перед тем, как сформировать финальный ответ. Вот что нужно знать:

reasoning_content возвращается как ОТДЕЛЬНОЕ поле в сообщении assistant (не внутри content). Не передавайте его обратно в следующих ходах.
completion_tokens в usage уже ВКЛЮЧАЕТ reasoning_tokens — именно по нему мы тоже выставляем счёт. Смотрите completion_tokens_details.reasoning_tokens, чтобы увидеть, сколько ушло на thinking.
Если задать слишком маленький max_tokens в thinking mode, content может оказаться пустым (все токены уйдут на reasoning). Оставьте его unset или задайте минимум 2000+.
Отключайте через extra_body: { thinking: { type: 'disabled' } } для сценариев, чувствительных к задержке (чат, классификация, простое извлечение).
reasoning_effort: 'low' | 'medium' | 'high' управляет тем, сколько model думает. 'high' даёт лучшие результаты в math/coding; 'low' быстрее.
Кэширование prompt: если вы повторно используете один и тот же system prompt, DeepSeek возвращает prompt_cache_hit_tokens отдельно. TokenHub сейчас тарифицирует всё по ставке miss rate (небольшая переплата в обмен на предсказуемую цену).

9FAQ

Готовы начать?

Зарегистрируйтесь в TokenHub и начните вызывать DeepSeek V4 через наш OpenAI-compatible API

Пополнить Credits Получить API Key