D
Hướng dẫn DeepSeek API

DeepSeek V4 trên TokenHub — Các model tư duy tương thích OpenAI

Gọi dòng V4 flagship 2026 của DeepSeek (V4-Pro và V4-Flash) thông qua endpoint /chat/completions thống nhất của TokenHub. Tương thích hoàn toàn với OpenAI — openai SDK chính thức hoạt động ngay mà không cần chỉnh sửa. Hỗ trợ streaming, dùng tool và chế độ thinking với reasoning_content. Cửa sổ ngữ cảnh 1M, max output 384K, tính phí theo Token dựa trên bảng giá catalog của DeepSeek.

OpenAI-CompatibleStreamingThinking ModeTool Use1M Context384K Output

1Lấy API Key của bạn

  1. Truy cập tokenhub.store và đăng ký tài khoản (hỗ trợ đăng nhập bằng GitHub / Google)
  2. Vào Dashboard → API Keys, nhấp "Create New Key"
  3. Vào Dashboard → Billing để thêm Credits (1 Credit = $1 USD)
  4. Sao chép API Key (định dạng: th-xxxxxxxxxxxx...)
⚠️ API Key chỉ được hiển thị một lần khi tạo. Hãy lưu an toàn; nếu làm mất, hãy tạo key mới.

2Tổng quan API

Base URL

https://tokenhub.store/api/v1

Xác thực

Gửi API Key trong header Authorization:

Header
Authorization: Bearer th-your-api-key

Endpoint (tương thích OpenAI)

POST
/chat/completions

Chat completion. Schema giống như OpenAI /v1/chat/completions, với streaming, tools, JSON mode và các trường thinking riêng của DeepSeek.

Dùng trực tiếp với openai SDK chính thức — chỉ cần trỏ base_url đến TokenHub và dùng API key của TokenHub. Không cần thay đổi code khác.

3Model & Giá

Giá được tính theo mỗi 1 triệu tokens (USD), dựa trên giá niêm yết catalog của DeepSeek (không áp dụng chiết khấu khuyến mãi). Chấp nhận cả ID chuẩn và bí danh deepseek/*. Việc tính phí sử dụng completion_tokens do upstream trả về (đã bao gồm reasoning_tokens).

HạngModel IDInputOutputGhi chú
V4-Prodeepseek-v4-pro$1.80$3.60Flagship cao cấp nhất 2026. Chất lượng reasoning & coding tốt nhất.
V4-Flashdeepseek-v4-flash$0.15$0.30Flagship cực kỳ tiết kiệm chi phí, rẻ hơn Pro khoảng 12×; lựa chọn mặc định tuyệt vời cho production.

4Tham số yêu cầu

Tham sốKiểuBắt buộcMặc địnhMô tả
modelstringBắt buộcID model DeepSeek V4. Ví dụ: "deepseek/deepseek-v4-flash".
messagesarrayBắt buộcLịch sử chat. Mỗi mục là { role, content }. role ∈ system | user | assistant | tool.
max_tokensintegerTùy chọnupstream defaultSố token đầu ra tối đa. Nếu không chỉ định, DeepSeek sẽ dùng mặc định của upstream (tối đa 384K). Ở chế độ thinking, bộ đếm BAO GỒM cả reasoning tokens — đừng đặt quá nhỏ.
temperaturenumberTùy chọn1.0Sampling temperature, 0.0–2.0. Càng thấp = càng xác định hơn. DeepSeek khuyến nghị 0.0 cho code, 1.3 cho viết sáng tạo.
top_pnumberTùy chọn1.0Lấy mẫu nucleus. Chỉ dùng temperature HOẶC top_p, không dùng cả hai.
streambooleanTùy chọnfalseNếu true, sẽ trả về các delta theo Server-Sent Events (SSE).
thinkingobjectTùy chọn{type:'enabled'}Dành riêng cho DeepSeek. Truyền { type: 'disabled' } qua extra_body để bỏ qua giai đoạn suy luận, cho phản hồi nhanh hơn/rẻ hơn. Mặc định: enabled.
reasoning_effortstringTùy chọnmediumĐộ sâu suy nghĩ: low | medium | high. Càng cao = càng nhiều reasoning tokens, chất lượng tốt hơn, chi phí cao hơn.
toolsarrayTùy chọnDanh sách các định nghĩa tool/function để dùng tool (function calling).
tool_choicestring|objectTùy chọnautoKiểm soát lựa chọn tool: auto | none | required | { type:'function', function:{ name } }.
response_formatobjectTùy chọnChế độ JSON: { "type": "json_object" } buộc model trả về JSON hợp lệ.

5Ví dụ curl

bash
curl https://tokenhub.store/api/v1/chat/completions \
  -H "Authorization: Bearer th-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a concise assistant."},
      {"role": "user", "content": "Explain CAP theorem in 3 bullets."}
    ],
    "temperature": 0.3
  }'

6Ví dụ Python

python
from openai import OpenAI

client = OpenAI(
    api_key="th-your-api-key",
    base_url="https://tokenhub.store/api/v1",
)

resp = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    temperature=0.3,
    messages=[
        {"role": "system", "content": "You are a concise assistant."},
        {"role": "user", "content": "Explain CAP theorem in 3 bullets."},
    ],
)

msg = resp.choices[0].message
# DeepSeek V4 returns the chain-of-thought in a separate field
print("Thinking:", getattr(msg, "reasoning_content", None))
print("Answer:  ", msg.content)
print("Usage:   ", resp.usage)

7Ví dụ JavaScript / Node.js

typescript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "th-your-api-key",
  baseURL: "https://tokenhub.store/api/v1",
});

const resp = await client.chat.completions.create({
  model: "deepseek/deepseek-v4-flash",
  temperature: 0.3,
  messages: [
    { role: "system", content: "You are a concise assistant." },
    { role: "user", content: "Explain CAP theorem in 3 bullets." },
  ],
});

const msg: any = resp.choices[0].message;
console.log("Thinking:", msg.reasoning_content);
console.log("Answer:  ", msg.content);
console.log("Usage:   ", resp.usage);

8Tìm hiểu sâu về Thinking Mode

DeepSeek V4 mở một giai đoạn suy luận riêng trước khi viết câu trả lời cuối cùng. Đây là những điều bạn cần biết:

  • reasoning_content được trả về dưới dạng một trường RIÊNG trên message của assistant (không nằm trong content). Đừng đưa nó trở lại ở các lượt tiếp theo.
  • completion_tokens trong usage đã BAO GỒM reasoning_tokens — và đó cũng là thứ chúng tôi tính phí. Kiểm tra completion_tokens_details.reasoning_tokens để xem bao nhiêu token đã dùng cho suy nghĩ.
  • Đặt max_tokens quá thấp trong thinking mode sẽ dẫn đến content rỗng (toàn bộ token bị dùng cho suy luận). Hãy để unset, hoặc đặt ít nhất 2000+.
  • Tắt bằng extra_body: { thinking: { type: 'disabled' } } cho các tình huống nhạy cảm về độ trễ (chat, phân loại, trích xuất đơn giản).
  • reasoning_effort: 'low' | 'medium' | 'high' kiểm soát mức độ model suy nghĩ. 'high' cho kết quả tốt nhất với toán/lập trình; 'low' nhanh hơn.
  • Prompt caching: nếu bạn tái sử dụng cùng một system prompt, DeepSeek sẽ trả riêng prompt_cache_hit_tokens. TokenHub hiện tính phí đồng nhất theo mức miss rate (tăng phí nhẹ để đổi lấy giá ổn định, dễ dự đoán).

9Câu hỏi thường gặp

Sẵn sàng bắt đầu?

Đăng ký TokenHub và bắt đầu gọi DeepSeek V4 qua API tương thích OpenAI của chúng tôi