Deepseek Token 用量計(jì)算

2025-02-05 10:45 更新

token 是模型用來(lái)表示自然語(yǔ)言文本的基本單位,也是我們的計(jì)費(fèi)單元,可以直觀的理解為“字”或“詞”;通常 1 個(gè)中文詞語(yǔ)、1 個(gè)英文單詞、1 個(gè)數(shù)字或 1 個(gè)符號(hào)計(jì)為 1 個(gè) token。

一般情況下模型中 token 和字?jǐn)?shù)的換算比例大致如下:

  • 1 個(gè)英文字符 ≈ 0.3 個(gè) token。
  • 1 個(gè)中文字符 ≈ 0.6 個(gè) token。

但因?yàn)椴煌P偷姆衷~不同,所以換算比例也存在差異,每一次實(shí)際處理 token 數(shù)量以模型返回為準(zhǔn),您可以從返回結(jié)果的 usage 中查看。

離線計(jì)算 Tokens 用量?

您可以通過(guò)如下壓縮包中的代碼來(lái)運(yùn)行 tokenizer,以離線計(jì)算一段文本的 Token 用量。

deepseek_v3_tokenizer.zip


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)