Qwen3-VL 图像 Token 计算器

🧮 Token 计算器

输入图像尺寸，实时计算 resize 后的大小和最终 token 数。

宽度 (Width)

高度 (Height)

图片数量

参数预设

常见尺寸：

单张 Token 数

—

Context 占用 —

① 原始尺寸 —

② 原始像素 —

③ smart_resize —

④ Resize 后像素 —

⑤ Patch grid —

⑥ Merge 后 tokens —

📐 Token 数范围
最小：65,536 / 1024 = 64 tokens（小图放大到 256²）
最大：16,777,216 / 1024 = 16,384 tokens（约占 context 的 6.25%）
每张图独立计算，多图累加

完整链路

Step 1: smart_resize

将 $H \times W$ 调整为 $\bar{H} \times \bar{W}$，满足：

Step 2: Patch → Token

$$N_{\text{tokens}} = \frac{\bar{H}}{16} \times \frac{\bar{W}}{16} \div 2^2 = \frac{\bar{H} \times \bar{W}}{1024}$$

每 1024 像素 = 1 个 LLM token

① 对齐：$\bar{H} = \text{round}(H / 32) \times 32$，$\bar{W}$ 同理

② 超过上限（$\bar{H}\bar{W} > \text{max\_pixels}$）：

$$\beta = \sqrt{\frac{HW}{\text{max\_pixels}}}, \quad \bar{H} = \max\!\Big(32, \Big\lfloor \frac{H}{\beta \cdot 32} \Big\rfloor \times 32\Big)$$

③ 低于下限（$\bar{H}\bar{W} < \text{min\_pixels}$）：

$$\beta = \sqrt{\frac{\text{min\_pixels}}{HW}}, \quad \bar{H} = \Big\lceil \frac{H\beta}{32} \Big\rceil \times 32$$

④ 在范围内：直接使用对齐后的尺寸。