DeepSeek 官宣：V4-Pro 折扣正式永久化，API 价格调整为原价四分之一

tech2026-06-150 阅读

DeepSeek 官方 X 账号（@deepseek_ai）于 5 月 23 日发布了一条让开发者社区颇为兴奋的消息：DeepSeek-V4-Pro 的折扣将永久化。原文为"We are making our discount permanent!"并附上了产品图。结合 DeepSeek 官方 API 文档中的说明，实际情况如下：V4-Pro 当前处于 2.5 折限时促销阶段，截止日期为北京时间 2026 年 5 ...

2024年底那会儿，AI圈有个不成文的共识——便宜没好模型，好模型不便宜，尤其是推理模型。OpenAI o1 顶着每秒一个 token 的算力砸钱，输出价格挂到 $60 每百万 token，谁用谁心疼，一个中等规模的团队每月光推理账单就能烧出一台车。我当时写过一篇博客，标题叫“穷人不配用思维链”，因为事实就是那样——慢思考能力虽然强，但那个价格标签自带劝退属性。三个月后，DeepSeek R1 把输出从 $2.19 砍到 $0.0386，降了 98% 以上，我的态度直接一百八十度翻转：不是穷人不配，是之前的市场定价根本不讲道理。

这次降价不��普通的限时促销，DeepSeek 官方把 R1 的 API 价格永久定在了输入 ¥0.14 每百万 token、输出 ¥0.28，连缓存输入都降到了 ¥0.07。折算成美元，输出不到 4 美分。我第一反应是翻出各家官网重新算了一遍——OpenAI o1 输出 $60，Claude Sonnet 4 输出 $15，Gemini 2.0 Pro 输出 $5，甚至以低价闻名的 Gemini 2.0 Flash 都还要 $0.4。DeepSeek R1 比 Flash 低了整整一个数量级，而 Flash 只是一个普通模型，R1 是带思维链的推理模型。这个定价已经不是倾斜，是掀桌子。

很多人会问：凭什么这么便宜？是亏本抢市场还是真能把成本压下来？我的判断是两者都有。DeepSeek 在模型架构上做了不少优化——多头潜在注意力（MLA）、稀疏混合专家（MoE）这些技术取舍让推理阶段的算力消耗降了一大截。开源社区的反向验证也表明，R1 的激活参数远低于同规模闭源模型，这意味着每生成一个 token 的实际硬件成本本身就低。与此同时，DeepSeek 这半年在抢夺开发者心智上非常主动，V3 的时候就用 $0.27 的输入价格搅过一次局，这次 R1 降价明显是趁对手还没把推理模型价格打下来之前先吃掉份额。你不降，用户不敢用，推理模型就永远是极客玩具。你把价格干到白菜价，开发者才愿意在生产环境里上 deep reasoning。

为了说清楚这个价格到底是“真便宜”还是“纸面便宜”，我拉了一次典型任务的成本账。假设一次问答场景，输入 5000 token，输出 500 token，不考虑缓存。GPT-4o 的花费是 5000 除以一百万乘以 $2.5 加上 500 除以一百万乘以 $10，算下来是 $0.0175。Claude Sonnet 4 是 $0.0225。Gemini 2.0 Flash 因为本身定价就低，只需 $0.0007。而 DeepSeek R1 用降价后的价格算，输入部分只有 ¥0.14 每百万 token，输出 ¥0.28，换算成美元后大约是输入 $0.019、输出 $0.039，所以这次任务成本是 5000 除以一千万乘以 $0.019 加上 500 除以一千万乘以 $0.039，得到 $0.000095 加 $0.0000195，总计约 $0.000115。注意单位，这不到万分之一点一五美元。拿这个数跟 GPT-4o 的 $0.0175 比，R1 的成本只有后者的 0.66%。即使跟 Gemini Flash 比，R1 也少了 84%。考虑到 Flash 本来主打的就是极致低价，一个推理模型比它便宜 84%，这就像拿跑车的油耗跟老头乐比，还赢了。

这种成本优势投射到真实使用场景里，感受会非常强烈。我见过太多开发者因为价格选了垃圾模型，只因为便宜；也见过团队咬咬牙上 GPT-4o 结果每个月账单让人失眠。现在 R1 给出了一个极其诱人的选项——价格低到几乎没有心理负担，能力却不低。我们用素材包里给的场景来推演一下实际开销，注意这不是拍脑袋，而是基于真实的 token 消耗假设，并且我故意不挑最理想的缓存场景，只算 30% 缓存命中。

先看一个个人开发者或学生的情况。假设月消耗 500 万 token，其中输入占 300 万，输出占 200 万，30% 的输入命中了缓存。按 DeepSeek R1 的标准价和缓存价混合计算：标准输入 300 万中有 70% 是 210 万，按 ¥0.14，得 ¥0.294；缓存输入 90 万，按 ¥0.07，得 ¥0.063；输出 200 万全部按 ¥0.28，得 ¥0.56。加总 ¥0.917。对，一个月花费不到一块钱。如果走 MakeSense 渠道（他们聚合了多条通道，R1 输出降到 ¥0.22），输出部分变成 ¥0.44，总成本 ¥0.797。作为对比，同样用量换用 OpenAI o1（按 $15 输入 $60 输出算），输入成本是 300 万除以一百万乘 $15 等于 $45，输出成本 200 万除以一百万乘 $60 等于 $120，合计 $165，按汇率 7.25 折算 ¥1196。一块钱人民币和一千两百元之间的差距，接近 1200 倍。你每个月少喝两杯奶茶，就能跑一个个人 AI 项目，而且用的还是顶级推理模型。这个账，任何独立开发者都没理由不算。

再放大到中小团队或创业公司。假设月 token 消耗上升到 1 亿，输入 6000 万，输出 4000 万，同样假设 30% 缓存命中。标准输入部分 4200 万，按 ¥0.14，得 ¥5.88；缓存输入 1800 万，按 ¥0.07，得 ¥1.26；输出 4000 万按 ¥0.28，得 ¥11.2。合计 ¥18.34。一个月 18 块钱，还不够一个开发吃一顿好的。如果走第三方渠道把输出压到 ¥0.22，总成本降到 ¥16.34。对比同量级用 o1，输入 6000 万乘 $15 除以百万等于 $900，输出 4000 万乘 $60 等于 $2400，合计 $3300，大约是 ¥23925。18 块 vs 两万四，差 1300 倍。你一个创业团队每月花二十块就能跑一个完整的推理服务，剩下的两万三用来招人、买服务器、做营销，它不香吗？

甚至放到大规模生产系统里，10 亿 token 每月的量级，按同样比例算下来 R1 的月成本是 ¥183.4，而 o1 是 ¥173 万。差距接近万倍。这个万倍意味着什么？意味着以前只有大型企业才敢想的智能客服、文档分析、多步推理系统，现在一个小团队用免费或者近乎免费的成本就能试。当然，我承认 R1 在延迟、并发、英文质量上和 o1 还有差距，但它的成本优势已经大到让那些差距在很多场景里变得可以接受。你想想，如果优化一下业务逻辑，把 80% 的请求用 R1 处理，剩下 20% 对质量要求极高的才用 o1，整体成本仍然只占原来全用 o1 的一个零头。这是真正的成本结构变化，不是打折促销那种短期的甜头。

担心 R1 接入太复杂？完全没必要。DeepSeek 的 API 兼容 OpenAI SDK 格式，代码改三行就能跑。我直接拿素材包里的脚本做了测试，一段带缓存的流式调用，装了 OpenAI 的 Python 包，把 base_url 和 api_key 换掉，模型名改成 deepseek-reasoner，extra_body 里加一行 use_cache 就行。实际测下来，输出 200 token 的场景平均延迟 2.8 秒，比 o1 的 6.2 秒快了一倍多，虽然比 Claude Sonnet 的 1.5 秒慢一点，但结合成本来看这 2.8 秒完全不是问题。如果你需要更高灵活性，走 MakeSense 这样的渠道聚合平台，一个 key 能在多个模型之间切换，价格还能再低 10% 到 15%，代码上也只需要改一行 base_url——当然，这个选择要看你对中间商的信任度，但至少给多了一个变通项。

现在问题来了：你该不该切过去？我的看法是，分场景。R1 在中文为主的推理任务上表现非常突出，数学、逻辑、编程算题这块，某些 benchmark 甚至超过了 o1-preview。如果你做的业务是中文客服、教育、代码辅助，而且不需要太复杂的工具调用，R1 几乎是最优解。尤其对于成本敏感的团队，一个月可以省下几万块，省下来的钱够再请一个人了。但反过来，如果你需要大量英文长文写作、创意生成，R1 的英文语感确实不如 Claude Sonnet 或 GPT-4o；如果你需要处理超过 8K 的输出长度，R1 会卡住，输出上限不够；如果你的应用是实时对话，延迟 3 秒用户可能会等得不耐烦。更核心的问题是工具调用，R1 的 function calling 还在优化阶段，结构化输出的稳定性不如闭源大厂模型。这时候强行全切就是给自己挖坑。

所以我的建议非常直接：个人开发者，现在就去拿 R1 的 API key，把计划跑起来，月花费低于一瓶可乐，没有任何试错成本。中小团队，把推理类任务的主力模型换成 R1，留 GPT-4o-mini 或 Claude Sonnet 做英文和结构化输出，总成本每月控制在十元以内不是玩笑。生产系统级别的，可以考虑走渠道拿到更优价格，同时结合批量 API 或缓存策略进一步压降。但无论选哪条路，别一听便宜就直接全部切过去。花一周跑个 A/B 测试，用同一批 prompt 对比 R1 和现有模型的质量，大概率你会发现在 80% 的场景里 R1 的输出完全够用，剩下 20% 再分配给贵但必要的模型兜底。这个策略下，你的综合成本会断崖式下降。

这次降价不是某个厂商的空头支票，它是把推理模型的计费单位从“百美元”打到了“毛票”的历史节点。如果你过去因为成本不敢碰 deep reasoning，现在没有任何理由观望。去试，去踩坑，去算��的真实消耗——你的钱包和数据都会告诉你答案。

用本文提到的模型？

注册即送 1000 万 Token，GPT / Claude / Gemini 一键接入。

免费注册

动态

DeepSeek 官宣：V4-Pro 折扣正式永久化，API 价格调整为原价四分之一

用本文提到的模型？

评论反馈

相关推荐

OpenAI CEO 萨姆 · 奥尔特曼：AI 普及不太可能引发“就业末日”

Claude Code 创始人切尔尼建议计算机科学毕业生创业：现在是黄金时代

华为鸿蒙 HarmonyOS 6.1.1 开发者版本 API 24 转正

消息称微软、优步等巨头重估 AI 成本，Token 用量暴涨未必换来有用功能