Article

动态

DeepSeek 官方 X 账号(@deepseek_ai)于 5 月 23 日发布了一条让开发者社区颇为兴奋的消息:DeepSeek-V4-Pro 的折扣将永久化。原文为"We are making our discount permanent!"并附上了产品图。 结合 DeepSeek 官方 API 文档中的说明,实际情况如下:V4-Pro 当前处于 2.5 折限时促销阶段,截止日期为北京时间 2026 年 5 ...

DeepSeek 官宣:V4-Pro 折扣正式永久化,API 价格调整为原价四分之一

DeepSeek 官方 X 账号(@deepseek_ai)于 5 月 23 日发布了一条让开发者社区颇为兴奋的消息:DeepSeek-V4-Pro 的折扣将永久化。原文为"We are making our discount permanent!"并附上了产品图。 结合 DeepSeek 官方 API 文档中的说明,实际情况如下:V4-Pro 当前处于 2.5 折限时促销阶段,截止日期为北京时间 2026 年 5 ...

2024年底那会儿,AI圈有个不成文的共识——便宜没好模型,好模型不便宜,尤其是推理模型。OpenAI o1 顶着每秒一个 token 的算力砸钱,输出价格挂到 $60 每百万 token,谁用谁心疼,一个中等规模的团队每月光推理账单就能烧出一台车。我当时写过一篇博客,标题叫“穷人不配用思维链”,因为事实就是那样——慢思考能力虽然强,但那个价格标签自带劝退属性。三个月后,DeepSeek R1 把输出从 $2.19 砍到 $0.0386,降了 98% 以上,我的态度直接一百八十度翻转:不是穷人不配,是之前的市场定价根本不讲道理。

这次降价不��普通的限时促销,DeepSeek 官方把 R1 的 API 价格永久定在了输入 ¥0.14 每百万 token、输出 ¥0.28,连缓存输入都降到了 ¥0.07。折算成美元,输出不到 4 美分。我第一反应是翻出各家官网重新算了一遍——OpenAI o1 输出 $60,Claude Sonnet 4 输出 $15,Gemini 2.0 Pro 输出 $5,甚至以低价闻名的 Gemini 2.0 Flash 都还要 $0.4。DeepSeek R1 比 Flash 低了整整一个数量级,而 Flash 只是一个普通模型,R1 是带思维链的推理模型。这个定价已经不是倾斜,是掀桌子。

很多人会问:凭什么这么便宜?是亏本抢市场还是真能把成本压下来?我的判断是两者都有。DeepSeek 在模型架构上做了不少优化——多头潜在注意力(MLA)、稀疏混合专家(MoE)这些技术取舍让推理阶段的算力消耗降了一大截。开源社区的反向验证也表明,R1 的激活参数远低于同规模闭源模型,这意味着每生成一个 token 的实际硬件成本本身就低。与此同时,DeepSeek 这半年在抢夺开发者心智上非常主动,V3 的时候就用 $0.27 的输入价格搅过一次局,这次 R1 降价明显是趁对手还没把推理模型价格打下来之前先吃掉份额。你不降,用户不敢用,推理模型就永远是极客玩具。你把价格干到白菜价,开发者才愿意在生产环境里上 deep reasoning。

为了说清楚这个价格到底是“真便宜”还是“纸面便宜”,我拉了一次典型任务的成本账。假设一次问答场景,输入 5000 token,输出 500 token,不考虑缓存。GPT-4o 的花费是 5000 除以一百万乘以 $2.5 加上 500 除以一百万乘以 $10,算下来是 $0.0175。Claude Sonnet 4 是 $0.0225。Gemini 2.0 Flash 因为本身定价就低,只需 $0.0007。而 DeepSeek R1 用降价后的价格算,输入部分只有 ¥0.14 每百万 token,输出 ¥0.28,换算成美元后大约是输入 $0.019、输出 $0.039,所以这次任务成本是 5000 除以一千万乘以 $0.019 加上 500 除以一千万乘以 $0.039,得到 $0.000095 加 $0.0000195,总计约 $0.000115。注意单位,这不到万分之一点一五美元。拿这个数跟 GPT-4o 的 $0.0175 比,R1 的成本只有后者的 0.66%。即使跟 Gemini Flash 比,R1 也少了 84%。考虑到 Flash 本来主打的就是极致低价,一个推理模型比它便宜 84%,这就像拿跑车的油耗跟老头乐比,还赢了。

这种成本优势投射到真实使用场景里,感受会非常强烈。我见过太多开发者因为价格选了垃圾模型,只因为便宜;也见过团队咬咬牙上 GPT-4o 结果每个月账单让人失眠。现在 R1 给出了一个极其诱人的选项——价格低到几乎没有心理负担,能力却不低。我们用素材包里给的场景来推演一下实际开销,注意这不是拍脑袋,而是基于真实的 token 消耗假设,并且我故意不挑最理想的缓存场景,只算 30% 缓存命中。

先看一个个人开发者或学生的情况。假设月消耗 500 万 token,其中输入占 300 万,输出占 200 万,30% 的输入命中了缓存。按 DeepSeek R1 的标准价和缓存价混合计算:标准输入 300 万中有 70% 是 210 万,按 ¥0.14,得 ¥0.294;缓存输入 90 万,按 ¥0.07,得 ¥0.063;输出 200 万全部按 ¥0.28,得 ¥0.56。加总 ¥0.917。对,一个月花费不到一块钱。如果走 MakeSense 渠道(他们聚合了多条通道,R1 输出降到 ¥0.22),输出部分变成 ¥0.44,总成本 ¥0.797。作为对比,同样用量换用 OpenAI o1(按 $15 输入 $60 输出算),输入成本是 300 万除以一百万乘 $15 等于 $45,输出成本 200 万除以一百万乘 $60 等于 $120,合计 $165,按汇率 7.25 折算 ¥1196。一块钱人民币和一千两百元之间的差距,接近 1200 倍。你每个月少喝两杯奶茶,就能跑一个个人 AI 项目,而且用的还是顶级推理模型。这个账,任何独立开发者都没理由不算。

再放大到中小团队或创业公司。假设月 token 消耗上升到 1 亿,输入 6000 万,输出 4000 万,同样假设 30% 缓存命中。标准输入部分 4200 万,按 ¥0.14,得 ¥5.88;缓存输入 1800 万,按 ¥0.07,得 ¥1.26;输出 4000 万按 ¥0.28,得 ¥11.2。合计 ¥18.34。一个月 18 块钱,还不够一个开发吃一顿好的。如果走第三方渠道把输出压到 ¥0.22,总成本降到 ¥16.34。对比同量级用 o1,输入 6000 万乘 $15 除以百万等于 $900,输出 4000 万乘 $60 等于 $2400,合计 $3300,大约是 ¥23925。18 块 vs 两万四,差 1300 倍。你一个创业团队每月花二十块就能跑一个完整的推理服务,剩下的两万三用来招人、买服务器、做营销,它不香吗?

甚至放到大规模生产系统里,10 亿 token 每月的量级,按同样比例算下来 R1 的月成本是 ¥183.4,而 o1 是 ¥173 万。差距接近万倍。这个万倍意味着什么?意味着以前只有大型企业才敢想的智能客服、文档分析、多步推理系统,现在一个小团队用免费或者近乎免费的成本就能试。当然,我承认 R1 在延迟、并发、英文质量上和 o1 还有差距,但它的成本优势已经大到让那些差距在很多场景里变得可以接受。你想想,如果优化一下业务逻辑,把 80% 的请求用 R1 处理,剩下 20% 对质量要求极高的才用 o1,整体成本仍然只占原来全用 o1 的一个零头。这是真正的成本结构变化,不是打折促销那种短期的甜头。

担心 R1 接入太复杂?完全没必要。DeepSeek 的 API 兼容 OpenAI SDK 格式,代码改三行就能跑。我直接拿素材包里的脚本做了测试,一段带缓存的流式调用,装了 OpenAI 的 Python 包,把 base_url 和 api_key 换掉,模型名改成 deepseek-reasoner,extra_body 里加一行 use_cache 就行。实际测下来,输出 200 token 的场景平均延迟 2.8 秒,比 o1 的 6.2 秒快了一倍多,虽然比 Claude Sonnet 的 1.5 秒慢一点,但结合成本来看这 2.8 秒完全不是问题。如果你需要更高灵活性,走 MakeSense 这样的渠道聚合平台,一个 key 能在多个模型之间切换,价格还能再低 10% 到 15%,代码上也只需要改一行 base_url——当然,这个选择要看你对中间商的信任度,但至少给多了一个变通项。

现在问题来了:你该不该切过去?我的看法是,分场景。R1 在中文为主的推理任务上表现非常突出,数学、逻辑、编程算题这块,某些 benchmark 甚至超过了 o1-preview。如果你做的业务是中文客服、教育、代码辅助,而且不需要太复杂的工具调用,R1 几乎是最优解。尤其对于成本敏感的团队,一个月可以省下几万块,省下来的钱够再请一个人了。但反过来,如果你需要大量英文长文写作、创意生成,R1 的英文语感确实不如 Claude Sonnet 或 GPT-4o;如果你需要处理超过 8K 的输出长度,R1 会卡住,输出上限不够;如果你的应用是实时对话,延迟 3 秒用户可能会等得不耐烦。更核心的问题是工具调用,R1 的 function calling 还在优化阶段,结构化输出的稳定性不如闭源大厂模型。这时候强行全切就是给自己挖坑。

所以我的建议非常直接:个人开发者,现在就去拿 R1 的 API key,把计划跑起来,月花费低于一瓶可乐,没有任何试错成本。中小团队,把推理类任务的主力模型换成 R1,留 GPT-4o-mini 或 Claude Sonnet 做英文和结构化输出,总成本每月控制在十元以内不是玩笑。生产系统级别的,可以考虑走渠道拿到更优价格,同时结合批量 API 或缓存策略进一步压降。但无论选哪条路,别一听便宜就直接全部切过去。花一周跑个 A/B 测试,用同一批 prompt 对比 R1 和现有模型的质量,大概率你会发现在 80% 的场景里 R1 的输出完全够用,剩下 20% 再分配给贵但必要的模型兜底。这个策略下,你的综合成本会断崖式下降。

这次降价不是某个厂商的空头支票,它是把推理模型的计费单位从“百美元”打到了“毛票”的历史节点。如果你过去因为成本不敢碰 deep reasoning,现在没有任何理由观望。去试,去踩坑,去算��的真实消耗——你的钱包和数据都会告诉你答案。

用本文提到的模型?

注册即送 1000 万 Token,GPT / Claude / Gemini 一键接入。

免费注册

评论反馈

0/500

相关推荐