DeepSeek三天两次故障,网友发现“蛛丝马迹”:V4要来了?
今天傍晚,DeepSeek再度出现服务异常,社交平台上不少用户反馈,对话过程中频繁遭遇“请检查网络后重试”或“服务器繁忙”等提示。目前,服务已恢复正常。
这是三天之内DeepSeek第二次发生服务故障。上周日,平台曾经历上线以来最长的一次中断。
3月29日晚9点35分起,大量用户发现DeepSeek无法发起新对话,已有对话频繁中断,屏幕上反复弹出“服务器繁忙”的提示。当晚11点23分,系统曾短暂恢复,但不到1小时再度崩溃。技术团队随即启动二次修复,直至次日上午10点33分才宣布故障排除。
整个过程持续时间近12小时,波及网页端与App端,修复过程也一波三折。相关话题迅速登上微博热搜引发热议,在海外开发者社区里同样炸开了锅。公开记录显示,DeepSeek网页端此前从未出现超过2小时的服务中断。
这两次宕机,恰逢DeepSeek模型更新周期的敏感节点。近期,关于DeepSeek V4的基准测试数据已在业内流传,坊间传言的发布时间也已多次推迟。
有技术观察人士猜测,DeepSeek近日服务不稳,可能与它正处于“临发布状态”有关。频繁的服务器压力测试、底层架构调整与新模型部署等,都有可能引发服务波动。
还有细心的网友发现了一些“蛛丝马迹”。比如有海外开发者在Zero-shot(零样本)编码测试中注意到,DeepSeek当前的输出结构比前几天更加清晰,逻辑严谨程度大大提升;也有网友发现,DeepSeek在Web应用程序中进行了升级,输出效果改善明显;还有网友观察到,App端的上传按钮界面进行了更新,而类似这种细微变化,通常预示着后端架构正在或即将经历大幅调整。
虽然V4尚未正式发布,但DeepSeek团队这段时间并没有闲着。过去几个月,DeepSeek接连与北京大学、清华大学合作发布了多篇重磅论文,提前“剧透”了V4的关键技术方向。
1月,由梁文锋署名的论文提出Engram“条件记忆”模块,解决了Transformer的记忆难题。这种将固定知识从Transformer中剥离出来的全新机制,让模型不再需要用昂贵的计算去“死记硬背”,而是通过近乎O(1)的查表操作快速获取知识。
紧接着2月,DeepSeek又发布了DualPath推理框架,专门解决模型在多轮对话场景下越聊越慢的问题。通过一套巧妙的加载机制,这套框架把离线推理的吞吐量提升了近两倍,在线服务的吞吐量也几乎翻了一番,而这一切仅靠软件优化实现,不增加任何硬件成本。
这两项技术突破,一个指向模型架构层面的“记忆与计算分离”,一个指向推理系统层面的“I/O瓶颈突破”,恰好构成了V4从算法到底座的两大技术支柱。
市场和网友们对DeepSeek新版本的期待,并非没有缘由。作为一度搅动大模型价格战的“价格屠夫”,DeepSeek此前以极具竞争力的定价策略,大幅降低了开发者调用大模型的门槛。
在算力成本仍是行业核心痛点的当下,大家渴望DeepSeek能够再次带来成本更低的Token,让更为高效且廉价的大模型能力,惠及更多开发者和应用场景。
橙柿互动.都市快报记者童蔚
编辑成嘉怡
审核张倩陈欣文
校对陈洁珍
往期回顾
BREAK AWAY
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com