EXPLYT TEAM
18.12.2025
2分钟
我们很高兴地宣布,DeepSeek-V3.2 已成功部署至我们的 VPC 环境中。
该模型为 Explyt Enterprise 树立了全新的质量基准。
根据我们内部基准测试的结果,该模型在稳定性、推理深度以及将任务真正落实为可交付成果的能力方面,均显著优于 Qwen3-Coder-480B。
DeepSeek-V3.2 的运行方式更加审慎,对错误的分析更加精准,并且能够更高效地探索解决方案空间。
以下是基准测试中 LLM 裁判给出的评估结果,清晰地展示了两种模型在工作方式上的差异:
关于任务执行的完整性:
“代理 1(Qwen)存在一个反复出现的问题:在缺乏真实验证的情况下就宣称任务完成,有时还会修改错误的组件。代理 2(DeepSeek)的行为则截然不同:它会持续进行结果验证(运行测试、配置日志级别),并在无法准确完成任务时主动升级问题。”
结果优先,而非行为模仿:
“当 Qwen 停留在分析阶段、迟迟无法推进到实际代码修改时,DeepSeek 则交付了可用功能,并实现了备用方案。”
重结果完整性,而非形式主义:
“旧模型优先遵循形式化规则,但往往在过程中迷失方向并中途放弃任务。新模型(DeepSeek)恰恰相反:它优先保证任务的实质性完成,即便这意味着需要偏离用户在结构层面上过于僵化、但仅具形式意义的要求。”
更少噪音,更多实事:
“与 DeepSeek 的交互摩擦更低,体验更加顺畅。相比之下,Qwen 在有用的结构化输出与具有破坏性的‘过度活跃’之间反复摇摆,用大量日志和重复内容淹没流程,而 DeepSeek 的行为则更加安静且可预测。”
真正的开发闭环:
“DeepSeek 始终遵循完整的开发流程:‘编辑 — 编译 — 测试’。相比之下,Qwen 常常陷入无休止的文件搜索和死胡同分支,最终在未产生任何有效修改的情况下超时结束。”
总结:
全新的 DeepSeek-V3.2 模型现已面向企业客户正式上线 Explyt Enterprise。
Explyt 研发团队持续致力于提升产品质量。
我们不断评估新的模型,引入业界领先的解决方案,并持续提升 Explyt Enterprise 的整体质量与可靠性。


