DeepSeek发布了“中介”AI模型,迈向下一代架构

雅加达 - 中国的人工智能(AI)开发商DeepSeek发布了其最新的“实验性”模型。据称,该模型在培训方面效率更高,比以前的模型更好地处理长文本序列。

这家总部位于杭州的初创公司将该车型命名为DeepSeek-V3.2-Exp,并在Hugging Face开发者论坛上的一篇文章中称其为“下一代架构的步骤”。

有问题的新架构可能是DeepSeek自V3和R1型号以来最重要的产品的推出,这让硅谷和中国以外的科技投资者感到惊讶。

V3.2-Exp 型号配备了称为 DeepSeek Sparse Attention 的机制,该公司表示可以降低计算成本,同时在多个方面提高模型性能。在9月29日星期一在平台X上发布的一篇文章中,DeepSeek还宣布将API价格削减50%以上。

虽然DeepSeek的下一代架构预计不会像1月份之前的版本那样震撼市场,但如果DeepSeek能够以比竞争对手低得多的成本再次展示高性能,其成功仍可能给阿里巴巴的Qwen等国内竞争对手带来巨大的压力。