雅加达 - 中国的人工智能(AI)开发商DeepSeek发布了其最新的“实验性”模型。据称,该模型在培训方面效率更高,比以前的模型更好地处理长文本序列。
这家总部位于杭州的初创公司将该车型命名为DeepSeek-V3.2-Exp,并在Hugging Face开发者论坛上的一篇文章中称其为“下一代架构的步骤”。
有问题的新架构可能是DeepSeek自V3和R1型号以来最重要的产品的推出,这让硅谷和中国以外的科技投资者感到惊讶。
V3.2-Exp 型号配备了称为 DeepSeek Sparse Attention 的机制,该公司表示可以降低计算成本,同时在多个方面提高 模型性能 。在9月29日星期一在平台X上发布的一篇文章中,DeepSeek还宣布将API价格削减50%以上。
虽然DeepSeek的下一代架构预计不会像1月份之前的版本那样震撼市场,但如果DeepSeek能够以比竞争对手低得多的成本再次展示高性能,其成功仍可能给阿里巴巴的Qwen等国内竞争对手带来巨大的压力。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)