雅加达 - 苹果人工智能科学家进行的一项新研究发现,与Meta和OpenAI开发的基于大语言(LLM)模型的机器仍然缺乏基本的精通能力。

苹果正在提出一个名为GSM-Symbolic的新基准基准,以帮助衡量这些型号的可行性能力。

初步测试发现,查询中字数中的小量更改可能导致非常不同的答案,损害了模型的可靠性。该研究强调了模型数学点的“固执”,其中添加了不应影响计算的背景信息,导致不同的结果。

具体而言,当问题中的数值在GSM-Symbolic基准基准上更改时,所有模型的性能都会下降。研究还表明,问题复杂化和缺口越多,模型性能就越差。

例如,苹果的团队测试了一个简单的数学问题,该问题不应受到其他信息的影响。然而,OpenAI和Meta的模型错误地减少了无关的信息,证明模型并不真正理解问题,只依赖于语言模式。

该研究得出结论,目前的LLM 模型没有批判性推理能力,并且倾向于使用易于简单单词更改的匹配模式。 苹果计划从iOS 18.1开始推出自己的更高级别的AI版本,以克服目前LLM的局限性。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)