苹果研究:基于LLM的AI模型仍然存在问题,因为它无法合乎逻辑地思考

雅加达 - 苹果人工智能科学家进行的一项新研究发现,与Meta和OpenAI开发的基于大语言(LLM)模型的机器仍然缺乏基本的精通能力。

苹果正在提出一个名为GSM-Symbolic的新基准基准,以帮助衡量这些型号的可行性能力。

初步测试发现,查询中字数中的小量更改可能导致非常不同的答案,损害了模型的可靠性。该研究强调了模型数学点的“固执”,其中添加了不应影响计算的背景信息,导致不同的结果。

具体而言,当问题中的数值在GSM-Symbolic基准基准上更改时,所有模型的性能都会下降。研究还表明,问题复杂化和缺口越多,模型性能就越差。

例如,苹果的团队测试了一个简单的数学问题,该问题不应受到其他信息的影响。然而,OpenAI和Meta的模型错误地减少了无关的信息,证明模型并不真正理解问题,只依赖于语言模式。

该研究得出结论,目前的LLM 模型没有批判性推理能力,并且倾向于使用易于简单单词更改的匹配模式。 苹果计划从iOS 18.1开始推出自己的更高级别的AI版本,以克服目前LLM的局限性。