Google 升级 Gemini 2.5 Flash,AI对话更自然,更少误解
据外媒报道,谷歌再次升级其旗舰人工智能。这一次,这家科技巨头发布了Gemini 2.5 Flash Native Audio的更新,声称它可以使与AI的对话更顺畅,更具语境性,不再在错误的时间切断用户的谈话。
在2025年12月12日发布的公告中,谷歌表示,此次更新的重点是直接语音代理或实时语音代理。目标很明确:使人与机器的互动更接近人与人之间的自然对话,而不是像早期虚拟助理时代那样僵硬的命令。
其中一个主要改进是函数调用功能。Gemini现在更精确地确定何时调用外部函数,例如获取实时数据,然后将其直接插入音频响应中,而不会破坏对话的流。简而言之,这个AI知道什么时候“先检查”然后再回答,并且在不显眼的情况下这样做。
谷歌还提高了Gemini对开发人员指令的遵守率。遵循指令的准确率现在达到90%,高于之前的84%。这个数字很重要,特别是在复杂的工作流程中,一个小错误可能会使AI输出严重偏离。简单地说:Gemini现在更服从,更少出错。
在用户体验方面,Gemini 2.5 Flash Native Audio现在更聪明地记住以前对话的上下文。这使得对话感觉更连贯,并且不会像忘记刚刚讨论过的主题一样重复主题。它的AI仍然是机器,但短期失忆症开始消失。
Google Labs、Gemini 和 AI Studio 的副总裁 Josh Woodward 补充说,有两个小但至关重要的功能。首先,Gemini Live 现在不会因为说话时间稍长而立即切断用户。其次,用户可以在 Gemini 说话时关闭麦克风,因此不会发生意外中断。功能很简单,但非常人性化。
谷歌表示,该更新旨在提高Gemini处理复杂工作流程,导航用户指令以及保持对话自然的能力。该更新已开始在Gemini Live,Search Live,Google AI Studio和Vertex AI中推出。
此举证实了谷歌的雄心,即让Gemini不仅仅是一个数字助理,而是一个可以进行对话的合作伙伴,可以毫不费力地进行讨论。人工智能可能还不能像情绪一样谈论天气,但至少现在它知道什么时候该保持沉默,倾听,然后以相关的方式回答。