据外媒报道,谷歌再次升级其旗舰人工智能。这一次,这家科技巨头发布了Gemini 2.5 Flash Native Audio的更新,声称它可以使与AI的对话更顺畅,更具语境性,不再在错误的时间切断用户的谈话。
在2025年12月12日发布的公告中,谷歌表示,此次更新的重点是直接语音代理或实时语音代理。目标很明确:使人与机器的互动更接近人与人之间的自然对话,而不是像早期虚拟助理时代那样僵硬的命令。
其中一个主要改进是函数调用功能。Gemini现在更精确地确定何时调用外部函数,例如获取实时数据,然后将其直接插入音频响应中,而不会破坏对话的流。简而言之,这个AI知道什么时候“先检查”然后再回答,并且在不显眼的情况下这样做。
谷歌还提高了Gemini对开发人员指令的遵守率。遵循指令的准确率现在达到90%,高于之前的84%。这个数字很重要,特别是在复杂的工作流程中,一个小错误可能会使AI输出严重偏离。简单地说:Gemini现在更服从,更少出错。
在用户体验方面,Gemini 2.5 Flash Native Audio现在更聪明地记住以前对话的上下文。这使得对话感觉更连贯,并且不会像忘记刚刚讨论过的主题一样重复主题。它的AI仍然是机器,但短期失忆症开始消失。
Google Labs、Gemini 和 AI Studio 的副总裁 Josh Woodward 补充说,有两个小但至关重要的功能。首先,Gemini Live 现在不会因为说话时间稍长而立即切断用户。其次,用户可以在 Gemini 说话时关闭麦克风,因此不会发生意外中断。功能很简单,但非常人性化。
谷歌表示,该更新旨在提高Gemini处理复杂工作流程,导航用户指令以及保持对话自然的能力。该更新已开始在Gemini Live,Search Live,Google AI Studio和Vertex AI中推出。
此举证实了谷歌的雄心,即让Gemini不仅仅是一个数字助理,而是一个可以进行对话的合作伙伴,可以毫不费力地进行讨论。人工智能可能还不能像情绪一样谈论天气,但至少现在它知道什么时候该保持沉默,倾听,然后以相关的方式回答。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)