シェア:

ジャカルタ - Googleは、その主力の人工知能を再びアップグレードしました。今回は、テクノロジーの大手企業がGemini 2.5 Flash Native Audioのアップデートをリリースし、AIとの会話がよりスムーズで、文脈的で、ユーザーの会話が間違ったタイミングで中断されないようにしました。

2025年12月12日にリリースされた発表では、Googleはこのアップデートが直接音声エージェントに焦点を当てていると述べ、ターゲットは明確です:機械と人間の相互作用を、仮想アシスタントの初期の時代からの単なる命令ではなく、より自然な人間間の会話に近づけることです。

重要な改善の1つは、関数の呼び出しのタイミングを決定することです。Geminiは、リアルタイムのデータを収集して、音声応答に直接挿入し、会話の流れを損なうことなく、応答を返すタイミングをより正確に把握できるようになりました。簡単に言えば、AIは、答えを返す前に「考えてみる」べきかどうかをよりよく把握し、それが見えないようにします。

Googleはまた、開発者の指示に従うジェミニの遵守率を90%に引き上げ、以前の84%から上昇させた。この数字は、特に複雑なワークフローでは、小さなミスがAIの出力に大きな影響を与える可能性があるため、重要です。簡単に言えば、ジェミニは今やより従順で、誤ってユーザーの会話に干渉することはめったにありません。

ユーザーエクスペリエンスの観点から、Gemini 2.5 Flash Native Audioは、以前の会話の文脈をよりスマートに覚えており、ユーザーの会話が間違ったタイミングで繰り返されることなく、よりスムーズに感じられます。AIはまだマシンですが、短期記憶喪失は徐々に放棄されています。

Google Labs、Gemini、AI StudioのVPであるJosh Woodward氏は、2つの小さな機能が追加されたと付け加えた。まず、Gemini Liveは、少し長いスピーチの休憩のためにユーザーを直接切り離すことはなくなりました。次に、ユーザーはGeminiが話しているときにマイクをオフにすることができるので、誤って会話が中断されないようにします。シンプルだが人間味のある機能。

Googleは、このアップデートは、ジェミニが複雑なワークフローを処理し、ユーザーの指示をナビゲートし、ユーザーの会話を誤ったタイミングで中断しないようにする能力を向上させるために設計されたと述べています。

このステップは、Geminiが単なるデジタルアシスタントではなく、ユーザーの会話を間違ったタイミングで中断することなく、会話のパートナーになることをGoogleの野望を強調しています。AIは、まだ感情的に天気について話すことはできませんが、少なくとも今、いつ沈黙し、聞くべきか、そして適切に答えるべきかを知っています。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)