GoogleがGemini 3 FlashにAgentic Visionを発表

ジャカルタ - Googleは、Gemini 3 Flashモデルの新しい人工知能(AI)エージェント機能であるAgentic Visionを発表しました。この機能により、AIは画像を積極的に調査できます。

Googleは、この技術は視覚的推論とコードの実行を組み合わせて、小さなディテールを検査すると説明しています。ぼやけたディテールを推測する傾向のある従来のモデルとは異なり、Agenttic Visionは視覚を調査プロセスとして扱います。

このモデルは、画像を拡大、切り取り、操作するためのステップバイステップの形で計画を策定します。そうすれば、AIモデルは正確な視覚的証拠を見つけることができます。

このAIエージェントは、エージェントエージェントシステムに基づく「思考、行動、観察」メソッドを採用しています。まず、AIモデルはユーザーの要求を分析し、Pythonコードを実行して画像を操作し、新しい結果を観察してから回答します。

このコード実行の使用は、さまざまなAIビジョンベンチマークで5〜10%の一定の品質の向上を実証しました。この能力は、モデルがマイクロチップのシリアル番号を検出したり、非常に遠くにある道路標識を読み取らなければならないときに非常に重要です。

AIベースのビルプラン検証プラットフォームであるPlanCheckSolver.comは、この機能を使用しています。導入において、Gemini 3 Flashは建設の詳細をカットし、コンテキストウィンドウに自動的に追加できます。

Agentic Visionを使用すると、Gemini 3 Flashは、注釈を付けたり、画像に境界ボックスを描画したりすることで、直接やり取りすることもできます。この「ビジュアルホワイトボード」と呼ばれる手法は、オブジェクトの計算を保証できます。

このモデルは、非常に密集したデータテーブルからの視覚的な数学とグラフ作成を処理するのに非常にスマートであると主張されています。Geminiは、生のデータを見つけ、確率で数字を推測することなくプロの棒グラフを生成するためのPythonコードを書くでしょう。

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: google gemini

Add VOI as a Preferred Source

Follow VOI news updates across Google.

最も人気のあるタグ

#Prabowo Subianto #ドナルド・トランプ #13232 #4500 #8791

GoogleがGemini 3 FlashにAgentic Visionを発表

最も人気のあるタグ

人気

9月の利上げを目標とする市場、FRBは金利を維持すると予測

Moonshot AIはKimi K3の重み、2.8兆のパラメータを持つAIモデルを公開

イラン、ホルムズ海峡管理のための暫定計画を提案

インドネシア、2026年カフィノ・スリカンディ・メモレダカップに2チームを降格

ケイティ・ホームズ、新しい恋人とハンプトンズで仲良く登場

Are you 18 years or older?

GoogleがGemini 3 FlashにAgentic Visionを発表

最も人気のあるタグ

人気

関連