シェア:

ジャカルタ - Googleは、Gemini 3 Flashモデルの新しい人工知能(AI)エージェント機能であるAgentic Visionを発表しました。この機能により、AIは画像を積極的に調査できます。

Googleは、この技術は視覚的推論とコードの実行を組み合わせて、小さなディテールを検査すると説明しています。ぼやけたディテールを推測する傾向のある従来のモデルとは異なり、Agenttic Visionは視覚を調査プロセスとして扱います。

このモデルは、画像を拡大、切り取り、操作するためのステップバイステップの形で計画を策定します。そうすれば、AIモデルは正確な視覚的証拠を見つけることができます。

このAIエージェントは、エージェントエージェントシステムに基づく「思考、行動、観察」メソッドを採用しています。まず、AIモデルはユーザーの要求を分析し、Pythonコードを実行して画像を操作し、新しい結果を観察してから回答します。

このコード実行の使用は、さまざまなAIビジョンベンチマークで5〜10%の一定の品質の向上を実証しました。この能力は、モデルがマイクロチップのシリアル番号を検出したり、非常に遠くにある道路標識を読み取らなければならないときに非常に重要です。

AIベースのビルプラン検証プラットフォームであるPlanCheckSolver.comは、この機能を使用しています。導入において、Gemini 3 Flashは建設の詳細をカットし、コンテキストウィンドウに自動的に追加できます。

Agentic Visionを使用すると、Gemini 3 Flashは、注釈を付けたり、画像に境界ボックスを描画したりすることで、直接やり取りすることもできます。この「ビジュアルホワイトボード」と呼ばれる手法は、オブジェクトの計算を保証できます。

このモデルは、非常に密集したデータテーブルからの視覚的な数学とグラフ作成を処理するのに非常にスマートであると主張されています。Geminiは、生のデータを見つけ、確率で数字を推測することなくプロの棒グラフを生成するためのPythonコードを書くでしょう。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)