ジャカルタ-Googleは、現実世界で行動を起こすためのビジョン言語アクション(VLA)モデルであるロボット変圧器2(RT-2)を導入しました。
この人工知能(AI)ベースのロボットは、Web からテキストや画像を理解し、処理するために Google によってトレーニングされています。このデータを使用すると、RT-2 はアクションを即座に表示できます。
「チャットボットとは異なり、ロボットは現実世界での地平線とその能力を必要とします。彼らのトレーニングは、リンゴ、リンゴの成長方法、そしてその物理的特性について知っておくべきすべてを学ぶことだけに関するものではありません」と、DeepMindの科学者兼ロボット責任者であるVincent Vnhou 氏は、同社の公式ブログで述べています。
「ロボットは、コンテキストでリンゴを認識し、赤いボールと区別し、それがどのように見えるかを理解し、最も重要なことに、それを取る方法を知ることができなければなりません。
この最近の研究は、多段階の問題を解剖する方法であるシンクチェーンブーストを使用できる場合でも、ロボットの推論能力を向上させました。
PaLM-Eなどのビジョンモデルの導入は、ロボットが環境をよりよく理解するのに役立ちます。そしてRT-1(RT-2以前)は、システム全体で情報を一般化する能力で知られるトランスフォーマーが、さまざまな種類のロボットが互いに学習するのにも役立つことを示しました。
6,000以上のロボット試験でRT-2モデルをテストしたところ、科学者たちはRT-2がトレーニングデータのタスク、または目に見えるタスクに関する以前のモデルと同じくらい機能していることを発見しました。
「そして、小説におけるそのパフォーマンスをほぼ倍増させたが、このシナリオはRT-1の32%の62%には見られなかった。言い換えれば、RT-2を使用すると、ロボットは私たちのようにより多くのことを学び、学んだ概念を新しい状況に移行することができます」とVannouicky氏は説明します。
RT-2は多数のWebデータから知識を転送できるため、RT-2はすでに廃棄物が何であるかについてのアイデアを持っており、明示的なトレーニングなしでそれらを識別することができます。
「彼はゴミを処分する方法のアイデアさえ持っていましたが、そのような行動を実行するように訓練されたことはありませんでした」とVnhouckは言いました。
「そして、ゴミの抽象的な性質について考えてください - あなたがそれを食べた後にかつてチップス袋やバナナの皮がゴミになったもの。RT-2は、ビジョン言語トレーニングデータからそれを理解し、その仕事をすることができます」と彼は続けた。
Vinhou理氏は、RT-2がアクションに情報を転送する能力は、ロボットが新しい状況や環境により迅速に適応するという約束を示していると述べた。
「RT-2は、AIの進歩がロボット工学にどのように急速に流れ込んでいるかを示すだけでなく、より一般的なロボットへの大きな約束も示しています」とVnhouイケ氏は述べています。
「人間中心の環境で役立つロボットを活性化するには、まだ多くの作業がありますが、RT-2はロボット工学のエキサイティングな未来を私たちの手のひらで示しています」と彼は付け加えました。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)