ジャカルタ-メタは、AIの将来に大きな影響を与える可能性のあるセグメントエニシングモデル(SAM)をリリースすることにより、人工知能(AI)の新たなブレークスルーを再び開始しました。
「私たちは、幅広いアプリケーションを可能にし、コンピュータービジョンの基本モデルのさらなる研究を推進するために、これまでで最大のセグメンテーションデータセットである一般的なセグメントエニシングモデルとセグメントエニシング10億マスク(SA-1B)データセットをリリースします」とMetaは公式ブログで述べています4月6日木曜日に引用。
SA-1Bからの多様なデータで訓練されたSegment Anythingは、訓練中に観察されたものを超えて、新しい画像やビデオからオブジェクトタイプに一般化することができます。
メタデモに見られるように、Anythingセグメントはボックス内のすべてのピースを識別できます。
同社によれば、Segment Anythingは、AI研究コミュニティなどが、世界の共通のマルチモーダル理解のためのより大きなシステムのコンポーネントになるのに役立つ可能性があります。Webページのビジュアルコンテンツやテキストを理解するなど。
同様に、拡張現実(AR)と仮想現実(VR)の世界では、MetaのAIモデルは、ユーザーのビューに基づいてオブジェクトの選択をアクティブにし、それらを3Dに昇格させることができます。
「Anythingセグメントは、AR / VR、コンテンツ作成、科学ドメイン、より一般的なAIシステムなどのドメインで強力なコンポーネントになる可能性があります」とMeta氏は述べています。
さらに、Anythingセグメントは、コンテンツ作成者がコラージュやビデオ編集用の画像領域の抽出などのクリエイティブアプリケーションを強化するためにも使用できます。
実際、Metaは、Anythingセグメントは、たとえば、ビデオで研究および追跡する動物や物体を検出するなど、地球上または宇宙での自然現象の科学的研究にも役立つと主張しています。
Metaは、最終的なデータセットには、約1,100万のライセンスおよびプライバシー保護画像で収集された11億を超えるセグメンテーションマスクが含まれていることを強調しました。
SA-1Bには、既存のセグメンテーションデータセットの400倍のマスクがあります。SA-1Bの画像は、さまざまな地理的地域と所得レベルにまたがるさまざまな国の写真プロバイダーを通じて供給されています。
以前のセグメンテーションモデルでは、自動セグメンテーションのために手動で注釈が付けられた多数のオブジェクトに基づくインタラクティブなセグメンテーションまたはトレーニングを通じて個人をガイドする必要がありました。
しかし現在、Segment Anythingは、任意のセグメンテーション方法を簡単に実行できる単一のモデルです。
つまり、実務家は独自のセグメンテーションデータを収集する必要がなくなり、ユースケースに合わせてモデルを微調整する必要がなくなり、時間と労力を節約できます。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)