メタがAI研究者向けのデータセットであるカジュアルカンバセーションV2を発表

ジャカルタ - Metaは、人工知能(AI)研究者が新しい対面ビデオクリップデータセットをリリースし、開発者がさまざまな人口統計グループでモデルがどの程度うまく機能するかを評価するのを支援することで、ツールとプロセスをより普遍的に包括的にするのを支援したいと考えています。

カジュアルカンバセーションv2という名前のメタデータベースは、研究者が特定のタイプのAIモデルの公平性と堅牢性をより適切に評価するために使用できます。

「この包括的なデータセットは、このAIシステムのアルゴリズムの公平性と回復力をさらに測定するために注釈が付けられた11の自己提供カテゴリの詳細なリストを提供します」とMetaは3月10日金曜日に引用された公式ブログで述べています。

「このデータセットの公開は、この分野の内部専門家と協議して行われた、公民権の進歩の重要なハイライトの1つです」と彼は付け加えました。

カジュアルカンバセーションv2データセットには、7か国で記録された26,467のモノローグビデオが含まれ、5,567人の有料参加者と、体系的な有効性を測定するための音声、視覚、および人口統計属性データが含まれていました。

「カジュアルカンバセーションv2では、多言語データセットを使用して、包括的な自然言語処理モデルの開発をサポートしたいと考えていました」とMeta氏は述べています。

カテゴリの拡張リストに加えて、カジュアルカンバセーションv2は、米国外で録音された参加者の独白が含まれているという点で、最初のバージョンとは異なります。v2に含まれる7か国は、ブラジル、インド、インドネシア、メキシコ、ベトナム、フィリピン、米国です。

そのため、データはFacebook情報を取得したり、Instagramから画像を提供したりせず、このデータセットに含まれるコンテンツは、AI研究者がモデルで使用するさまざまなバックグラウンドの人々のサンプルをさらに提供することで、インクルージョンを最大化するように設計されています。

「将来的には、データセットを他の地域に拡大したいと考えています。最新のデータセットのもう一つの違いは、参加者が第一言語と第二言語を話す機会が与えられていることです」とメタは言いました。