YouTube ショートパンツ には、Google の言語 AI モデル DeepMind のおかげでビデオ 説明が行われる

ジャカルタ-YouTubs Shortsは、DeepMindとBrainのチームをGoogleの大きな人工知能(AI)チームに統合した結果のおかげで、ビデオ再生に沿った説明がまもなく行われます。

Googleの愛称で呼ばれるDeepMindは、ビジュアル言語モデル(VLM)の1つがTikTokの競合他社のサービスで説明を行うためにどのように使用されたかを詳述しました。

「YouTube Shortsはわずか数分で作成され、多くの場合、有用な説明やタイトルが含まれていないため、検索では見つけるのがより困難です。そこで、説明の作成に役立つビジュアル言語モデルのFlamingoを導入しました」と、GoogleのDeepMindチームは5月25日木曜日に引用した公式ブログで述べています。

フラミンゴは、ビデオの初期フレームを分析して何が起こったのかを説明することで、説明を行うことができます。このツールは、すべての新しいショートパンツビデオの説明を作成することができます。

テキスト説明はメタデータとして保存され、ビデオをより適切に分類し、検索結果を視聴者のクエリと一致させます。

「これで、ユーザーはより関連性の高い動画を視聴し、さまざまなグローバルクリエイターから探しているものを見つけやすくなります」とGoogleのDeepMindチームは述べています。

さらに、Google DeepMindはAI研究も実施し、YouTubeの技術チームや製品と協力してYouTubeエクスペリエンスを向上させています。

「私たちは、セキュリティを向上させ、遅延を減らし、視聴者、クリエイター、広告主のエクスペリエンスを向上させる意思決定プロセスの最適化を支援してきました」とGoogleのDeepMindチームは述べています。

GoogleのDeepMindチームは、インターネットトラフィックの総数が将来増加すると予想されることを認識しているため、ビデオ圧縮がますます重要な問題になっています。

彼らは、AIモデルの可能性であるMuZeroをYouTubeに探求し、インターネットを介してビデオを圧縮して送信するのに役立つコーディング形式であるVP9コーデックを改善しました。次に、チームはMuZeroをいくつかのYouTubeライブトラフィックに実装しました。

「一部のYouTubeライブトラフィックの生産段階に開始されて以来、大規模で多様なビデオプールで平均ビット速度が4%低下しました」とGoogleのDeepMindチームは述べています。

「Bitrateは、ビデオの再生と保存に必要なコンピューティング機能と帯域幅を決定するのに役立ち、ビデオの読み込み時間から解像度、バッファ、データ使用まで、すべてに影響します」と彼は付け加えました。

2018年以来、Google DeepMindはYouTubeと協力して、広告から収益を得ることができる動画の種類についてクリエイターをよりよく教育し、YouTube広告主に適したコンテンツガイドラインに従うコンテンツと一緒に広告が表示されるようにしてきました。

YouTubeチームと共同で、YouTubeの広告に優しいガイドラインに従って、動画のラベル付けをより正確にするのに役立つラベル品質モデル(LQM)を開発しました。このモデルは、YouTubeの広告に優しいポリシーに沿って、動画で表示される広告の精度を向上させます」とGoogleのDeepMindチームは説明します。

最後に、クリエイターと視聴者のエクスペリエンスを向上させるために、DeepMind Googleチームは、ビデオのトランスクリプト、オーディオとビジュアル機能を自動的に処理し、YouTubeクリエイターにチャプターとタイトルのセグメントを提案できるAIシステムを開発しました。

Sundar PichaiがGoogle I / O 2022で紹介したように、自動生成されたセグメントは今日800万のビデオで利用可能であり、チームは来年中にこの機能を8,000万ビデオ以上に拡張する予定です。

AutoChaptersを使用すると、ユーザーは特定のコンテンツの検索に時間を費やすことができ、コンテンツ作成者は動画のパーティーを作成する時間を節約できます。