Databricks は ChatGPT のようなチャットボットをトレーニングするためのデータをリリースします
ジャカルタ-サンフランシスコを拠点とする380億米ドル(564兆ルピア)の新興企業であるDatabricksは、4月12日水曜日に、企業や研究者がChatGPTと同様のチャットボットをトレーニングするために使用できると主張する多くのデータをリリースしました。
Databricksの従業員が記入したアンケートに基づくデータは、Microsoftを搭載したOpenAIに代わる可能性のあるAIシステムをトレーニングするための商業的に使用可能なツールを作成するという同社の取り組みにおける重大なギャップを埋めます。
Databricksは、過去数週間を費やして、40か国の5,000人の従業員から15,000の質問と回答を収集し、それらのデータの品質を検証したと述べました。
Databricks は、AI システムを構築するためのソフトウェアを販売しています。
Ghodsi氏はロイターに対し、同社はトレーニングデータを無料で公開しており、他の企業がそれを使用して独自のAIシステムを作成することを期待していると語った。
無料のデータセットは、チャットボットのテクノロジー基盤として、大規模なオープンソース言語モデルであるDollyがリリースされた後、先月のDatabricksの後にリリースされました。ただし、モデルの学習に使用するデータはOpenAIのChatGPTによって生成されるため、商用製品ではモデルを使用できず、OpenAIと競合できる商用AIシステムを開発するためのデータの使用が禁止されています。
AIによって生成されたデータを使用して他のAIシステムをトレーニングすることが一般的になっています。たとえば、スタンフォード大学とカリフォルニア大学バークレー校が今年公開した新しいチャットボットは、ChatGPTから生成されたマシンデータを使用していますが、どちらもモデルを商用目的で使用できないと述べています。
Ghodsiは、このデータセットはDatabricksの男性寄りの従業員ベースのみで構成されているため、完璧にはほど遠いことを認めています。ユーザーは、Alphabet IncのChatGPTやBardのように、トレーニングデータが公開されていないモデルでは不可能な、トレーニングデータ自体を確認できます。
「私たちは、これが珍しいデータセットであると主張しているわけではありません」とGhodsi氏は述べています。「私たちはコミュニティにより高い透明性に向けて導くように促そうとしているだけです。私たちが信頼しなければならない少数の人々ではなく、より多くの人々が独自のモデルを持っています。」