Databricks Rilis Data untuk Melatih Chatbot Seperti ChatGPT
Dolly, sebuah model bahasa besar sumber terbuka dari DataBricks. (foto: dok. databricks)

Bagikan:

JAKARTA - Databricks, perusahaan startup yang berbasis di San Francisco dan bernilai sebesar 38 miliar dolar AS (Rp564 triliun), merilis sejumlah data pada Rabu 12 April yang diklaim dapat digunakan oleh bisnis dan peneliti untuk melatih chatbot yang serupa dengan ChatGPT.

Data tersebut, berdasarkan kuesioner yang diisi oleh karyawan Databricks, mengisi kesenjangan penting dalam upaya perusahaan untuk menciptakan alat yang dapat digunakan secara komersial untuk melatih sistem AI yang dapat menjadi alternatif bagi OpenAI yang didukung oleh Microsoft.

Databricks mengatakan telah menghabiskan beberapa minggu terakhir untuk mengumpulkan 15.000 pertanyaan dan jawaban dari 5.000 karyawan di 40 negara, dan kemudian memverifikasi data tersebut untuk kualitas, yang diperkirakan oleh CEO Ali Ghodsi menghabiskan jutaan dolar.

Databricks menjual perangkat lunak untuk membangun sistem AI.

Ghodsi mengatakan kepada Reuters bahwa perusahaan ini merilis data pelatihan secara gratis dengan harapan perusahaan lain akan menggunakannya untuk membuat sistem AI mereka sendiri, mungkin dengan menggunakan Databricks untuk melakukannya.

Dataset gratis ini dirilis setelah Databricks bulan lalu setelah merilis Dolly, sebuah model bahasa besar sumber terbuka, sebagai dasar teknologi untuk chatbot. Namun, model tersebut tidak dapat digunakan dalam produk komersial karena data yang digunakan untuk melatih model tersebut dihasilkan oleh ChatGPT milik OpenAI, yang melarang penggunaan datanya untuk mengembangkan sistem AI komersial yang dapat bersaing dengan OpenAI.

Menggunakan data yang dihasilkan oleh AI untuk melatih sistem AI lainnya telah menjadi umum. Chatbot baru yang diterbitkan oleh Universitas Stanford dan Universitas California Berkeley tahun ini, misalnya, menggunakan data mesin yang dihasilkan dari ChatGPT, namun keduanya menyatakan bahwa model mereka tidak dapat digunakan untuk tujuan komersial.

Ghodsi mengakui bahwa dataset ini masih jauh dari sempurna karena hanya terdiri dari basis karyawan Databricks yang cenderung laki-laki. Pengguna akan dapat memeriksa data pelatihan itu sendiri, hal yang tidak dapat dilakukan untuk model seperti ChatGPT atau Bard milik Alphabet Inc, yang data pelatihannya tidak dirilis.

"Kami tidak mengklaim bahwa ini adalah dataset yang tidak biasa," kata Ghodsi. "Kami hanya mencoba mendorong komunitas untuk mengarah ke arah transparansi yang lebih tinggi, dan lebih banyak orang memiliki model mereka sendiri daripada hanya beberapa orang yang harus kita percayai."

Terkait