Perusahaan AI Melanggar Standar Web untuk Mengambil Konten Situs Penerbit
JAKARTA - Beberapa perusahaan kecerdasan buatan (AI) melanggar standar web umum yang digunakan oleh penerbit untuk memblokir pengambilan konten mereka untuk digunakan dalam sistem AI generatif. Hal ini diungkapkan oleh startup lisensi konten, TollBit.
Dalam surat kepada penerbit pada hari Jumat, yang tidak menyebutkan nama perusahaan AI atau penerbit yang terpengaruh, masalah ini muncul di tengah sengketa publik antara startup pencarian AI Perplexity dan media Forbes mengenai standar web yang sama dan debat yang lebih luas antara perusahaan teknologi dan media tentang nilai konten di era AI generatif.
Penerbit media bisnis secara terbuka menuduh Perplexity menjiplak cerita investigatifnya dalam ringkasan yang dihasilkan AI tanpa mengutip Forbes atau meminta izinnya.
Investigasi yang diterbitkan oleh Wired minggu ini menemukan Perplexity kemungkinan melewati upaya untuk memblokir crawler web-nya melalui Protokol Pengecualian Robot, atau "robots.txt," standar yang diterima secara luas yang menentukan bagian mana dari situs yang dapat di-crawl.
News Media Alliance, kelompok perdagangan yang mewakili lebih dari 2.200 penerbit berbasis di AS, mengungkapkan kekhawatiran tentang dampak mengabaikan sinyal "do not crawl" terhadap anggotanya. "Tanpa kemampuan untuk memilih keluar dari pengambilan data secara massal, kami tidak dapat memonetisasi konten berharga kami dan membayar jurnalis. Ini dapat merusak industri kami secara serius," kata Danielle Coffey, presiden kelompok tersebut.
TollBit, startup tahap awal, memposisikan dirinya sebagai perantara antara perusahaan AI yang membutuhkan konten dan penerbit yang bersedia membuat kesepakatan lisensi dengan mereka. Perusahaan ini melacak lalu lintas AI ke situs penerbit dan menggunakan analitik untuk membantu kedua belah pihak menetapkan biaya untuk penggunaan berbagai jenis konten.
Menurut surat dari TollBit, Perplexity bukan satu-satunya pelanggar yang tampaknya mengabaikan robots.txt. TollBit mengatakan analitiknya menunjukkan "banyak" agen AI melewati protokol tersebut.
Protokol robots.txt dibuat pada pertengahan 1990-an sebagai cara untuk menghindari kelebihan beban situs web dengan crawler web. Meskipun tidak ada mekanisme penegakan hukum yang jelas, secara historis ada kepatuhan luas di web, dan beberapa kelompok - termasuk News Media Alliance - mengatakan mungkin masih ada upaya hukum bagi penerbit.
Baca juga:
Lebih baru, robots.txt telah menjadi alat kunci yang digunakan penerbit untuk memblokir perusahaan teknologi dari usaha mengambil konten mereka secara gratis untuk digunakan dalam sistem AI generatif yang dapat meniru kreativitas manusia dan langsung merangkum artikel.
Beberapa penerbit, termasuk New York Times, telah menggugat perusahaan AI atas pelanggaran hak cipta terkait penggunaan tersebut. Yang lain menandatangani perjanjian lisensi dengan perusahaan AI yang bersedia membayar konten, meskipun seringkali pihak-pihak tersebut tidak sepakat mengenai nilai materi tersebut. Banyak pengembang AI berargumen bahwa mereka tidak melanggar hukum dalam mengakses konten secara gratis.
Thomson Reuters, pemilik Reuters News, adalah salah satu yang telah membuat kesepakatan untuk melisensikan konten berita untuk digunakan oleh model AI.
Penerbit telah meningkatkan kewaspadaan tentang ringkasan berita sejak Google meluncurkan produk tahun lalu yang menggunakan AI untuk membuat ringkasan sebagai tanggapan terhadap beberapa kueri pencarian. Jika penerbit ingin mencegah konten mereka digunakan oleh AI Google untuk membantu menghasilkan ringkasan tersebut, mereka harus menggunakan alat yang sama yang juga akan mencegah konten mereka muncul dalam hasil pencarian Google, menjadikannya hampir tidak terlihat di web.