JAKARTA – Apple mengumumkan kerja samanya dengan NVIDIA untuk mempercepat performa model bahasa besar (Large Language Models/LLM) dalam menghasilkan teks. Kolaborasi ini memanfaatkan teknik terbaru Apple, Recurrent Drafter (ReDrafter), yang sebelumnya telah dipublikasikan dan bersifat open source.
ReDrafter menawarkan metode baru untuk menghasilkan teks dengan LLM secara lebih cepat dan mencapai kinerja terbaik. Teknik ini menggabungkan beam search untuk mengeksplorasi berbagai kemungkinan dan dynamic tree attention untuk menangani pilihan secara efisien.
Hasil Kolaborasi dengan NVIDIA
Bersama NVIDIA, Apple mengintegrasikan ReDrafter ke dalam TensorRT-LLM, sebuah alat NVIDIA yang dirancang untuk mempercepat pemrosesan LLM pada GPU mereka. Hasil kolaborasi ini sangat menjanjikan:
- Percepatan: Pengujian pada model LLM dengan puluhan miliar parameter menunjukkan peningkatan kecepatan hingga 2,7 kali lipat dalam menghasilkan token per detik untuk metode greedy decoding.
- Efisiensi Energi: Teknologi ini memungkinkan penggunaan GPU yang lebih sedikit dan konsumsi daya yang lebih rendah.
- Latensi Lebih Rendah: Pengguna akhir dapat merasakan pengurangan waktu tunggu dalam aplikasi berbasis LLM.
NVIDIA menambahkan operator baru dan meningkatkan kemampuan TensorRT-LLM agar bisa mendukung model dan metode decoding yang lebih canggih. Hal ini memungkinkan pengembang machine learning yang menggunakan GPU NVIDIA untuk memanfaatkan keunggulan ReDrafter dengan mudah.
BACA JUGA:
Manfaat bagi Industri
Para peneliti machine learning Apple menyatakan bahwa LLM semakin banyak digunakan untuk mendukung aplikasi produksi, sehingga efisiensi inferensi menjadi sangat penting.
“Dengan pendekatan ReDrafter yang inovatif untuk speculative decoding yang telah diintegrasikan ke dalam kerangka TensorRT-LLM, pengembang kini dapat menikmati kecepatan generasi token yang lebih tinggi pada GPU NVIDIA untuk aplikasi produksi mereka,” kata Apple dalam blog resminya.
Teknologi ini tidak hanya mengurangi biaya komputasi tetapi juga menawarkan pengalaman pengguna yang lebih responsif, menjadikannya solusi ideal untuk berbagai aplikasi berbasis LLM.