Efisiensi Pelatihan YaFSDP
YaFSDP merupakan metode FSDP yang disempurnakan sehingga mampu mengungguli pelatihan LLM pada tahapan pelatihan yang paling banyak menggunakan komunikasi seperti pra-pelatihan, penyelarasan, dan perbaikan. Ketika dipakai pada model LLM open source seperti Llama 2 dan Llama 3 dengan 70 miliar parameter (70B), YaFSDP menunjukkan peningkatan yang signifikan dalam hal kecepatan pelatihan sebesar 21% (untuk Llama 2 70B) dan 26% (untuk Llama 3 70B).
“YaFSDP telah menunjukkan hasil yang mengesankan pada model yang menangani 13 hingga 70 miliar parameter, dengan kinerja yang sangat kuat pada kisaran 30 hingga 70 miliar,” kata, Mikhail Khruschev. “Saat ini, kami melihat bahwa YaFSDP paling cocok untuk model open-source yang digunakan secara luas berdasarkan arsitektur LLaMA.”
YaFSDP bukanlah alat open-source pertama dari Yandex. Perusahaan ini sebelumnya telah membagikan beberapa alat lain yang telah menjadi populer di kalangan komunitas ML. Di antaranya:
-
CatBoost, sebuah perpustakaan berkinerja tinggi untuk meningkatkan gradien pada pohon keputusan atau decision trees.
-
YTsaurus, platform big data untuk distribusi penyimpanan dan pemrosesan.
-
AQLM, salah satu algoritma kuantisasi, atau pemetaan input dengan nilai set besar ke dalam output dengan kelompok set lebih kecil, tercanggih untuk kompresi ekstrim model bahasa besar, yang dikembangkan bersama oleh Yandex Research, HSE University, IST Austria, dan NeuralMagic.
-
Petals, perpustakaan yang dirancang untuk menyederhanakan proses pelatihan dan penyempurnaan LLM, yang dikembangkan melalui kolaborasi antara Yandex Research dengan HSE University, University of Washington, Hugging Face, ENS Paris-Saclay, dan Yandex School of Data Analysis.
Untuk Referensi
Selama pelatihan large language model (LLM), pengembang harus mengelola tiga sumber daya utama secara efisien, mencakup daya komputasi, memori prosesor, dan komunikasi prosesor. YaFSDP menghemat dua sumber daya yang pertama dan membantu mempercepat proses pelatihan LLM.
Pelatihan LLM bergantung pada banyak GPU yang diorganisasikan ke dalam cluster – susunan prosesor grafis yang saling terhubung, dimana sejumlah perhitungan besar bisa dilakukan untuk melatih model dengan miliaran parameter. Mendistribusikan perhitungan di antara prosesor dalam sebuah cluster membutuhkan komunikasi yang konstan, yang sering menjadi “hambatan”, sehingga memperlambat proses pelatihan dan mengakibatkan penggunaan daya komputasi yang tidak efisien.
Untuk mengatasi hambatan ini, pengembang Yandex menciptakan YaFSDP, sebuah metode yang meningkatkan komunikasi GPU dan mengoptimalkan kecepatan dan kinerja pembelajaran. Ketika dikombinasikan dengan solusi peningkatan kinerja Yandex lainnya, metode ini mempercepat proses pelatihan hingga 45%
YaFSDP bekerja dengan menghilangkan inefisiensi komunikasi GPU, yang mengarah pada penggunaan jaringan yang dioptimalkan dan mengurangi beban memori. Hal ini memastikan bahwa pelatihan hanya membutuhkan memori prosesor yang diperlukan dan membuat interaksi GPU tidak terganggu, sehingga memudahkan pengoptimalan lebih lanjut seperti meminimalkan waktu komunikasi prosesor. Hal ini menghasilkan peningkatan yang signifikan dalam kinerja dan efisiensi memori.
Metode YaFSDP dapat digunakan secara efektif untuk model AI generatif teks berbasis transformator dengan banyak lapisan (multilayer perceptron) seperti LLaMA. Dalam skenario pra-pelatihan yang melibatkan model dengan 70 miliar parameter, menggunakan YaFSDP dapat menghemat sumber daya sekitar 150 GPU.
Jika dibandingkan dengan FSDP, kecepatan akhir yang ditunjukkan oleh YaFSDP pada Llama 2 dan Llama 3 menunjukkan peningkatan yang signifikan dalam efisiensi pelatihan. (ahmad)