Data itu yang nantinya kita masukkan ke dalam algoritma machine learning dan menghasilkan sebuah model Artificial Intelligence karena machine learning itu nantinya akan mempelajari pola yang ada di dalam data. Data ini juga memiliki jenis yang bermacam-macam, pembagiannya dapat berupa data supervised dan data unsupervised.
Dijelaskan Ayu, – yang juga menjadi dosen pada Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika (STEI) ITB ini- data supervised harus diberikan penambahan label data secara manual. Sebagai contoh data pada media sosial nantinya akan secara manual diberikan label positif, negatif ataupun netral oleh seorang data annotator, meskipun saat ini juga sudah ada jenis data semi-supervised yang pemberian labelnya secara otomatis dan nantinya akan dicek kembali.
Berbeda dengan data unsupervised, yang tidak perlu ada label data dan kedua jenis data ini memiliki tugas yang berbeda.
“Hal yang menarik adalah Pre-trained Generative Large Language Model dibangunnya secara unsupervised. Jadi ChatGPT itu mengumpulkan semua data dokumen yang ada di Internet, termasuk source code, yang kemudian digabungkan tanpa diberikan label. Semua data ini dimasukkan ke dalam algoritma deep learning yang disebut GPT,” terang Ayu.