Kemajuan pesat dalam dunia Kecerdasan Buatan (AI) sering kali dikaitkan dengan satu kata: skala. Kita mendengar tentang model dengan miliaran, bahkan triliunan parameter. Namun, apa sebenarnya arti angka-angka ini? Apakah model yang lebih besar sudah pasti lebih baik?
Artikel ini akan mengupas tuntas tiga pilar utama yang menentukan skala dan kemampuan sebuah model AI: jumlah parameter, volume data pelatihan, dan biaya komputasi. Mari kita selami rahasia di balik kekuatan model-model raksasa seperti Llama dari Meta dan GPT dari OpenAI.
Parameter: Fondasi Kekuatan dan Kapasitas Model AI
Ketika kita membahas model dasar (foundation models), parameter adalah metrik pertama yang sering disebut. Parameter pada dasarnya adalah variabel internal yang dipelajari oleh model dari data pelatihan. Jumlahnya mencerminkan kapasitas model untuk belajar dan memahami pola yang kompleks.
Secara umum, semakin banyak parameter, semakin tinggi kapasitas belajarnya. Inilah mengapa Llama-13B (13 miliar parameter) cenderung berkinerja jauh lebih baik daripada saudaranya yang memiliki 7 miliar parameter.

Generasi Baru, Kemampuan Baru
Seiring waktu, komunitas AI tidak hanya menambah jumlah parameter, tetapi juga menyempurnakan cara melatihnya. Hasilnya, model generasi baru sering kali mampu mengalahkan model generasi lama yang ukurannya jauh lebih besar. Contoh fenomenalnya adalah Llama 3-8B (2024) yang berhasil mengungguli Llama 2-70B (2023) pada beberapa tolok ukur penting.
Lebih dari Sekadar Angka: Jebakan Model Sparse dan Efisiensi MoE
Namun, membandingkan model hanya berdasarkan jumlah parameter bisa menyesatkan. Dua konsep penting yang perlu dipahami adalah model sparse dan Mixture-of-Experts (MoE).

Memahami Model Sparse (Jarang)
Model sparse adalah model yang sebagian besar parameternya bernilai nol. Bayangkan sebuah model 7 miliar parameter yang 90% sparse, ia hanya memiliki 700 juta parameter aktif. Konsep ini memungkinkan model besar menjadi sangat efisien dalam hal penyimpanan dan komputasi.
MoE (Mixture-of-Experts): Efisiensi di Balik Skala Raksasa
MoE adalah arsitektur cerdas di mana model dibagi menjadi beberapa “pakar”. Untuk setiap input (token), hanya beberapa pakar yang diaktifkan. Contohnya adalah Mixtral 8x7B. Meskipun totalnya memiliki 46,7 miliar parameter, untuk setiap token yang diproses, hanya sekitar 12,9 miliar parameter yang aktif. Hasilnya? Model ini memiliki kecepatan dan biaya operasional setara model 12.9B, namun dengan pengetahuan dari model yang jauh lebih besar.
Data adalah Raja: Mengapa Triliunan Token Lebih Penting?
Ukuran model tidak ada artinya tanpa data pelatihan yang memadai. Model 13 miliar parameter yang hanya dilatih dengan satu kalimat akan kalah telak dengan model kecil yang dilatih di seluruh Wikipedia. Inilah mengapa jumlah token menjadi metrik emas kedua.
Token adalah unit dasar yang diproses oleh model (bisa berupa kata, bagian kata, atau karakter). Semakin banyak token berkualitas yang “dilihat” oleh model selama pelatihan, semakin banyak pengetahuannya.
- Llama 1 dilatih dengan 1,4 triliun token.
- Llama 2 dilatih dengan 2 triliun token.
- Llama 3 dilatih dengan 15 triliun token.
Skala ini setara dengan ratusan juta buku! Namun, perlu diingat, kualitas dan keragaman data sama pentingnya dengan kuantitas.
Biaya di Balik Keajaiban: Mengukur Komputasi dengan FLOPs
Melatih model raksasa membutuhkan kekuatan komputasi yang luar biasa. Satuan standar untuk mengukurnya adalah FLOP (floating point operation).
- GPT-3-175B membutuhkan sekitar 3.14×1023 FLOPs untuk dilatih.
- PaLM-2 dari Google membutuhkan 1022 FLOPs.
⚠️ Peringatan Penting: Jangan tertukar antara FLOPs (total operasi) dan FLOP/s (operasi per detik). FLOPs mengukur total “pekerjaan” yang dibutuhkan, sedangkan FLOP/s mengukur kecepatan perangkat keras seperti GPU.
Studi Kasus: Berapa Biaya Melatih GPT-3?
Untuk memberikan gambaran, melatih GPT-3-175B dengan 256 GPU NVIDIA H100 (dengan asumsi utilisasi 70% dan biaya sewa $2/jam per GPU) dapat menelan biaya lebih dari $4 juta Dolar AS dan memakan waktu hampir 8 bulan. Ini menunjukkan betapa mahalnya proses penciptaan model AI canggih.
Paradoks Skala Terbalik: Saat Model Lebih Besar Justru Lebih Buruk
Asumsi “lebih besar lebih baik” tidak selamanya benar. Fenomena yang disebut Penskalaan Terbalik (Inverse Scaling) menunjukkan ada beberapa tugas spesifik di mana model yang lebih besar justru berkinerja lebih buruk.
Sebuah studi oleh Anthropic menemukan bahwa setelah pelatihan penyesuaian (alignment), model yang lebih besar justru cenderung lebih beropini dan memiliki bias tertentu. Meskipun kegagalan ini belum terbukti signifikan di dunia nyata, ini menjadi pengingat bahwa skala bukanlah jawaban untuk segalanya.
Kesimpulan: Tiga Indikator Kunci Skala Model AI
Saat Anda mengevaluasi atau membaca tentang model AI baru, ingatlah untuk melihat lebih dari sekadar nama besar. Perhatikan tiga sinyal utama skalanya:
- Jumlah Parameter: Proksi untuk kapasitas belajar model.
- Jumlah Token Pelatihan: Proksi untuk seberapa banyak pengetahuan yang telah diserap model.
- Jumlah FLOPs: Proksi untuk biaya dan upaya yang diinvestasikan dalam pelatihan model.
Dengan memahami ketiga pilar ini, kita dapat memiliki gambaran yang lebih akurat dan mendalam tentang kekuatan, keterbatasan, dan potensi sebenarnya dari sebuah model kecerdasan buatan.
Baca Juga :






