Pernahkah Anda takjub melihat bagaimana AI dapat menulis email, membuat kode, atau bahkan berdebat layaknya manusia? Di balik kecerdasan buatan yang tampak seperti sihir ini, ada sebuah fondasi teknologi yang revolusioner: arsitektur Transformer.
Model-model raksasa seperti seri GPT dari OpenAI, Gemini dari Google, dan Llama dari Meta semuanya dibangun di atas arsitektur ini. Namun, apa sebenarnya Transformer itu? Bagaimana cara kerjanya? Mari kita bongkar “kotak hitam” ini dan pahami teknologi yang menjadi otak di balik AI modern.
Awal Mula Sebuah Revolusi: Dari Keterbatasan ke Inovasi
Sebelum Transformer mendominasi, dunia AI bahasa mengandalkan arsitektur lain, terutama yang disebut seq2seq (sequence-to-sequence), yang sering kali menggunakan RNN (Recurrent Neural Network).
Era Sebelum Transformer: Mengenal Arsitektur Seq2Seq dan RNN
Bayangkan Anda diminta meringkas seluruh isi sebuah buku tebal hanya dengan membaca ringkasan satu halaman di bagian belakangnya. Tentu hasilnya tidak akan maksimal, bukan? Kira-kira begitulah cara kerja arsitektur seq2seq versi awal.
Sistem ini memproses seluruh kalimat masukan (misalnya, kalimat dalam bahasa Inggris) dan mengompresnya menjadi satu representasi tunggal (final hidden state). Kemudian, dari representasi tunggal inilah, model mencoba menghasilkan kalimat keluaran (misalnya, terjemahan dalam bahasa Indonesia).

Dua Masalah Utama yang Menghambat Kemajuan AI
Arsitektur seq2seq dengan RNN memiliki dua kelemahan fatal yang menghambat kemajuan AI:
- Keterbatasan Konteks: Dengan hanya mengandalkan ringkasan akhir dari input, model kehilangan banyak informasi penting. Kata-kata di awal kalimat mungkin terlupakan saat model sampai di akhir.
- Proses Sekuensial yang Lambat: RNN memproses teks kata per kata secara berurutan. Ini seperti membaca buku satu kata pada satu waktu tanpa bisa melompat-lompat. Untuk teks yang sangat panjang, proses ini menjadi sangat lambat dan tidak efisien.
Membedah Otak AI Modern: Arsitektur Transformer
Pada tahun 2017, sebuah makalah berjudul “Attention Is All You Need” memperkenalkan arsitektur Transformer dan mengubah segalanya. Transformer mengatasi kedua masalah di atas dengan sebuah mekanisme jenius.
Pengubah Permainan: Mekanisme Atensi (Attention Mechanism)
Inilah terobosan utamanya. Daripada hanya melihat ringkasan akhir, mekanisme atensi memungkinkan model untuk melihat kembali dan “memperhatikan” setiap kata dalam kalimat masukan saat menghasilkan setiap kata keluaran.
Ini seperti saat Anda menerjemahkan sebuah dokumen. Ketika Anda bingung dengan satu kata, Anda bisa melihat kembali ke berbagai bagian di kalimat aslinya untuk mencari konteks. Model Transformer melakukan hal yang sama: ia menimbang-nimbang kata mana yang paling relevan dari input untuk menghasilkan output yang akurat pada saat itu.

Cara Kerja Atensi: Trio Query, Key, dan Value
Untuk menerapkan mekanisme atensi, Transformer menggunakan tiga komponen utama untuk setiap token (kata atau bagian kata):
- Query (Q): Anggap ini sebagai “pertanyaan” atau “kebutuhan informasi” dari model pada saat ini. Misalnya, saat akan menghasilkan kata berikutnya, model bertanya, “Informasi apa yang saya butuhkan dari kalimat sumber?”
- Key (K): Anggap ini sebagai “label” atau “indeks” untuk setiap kata dalam kalimat sumber. Ini membantu
Querymenemukan kata-kata yang relevan. - Value (V): Ini adalah “isi” atau “makna sebenarnya” dari setiap kata dalam kalimat sumber.
Prosesnya sederhana: Query akan membandingkan dirinya dengan semua Key yang ada. Key yang paling cocok akan mendapatkan skor atensi tertinggi. Skor ini kemudian digunakan untuk mengambil Value yang bersangkutan. Dengan begitu, model bisa fokus pada informasi yang paling penting.
Blok Penyusun Kecerdasan: Blok Transformer dan Modul MLP
Arsitektur Transformer tidak terdiri dari satu mekanisme atensi saja, melainkan tumpukan dari beberapa lapisan yang disebut Blok Transformer. Setiap blok ini memiliki dua sub-modul utama:
- Modul Atensi: Di sinilah keajaiban atensi terjadi, sering kali dengan beberapa “kepala” (multi-headed attention) yang memungkinkan model untuk fokus pada aspek yang berbeda dari teks secara bersamaan.
- Modul MLP (Multi-Layer Perceptron): Ini adalah jaringan saraf feedforward yang memproses output dari modul atensi, membantunya mempelajari pola yang lebih kompleks dan non-linear.
Tumpukan blok inilah yang memungkinkan model untuk membangun pemahaman yang sangat mendalam dan kaya akan konteks dari sebuah teks.
Mengapa Ukuran Penting? Parameter dan Skala Model
Ukuran sebuah model Transformer ditentukan oleh beberapa faktor, seperti jumlah Blok Transformer, dimensi model, dan ukuran kosakata. Semakin besar nilai-nilai ini, semakin banyak parameter yang dimiliki model, yang secara kasar dapat dianggap sebagai “pengetahuan” yang dapat disimpan model.
Inilah mengapa model dengan 70 miliar parameter (70B) jauh lebih mampu daripada model dengan 7 miliar parameter (7B). Untuk memberikan gambaran nyata, mari kita lihat perbandingan beberapa model populer dari keluarga Llama.
Perbandingan Dimensi Model Llama
| Model | # Blok Transformer | Dimensi Model | Ukuran Kosakata | Panjang Konteks |
| Llama 2-7B | 32 | 4.096 | 32K | 4K |
| Llama 2-70B | 80 | 8.192 | 32K | 4K |
| Llama 3-8B | 32 | 4.096 | 128K | 8K |
| Llama 3-70B | 80 | 8.192 | 128K | 8K |
Kesimpulan: Transformer Sebagai Fondasi AI Masa Depan
Arsitektur Transformer bukan sekadar pembaruan; ia adalah sebuah paradigma baru. Dengan memperkenalkan pemrosesan paralel dan mekanisme atensi yang kuat, Transformer telah memecahkan hambatan fundamental yang membatasi generasi AI sebelumnya.
Jadi, lain kali Anda menggunakan asisten AI, ingatlah bahwa di balik respons cerdasnya ada tumpukan Blok Transformer yang bekerja, dengan mekanisme atensi yang terus-menerus menimbang dan memutuskan informasi mana yang paling relevan. Ini bukanlah sihir, melainkan hasil dari rekayasa cerdas yang terus mendorong batas-batas dari apa yang mungkin dilakukan oleh mesin.
Baca Juga :






