Pernahkah Anda merasa asisten AI Anda lebih ‘nyambung’ saat diajak ngobrol pakai bahasa Inggris? Atau mungkin jawaban yang diberikan terasa lebih cerdas dan akurat ketika Anda bertanya dalam bahasa Inggris? Jangan heran! Ternyata, ‘otak’ AI kita banyak dilatih dengan ‘makanan’ berbahasa Inggris dari internet. Yuk, kita bedah kenapa AI kita jadi ‘Inggris-sentris’ dan apa artinya ini bagi miliaran penutur bahasa lain di seluruh dunia.
Internet: Jago Bahasa Inggris, Kurang Paham Bahasa Lain
Coba bayangkan internet sebagai perpustakaan raksasa tempat AI belajar. Nah, perpustakaan ini ternyata didominasi oleh buku-buku berbahasa Inggris. Ini bukan cuma perasaan, tapi fakta yang didukung data! Sebuah penelitian terhadap Common Crawl, gudang data internet super besar yang jadi ‘santapan’ utama model AI, menunjukkan hal yang mencengangkan: hampir separuh isinya (45,88%) adalah bahasa Inggris! Angka ini delapan kali lipat lebih banyak dari bahasa Rusia, yang ada di posisi kedua (5,97%).
Dominasi ini punya konsekuensi besar, terutama untuk model bahasa besar (LLM) yang sering kita pakai, seperti ChatGPT. Mereka belajar dari data yang mereka ‘makan’. Jadi, kalau sebagian besar ‘makanannya’ bahasa Inggris, ya wajar kalau mereka jadi lebih jago berbahasa Inggris, kan?
Ironi Bahasa “Kurang Sumber Daya”: Jutaan Penutur, Minim Data
Meskipun ada banyak bahasa di internet, sebagian besar masih didominasi oleh bahasa-bahasa “besar” yang sudah umum. Coba lihat tabel di bawah ini, yang menunjukkan beberapa bahasa paling umum di Common Crawl:
Tabel 1: Bahasa Paling Umum di Common Crawl (Lai et al., 2023)
Bahasa | Populasi (Juta) | Ukuran CC (%) |
---|---|---|
Inggris | 1.452 | 45.88% |
Rusia | 258 | 5.97% |
Jerman | 134 | 5.88% |
Tiongkok | 1.118 | 4.87% |
Jepang | 125 | 4.79% |
Prancis | 274 | 4.73% |
Spanyol | 548 | 4.47% |
Italia | 68 | 2.57% |
Belanda | 30 | 2.06% |
Polandia | 45 | 1.66% |
Portugis | 257 | 1.15% |
Vietnam | 85 | 1.03% |
Tapi, ada yang lebih bikin kita mengerutkan dahi (dan khawatir): bagaimana dengan bahasa-bahasa lain? Banyak bahasa yang dituturkan oleh jutaan orang di seluruh dunia justru sangat, sangat kurang terwakili di internet. Bahasa-bahasa ini sering disebut sebagai bahasa “kurang sumber daya” (low-resource languages).
Bayangkan, bahasa Punjabi, yang dituturkan oleh 113 juta orang (lebih banyak dari populasi Jerman!), punya representasi di Common Crawl yang sangat minim. Ini menciptakan ketidakseimbangan yang mencolok. Lihat perbandingannya di tabel ini:
Tabel 2: Contoh Bahasa yang Sangat Kurang Terwakili di Common Crawl
Bahasa | Penutur (Juta) | % Populasi Dunia | % di Common Crawl | Rasio Dunia:CC |
---|---|---|---|---|
Punjabi | 113 | 1.41% | 0.0061% | 231.56 |
Swahili | 71 | 0.89% | 0.0077% | 115.26 |
Urdu | 231 | 2.89% | 0.0274% | 105.38 |
Kannada | 64 | 0.80% | 0.0122% | 65.57 |
Telugu | 95 | 1.19% | 0.0183% | 64.89 |
Gujarati | 62 | 0.78% | 0.0126% | 61.51 |
Marathi | 99 | 1.24% | 0.0213% | 58.10 |
Bengali | 272 | 3.40% | 0.0930% | 36.56 |
Inggris | 1452 | 18.15% | 45.88% | 0.40 |
Semakin tinggi Rasio Dunia:Common Crawl, semakin parah ketidaksetaraan representasi bahasa tersebut. Bayangkan betapa susahnya bagi AI untuk memahami seluk-beluk bahasa Punjabi kalau data yang bisa dipelajari sangat, sangat sedikit. Ini seperti meminta seorang siswa lulus ujian tanpa memberinya buku pelajaran yang cukup!
Dampak Nyata pada Kinerja AI: Kasus GPT-4
Tidak mengherankan, model-model canggih seperti GPT-4 menunjukkan kinerja yang jauh lebih baik dalam bahasa Inggris dibandingkan bahasa lain. Pada benchmark MMLU, yang menguji pengetahuan model dalam 57 subjek (mulai dari matematika hingga sejarah), GPT-4 jelas unggul dalam bahasa Inggris.
Misalnya, dalam memecahkan soal matematika, GPT-4 tiga kali lebih sering berhasil dalam bahasa Inggris dibandingkan dengan bahasa seperti Armenia atau Farsi. Bahkan, untuk bahasa Burma dan Amharik, GPT-4 gagal total dalam semua pertanyaan matematika! Ini bukan hanya soal data, tapi juga struktur bahasa yang unik dan kekayaan budaya yang terkandung di dalamnya. Bahasa-bahasa dengan kinerja terburuk di MMLU GPT-4—Telugu, Marathi, dan Punjabi—adalah bahasa-bahasa yang paling kurang terwakili di Common Crawl.
Solusi “Terjemahan Bolak-balik”: Cukupkah?
Mungkin Anda berpikir, “Kan AI pintar menerjemahkan, kenapa tidak kita terjemahkan saja semua pertanyaan ke bahasa Inggris, dapatkan jawabannya, lalu terjemahkan kembali ke bahasa asli?” Ide ini memang sering dipakai, tapi sayangnya, tidak sesederhana itu.
Pertama, cara ini butuh model terjemahan yang memang sudah andal untuk bahasa-bahasa “kurang sumber daya” itu sendiri. Kedua, dan ini yang lebih penting, terjemahan bisa menghilangkan informasi penting. Ambil contoh bahasa Vietnam: kata ganti mereka sering kali menunjukkan hubungan antara dua pembicara (misalnya, menghormati orang yang lebih tua). Ketika diterjemahkan ke bahasa Inggris, semua nuansa ini bisa hilang, hanya menjadi “I” dan “you” yang generik. AI jadi kehilangan konteks sosial dan budaya!
Tantangan Tak Terduga dan Biaya Tersembunyi
Masalahnya tidak berhenti pada kualitas terjemahan. Model AI juga bisa menjadi lebih lambat dan lebih mahal untuk bahasa non-Inggris. Ini terkait dengan cara model memproses teks, yaitu melalui “tokenisasi” (memecah teks jadi unit-unit kecil). Ternyata, beberapa bahasa membutuhkan lebih banyak “token” untuk menyampaikan arti yang sama.
Sebagai contoh, dalam dataset MASSIVE yang menguji 52 bahasa, panjang token median untuk bahasa Inggris adalah 7. Bandingkan dengan bahasa Hindi yang mediannya 32, dan bahasa Burma yang mencapai 72—sepuluh kali lipat dari bahasa Inggris! Artinya, untuk menyampaikan pesan yang sama, GPT-4 mungkin membutuhkan waktu sepuluh kali lebih lama dalam bahasa Burma, dan biaya penggunaan API-nya pun bisa sepuluh kali lebih mahal. Bayangkan kalau Anda harus bayar lebih mahal hanya karena bahasa ibu Anda bukan bahasa Inggris!
Selain itu, ada juga isu bias yang muncul. NewsGuard menemukan bahwa ChatGPT lebih mudah menghasilkan informasi yang salah dalam bahasa Mandarin daripada bahasa Inggris. Ini menimbulkan pertanyaan tentang bagaimana data pelatihan (dan bahkan budaya yang terkandung di dalamnya) memengaruhi perilaku model. Apakah AI kita mewarisi bias dari data yang ia pelajari?
Masa Depan Model Multibahasa: Secercah Harapan
Meskipun tantangannya besar, ada kabar baik! Komunitas AI tidak tinggal diam. Semakin banyak model yang secara khusus dilatih untuk fokus pada bahasa non-Inggris. Bahasa Mandarin menjadi salah satu yang paling aktif, dengan model seperti ChatGLM dan YAYI. Ada juga inisiatif penting untuk bahasa lain, seperti CroissantLLM untuk bahasa Prancis, PhoGPT untuk bahasa Vietnam, dan Jais untuk bahasa Arab.
Upaya-upaya ini menunjukkan bahwa kita sedang bergerak menuju masa depan di mana AI benar-benar dapat berkomunikasi dan memahami dunia dalam semua kekayaan bahasanya, tidak hanya dalam satu bahasa dominan. Perjalanan ini mungkin panjang, tetapi setiap langkah membawa kita lebih dekat pada inklusivitas digital yang sejati, di mana setiap bahasa punya tempatnya di dunia AI.
Bagaimana Menurut Anda?
Apa pendapat Anda tentang dominasi bahasa Inggris di internet dan dampaknya pada AI? Apakah Anda pernah merasakan langsung perbedaan kinerja AI dalam bahasa Anda sendiri dibandingkan bahasa Inggris? Mari diskusikan di kolom komentar!
Baca Juga :