Blog Content

Home – Blog Content

AI Anda Jago Bahasa Inggris, Tapi Bisakah Ia Ngobrol Pakai Bahasa Sehari-hari Kita?

Pernahkah Anda merasa asisten AI Anda lebih ‘nyambung’ saat diajak ngobrol pakai bahasa Inggris? Atau mungkin jawaban yang diberikan terasa lebih cerdas dan akurat ketika Anda bertanya dalam bahasa Inggris? Jangan heran! Ternyata, ‘otak’ AI kita banyak dilatih dengan ‘makanan’ berbahasa Inggris dari internet. Yuk, kita bedah kenapa AI kita jadi ‘Inggris-sentris’ dan apa artinya ini bagi miliaran penutur bahasa lain di seluruh dunia.

Internet: Jago Bahasa Inggris, Kurang Paham Bahasa Lain

Coba bayangkan internet sebagai perpustakaan raksasa tempat AI belajar. Nah, perpustakaan ini ternyata didominasi oleh buku-buku berbahasa Inggris. Ini bukan cuma perasaan, tapi fakta yang didukung data! Sebuah penelitian terhadap Common Crawl, gudang data internet super besar yang jadi ‘santapan’ utama model AI, menunjukkan hal yang mencengangkan: hampir separuh isinya (45,88%) adalah bahasa Inggris! Angka ini delapan kali lipat lebih banyak dari bahasa Rusia, yang ada di posisi kedua (5,97%).

Dominasi ini punya konsekuensi besar, terutama untuk model bahasa besar (LLM) yang sering kita pakai, seperti ChatGPT. Mereka belajar dari data yang mereka ‘makan’. Jadi, kalau sebagian besar ‘makanannya’ bahasa Inggris, ya wajar kalau mereka jadi lebih jago berbahasa Inggris, kan?

AI Anda Jago Bahasa Inggris

Ironi Bahasa “Kurang Sumber Daya”: Jutaan Penutur, Minim Data

Meskipun ada banyak bahasa di internet, sebagian besar masih didominasi oleh bahasa-bahasa “besar” yang sudah umum. Coba lihat tabel di bawah ini, yang menunjukkan beberapa bahasa paling umum di Common Crawl:

Tabel 1: Bahasa Paling Umum di Common Crawl (Lai et al., 2023)

Bahasa Populasi (Juta) Ukuran CC (%)
Inggris 1.452 45.88%
Rusia 258 5.97%
Jerman 134 5.88%
Tiongkok 1.118 4.87%
Jepang 125 4.79%
Prancis 274 4.73%
Spanyol 548 4.47%
Italia 68 2.57%
Belanda 30 2.06%
Polandia 45 1.66%
Portugis 257 1.15%
Vietnam 85 1.03%

Tapi, ada yang lebih bikin kita mengerutkan dahi (dan khawatir): bagaimana dengan bahasa-bahasa lain? Banyak bahasa yang dituturkan oleh jutaan orang di seluruh dunia justru sangat, sangat kurang terwakili di internet. Bahasa-bahasa ini sering disebut sebagai bahasa “kurang sumber daya” (low-resource languages).

Bayangkan, bahasa Punjabi, yang dituturkan oleh 113 juta orang (lebih banyak dari populasi Jerman!), punya representasi di Common Crawl yang sangat minim. Ini menciptakan ketidakseimbangan yang mencolok. Lihat perbandingannya di tabel ini:

Tabel 2: Contoh Bahasa yang Sangat Kurang Terwakili di Common Crawl

Bahasa Penutur (Juta) % Populasi Dunia % di Common Crawl Rasio Dunia:CC
Punjabi 113 1.41% 0.0061% 231.56
Swahili 71 0.89% 0.0077% 115.26
Urdu 231 2.89% 0.0274% 105.38
Kannada 64 0.80% 0.0122% 65.57
Telugu 95 1.19% 0.0183% 64.89
Gujarati 62 0.78% 0.0126% 61.51
Marathi 99 1.24% 0.0213% 58.10
Bengali 272 3.40% 0.0930% 36.56
Inggris 1452 18.15% 45.88% 0.40

Sertifikasi AI Sekarang

Semakin tinggi Rasio Dunia:Common Crawl, semakin parah ketidaksetaraan representasi bahasa tersebut. Bayangkan betapa susahnya bagi AI untuk memahami seluk-beluk bahasa Punjabi kalau data yang bisa dipelajari sangat, sangat sedikit. Ini seperti meminta seorang siswa lulus ujian tanpa memberinya buku pelajaran yang cukup!

Dampak Nyata pada Kinerja AI: Kasus GPT-4

Tidak mengherankan, model-model canggih seperti GPT-4 menunjukkan kinerja yang jauh lebih baik dalam bahasa Inggris dibandingkan bahasa lain. Pada benchmark MMLU, yang menguji pengetahuan model dalam 57 subjek (mulai dari matematika hingga sejarah), GPT-4 jelas unggul dalam bahasa Inggris.

Misalnya, dalam memecahkan soal matematika, GPT-4 tiga kali lebih sering berhasil dalam bahasa Inggris dibandingkan dengan bahasa seperti Armenia atau Farsi. Bahkan, untuk bahasa Burma dan Amharik, GPT-4 gagal total dalam semua pertanyaan matematika! Ini bukan hanya soal data, tapi juga struktur bahasa yang unik dan kekayaan budaya yang terkandung di dalamnya. Bahasa-bahasa dengan kinerja terburuk di MMLU GPT-4—Telugu, Marathi, dan Punjabi—adalah bahasa-bahasa yang paling kurang terwakili di Common Crawl. 

AI Anda Jago Bahasa Inggris

Solusi “Terjemahan Bolak-balik”: Cukupkah?

Mungkin Anda berpikir, “Kan AI pintar menerjemahkan, kenapa tidak kita terjemahkan saja semua pertanyaan ke bahasa Inggris, dapatkan jawabannya, lalu terjemahkan kembali ke bahasa asli?” Ide ini memang sering dipakai, tapi sayangnya, tidak sesederhana itu.

Pertama, cara ini butuh model terjemahan yang memang sudah andal untuk bahasa-bahasa “kurang sumber daya” itu sendiri. Kedua, dan ini yang lebih penting, terjemahan bisa menghilangkan informasi penting. Ambil contoh bahasa Vietnam: kata ganti mereka sering kali menunjukkan hubungan antara dua pembicara (misalnya, menghormati orang yang lebih tua). Ketika diterjemahkan ke bahasa Inggris, semua nuansa ini bisa hilang, hanya menjadi “I” dan “you” yang generik. AI jadi kehilangan konteks sosial dan budaya!

Tantangan Tak Terduga dan Biaya Tersembunyi

Masalahnya tidak berhenti pada kualitas terjemahan. Model AI juga bisa menjadi lebih lambat dan lebih mahal untuk bahasa non-Inggris. Ini terkait dengan cara model memproses teks, yaitu melalui “tokenisasi” (memecah teks jadi unit-unit kecil). Ternyata, beberapa bahasa membutuhkan lebih banyak “token” untuk menyampaikan arti yang sama.

Sebagai contoh, dalam dataset MASSIVE yang menguji 52 bahasa, panjang token median untuk bahasa Inggris adalah 7. Bandingkan dengan bahasa Hindi yang mediannya 32, dan bahasa Burma yang mencapai 72—sepuluh kali lipat dari bahasa Inggris! Artinya, untuk menyampaikan pesan yang sama, GPT-4 mungkin membutuhkan waktu sepuluh kali lebih lama dalam bahasa Burma, dan biaya penggunaan API-nya pun bisa sepuluh kali lebih mahal. Bayangkan kalau Anda harus bayar lebih mahal hanya karena bahasa ibu Anda bukan bahasa Inggris!

Selain itu, ada juga isu bias yang muncul. NewsGuard menemukan bahwa ChatGPT lebih mudah menghasilkan informasi yang salah dalam bahasa Mandarin daripada bahasa Inggris. Ini menimbulkan pertanyaan tentang bagaimana data pelatihan (dan bahkan budaya yang terkandung di dalamnya) memengaruhi perilaku model. Apakah AI kita mewarisi bias dari data yang ia pelajari?

Masa Depan Model Multibahasa: Secercah Harapan

Meskipun tantangannya besar, ada kabar baik! Komunitas AI tidak tinggal diam. Semakin banyak model yang secara khusus dilatih untuk fokus pada bahasa non-Inggris. Bahasa Mandarin menjadi salah satu yang paling aktif, dengan model seperti ChatGLM dan YAYI. Ada juga inisiatif penting untuk bahasa lain, seperti CroissantLLM untuk bahasa Prancis, PhoGPT untuk bahasa Vietnam, dan Jais untuk bahasa Arab.

Upaya-upaya ini menunjukkan bahwa kita sedang bergerak menuju masa depan di mana AI benar-benar dapat berkomunikasi dan memahami dunia dalam semua kekayaan bahasanya, tidak hanya dalam satu bahasa dominan. Perjalanan ini mungkin panjang, tetapi setiap langkah membawa kita lebih dekat pada inklusivitas digital yang sejati, di mana setiap bahasa punya tempatnya di dunia AI.

Bagaimana Menurut Anda?

Apa pendapat Anda tentang dominasi bahasa Inggris di internet dan dampaknya pada AI? Apakah Anda pernah merasakan langsung perbedaan kinerja AI dalam bahasa Anda sendiri dibandingkan bahasa Inggris? Mari diskusikan di kolom komentar!

Baca Juga :

Insinyur AI vs. Insinyur Full-Stack: Menyingkap Era Baru Pengembangan Aplikasi AI

Popular Articles

Most Recent Posts

  • All Post
  • AI
  • AI untuk Analisis Data
  • AI untuk Bisnis dan Produktivitas
  • AI untuk Desain dan Kreativitas
  • Ai Untuk Industri
  • AI untuk Keamanan dan Cybersecurity
  • AI untuk Kesehatan
  • AI untuk Konten Digital
  • AI untuk Marketing dan SEO
  • Ai Untuk Pendidikan
  • Ai Untuk Startup
  • AI untuk Teknologi dan Inovasi
  • Digital
  • Event
  • Marketing
Alamat

One Pacific Place Jl. Jenderal Sudirman Kav.52-53 Lt 15 Senayan Kebayoran Baru Jakarta Selatan

No Wa: 62 811-1913-553

Services

FAQ's

Privacy Policy

Terms & Condition

Team

Contact Us

Services

FAQ's

Terms & Condition

Team

Contact Us

© 2024 Created with asosiasi.ai