Memahami kesenjangan penguatan dalam perkembangan keterampilan AI dan dampaknya.
Kesenjangan Penguatan dalam AI
Alat pemrograman AI berkembang pesat. Jika Anda tidak bekerja dalam bidang kode, mungkin sulit untuk menyadari perubahan ini. Namun, GPT-5 dan Gemini 2.5 telah memungkinkan trik pengembang otomatis baru, dan minggu lalu Sonnet 2.4 melakukannya lagi. Di sisi lain, keterampilan lain berkembang lebih lambat. Jika Anda menggunakan AI untuk menulis email, Anda mungkin mendapatkan nilai yang sama seperti setahun yang lalu. Bahkan ketika model meningkat, produk tidak selalu mendapatkan manfaat, terutama ketika itu adalah chatbot yang melakukan banyak tugas secara bersamaan. AI masih berkembang, tetapi tidak merata seperti sebelumnya.
Perbedaan dalam kemajuan ini lebih sederhana daripada yang terlihat. Aplikasi pemrograman mendapatkan manfaat dari miliaran tes yang mudah diukur, melatih mereka untuk menghasilkan kode yang dapat digunakan. Ini adalah pembelajaran penguatan (RL), yang mungkin menjadi pendorong terbesar kemajuan AI selama enam bulan terakhir, menjadi lebih rumit seiring waktu. Anda dapat melakukan pembelajaran penguatan dengan penilai manusia, tetapi ini bekerja paling baik dengan metrik lulus-gagal yang jelas, memungkinkan miliaran pengulangan tanpa input manusia.
Penerapan Pembelajaran Penguatan
Karena industri semakin mengandalkan pembelajaran penguatan untuk meningkatkan produk, kita melihat perbedaan nyata antara kemampuan yang dapat dinilai secara otomatis dan yang tidak. Keterampilan yang ramah RL seperti perbaikan bug dan matematika kompetitif berkembang pesat, sementara keterampilan seperti menulis hanya membuat kemajuan bertahap. Singkatnya, ada kesenjangan penguatan, menjadi salah satu faktor terpenting untuk apa yang dapat dan tidak dapat dilakukan oleh sistem AI.
Pengembangan perangkat lunak adalah subjek yang sempurna untuk pembelajaran penguatan. Bahkan sebelum AI, ada sub-disiplin yang didedikasikan untuk menguji perangkat lunak di bawah tekanan, memastikan kode tidak rusak sebelum diterapkan. Bahkan kode yang paling elegan perlu melewati pengujian unit, pengujian integrasi, pengujian keamanan, dan lainnya. Pengembang manusia menggunakan tes ini secara rutin untuk memvalidasi kode mereka, dan seperti yang baru-baru ini disebutkan oleh direktur senior alat pengembang Google, mereka sama bermanfaatnya untuk memvalidasi kode yang dihasilkan AI.
Tidak ada cara mudah untuk memvalidasi email yang ditulis dengan baik atau respons chatbot yang baik; keterampilan ini subjektif dan lebih sulit diukur dalam skala besar. Namun, tidak setiap tugas jatuh dengan rapi ke dalam kategori 'mudah diuji' atau 'sulit diuji'. Kami tidak memiliki kit pengujian siap pakai untuk laporan keuangan triwulanan atau ilmu aktuaria, tetapi startup akuntansi yang memiliki modal besar mungkin dapat membangunnya dari awal.
Beberapa kit pengujian akan bekerja lebih baik daripada yang lain, dan beberapa perusahaan akan lebih cerdas dalam mendekati masalah ini. Namun, kemampuan uji dari proses yang mendasarinya akan memutuskan apakah itu dapat menjadi produk fungsional daripada hanya demo yang menarik. Beberapa proses ternyata lebih dapat diuji daripada yang Anda kira. Jika Anda bertanya kepada saya minggu lalu, saya akan menempatkan video yang dihasilkan AI dalam kategori 'sulit diuji', tetapi kemajuan besar yang dibuat oleh model Sora 2 baru dari OpenAI menunjukkan bahwa itu mungkin tidak sesulit yang terlihat.
Dalam Sora 2, objek tidak lagi muncul dan menghilang begitu saja. Wajah mempertahankan bentuknya, terlihat seperti orang tertentu daripada hanya kumpulan fitur. Rekaman Sora 2 menghormati hukum fisika dengan cara yang jelas dan halus. Saya curiga bahwa, jika Anda mengintip di balik tirai, Anda akan menemukan sistem pembelajaran penguatan yang kuat untuk masing-masing kualitas ini. Bersama-sama, mereka membuat perbedaan antara fotorealisme dan halusinasi yang menghibur.
Untuk lebih jelasnya, ini bukan aturan keras dan cepat dari kecerdasan buatan. Ini adalah hasil dari peran sentral yang dimainkan pembelajaran penguatan dalam pengembangan AI, yang dapat dengan mudah berubah seiring berkembangnya model. Tetapi selama RL adalah alat utama untuk membawa produk AI ke pasar, kesenjangan penguatan hanya akan semakin besar, dengan implikasi serius bagi startup dan ekonomi secara keseluruhan.
Jika suatu proses berakhir di sisi kanan kesenjangan penguatan, startup kemungkinan akan berhasil mengotomatisasinya, dan siapa pun yang melakukan pekerjaan itu sekarang mungkin akan mencari karier baru. Pertanyaan tentang layanan kesehatan mana yang dapat dilatih RL, misalnya, memiliki implikasi besar untuk bentuk ekonomi selama 20 tahun ke depan. Dan jika kejutan seperti Sora 2 adalah indikasi, kita mungkin tidak perlu menunggu lama untuk mendapatkan jawaban.