Tech

Menyelami Misi OpenAI untuk Membuat AI Melakukan Segala Hal untuk Anda

OpenAI berupaya mengembangkan agen AI yang dapat melakukan tugas seperti manusia. Pelajari lebih lanjut tentang perjalanan dan inovasi mereka.

Pengenalan OpenAI dan Perkembangan Awal

Setelah bergabung dengan OpenAI sebagai peneliti pada tahun 2022, Hunter Lightman menyaksikan peluncuran ChatGPT, salah satu produk dengan pertumbuhan tercepat. Sementara itu, Lightman bekerja dalam tim yang mengajarkan model OpenAI untuk menyelesaikan kompetisi matematika tingkat SMA. Tim ini, yang dikenal sebagai MathGen, memainkan peran penting dalam upaya OpenAI menciptakan model penalaran AI yang dapat melakukan tugas di komputer seperti manusia.

Baca juga : Arsenal Siapkan Tawaran Rp1 Triliun untuk Gelandang Terbaik Inggris

Perkembangan Model Penalaran AI

Model OpenAI masih jauh dari sempurna, tetapi telah menunjukkan peningkatan signifikan dalam penalaran matematika. Salah satu modelnya bahkan memenangkan medali emas di Olimpiade Matematika Internasional. OpenAI percaya kemampuan penalaran ini akan diterapkan pada subjek lain dan pada akhirnya mendukung agen serbaguna yang mereka impikan.

ChatGPT awalnya adalah pratinjau riset yang berubah menjadi bisnis konsumen viral. Namun, agen OpenAI adalah hasil dari upaya bertahun-tahun yang disengaja. CEO OpenAI, Sam Altman, menyatakan bahwa suatu saat Anda hanya perlu meminta komputer untuk melakukan tugas dan itu akan melakukannya untuk Anda.

Model penalaran AI OpenAI pertama, o1, dirilis pada musim gugur 2024. Para peneliti di balik terobosan ini menjadi sangat dicari di Silicon Valley, dengan beberapa direkrut oleh Meta untuk unit superintelligence baru mereka.

Model penalaran dan agen OpenAI terkait dengan teknik pelatihan pembelajaran mesin yang dikenal sebagai reinforcement learning (RL). RL memberikan umpan balik kepada model AI tentang apakah pilihannya benar atau tidak dalam lingkungan simulasi.

Pada tahun 2018, OpenAI memelopori model bahasa besar pertama dalam seri GPT, yang unggul dalam pemrosesan teks tetapi kesulitan dengan matematika dasar. Pada tahun 2023, OpenAI mencapai terobosan dengan menggabungkan LLMs, RL, dan teknik yang disebut test-time computation.

Teknik ini memungkinkan model untuk merencanakan dan memverifikasi langkah-langkahnya sebelum memberikan jawaban, memperkenalkan pendekatan baru yang disebut chain-of-thought (CoT). Meskipun teknik ini tidak baru, OpenAI menggabungkannya secara unik untuk menciptakan Strawberry, yang langsung mengarah pada pengembangan o1.

OpenAI menyadari bahwa kemampuan perencanaan dan pemeriksaan fakta dari model penalaran AI dapat digunakan untuk mendukung agen AI. Dengan model penalaran AI, OpenAI menentukan dua sumbu baru untuk meningkatkan model AI: menggunakan lebih banyak daya komputasi selama pelatihan pasca dan memberikan model AI lebih banyak waktu dan daya pemrosesan saat menjawab pertanyaan.

Setelah terobosan Strawberry, OpenAI membentuk tim "Agents" untuk membuat kemajuan lebih lanjut dalam paradigma baru ini. Meskipun tim ini disebut "Agents," OpenAI awalnya tidak membedakan antara model penalaran dan agen seperti yang kita pikirkan saat ini.

Keputusan untuk mencoba metode pelatihan baru terbukti tepat. Menjelang akhir 2024, beberapa laboratorium AI terkemuka mulai melihat hasil yang menurun pada model yang dibuat melalui skala pretraining tradisional. Saat ini, banyak momentum di bidang AI berasal dari kemajuan dalam model penalaran.

Tujuan penelitian AI adalah mereplikasi kecerdasan manusia dengan komputer. Sejak peluncuran o1, UX ChatGPT telah dipenuhi dengan fitur yang lebih manusiawi seperti "berpikir" dan "beralasan."

Para peneliti OpenAI mencatat bahwa orang mungkin tidak setuju dengan nomenklatur atau definisi penalaran mereka, tetapi mereka berpendapat itu kurang penting daripada kemampuan model mereka. Peneliti AI lainnya cenderung setuju, membandingkan mode penalaran AI dengan pesawat terbang.

Agen AI di pasar saat ini bekerja paling baik untuk domain yang terdefinisi dengan baik dan dapat diverifikasi seperti pengkodean. Namun, agen AI tujuan umum seperti ChatGPT Agent dan Comet kesulitan dengan banyak tugas kompleks dan subjektif yang ingin diotomatisasi orang.

Para peneliti harus mencari cara untuk melatih model dasar agar dapat menyelesaikan tugas yang lebih subjektif. OpenAI memiliki teknik RL tujuan umum baru yang memungkinkan mereka mengajarkan keterampilan kepada model AI yang tidak mudah diverifikasi.

Teknik-teknik ini dapat membantu model OpenAI menjadi lebih berkinerja, yang dapat muncul dalam model GPT-5 mendatang. OpenAI berharap untuk menegaskan dominasinya dengan peluncuran GPT-5, menawarkan model AI terbaik untuk mendukung agen bagi pengembang dan konsumen.