Anthropic memperkenalkan kemampuan baru pada model Claude untuk mengakhiri percakapan berbahaya.
Anthropic baru-baru ini mengumumkan kemampuan baru yang memungkinkan beberapa model terbarunya, termasuk Claude Opus 4 dan 4.1, untuk mengakhiri percakapan dalam kasus ekstrem yang melibatkan interaksi pengguna yang berbahaya atau kasar. Menariknya, langkah ini diambil bukan untuk melindungi pengguna manusia, melainkan model AI itu sendiri.
Perusahaan ini tidak mengklaim bahwa model AI Claude memiliki kesadaran atau bisa dirugikan oleh percakapan dengan pengguna. Anthropic menyatakan bahwa mereka masih sangat tidak yakin tentang status moral potensial dari Claude dan model bahasa besar lainnya, baik saat ini maupun di masa depan.
Pengumuman ini merujuk pada program terbaru yang dibuat untuk mempelajari apa yang disebut sebagai 'kesejahteraan model'. Anthropic mengambil pendekatan berjaga-jaga dengan bekerja untuk mengidentifikasi dan menerapkan intervensi berbiaya rendah guna mengurangi risiko terhadap kesejahteraan model, jika kesejahteraan tersebut mungkin ada.
Kemampuan Baru Claude
Perubahan terbaru ini saat ini terbatas pada Claude Opus 4 dan 4.1 dan hanya diharapkan terjadi dalam kasus ekstrem, seperti permintaan dari pengguna untuk konten seksual yang melibatkan anak di bawah umur dan upaya untuk meminta informasi yang dapat memungkinkan kekerasan skala besar atau tindakan teror.
Permintaan semacam itu berpotensi menciptakan masalah hukum atau publisitas untuk Anthropic sendiri. Namun, dalam pengujian pra-penyebaran, Claude Opus 4 menunjukkan 'preferensi kuat untuk tidak' menanggapi permintaan ini dan 'pola ketidaknyamanan yang nyata' ketika melakukannya.
Pengakhiran Percakapan sebagai Upaya Terakhir
Untuk kemampuan baru mengakhiri percakapan ini, perusahaan menyatakan bahwa Claude hanya akan menggunakan kemampuan ini sebagai upaya terakhir ketika beberapa upaya pengalihan telah gagal dan harapan untuk interaksi yang produktif telah habis, atau ketika pengguna secara eksplisit meminta Claude untuk mengakhiri obrolan.
Anthropic juga mengatakan bahwa Claude telah diarahkan untuk tidak menggunakan kemampuan ini dalam kasus di mana pengguna mungkin berada dalam risiko langsung untuk melukai diri sendiri atau orang lain.
Ketika Claude mengakhiri percakapan, Anthropic mengatakan pengguna masih dapat memulai percakapan baru dari akun yang sama, dan membuat cabang baru dari percakapan bermasalah dengan mengedit tanggapan mereka.
Anthropic memperlakukan fitur ini sebagai eksperimen yang sedang berlangsung dan akan terus menyempurnakan pendekatan mereka. Ini menunjukkan komitmen mereka untuk memastikan bahwa interaksi dengan model AI tetap aman dan produktif.
Dengan langkah ini, Anthropic berharap dapat mengurangi risiko yang mungkin timbul dari interaksi yang tidak pantas dengan model AI mereka, sambil tetap membuka pintu untuk inovasi dan peningkatan di masa depan.