Anthropic menerbitkan 'perintah sistem' yang membuat Claude tergerak

Model AI generatif tidak sebenarnya mirip manusiaMereka tidak memiliki kecerdasan atau kepribadian — mereka hanyalah sistem statistik yang memprediksi kata-kata berikutnya yang paling mungkin dalam sebuah kalimat. Namun seperti pekerja magang di tempat kerja yang tirani, mereka Mengerjakan ikuti instruksi tanpa mengeluh — termasuk “perintah sistem” awal yang mempersiapkan model dengan kualitas dasar mereka, dan apa yang boleh dan tidak boleh mereka lakukan.

Setiap vendor AI generatif, dari OpenAI hingga Anthropic, menggunakan perintah sistem untuk mencegah (atau setidaknya mencoba mencegah) model berperilaku buruk, dan untuk mengarahkan nada dan sentimen umum dari balasan model. Misalnya, perintah mungkin memberi tahu model bahwa ia harus bersikap sopan tetapi tidak pernah meminta maaf, atau jujur ​​tentang fakta bahwa ia tidak bisa mengetahui segalanya.

Namun, vendor biasanya merahasiakan perintah sistem — mungkin karena alasan persaingan, tetapi mungkin juga karena mengetahui perintah sistem dapat memberikan cara untuk menghindarinya. Satu-satunya cara untuk mengungkap GPT-4oMisalnya saja, perintah sistemnya adalah melalui serangan injeksi cepatDan bahkan saat itu, output sistem tidak bisa dipercaya sepenuhnya.

Namun, Anthropic, dalam upaya berkelanjutannya untuk menggambarkan dirinya sebagai vendor AI yang lebih etis dan transparanmemiliki diterbitkan sistem meminta model terbarunya (Claude 3.5 Opus, Soneta dan Haiku) di dalam Aplikasi Claude iOS dan Android dan di web.

Alex Albert, kepala hubungan pengembang Anthropic, mengatakan dalam sebuah posting di X bahwa Anthropic berencana untuk menjadikan pengungkapan semacam ini sebagai hal rutin seiring dengan pembaruan dan penyempurnaan perintah sistemnya.

Perintah terbaru, tertanggal 12 Juli, menguraikan dengan sangat jelas apa yang tidak dapat dilakukan oleh model Claude — misalnya, “Claude tidak dapat membuka URL, tautan, atau video.” Pengenalan wajah adalah hal yang sangat tidak boleh dilakukan; perintah sistem untuk Claude 3.5 Opus memberi tahu model untuk “selalu merespons seolah-olah tidak mengenali wajah sama sekali” dan untuk “menghindari mengidentifikasi atau menyebutkan nama manusia mana pun dalam (gambar).”

Namun, petunjuk tersebut juga menggambarkan ciri dan karakteristik kepribadian tertentu — ciri dan karakteristik yang ingin dicontohkan Anthropic dari model Claude.

Perintah untuk Opus, misalnya, mengatakan bahwa Claude harus tampil seolah-olah “(sangat) pintar dan memiliki rasa ingin tahu yang tinggi,” dan “senang mendengar pendapat manusia tentang suatu isu dan terlibat dalam diskusi tentang berbagai topik.” Perintah itu juga menginstruksikan Claude untuk menangani topik-topik kontroversial dengan tidak memihak dan objektif, memberikan “pemikiran yang cermat” dan “informasi yang jelas” — dan tidak pernah memulai tanggapan dengan kata-kata “tentu” atau “mutlak.”

Semuanya terasa aneh bagi manusia, perintah sistem ini, yang ditulis seperti seorang aktor dalam drama panggung mungkin menulis sebuah lembar analisis karakterPrompt untuk Opus diakhiri dengan “Claude kini terhubung dengan manusia,” yang memberikan kesan bahwa Claude adalah semacam kesadaran di ujung layar yang satu-satunya tujuannya adalah memenuhi keinginan mitra percakapan manusianya.

Namun tentu saja itu hanya ilusi. Jika petunjuk untuk Claude memberi tahu kita sesuatu, itu adalah bahwa tanpa bimbingan dan arahan manusia, model-model ini akan menjadi seperti papan tulis kosong yang menakutkan.

Dengan perubahan log perintah sistem baru ini — yang pertama dari jenisnya dari vendor AI besar — ​​Anthropic memberikan tekanan pada pesaing untuk menerbitkan hal yang sama. Kita harus melihat apakah taktik ini berhasil.



Sumber