Digitalisasi Dunia

The “Claude Leak” & Hidden Instructions: Saat Kita Mulai Melihat Cara AI Dikendalikan

20 Apr 2026

Beberapa waktu terakhir, beredar sejumlah screenshot dan potongan teks yang diklaim sebagai bagian dari system prompt dan instruksi internal milik Claude, model dari Anthropic. Kontennya muncul dari berbagai sumber—mulai dari eksperimen prompt injection oleh pengguna, hingga potongan yang dibagikan di forum dan GitHub oleh peneliti independen.

The “Claude Leak” & Hidden Instructions: Saat Kita Mulai Melihat Cara AI Dikendalikan

Hal seperti ini bukan pertama kali terjadi di industri AI. Namun tetap saja, setiap kali “lapisan dalam” ini terekspos, responsnya hampir selalu sama: perhatian langsung meningkat. Bukan karena dramanya, tetapi karena jarang sekali publik bisa melihat bagaimana model-model ini sebenarnya diarahkan di balik layar.

Kenapa Ini Jadi Penting Sekarang

Beberapa tahun lalu, eksposur seperti ini mungkin hanya menarik bagi kalangan teknis. Tapi konteksnya sudah berubah.

Model seperti Claude kini tidak hanya digunakan untuk eksperimen atau chatbot ringan. Mereka mulai masuk ke:

workflow internal perusahaan
proses coding
automasi dokumen dan analisis

Artinya, output dari model ini mulai berdampak langsung pada pekerjaan nyata. Dalam situasi seperti itu, pertanyaan tentang bagaimana model mengambil keputusan menjadi jauh lebih relevan.

Leak seperti ini, kecil atau besar, menjadi penting bukan karena isinya sensasional, tetapi karena ia menyentuh aspek yang biasanya tidak terlihat: mekanisme kontrol.

Apa yang Sebenarnya Bocor

Dari berbagai materi yang beredar, sebagian besar berkisar pada satu hal: instruction layer yang membentuk perilaku model.

Beberapa potongan menunjukkan bagaimana Claude diarahkan untuk:

memprioritaskan keamanan dan menghindari konten berisiko
menolak permintaan tertentu dengan cara yang tetap “helpful”
menjaga tone yang sopan dan tidak konfrontatif

Ada juga indikasi bagaimana model diminta untuk menyeimbangkan antara membantu pengguna dan mematuhi batasan tertentu—dua hal yang dalam praktiknya tidak selalu sejalan.

Perlu dicatat bahwa tidak semua yang beredar bisa diverifikasi secara penuh. Namun pola yang muncul cukup konsisten dengan apa yang sudah diketahui secara publik tentang pendekatan Anthropic, terutama melalui konsep Constitutional AI yang mereka publikasikan sebelumnya—di mana model dilatih untuk mengikuti seperangkat prinsip tertulis dalam merespons pengguna.

Sumber-sumber yang banyak dirujuk dalam diskusi ini berasal dari:

eksperimen prompt injection yang dibagikan peneliti di platform seperti X dan GitHub
dokumentasi publik Anthropic terkait Constitutional AI
liputan media teknologi seperti The Verge dan TechCrunch yang membahas fenomena serupa

Apa yang Terlihat dari Cara Model Dibangun

Jika potongan-potongan ini dilihat secara keseluruhan, satu hal menjadi cukup jelas:
model seperti Claude bukan hanya hasil dari training data dan arsitektur neural network.

Perilakunya dibentuk oleh beberapa lapisan sekaligus:

model dasar yang dilatih dari data besar
proses alignment (seperti RLHF atau Constitutional AI)
dan system prompt yang berisi instruksi eksplisit

Lapisan terakhir ini yang sering kali tidak terlihat oleh pengguna. Ia berfungsi seperti “aturan main” yang terus dibawa model dalam setiap interaksi.

Konsekuensinya, banyak hal yang terlihat seperti “kepribadian” model—misalnya cara menolak permintaan atau menjaga tone—sebenarnya adalah hasil dari rekayasa instruksi, bukan sesuatu yang muncul secara alami.

Tension yang Tidak Bisa Dihilangkan

Dari instruksi-instruksi yang beredar, terlihat bahwa model diminta untuk memenuhi dua tujuan sekaligus:
menjadi sangat membantu, tetapi juga tetap aman dan terkendali.

Di atas kertas, ini masuk akal. Dalam praktiknya, ini menciptakan ketegangan yang tidak selalu mudah diselesaikan.

Ada situasi di mana menjadi “helpful” berarti memberikan jawaban yang detail, tetapi di saat yang sama aturan keamanan membatasi seberapa jauh model boleh menjawab. Sebaliknya, terlalu ketat dalam pembatasan bisa membuat model terasa tidak membantu.

Inilah yang sering dirasakan pengguna sebagai inkonsistensi. Bukan karena model “bingung”, tetapi karena ia mencoba menavigasi dua set instruksi yang kadang saling bertabrakan.

Transparansi yang Semakin Sulit Dihindari

Melihat kompleksitas ini, muncul pertanyaan yang lebih besar: apakah lapisan seperti ini memang bisa tetap tersembunyi?

Sejauh ini, berbagai eksperimen menunjukkan bahwa dengan teknik seperti prompt injection atau probing, sebagian dari instruksi internal ini bisa diungkap—meskipun tidak selalu secara lengkap. Fenomena serupa juga pernah terjadi pada model dari OpenAI, di mana system prompt ChatGPT beberapa kali terekspos melalui interaksi tertentu.

Artinya, apa yang terjadi pada Claude kemungkinan bukan kasus yang terisolasi. Ini lebih mencerminkan sifat dari sistem itu sendiri:
semakin kompleks dan semakin banyak digunakan, semakin sulit untuk sepenuhnya menutup cara kerjanya dari publik.

Antara Narasi Produk dan Realitas Sistem

Dari sisi pengguna, model AI sering dipresentasikan sebagai “assistant” yang natural—seolah-olah memahami konteks dan merespons secara intuitif.

Namun, ketika melihat ke dalam, gambarnya berbeda. Yang ada adalah sistem berlapis:

model statistik
aturan eksplisit
dan constraint yang terus aktif

Perbedaan ini bukan berarti ada yang salah, tetapi menunjukkan adanya jarak antara bagaimana produk dipersepsikan dan bagaimana ia sebenarnya bekerja.

Memahami jarak ini menjadi penting, terutama ketika AI mulai digunakan dalam konteks yang lebih serius.

Implikasi: Trust dan Reliabilitas

Ketika AI digunakan untuk tugas yang berdampak langsung—baik dalam coding, analisis, atau automasi—pertanyaan tentang reliabilitas menjadi semakin penting.

Jika perilaku model dipengaruhi oleh instruksi yang tidak terlihat, maka:

pengguna tidak selalu tahu mengapa sebuah jawaban diberikan atau ditolak
hasil bisa berubah tergantung konteks yang tidak sepenuhnya transparan

Bagi individu, ini mungkin hanya berarti pengalaman yang tidak konsisten.
Bagi perusahaan, ini bisa menjadi pertimbangan yang lebih serius dalam hal kepercayaan dan kontrol.

Penutup

“Claude leak” mungkin terlihat seperti kejadian kecil dalam arus besar perkembangan AI. Namun jika dilihat lebih dekat, ia membuka sesuatu yang lebih fundamental.

Ia menunjukkan bahwa model AI modern bukan hanya soal kecerdasan, tetapi juga soal bagaimana kecerdasan itu dibatasi, diarahkan, dan dikontrol.

Dan semakin sistem ini digunakan dalam dunia nyata, semakin penting untuk memahami lapisan-lapisan tersebut—bahkan jika sebagian darinya tidak selalu dimaksudkan untuk terlihat.

Artikel Sebelumnya

Berlangganan buletin kami untuk pembaruan