Pada tahun 2026, muncul konsensus baru di industri AI: penentu kualitas produk AI bukan lagi model itu sendiri, melainkan lapisan di luar model yang disebut “harness”. Ketika model dasar yang digunakan oleh Claude Code, Cursor, dan OpenClaw semakin mendekati satu sama lain, yang benar-benar membuat perbedaan produk adalah desain harness. Blog teknis Martin Fowler, pernyataan pemimpin produk Anthropic trq212, serta pernyataan terbaru Andrej Karpathy semuanya mengarah ke satu arah yang sama: medan perang berikutnya untuk AI adalah Harness Engineering.
Apa itu Agent Harness
Sebuah AI agent dapat dipecah menjadi dua bagian: model (Model) dan Harness. Model adalah otak, bertanggung jawab untuk memahami bahasa dan penalaran. Harness adalah segalanya di luar model—pemanggilan alat, manajemen memori, perakitan konteks, persistensi status, penanganan kesalahan, pagar pengaman keamanan, penjadwalan tugas, dan manajemen siklus hidup.
Dengan analogi yang intuitif: LLM adalah seekor kuda, harness adalah perlengkapan kuda—tali kekang, pelana, dan struktur penghubung antara kuda dan kereta. Tanpa perlengkapan kuda, betapa kuatnya pun kudanya, ia tidak bisa menarik kereta. AI agent juga sama; meskipun modelnya cerdas, tanpa harness yang baik ia tidak dapat menyelesaikan tugas nyata secara andal.
Akshay Pachaar mengemukakan analogi lain dalam sebuah cuitan yang banyak dibagikan: “LLM telanjang seperti CPU tanpa sistem operasi—ia bisa menghitung, tetapi dengan sendirinya tidak bisa melakukan apa pun yang bermanfaat.” Harness adalah sistem operasi itu.
Mengapa pada tahun 2026 Harness Engineering tiba-tiba menjadi penting
Ada tiga alasan:
Pertama, kemampuan model semakin homogen. Perbedaan GPT-5.4, Claude Opus 4.6, dan Gemini 3.1 Pro pada sebagian besar pengujian tolok ukur telah menyempit hingga hanya beberapa poin persentase. Ketika model tidak lagi menjadi bottleneck, pembedaan produk secara alami bergeser ke lapisan harness.
Kedua, agent berpindah dari eksperimen ke produksi. Kebanyakan agent pada tahun 2025 masih berupa demo, sedangkan pada tahun 2026 agent harus berjalan di lingkungan perusahaan—perlu menangani pemulihan setelah gangguan, menjalankan operasi dalam jangka panjang, tugas multi-langkah, dan kontrol izin. Semua ini adalah pekerjaan harness.
Ketiga, LLM secara bawaan tidak memiliki status. Setiap session baru dimulai dari nol, model tidak mengingat percakapan sebelumnya. Harness bertugas mempersistensi ingatan, konteks, dan kemajuan kerja, sehingga agent dapat bekerja terus seperti “rekan kerja” yang sesungguhnya.
Komponen inti Harness
Sebuah lengkap agent harness biasanya mencakup beberapa lapisan berikut:
Komponen Fungsi Analogi Orchestration Loop Mengendalikan siklus “berpikir → bertindak → mengamati” agent, seperti siklus utama sistem operasi Siklus utama sistem Tool Management Mengelola alat yang dapat digunakan agent (baca/tulis file, pemanggilan API, operasi browser, dll.) Program penggerak Context Engineering Menentukan informasi apa yang dikirim ke model setiap kali pemanggilan, dan informasi mana yang dipotong Manajemen memori Memory Management State Persistence Menyimpan kemajuan kerja, riwayat percakapan, dan hasil antara Persistensi seperti penyimpanan keras Hard Disk Error Recovery Mendeteksi kegagalan dan secara otomatis mencoba ulang atau melakukan fallback Pemulihan kesalahan seperti mekanisme pemulihan otomatis Exception Handling Membatasi ruang lingkup perilaku agent agar mencegah operasi berbahaya Pagar pengaman Safety Guardrails Verification Loops Membuat agent memeriksa kualitas outputnya sendiri Pengujian kualitas seperti unit test Unit Testing
Tiga lapisan rekayasa: Prompt, Context, Harness
Praktik rekayasa yang melibatkan LLM dapat dibagi menjadi tiga lapisan konsentris:
Lapisan terdalam adalah Prompt Engineering—merancang instruksi yang dikirim ke model, sehingga menentukan “bagaimana model berpikir”. Ini adalah keterampilan arus utama pada tahun 2023.
Lapisan tengah adalah Context Engineering—mengelola “yang dilihat” oleh model. Ini menentukan informasi mana yang dikirim ke context window pada waktu apa, dan mana yang harus dipotong. Seiring context window diperbesar hingga jutaan token, pentingnya lapisan ini mulai muncul pada tahun 2025.
Lapisan terluar adalah Harness Engineering—mencakup dua hal pertama, ditambah seluruh infrastruktur dasar aplikasi: orkestrasi alat, persistensi status, pemulihan kesalahan, loop verifikasi, mekanisme keamanan, dan manajemen siklus hidup. Ini adalah medan perang inti pada tahun 2026.
Contoh: Mengapa model yang sama bisa tampil sangat berbeda di produk yang berbeda
Claude Opus 4.6 di Claude Code dapat menghabiskan waktu satu jam untuk merestrukturisasi seluruh kode program. Namun ketika model yang sama dihubungkan melalui API dengan harness yang seadanya, ia mungkin tidak bisa melakukan perbaikan bug lintas file. Bedanya bukan pada modelnya, melainkan pada harness.
Apa yang dilakukan harness di Claude Code?
Secara otomatis mencari seluruh basis kode untuk file yang relevan, bukan meminta pengguna menentukan satu per satu
Membaca isi file sebelum melakukan modifikasi, lalu menjalankan pengujian untuk memverifikasi setelah modifikasi
Jika pengujian gagal, ia secara otomatis menganalisis kesalahan dan mencoba ulang
Menghubungkan alat eksternal melalui MCP (GitHub, basis data, dll.)
Sistem memori menyimpan preferensi pengguna dan konteks proyek lintas session
Strategi Advisor membuat model dengan kemampuan berbeda bekerja sama dalam pembagian tugas
Semua itu adalah kontribusi harness.
Feedforward dan Feedback: Dua mode kontrol utama Harness
Berdasarkan analisis blog teknis Martin Fowler, mekanisme kontrol harness terbagi menjadi dua jenis:
Feedforward (kontrol praperilaku)—menetapkan aturan sebelum agent bertindak, untuk mencegah output yang tidak diinginkan. Contohnya: pedoman perilaku dalam system prompt, daftar putih alat, dan izin akses file.
Feedback (kontrol pascaperilaku)—memeriksa hasil setelah agent bertindak, serta mengizinkan koreksi diri. Contohnya: menjalankan pengujian untuk memastikan kode benar, membandingkan output dengan format yang diharapkan, mendeteksi halusinasi, lalu menghasilkan ulang.
Harness yang baik menggunakan kedua jenis kontrol sekaligus: membatasi ruang lingkup perilaku sekaligus menjaga fleksibilitas.
Produkalisasi Harness Engineering: Cara Anthropic melakukannya
Pembaharuan produk yang diluncurkan Anthropic secara intensif pada April 2026 hampir semuanya adalah produkalisasi dari harness engineering:
Managed Agents — mengubah infrastruktur harness (sandbox, penjadwalan, manajemen status) menjadi layanan terkelola; pengembang hanya perlu mendefinisikan perilaku agent
Advisor strategy — arsitektur campuran model di tingkat harness yang secara otomatis menentukan kapan harus berkonsultasi dengan model yang lebih kuat
Cowork versi perusahaan — menyediakan harness lengkap (kontrol izin, manajemen pengeluaran, analitik penggunaan) untuk pengguna non-teknis, agar mereka tidak perlu memahami teknologi dasar
Pernyataan pemimpin produk Anthropic trq212 paling presisi: “Prompting adalah keterampilan untuk berbicara dengan agent, tetapi itu dimediasi oleh harness. Sasaran inti saya adalah memperbesar bandwidth antara manusia dan agent.”
Makna bagi pengembang: pekerjaan dan keterampilan baru
Harness Engineering sedang menjadi bidang rekayasa yang independen. Kombinasi keterampilan yang dibutuhkannya berbeda dari rekayasa backend tradisional atau rekayasa ML:
Memahami batas kemampuan LLM dan pola kegagalannya
Merancang pemanggilan alat dan alur penanganan kesalahan yang andal
Mengelola context window — kapan memasukkan informasi tertentu
Membangun observabilitas — menelusuri jalur keputusan agent dan penggunaan alat
Keamanan desain — membatasi ruang lingkup perilaku agent tanpa mematikan kemampuannya
Bagi orang yang sedang belajar Vibe Coding atau menggunakan alat AI untuk pengembangan, memahami konsep harness akan membantu Anda berkolaborasi lebih efektif dengan AI agent — karena Anda akan tahu apakah masalahnya ada pada model atau harness, serta bagaimana meningkatkan hasil dengan menyesuaikan pengaturan harness (bukan terus-menerus mengubah prompt).
Penutup: perebutan infrastruktur untuk dekade berikutnya
Persaingan model AI tidak akan berhenti, tetapi keuntungan marjinal sedang menurun. Persaingan di lapisan harness baru saja dimulai—siapa pun yang dapat membangun harness yang paling andal, paling fleksibel, dan paling aman, dialah yang dapat mengubah kemampuan model yang sama menjadi pengalaman produk yang lebih baik.
Ini juga menjelaskan mengapa Anthropic, OpenAI, dan Google beralih dari “perusahaan model” menjadi “perusahaan platform”—mereka yang dijual bukan lagi sekadar API model, melainkan infrastruktur harness yang lengkap. Bagi pengembang, memahami harness engineering bukanlah opsi, melainkan literasi inti untuk membangun produk pada era AI.
Artikel ini berjudul Harness Engineering 是什麼?AI 的下一個戰場不是模型,而是模型外面的那層架構, pertama kali muncul di 鏈新聞 ABMedia.