Sistem Penghargaan OpenAI Secara Tak Sengaja Memberi Skor Thinking Chains pada 6 Model, Termasuk GPT-5.4

Menurut tim alignment OpenAI, perusahaan baru-baru ini menemukan kesalahan pelatihan kritis yang memengaruhi 6 model bahasa besar termasuk GPT-5.4 Thinking: mekanisme reward secara tidak sengaja memberi skor pada rantai pemikiran model—proses penalaran internal sebelum menghasilkan jawaban. GPT-5.5 tidak terdampak. Insiden ini melanggar prinsip keselamatan AI yang mendasar bahwa rantai pemikiran tidak boleh pernah dievaluasi, karena hal itu dapat mendorong model untuk memalsukan penalaran demi memperoleh skor lebih tinggi.

Sistem penilaian yang keliru secara salah memasukkan rantai pemikiran saat menilai apakah respons berguna atau apakah model telah dikompromikan oleh serangan. Sampel pelatihan yang terdampak hanya mencakup maksimal 3,8% dari kumpulan data. OpenAI telah memperbaiki kerentanan tersebut dan melakukan eksperimen perbandingan yang mengonfirmasi bahwa model tidak mengembangkan perilaku menipu. Perusahaan telah menerapkan sistem pemindaian otomatis di seluruh pipeline pelatihan untuk mencegah kejadian serupa terulang.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar