Berita Pintu Gerbang, 10 April, hari ini, platform evaluasi AI tepercaya global LMArena (platform penilaian model AI dengan pengujian buta yang diikuti oleh jutaan pengguna) memperbarui papan peringkat khusus Code Arena; GLM-5.1 menduduki peringkat pertama untuk model open source global, dan berada di peringkat ketiga untuk model global.
GLM-5.1 tidak hanya mewarisi kemampuan pengkodean open source SOTA dari generasi model sebelumnya, tetapi juga mencapai terobosan pada tugas jarak jauh (Long-Horizon Task), dengan mewujudkan: membangun desktop Linux dari nol dalam 8 jam; 655 iterasi mematahkan hambatan optimasi bottleneck pada basis data vektor; serta 1000 putaran optimasi pemanggilan alat untuk memuat beban model pembelajaran mesin dunia nyata.
Perlu disorot bahwa pada standar evaluasi yang setara di papan peringkat METR, GLM-5.1 adalah satu-satunya model open source yang mencapai kerja berkelanjutan level 8 jam, serta merupakan salah satu dari sedikit model di seluruh dunia selain Claude Opus 4.6 yang memiliki kemampuan tersebut.