За даними останньої оцінки Vending-Bench 2 від Andon Labs, GLM 5,2 посів друге місце в довгостроковому тесті бізнес-симуляції. Бенчмарк симулював 365-денну роботу компанії з торгівлі через торговельні автомати, а моделі щодня приймали рішення щодо запасів і ціноутворення на основі фінансових даних, щоб оцінити узгодженість рішень у розширених завданнях.
Версії GLM продемонстрували стабільне лінійне зростання, із середнім щомісячним приростом прибутку близько 1 000 доларів (GLM 5 досяг середнього показника 4 432 долари, GLM 5,1 досяг 5 634 долари). На противагу, Kimi K2.7 Code показав гірші результати порівняно з K2.6, тоді як Minimax M3 значно покращився порівняно з M2.5, але залишився суттєво нижчим за обидві серії Kimi та GLM за загальною прибутковістю.