PinchBench — бенчмарк для оценки LLM-моделей в работе с OpenClaw. Можно посмотреть их сравнение по цене, эффективности и скорости.
Судя по описанию на сайте, модели гоняются на 23-х задачах, типа написать email, создать Python-скрипт, провести исследование, разобрать PDF, отсортировать входящие письма по важности, сгенерировать изображение и т.д.
Всё это оценивается тремя способами:
— автоматическая проверка — скрипты проверяют файлы и результат
— LLM-судья — Claude Opus оценивает качество по рубрикам
— гибридная — оба метода вместе
























