При развёртывании локальных LLM многие могут полагать, что большие вложения гарантируют высокую производительность, но это далеко от реальности. Именно поэтому компания Sipeed создала онлайн-руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide. Руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide .
На сайте представлен перечень распространённого оборудования с указанием цены, производительности (токенов/с), энергопотребления и других параметров для различных LLM. Если взять в качестве примера Qwen3.5 9B, можно увидеть, что аппаратное обеспечение стоимостью свыше $4000, такое как NVIDIA DGX Spark или Apple Mac Studio M3 обеспечивает примерно такой же TPS, как и система с видеокартой Intel Arc B580 12GB за 260 долларов.
Если бюджет не ограничен и требуется наилучшая производительность, наиболее логичным выбором становится NVIDIA GTX 5090 32GB. Сравнение цен не является абсолютно точным, поскольку некоторые данные отражают стоимость целой системы, в то время как другие — только цену видеокарты. Однако для модели Qwen 122B-A10B NVIDIA DGX Spark демонстрирует лучшее соотношение цены и производительности по сравнению с Apple Mac Studio M3 Ultra 256GB. Вариантов здесь меньше из-за большого объема памяти, необходимого для работы модели.
Можно выбрать различные параметры для осей X и Y, а также размер пузырька, используя характеристики устройств (пропускная способность/объем памяти, заявленные TOPS…), показатели вывода и предзаполнения LLM, а также коэффициенты (Производительность/ватт, Производительность/доллар…).
Сайт использует модели Qwen 3.5 для проведения тестов:
- Qwen3.5-9B – Обязательна (Базовый уровень для небольших устройств)
- Qwen3.5-27B – Обязательна (Базовый уровень для устройств среднего класса)
- Qwen3.5-35B-A3B (MoE) – Опциональна (Эталон производительности для MoE)
- Qwen3.5-122B-A10B (MoE) – Опциональна (Эталон для устройств с большим объемом памяти)
- Qwen3.5-397B-A17B (MoE) – Опциональна (Эталон для флагманских устройств)
К сожалению, нет возможности фильтровать по цене. Вместо этого можно выбрать логарифмическую шкалу, чтобы лучше видеть соотношение цены и производительности бюджетных вариантов. [Обновление: также можно нарисовать прямоугольник мышкой для увеличения области]
В качестве альтернативы можно переключиться в режим списка и отсортировать результаты по цене.
Подробную информацию о каждом устройстве, включая характеристики и результаты тестов, можно получить, нажав на элемент в списке или пузырек на графике.
Следует отметить, что некоторые результаты являются оценочными; например, данные для Raspberry Pi 5 16GB (Qwen 3.5 9B) были экстраполированы из результатов Llama 7B.
Список оборудования можно расширить, так как проект принимает пользовательские результаты. Для добавления нового оборудования потребуется развернуть бенчмарк и следовать инструкциям . К сожалению, система не собирает данные автоматически, поэтому после копирования шаблона в папку devices необходимо вручную заполнить всю информацию, затем запустить хотя бы Qwen 3.5 9B с длинным запросом и сделать фотографию платы. Если разработчики хотят больше пользовательских результатов, им, вероятно, стоит автоматизировать часть процесса, как это делает скрипт sbc-bench.sh , или использовать скрипт-мастер.
Я начал делать это для UP Xtreme ARL AI Dev Kit , но, поскольку все данные нужно вводить вручную, отложу эту задачу и отправлю информацию на выходных, когда будет больше свободного времени для экспериментов. Тем не менее, я рад существованию этого ресурса и надеюсь, что его можно будет улучшить.
Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.







