Подберите подходящее оборудование для локального развёртывания LLM с помощью этого онлайн-руководства

При развёртывании локальных LLM многие могут полагать, что большие вложения гарантируют высокую производительность, но это далеко от реальности. Именно поэтому компания Sipeed создала онлайн-руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide. Руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide .

На сайте представлен перечень распространённого оборудования с указанием цены, производительности (токенов/с), энергопотребления и других параметров для различных LLM. Если взять в качестве примера Qwen3.5 9B, можно увидеть, что аппаратное обеспечение стоимостью свыше $4000, такое как NVIDIA DGX Spark или Apple Mac Studio M3 обеспечивает примерно такой же TPS, как и система с видеокартой Intel Arc B580 12GB за 260 долларов.

Если бюджет не ограничен и требуется наилучшая производительность, наиболее логичным выбором становится NVIDIA GTX 5090 32GB. Сравнение цен не является абсолютно точным, поскольку некоторые данные отражают стоимость целой системы, в то время как другие — только цену видеокарты. Однако для модели Qwen 122B-A10B NVIDIA DGX Spark демонстрирует лучшее соотношение цены и производительности по сравнению с Apple Mac Studio M3 Ultra 256GB. Вариантов здесь меньше из-за большого объема памяти, необходимого для работы модели.

Можно выбрать различные параметры для осей X и Y, а также размер пузырька, используя характеристики устройств (пропускная способность/объем памяти, заявленные TOPS…), показатели вывода и предзаполнения LLM, а также коэффициенты (Производительность/ватт, Производительность/доллар…).

Сайт использует модели Qwen 3.5 для проведения тестов:

Qwen3.5-9B – Обязательна (Базовый уровень для небольших устройств)
Qwen3.5-27B – Обязательна (Базовый уровень для устройств среднего класса)
Qwen3.5-35B-A3B (MoE) – Опциональна (Эталон производительности для MoE)
Qwen3.5-122B-A10B (MoE) – Опциональна (Эталон для устройств с большим объемом памяти)
Qwen3.5-397B-A17B (MoE) – Опциональна (Эталон для флагманских устройств)

К сожалению, нет возможности фильтровать по цене. Вместо этого можно выбрать логарифмическую шкалу, чтобы лучше видеть соотношение цены и производительности бюджетных вариантов. [Обновление: также можно нарисовать прямоугольник мышкой для увеличения области]

В качестве альтернативы можно переключиться в режим списка и отсортировать результаты по цене.

Подробную информацию о каждом устройстве, включая характеристики и результаты тестов, можно получить, нажав на элемент в списке или пузырек на графике.

Следует отметить, что некоторые результаты являются оценочными; например, данные для Raspberry Pi 5 16GB (Qwen 3.5 9B) были экстраполированы из результатов Llama 7B.

Список оборудования можно расширить, так как проект принимает пользовательские результаты. Для добавления нового оборудования потребуется развернуть бенчмарк и следовать инструкциям . К сожалению, система не собирает данные автоматически, поэтому после копирования шаблона в папку devices необходимо вручную заполнить всю информацию, затем запустить хотя бы Qwen 3.5 9B с длинным запросом и сделать фотографию платы. Если разработчики хотят больше пользовательских результатов, им, вероятно, стоит автоматизировать часть процесса, как это делает скрипт sbc-bench.sh , или использовать скрипт-мастер.

Я начал делать это для UP Xtreme ARL AI Dev Kit , но, поскольку все данные нужно вводить вручную, отложу эту задачу и отправлю информацию на выходных, когда будет больше свободного времени для экспериментов. Тем не менее, я рад существованию этого ресурса и надеюсь, что его можно будет улучшить.

Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.