При развёртывании локальных LLM многие могут полагать, что большие вложения гарантируют высокую производительность, но это далеко от реальности. Именно поэтому компания Sipeed создала онлайн-руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide. Руководство по развёртыванию устройств для вывода локальных языковых моделей, размещённое на сайте llmdev.guide .
На сайте представлен перечень распространённого оборудования с указанием цены, производительности (токенов/с), энергопотребления и других параметров для различных LLM. Если взять в качестве примера Qwen3.5 9B, можно увидеть, что аппаратное обеспечение стоимостью свыше $4000, такое как NVIDIA DGX Spark или Apple Mac Studio M3 обеспечивает примерно такой же TPS, как и система с видеокартой Intel Arc B580 12GB за 260 долларов.
