Инструментарий Rockchip RKLLM (также известный как rknn-llm) — программный стек для развертывания генеративных моделей ИИ на Rockchip RK3588 , RK3588S или RK3576 SoC с использованием встроенного NPU производительностью 6 TOPS для ИИ.
Ранее тестировались LLM на одноплатных компьютерах Rockchip RK3588 с GPU Mali G610 , ожидалось скорое появление поддержки NPU. Публикация в X от Orange Pi сообщила о выпуске программного стека RKLLM, работающего с Orange Pi 5 семейством одноплатных компьютеров и Orange Pi CM5 системными модулями.
В Orange Pi 5 Pro руководстве пользователя инструкции приведены на странице 433 (документ 616 страниц), аналогичные инструкции от Radxa доступны на их вики по использованию RKLLM и развертыванию LLM на платах Rockchip RK3588(S).
Стабильная версия RKNN-LLM выпущена в мае 2024 года и поддерживает следующие модели:
- TinyLLAMA 1.1B
- Qwen 1.8B
- Qwen2 0.5B
- Phi-2 2.7B
- Phi-3 3.8B
- ChatGLM3 6B
- Gemma 2B
- InternLM2 1.8B
- MiniCPM 2B
Заметим, что все модели содержат от 0,5 до 3,8 миллиарда параметров, кроме ChatGLM3 с 6 миллиардами параметров. Для сравнения, ранее тестировалась Llama3 с 8 миллиардами параметров на устройстве Radxa Fogwise Airbox AI box с более мощным 32 TOPS ИИ-ускорителем.
На приведённом скриншоте показана работа TinyLLMA 1.1B на Radxa ROCK 5C со скоростью 17,67 токенов/с. Это высокая скорость, достижимая благодаря компактному размеру модели. Также поддерживается Gradio для доступа к чат-боту через веб-интерфейс. Как отмечалось в обзоре Radxa Fogwise Airbox, производительность снижается при увеличении параметров модели или длины ответа.
Radxa протестировала различные модели и сообщила о следующей производительности на аппаратной платформе Rockchip RK3588(S):
- TinyLlama 1.1B – 15,03 токенов/с
- Qwen 1.8B – 14,18 токенов/с
- Phi3 3.8B – 6,46 токенов/с
- ChatGLM3 – 3,67 токенов/с
При тестировании Llama 2 7B на GPU одноплатного компьютера Mixtile Blade 3 достигнуто 2,8 токена/с (декодирование) и 4,8 токена/с (предзаполнение). Таким образом, преимущество NPU в производительности неочевидно, однако он может быть энергоэффективнее GPU и освобождать графический процессор для других задач. В руководстве пользователя Orange Pi 5 Pro приведены дополнительные данные о производительности, загрузке CPU/NPU и использовании памяти.
Хотя производительность «рассуждений» (декодирования) незначительно превосходит GPU, предзаполнение выполняется существенно быстрее. Отметим, что тестирование проводилось на проприетарном драйвере NPU, параллельно ведутся работы над открытым драйвером NPU для SoC RK3588/RK3576 , для которого драйвер ядра был отправлен в основную ветку в прошлом месяце.
Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.