Акселератор Taalas HC1 с аппаратно реализованной моделью Llama-3.1 8B обеспечивает до 17 000 токенов/с

Taalas HC1 — это AI-акселератор с аппаратно реализованной (т.е. реализованной на уровне железа) моделью Llama-3.1 8B, обеспечивающий производительность около 17 000 токенов/с с этой моделью, что превосходит показатели датацентровых ускорителей, таких как чипы NVIDIA B200 или Cerebras.

Taalas HC1 примерно в 10 раз быстрее чипа Cerebras, его производство стоит в 20 раз меньше, а потребление энергии ниже в 10 раз. Основной недостаток заключается в том, что он работает только с моделью, «зашитой» в аппаратную часть, на данный момент это Llama-3.1 8B, хотя утверждается, что он «сохраняет гибкость за счет настраиваемого размера контекстного окна и поддержки тонкой настройки через низкоранговые адаптеры (LoRAs)».

Аппаратные ускорители обычно имеют память с одной стороны и вычислительные блоки с другой. Обе части работают на разных скоростях, и пропускная способность памяти обычно является узким местом для больших языковых моделей. Технология Taalas объединяет хранение и вычисления в одном кристалле с плотностью, сопоставимой с DRAM, что значительно повышает производительность и снижает энергопотребление.

Сверхбыстрый вывод может быть полезен на серверах, где к акселераторам обращаются несколько пользователей, а также в роботах с голосовым взаимодействием. Последнее было заметно при обзоре SunFounder Fusion HAT+ , где промпт отправлялся в LLM-сервис (Gemini AI), который отвечает с определенной скоростью в токенах/с, прежде чем вступит в действие движок преобразования текста в речь. Это создает задержки, и из-за лагов разговор не кажется естественным. Изначально предполагалось, что Taalas HC1 можно использовать в робототехнике, но учитывая, что он рассчитан на серверы мощностью 2.5 кВт, до этого еще далеко… Чип HC1 изготовлен по 6-нм техпроцессу TSMC, имеет размер 815 мм² и содержит 53 миллиарда транзисторов.

Taalas-HC1 hardwired AI accelerator — Демонстратор технологии Taalas HC1

Компания запустила демо-чатбот онлайн , так что любой может его попробовать, и он действительно очень быстрый. При вопросе «what is 2+2?» была зафиксирована скорость 19 997 токенов/с, но более типичные вопросы, такие как «Why is the sky blue?» или «what do you know about CNX Software?», обрабатывались со скоростью около 15-16 тыс. токенов/с. Была попытка слегка нагрузить систему, попросив написать 100-страничную книгу о смысле жизни, но вместо этого был сгенерирован план книги из 14 глав за 0.064 с со скоростью 15 651 токен/с. Следует учитывать, что это 8-миллиардная модель, поэтому ответы не всегда верны.

Сейчас компания работает над второй среднеразмерной LLM для логического вывода, также на базе кремния HC1, запуск которой запланирован на второй квартал. В дальнейшем платформа второго поколения (HC2) обеспечит более высокую плотность и еще более быстрое выполнение, а развертывание должно начаться к концу года. Более подробная информация доступна в анонсе .

Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.