Espressif представила платформу ESP Private Agents, чтобы помочь разработчикам создавать локальных, приватных и настраиваемых ИИ-ассистентов для устройств на базе ESP32 с обработкой на устройстве, хотя они также могут поддерживать гибридные ИИ-задачи, сочетающие обработку на устройстве и в облаке.
Платформа ESP Private Agents предлагает унифицированную структуру, которая позволяет разработчикам создавать приложения, сочетающие скорость, компьютерное зрение, автоматизацию и взаимодействие на основе агентов, например, многозадачного голосового агента с обработкой на устройстве (также известного как умная колонка) или агентов, ориентированных на задачи, которые автоматизируют рабочие процессы.
Решение построено на облачных сервисах AWS с использованием AWS Fargate в качестве основной платформы приложений и моделей Amazon Bedrock Foundation в качестве серверных LLM-систем. Оно работает не только с устройствами на базе ESP32, оснащенными динамиком и микрофоном, но и с мобильными приложениями и веб-клиентами.

Espressif выпустила веб-демонстрацию , которую можно использовать в качестве текстового чат-бота или голосового ассистента, задействующего динамик и микрофон на компьютере. Компания сообщила, что для промышленных случаев заказчики могут развернуть решение в своей собственной учетной записи AWS. Демонстрацию удалось опробовать в Firefox на Ubuntu 24.04. После входа через ESP RainMaker чат-бот работал корректно.
При переключении на аудиорежим с помощью микрофона ассистент повторял ответы голосом, но не слышал, несмотря на обнаружение микрофона. Можно было нажать на микрофон, говорить и нажать кнопку остановки для отправки аудио, но ничего не происходило. Микрофон на компьютере работает, возможно, ESP Private Agents не полностью совместима с Firefox.
Тем не менее, существует гораздо более интересная демонстрация с использованием аппаратной платформы EchoEar в качестве многоязычного голосового ИИ-ассистента, говорящего на английском, хинди (под вопросом), немецком и испанском языках, когда разные собеседники говорят по очереди.
Анонс в блоге разработчиков Espressif подробнее объясняет шаги, необходимые для создания собственного ИИ-агента и соответствующего аппаратного обеспечения. Вот краткое изложение.
Создание ИИ-агента:
- Выбор LLM из ряда поддерживаемых моделей AWS Bedrock Foundation, каждая со своей производительностью, стоимостью и поведением.
- Системный промпт – Определяет поведение агента и устанавливает его персонажа, например, голосового контроллера, рассказчика или ассистента службы поддержки.
- Инструменты – Это подключаемые действия, которые агент может вызывать для выполнения конкретных задач, например, управление ESP RainMaker , регулировка громкости и определение эмоций. Доступно два типа инструментов:
- Удаленные инструменты, совместимые с Model Context Protocol (MCP)
- Локальные инструменты, выполняемые непосредственно на клиенте, таком как само IoT-устройство или сопутствующее мобильное приложение. Примером может быть включение света или регулировка скорости вентилятора охлаждения.
После определения агента его можно протестировать прямо из веб-панели управления. Удовлетворившись результатами, можно продолжить разработку на реальном оборудовании, используя один из трех поддерживаемых комплектов для разработки: EchoEar, ESP32-S3-Box или M5Stack CoreS3 , и выполнить следующие шаги:
- Запрограммировать прошивку – Решение сгенерирует исходный код и бинарный файл прошивки, которые можно прошить прямо из веб-браузера. На данный момент доступно два типа прошивки: Generic Assistant или голосовой контроллер Matter с поддержкой Thread. Подробности можно найти на GitHub .
- Завести устройство с помощью приложения ESP RainMaker Home
- Настроить нового Агента на устройстве – Опционально. Это позволяет изменить агента по умолчанию, работающего на устройстве, с помощью QR-кода.
- Взаимодействовать с устройством с помощью голоса
Начать работу можно на сайте agents.espressif.com .
Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.




