Платформа ESP Private Agents ставит целью облегчить разработку голосовых помощников с ИИ на базе ESP32 со встроенной обработкой данных.

Espressif представила платформу ESP Private Agents, чтобы помочь разработчикам создавать локальных, приватных и настраиваемых ИИ-ассистентов для устройств на базе ESP32 с обработкой на устройстве, хотя они также могут поддерживать гибридные ИИ-задачи, сочетающие обработку на устройстве и в облаке.

Платформа ESP Private Agents предлагает унифицированную структуру, которая позволяет разработчикам создавать приложения, сочетающие скорость, компьютерное зрение, автоматизацию и взаимодействие на основе агентов, например, многозадачного голосового агента с обработкой на устройстве (также известного как умная колонка) или агентов, ориентированных на задачи, которые автоматизируют рабочие процессы.

ESP Private Agents

Решение построено на облачных сервисах AWS с использованием AWS Fargate в качестве основной платформы приложений и моделей Amazon Bedrock Foundation в качестве серверных LLM-систем. Оно работает не только с устройствами на базе ESP32, оснащенными динамиком и микрофоном, но и с мобильными приложениями и веб-клиентами.

esp private agents block diagram
Высокоуровневая архитектура ESP Private Agents

Espressif выпустила веб-демонстрацию , которую можно использовать в качестве текстового чат-бота или голосового ассистента, задействующего динамик и микрофон на компьютере. Компания сообщила, что для промышленных случаев заказчики могут развернуть решение в своей собственной учетной записи AWS. Демонстрацию удалось опробовать в Firefox на Ubuntu 24.04. После входа через ESP RainMaker чат-бот работал корректно.

ESP Private Agents Online Trial

При переключении на аудиорежим с помощью микрофона ассистент повторял ответы голосом, но не слышал, несмотря на обнаружение микрофона. Можно было нажать на микрофон, говорить и нажать кнопку остановки для отправки аудио, но ничего не происходило. Микрофон на компьютере работает, возможно, ESP Private Agents не полностью совместима с Firefox.

ESP Private Agents Demo Audio

Тем не менее, существует гораздо более интересная демонстрация с использованием аппаратной платформы EchoEar в качестве многоязычного голосового ИИ-ассистента, говорящего на английском, хинди (под вопросом), немецком и испанском языках, когда разные собеседники говорят по очереди.

Анонс в блоге разработчиков Espressif подробнее объясняет шаги, необходимые для создания собственного ИИ-агента и соответствующего аппаратного обеспечения. Вот краткое изложение.

Создание ИИ-агента:

  1. Выбор LLM из ряда поддерживаемых моделей AWS Bedrock Foundation, каждая со своей производительностью, стоимостью и поведением.
  2. Системный промпт – Определяет поведение агента и устанавливает его персонажа, например, голосового контроллера, рассказчика или ассистента службы поддержки.
  3. Инструменты – Это подключаемые действия, которые агент может вызывать для выполнения конкретных задач, например, управление ESP RainMaker , регулировка громкости и определение эмоций. Доступно два типа инструментов:
    • Удаленные инструменты, совместимые с Model Context Protocol (MCP)
    • Локальные инструменты, выполняемые непосредственно на клиенте, таком как само IoT-устройство или сопутствующее мобильное приложение. Примером может быть включение света или регулировка скорости вентилятора охлаждения.

После определения агента его можно протестировать прямо из веб-панели управления. Удовлетворившись результатами, можно продолжить разработку на реальном оборудовании, используя один из трех поддерживаемых комплектов для разработки: EchoEar, ESP32-S3-Box или M5Stack CoreS3 , и выполнить следующие шаги:

  1. Запрограммировать прошивку – Решение сгенерирует исходный код и бинарный файл прошивки, которые можно прошить прямо из веб-браузера. На данный момент доступно два типа прошивки: Generic Assistant или голосовой контроллер Matter с поддержкой Thread. Подробности можно найти на GitHub .
  2. Завести устройство с помощью приложения ESP RainMaker Home
  3. Настроить нового Агента на устройстве – Опционально. Это позволяет изменить агента по умолчанию, работающего на устройстве, с помощью QR-кода.
  4. Взаимодействовать с устройством с помощью голоса

Начать работу можно на сайте agents.espressif.com .

ESP32 AI Agent Translator Interpreter

Выражаем свою благодарность источнику, с которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.

0 0 votes
Article Rating
Подписаться
Уведомление о
guest

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

0 Комментарий
Oldest
Newest Most Voted
Inline Feedbacks
View all comments