| | |

Apple научила ИИ понимать, чем занят человек — даже без камеры

Apple представила результаты необычного исследования, показавшего, что современным ИИ уже не нужна камера, чтобы определить, чем занимается человек. Нейросетям оказалось достаточно данных со звуковых и движенческих датчиков — и даже кратких текстовых описаний вместо аудиозаписи.

Как это работает

В статье под названием «Использование LLM для объединения мультимодальных данных датчиков для распознавания активности» исследователи описали метод, при котором ИИ анализирует:

  • текстовые субтитры, сгенерированные другими моделями на основе звука,
  • данные акселерометра и гироскопа,
  • короткие 20-секундные фрагменты активности пользователя.

Камера при этом вовсе не используется — только сенсоры и описания.

На чём тестировали

Учёные взяли набор Ego4D — это тысячи часов реальных сцен: домашние дела, отдых, спорт.

Из него сформировали собственный датасет из 12 типов активности: уборка пылесосом, готовка, стирка, еда, игры с животными, чтение, работа за ПК, мытьё посуды, спорт, просмотр ТВ и другие.

Сырые данные сначала пропускались через менее крупные модели, которые превращали звук в текст и делали прогнозы по движениям. Затем всё отправлялось более мощным нейросетям — Gemini-2.5-pro и Qwen-32B.

Что показали тесты

ИИ проверяли в двух режимах:

  • закрытый сценарий — из 12 вариантов нужно выбрать один;
  • открытый сценарий — модель сама формулирует ответ.

Результаты оказались неожиданно высокими: точность достигала 58%, и при этом модели работали практически на одном уровне.

Зачем это нужно

По мнению исследователей Apple, сочетание данных от разных датчиков и нескольких ИИ-моделей позволит создавать умные системы персонального мониторинга — для смартфонов и носимых устройств.

И всё это — без визуального наблюдения.

Поделиться:

Интересные

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *