Apple научила ИИ понимать, чем занят человек — даже без камеры
Apple представила результаты необычного исследования, показавшего, что современным ИИ уже не нужна камера, чтобы определить, чем занимается человек. Нейросетям оказалось достаточно данных со звуковых и движенческих датчиков — и даже кратких текстовых описаний вместо аудиозаписи.
Как это работает
В статье под названием «Использование LLM для объединения мультимодальных данных датчиков для распознавания активности» исследователи описали метод, при котором ИИ анализирует:
- текстовые субтитры, сгенерированные другими моделями на основе звука,
- данные акселерометра и гироскопа,
- короткие 20-секундные фрагменты активности пользователя.
Камера при этом вовсе не используется — только сенсоры и описания.
На чём тестировали
Учёные взяли набор Ego4D — это тысячи часов реальных сцен: домашние дела, отдых, спорт.
Из него сформировали собственный датасет из 12 типов активности: уборка пылесосом, готовка, стирка, еда, игры с животными, чтение, работа за ПК, мытьё посуды, спорт, просмотр ТВ и другие.
Сырые данные сначала пропускались через менее крупные модели, которые превращали звук в текст и делали прогнозы по движениям. Затем всё отправлялось более мощным нейросетям — Gemini-2.5-pro и Qwen-32B.
Что показали тесты
ИИ проверяли в двух режимах:
- закрытый сценарий — из 12 вариантов нужно выбрать один;
- открытый сценарий — модель сама формулирует ответ.
Результаты оказались неожиданно высокими: точность достигала 58%, и при этом модели работали практически на одном уровне.
Зачем это нужно
По мнению исследователей Apple, сочетание данных от разных датчиков и нескольких ИИ-моделей позволит создавать умные системы персонального мониторинга — для смартфонов и носимых устройств.
И всё это — без визуального наблюдения.
