Но распознавание естественных звуков, таких как аплодисменты толпы или удары волн, отстает. Это потому, что большинство автоматизированных систем распознавания, независимо от того, обрабатывают ли они аудио или визуальную информацию, являются результатом машинного обучения, в котором компьютеры ищут закономерности в огромных сборниках обучающих данных. Обычно данные обучения сначала нужно аннотировать вручную, что недопустимо дорого для всех приложений, кроме наиболее востребованных.
Однако распознавание звука, возможно, догоняет исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). На конференции Neural Information Processing Systems на следующей неделе они представят систему распознавания звука, которая превосходит своих предшественников, но не требует ручных аннотированных данных во время обучения.Вместо этого исследователи обучили систему на видео. Во-первых, существующие системы компьютерного зрения, распознающие сцены и объекты, распределили изображения в видео по категориям.
Затем новая система обнаружила корреляцию между этими визуальными категориями и естественными звуками.«Компьютерное зрение стало настолько хорошим, что мы можем перенести его в другие области», — говорит Карл Вондрик, аспирант Массачусетского технологического института в области электротехники и информатики и один из двух первых авторов статьи. «Мы извлекаем выгоду из естественной синхронизации между зрением и звуком. Мы масштабируем тонны немаркированного видео, чтобы научиться понимать звук».Исследователи протестировали свою систему на двух стандартных базах данных аннотированных звукозаписей, и она оказалась на 13–15 процентов точнее, чем предыдущая система с лучшими характеристиками.
На наборе данных с 10 различными категориями звуков он мог классифицировать звуки с точностью 92%, а на наборе данных с 50 категориями он выполнял с точностью 74%. В тех же наборах данных люди имеют точность 96% и 81% соответственно.
«Даже люди неоднозначны», — говорит Юсуф Айтар, другой первый автор статьи и постдок в лаборатории профессора электротехники и информатики Массачусетского технологического института Антонио Торральба. Торральба — последний соавтор статьи.
«Мы провели эксперимент с Карлом», — говорит Айтар. «Карл смотрел на монитор компьютера, и я не мог его видеть. Он проигрывал запись, и я пытался угадать, что это было.
Оказывается, это действительно очень сложно. догадки, но если говорить о деталях — «Это ресторан?» — эти детали отсутствуют. Даже для целей аннотации задача действительно сложная ".Дополнительные методыПоскольку для сбора и обработки аудиоданных требуется гораздо меньше энергии, чем для сбора и обработки визуальных данных, исследователи предполагают, что система распознавания звука может быть использована для улучшения контекстной чувствительности мобильных устройств.
В сочетании с данными GPS, например, система распознавания звука может определить, что пользователь мобильного телефона находится в кинотеатре и что фильм начался, и телефон может автоматически направлять вызовы на предварительно записанное исходящее сообщение. Точно так же распознавание звука может улучшить ситуационную осведомленность автономных роботов.«Например, подумайте о беспилотном автомобиле», — говорит Айтар. «Прибывает скорая помощь, а машина ее не видит. Если она слышит это, она может делать прогнозы для машины скорой помощи — какой путь она пойдет — просто на основании звука».
Визуальный языкСистема машинного обучения исследователей — это нейронная сеть, названная так потому, что ее архитектура примерно напоминает человеческий мозг.
Нейронная сеть состоит из узлов обработки, которые, как и отдельные нейроны, могут выполнять только элементарные вычисления, но тесно связаны между собой. Информация — скажем, значения пикселей цифрового изображения — подается на нижний уровень узлов, который обрабатывает ее и передает на следующий уровень, который обрабатывает ее и передает на следующий уровень, и так далее.
В процессе обучения постоянно изменяются настройки отдельных узлов, пока на выходе последнего слоя не будет надежно выполнена некоторая классификация данных, например, идентификация объектов на изображении.Вондрик, Айтар и Торральба сначала обучили нейронную сеть на двух больших аннотированных наборах изображений: один, набор данных ImageNet, содержит помеченные примеры изображений 1000 различных объектов; другой, набор данных Places, созданный группой Torralba, содержит помеченные изображения 401 различных типов сцен, таких как детская площадка, спальня или конференц-зал.После обучения сети исследователи скармливали ей видео из 26 терабайт видеоданных, загруженных с сайта обмена фотографиями Flickr. «Это около 2 миллионов уникальных видео, — говорит Вондрик. «Если бы вы посмотрели их все подряд, это заняло бы у вас около двух лет».
Затем они обучили вторую нейронную сеть на аудио из тех же видеороликов. Целью второй сети было правильно предсказать теги объекта и сцены, создаваемые первой сетью.В результате появилась сеть, которая могла интерпретировать естественные звуки в терминах категорий изображений. Например, он может определить, что звук пения птиц имеет тенденцию ассоциироваться с лесными сценами и изображениями деревьев, птиц, скворечников и кормушек для птиц.
БенчмаркингОднако, чтобы сравнить производительность сети распознавания звука с производительностью ее предшественников, исследователям понадобился способ перевода своего языка изображений на знакомый язык звуковых имен. Поэтому они обучили простую систему машинного обучения связывать выходные данные сети распознавания звука с набором стандартных звуковых меток.Для этого исследователи использовали базу данных аннотированных аудио — с 50 категориями звука и около 2000 примеров.
Эти аннотации были предоставлены людьми. Но пометить 2000 примеров намного проще, чем 2 миллиона.
А сеть исследователей Массачусетского технологического института, обученная сначала на немаркированном видео, значительно превзошла все предыдущие сети, обученные исключительно на 2000 помеченных примерах.
