Система, предназначенная для маркировки визуальных сцен, оказывается, обнаруживает и отдельные объекты.

Но человек, смотрящий на изображение, спонтанно сделает более высокое суждение о сцене в целом: это кухня, или кемпинг, или конференц-зал. Среди исследователей информатики проблеме, известной как «распознавание сцены», уделялось относительно мало внимания.

В декабре прошлого года на Ежегодной конференции по системам обработки нейронной информации исследователи Массачусетского технологического института объявили о создании крупнейшей в мире базы данных изображений, помеченных в соответствии с типом сцены, с 7 миллионами записей. Используя технику машинного обучения, известную как «глубокое обучение», которая представляет собой возрождение классической техники нейронных сетей с искусственным интеллектом, они использовали ее для обучения самого успешного классификатора сцен, которому было от 25 до 33 лет. процентов точнее, чем его лучший предшественник.На Международной конференции по обучающим репрезентациям в эти выходные исследователи представят новый документ, демонстрирующий, что на пути к обучению распознаванию сцен их система также научилась распознавать объекты. Работа предполагает, что, по крайней мере, системы распознавания сцены и распознавания объектов могут работать согласованно.

Но это также предполагает возможность того, что они могут оказаться взаимно усиливающими.«Глубокое обучение работает очень хорошо, но очень трудно понять, почему оно работает — каково внутреннее представление, которое строит сеть», — говорит Антонио Торральба, доцент информатики и инженерии Массачусетского технологического института и старший автор исследования новая бумага. «Возможно, изображения сцен являются частями сцен, которые не имеют никакого смысла, например углы или части объектов. Но может быть, что это объекты: чтобы знать, что что-то является спальней, вам нужно увидеть кровать. ; чтобы знать, что что-то является конференц-залом, вам нужно увидеть стол и стулья. Мы обнаружили, что сеть действительно находит эти объекты ».

К Торральбе в новой статье присоединились первый автор Болей Чжоу, аспирант в области электротехники и информатики; Од Олива, главный научный сотрудник, и Агата Лапедриза, приглашенный ученый, оба из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института; и Адитья Хосла, еще один аспирант в группе Торральбы.Под капотомКак и все системы машинного обучения, нейронные сети пытаются идентифицировать особенности обучающих данных, которые коррелируют с аннотациями, выполняемыми людьми — например, транскрипциями голосовых записей или метками сцен или объектов, связанных с изображениями. Но в отличие от систем машинного обучения, которые производили, скажем, программное обеспечение для распознавания голоса, распространенное в современных мобильных телефонах, нейронные сети не делают предварительных предположений о том, как эти функции будут выглядеть.

Это звучит как рецепт катастрофы, поскольку система может в конечном итоге отбросить нерелевантные функции в тщетной охоте за корреляциями. Но вместо того, чтобы получать представление о направлении от человека, нейронные сети получают его от своей структуры. Они организованы в уровни: банки блоков обработки — слабо смоделированные на основе нейронов мозга — в каждом слое выполняют случайные вычисления с данными, которые им скармливают.

Но затем они передают свои результаты следующему слою и так далее, пока выходные данные последнего слоя не будут сопоставлены с аннотациями данных. По мере того как сеть получает больше данных, она корректирует свои внутренние настройки, чтобы попытаться произвести более точные прогнозы.После того, как сеть исследователей Массачусетского технологического института обработала миллионы входных изображений, постоянно меняя свои внутренние настройки, она была примерно на 50 процентов точна при маркировке сцен — где люди точны только на 80 процентов, поскольку они могут не соглашаться по поводу высокоуровневой сцены. этикетки. Но исследователи не знали, как их сеть делала то, что делала.

Однако блоки нейронной сети по-разному реагируют на разные входные данные. Если юнит настроен на определенную визуальную функцию, он вообще не будет реагировать, если эта функция полностью отсутствует на конкретном входе. Если функция явно присутствует, она ответит принудительно.Исследователи Массачусетского технологического института определили 60 изображений, которые вызвали наибольший отклик в каждой единице их сети; затем, чтобы избежать предвзятости, они отправили коллекции изображений оплачиваемым сотрудникам краудсорсингового сайта Amazon Mechanical Turk, которых попросили определить общие черты изображений.

За пределами категории«Первый слой, более половины единиц настроены на простые элементы — линии или простые цвета», — говорит Торральба. «По мере продвижения в сети вы начинаете находить все больше и больше объектов. Есть и другие вещи, такие как области или поверхности, которые могут быть такими, как трава или одежда. Так что они по-прежнему очень семантичны, и вы также видите увеличивать."

По оценкам специалистов Mechanical Turk, около половины агрегатов в верхней части сети настроены на определенные объекты. «Другая половина либо они обнаруживают объекты, но делают это не очень хорошо, либо мы просто не знаем, что они делают», — говорит Торральба. «Они могут обнаруживать части, которые мы не знаем, как назвать. Или может быть, что сеть не полностью конвергирована, полностью изучена».

В своей текущей работе исследователи начинают с нуля и переобучают свою сеть на одних и тех же наборах данных, чтобы увидеть, последовательно ли она сходится на одних и тех же объектах или может ли она случайным образом развиваться в разных направлениях, по-прежнему давая хорошие прогнозы. Они также изучают, могут ли обнаружение объектов и обнаружение сцены взаимодействовать друг с другом, чтобы улучшить производительность обоих. «Но мы хотим сделать это так, чтобы сеть не заставляла делать то, чего она не хочет», — говорит Торральба.