Система, предназначенная для маркировки визуальных сцен, оказывается, обнаруживает и отдельные объекты.

Но человек, смотрящий на изображение, спонтанно сделает более высокое суждение о сцене в целом: это кухня, или кемпинг, или конференц-зал. Среди исследователей информатики проблеме, известной как «распознавание сцены», уделялось относительно мало внимания.

В декабре прошлого года на Ежегодной конференции по системам обработки нейронной информации исследователи Массачусетского технологического института объявили о создании крупнейшей в мире базы данных изображений, помеченных в соответствии с типом сцены, с 7 миллионами записей. Используя технику машинного обучения, известную как «глубокое обучение», которая представляет собой возрождение классической техники нейронных сетей с искусственным интеллектом, они использовали ее для обучения самого успешного классификатора сцен, которому было от 25 до 33 лет. процентов точнее, чем его лучший предшественник.На Международной конференции по обучающим репрезентациям в эти выходные исследователи представят новый документ, демонстрирующий, что на пути к обучению распознаванию сцен их система также научилась распознавать объекты. Работа предполагает, что, по крайней мере, системы распознавания сцены и распознавания объектов могут работать согласованно.

Но это также предполагает возможность того, что они могут оказаться взаимно усиливающими.«Глубокое обучение работает очень хорошо, но очень трудно понять, почему оно работает — каково внутреннее представление, которое строит сеть», — говорит Антонио Торральба, доцент информатики и инженерии Массачусетского технологического института и старший автор исследования новая бумага. «Возможно, изображения сцен являются частями сцен, которые не имеют никакого смысла, например углы или части объектов. Но может быть, что это объекты: чтобы знать, что что-то является спальней, вам нужно увидеть кровать. ; чтобы знать, что что-то является конференц-залом, вам нужно увидеть стол и стулья. Мы обнаружили, что сеть действительно находит эти объекты ».

К Торральбе в новой статье присоединились первый автор Болей Чжоу, аспирант в области электротехники и информатики; Од Олива, главный научный сотрудник, и Агата Лапедриза, приглашенный ученый, оба из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института; и Адитья Хосла, еще один аспирант в группе Торральбы.Под капотомКак и все системы машинного обучения, нейронные сети пытаются идентифицировать особенности обучающих данных, которые коррелируют с аннотациями, выполняемыми людьми — например, транскрипциями голосовых записей или метками сцен или объектов, связанных с изображениями. Но в отличие от систем машинного обучения, которые производили, скажем, программное обеспечение для распознавания голоса, распространенное в современных мобильных телефонах, нейронные сети не делают предварительных предположений о том, как эти функции будут выглядеть.

Это звучит как рецепт катастрофы, поскольку система может в конечном итоге отбросить нерелевантные функции в тщетной охоте за корреляциями. Но вместо того, чтобы получать представление о направлении от человека, нейронные сети получают его от своей структуры. Они организованы в уровни: банки блоков обработки — слабо смоделированные на основе нейронов мозга — в каждом слое выполняют случайные вычисления с данными, которые им скармливают.

Но затем они передают свои результаты следующему слою и так далее, пока выходные данные последнего слоя не будут сопоставлены с аннотациями данных. По мере того как сеть получает больше данных, она корректирует свои внутренние настройки, чтобы попытаться произвести более точные прогнозы.После того, как сеть исследователей Массачусетского технологического института обработала миллионы входных изображений, постоянно меняя свои внутренние настройки, она была примерно на 50 процентов точна при маркировке сцен — где люди точны только на 80 процентов, поскольку они могут не соглашаться по поводу высокоуровневой сцены. этикетки. Но исследователи не знали, как их сеть делала то, что делала.

Однако блоки нейронной сети по-разному реагируют на разные входные данные. Если юнит настроен на определенную визуальную функцию, он вообще не будет реагировать, если эта функция полностью отсутствует на конкретном входе. Если функция явно присутствует, она ответит принудительно.Исследователи Массачусетского технологического института определили 60 изображений, которые вызвали наибольший отклик в каждой единице их сети; затем, чтобы избежать предвзятости, они отправили коллекции изображений оплачиваемым сотрудникам краудсорсингового сайта Amazon Mechanical Turk, которых попросили определить общие черты изображений.

За пределами категории«Первый слой, более половины единиц настроены на простые элементы — линии или простые цвета», — говорит Торральба. «По мере продвижения в сети вы начинаете находить все больше и больше объектов. Есть и другие вещи, такие как области или поверхности, которые могут быть такими, как трава или одежда. Так что они по-прежнему очень семантичны, и вы также видите увеличивать."

По оценкам специалистов Mechanical Turk, около половины агрегатов в верхней части сети настроены на определенные объекты. «Другая половина либо они обнаруживают объекты, но делают это не очень хорошо, либо мы просто не знаем, что они делают», — говорит Торральба. «Они могут обнаруживать части, которые мы не знаем, как назвать. Или может быть, что сеть не полностью конвергирована, полностью изучена».

В своей текущей работе исследователи начинают с нуля и переобучают свою сеть на одних и тех же наборах данных, чтобы увидеть, последовательно ли она сходится на одних и тех же объектах или может ли она случайным образом развиваться в разных направлениях, по-прежнему давая хорошие прогнозы. Они также изучают, могут ли обнаружение объектов и обнаружение сцены взаимодействовать друг с другом, чтобы улучшить производительность обоих. «Но мы хотим сделать это так, чтобы сеть не заставляла делать то, чего она не хочет», — говорит Торральба.


14 комментариев к “Система, предназначенная для маркировки визуальных сцен, оказывается, обнаруживает и отдельные объекты.”

  1. Нужно мясо специальных пород, Блэк Ангус, для стейка подойдёт рибай или стриплойн. Каждую сторону минуты по три четыре, на чугунной сковороде, потом дай отдохнуть ему, модно в фольге минут пять))).

  2. Arcanefont

    Ну ладно, он Солнце проглотил и пирожками море тушил,хотя конечно сейчас не до смеха

  3. Да там 40% аленей воюют за деньги, 50% уголовников, которым поставили условие — тюрьма или Донбасс и 10% идейных.

  4. Степашин Илья

    Так пусть берут, хз зачем но пусть принимают ВВП рашки позволяет. Китай тоже можно принять там ВВП боль чем на параше!

  5. Что бы установить мины, надо сначала найти минное поле, а потом на нём устанавливать мины… 🙂

  6. Просто интересно — почему руководство этой военной организации считает, что какие-либо радикальные действия на територии Украины уместны. Действия силовых структур, внутренних войск, национальной гвардии в рамках анти-террористической операции — это правильный шаг, а любые другие организации с оружием — это террористы. Это формула законности и отсутствия агрессии и неприятия со стороны местных жителей.

  7. В Каталонии уже запретили — в остальной Испании,в обозримом будущем, вряд ли

  8. Lightraven

    Таких погодных аномалий раньше не было, что-то явно начудили во влиянии на атмосферу.

  9. Мне кажется,что тхоров спасёт только Ярославский — но тут один вопрос,надо ли это ему

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *