Обучение компьютерам для руководства наукой: метод машинного обучения видит леса и деревья: «Итеративные случайные леса» предоставят мощные научные идеи, говорят исследователи.

В статье, опубликованной недавно в Proceedings of the National Academy of Sciences (PNAS), исследователи описывают метод, называемый «итеративными случайными лесами», который, по их словам, может оказать преобразующее влияние на любую область науки или техники со сложными системами, включая биология, точная медицина, материаловедение, экология и производство, и это лишь некоторые из них.«Возьмем, к примеру, человеческую клетку.

В одной клетке существует 10170 возможных молекулярных взаимодействий. Это создает значительные вычислительные проблемы при поиске взаимосвязей», — сказал Бен Браун, глава отдела биологии молекулярных экосистем лаборатории Беркли. «Наш метод позволяет идентифицировать взаимодействия высокого порядка при тех же вычислительных затратах, что и основные эффекты — даже когда эти взаимодействия являются локальными со слабыми предельными эффектами».

Браун и Бин Ю из Калифорнийского университета в Беркли являются ведущими старшими авторами книги «Итерационные случайные леса для обнаружения предсказательных и стабильных взаимодействий высокого порядка». Соавторами являются Суманта Басу (бывший совместный постдок Брауна и Ю, а теперь — доцент Корнельского университета) и Карл Кумбиер (аспирант Ю на статистическом факультете Калифорнийского университета в Беркли). Работа является кульминацией трехлетней работы, которая, по мнению авторов, изменит методы работы в науке. «С помощью нашего метода мы можем получить значительно более богатую информацию, чем когда-либо могли получить с помощью обучающей машины», — сказал Браун.Потребности машинного обучения в науке отличаются от потребностей промышленности, где машинное обучение использовалось для таких вещей, как игра в шахматы, создание самоуправляемых автомобилей и прогнозирование фондового рынка.

«Машинное обучение, разработанное в отрасли, отлично подходит, если вы хотите заниматься высокочастотной торговлей на фондовом рынке», — сказал Браун. «Вам все равно, почему вы можете предсказать, что акции пойдут вверх или вниз. Вам просто нужно знать, что вы можете делать прогнозы».Но в науке критически важны вопросы о том, почему процесс ведет себя определенным образом. Понимание «почему» позволяет ученым моделировать или даже разрабатывать процессы для улучшения или достижения желаемого результата.

В результате машинное обучение для науки должно заглянуть внутрь черного ящика и понять, почему и как компьютеры пришли к тем выводам, к которым они пришли. Долгосрочная цель — использовать такую информацию для моделирования или проектирования систем для получения желаемых результатов.

В очень сложных системах — будь то отдельная клетка, человеческое тело или даже целая экосистема — существует большое количество переменных, взаимодействующих нелинейным образом. Это затрудняет, если не делает невозможным построение модели, которая может определять причину и следствие. «К сожалению, в биологии вы постоянно сталкиваетесь с взаимодействиями порядка 30, 40, 60», — сказал Браун. «Это совершенно невозможно с традиционными подходами к статистическому обучению».Метод, разработанный командой под руководством Брауна и Ю, итерационные случайные леса (iRF), основан на алгоритме, называемом случайными лесами, популярном и эффективном инструменте прогнозного моделирования, переводя внутренние состояния ученика черного ящика в понятную человеку форму. . Их подход позволяет исследователям искать сложные взаимодействия, отделяя порядок или размер взаимодействий от вычислительных затрат на идентификацию.

«Нет никакой разницы в вычислительных затратах на обнаружение взаимодействия 30-го порядка по сравнению с взаимодействием 2-го порядка», — сказал Браун. «И это кардинальное изменение».В статье PNAS ученые продемонстрировали свой метод на двух проблемах геномики: роли генных энхансеров в эмбрионе плодовой мушки и альтернативном сплайсинге в клеточной линии человеческого происхождения.

В обоих случаях использование iRF подтвердило предыдущие результаты, а также выявило ранее не идентифицированные взаимодействия более высокого порядка для последующего исследования.Браун сказал, что теперь они используют свой метод для разработки лазерных систем с фазированной антенной решеткой и оптимизации систем устойчивого сельского хозяйства.«Мы считаем, что это другая парадигма науки», — сказал Ю, профессор кафедры статистики и электротехники.

Компьютерные науки в Калифорнийском университете в Беркли. «Мы делаем предсказания, но мы вводим стабильность поверх предсказания в iRF, чтобы более надежно изучать основную структуру в предсказателях».«Это позволяет нам научиться разрабатывать системы для целенаправленной оптимизации и более точного целевого моделирования и последующих экспериментов», — добавил Браун.

В комментарии PNAS к этой методике Даниэль Дениско и Майкл Хоффман из Университета Торонто написали: «iRF является многообещающим новым и эффективным способом обнаружения взаимодействий в различных условиях, и его использование поможет нам гарантировать отсутствие ответвлений или лист никогда не перевернут ".Исследование было поддержано грантами программы Министерства энергетики США по передаче технологий для малого бизнеса (STTR), программы лабораторных исследований и разработок (LDRD), Национального исследовательского института генома человека, Управления армейских исследований, Управления военно-морских исследований и Национального научного центра.

Фонд.