Исследователи разрабатывают новый подход для более точного прогнозирования больших данных

В исследовании, опубликованном 13 декабря в выпуске Proceedings of the National Academy of Sciences (PNAS), авторы вводят показатель влияния, или «I-балл», как статистику, коррелирующую с тем, сколько переменных по своей природе могут предсказывать, или «предсказуемость». , "которые, следовательно, могут быть использованы для определения переменных с высокой степенью прогнозирования.«В нашей последней статье мы показали, что значимые переменные не обязательно могут быть предсказательными, и что хорошие предсказатели могут не казаться статистически значимыми», — сказал главный исследователь Шоу-Хва Ло, профессор статистики Колумбийского университета. «Это оставило нас перед важным вопросом: как мы можем тогда найти переменные с высокой степенью предсказания, если не с помощью руководства, имеющего статистическую значимость? В этой статье мы даем теоретическую основу для разработки хороших показателей прогнозирования в целом.

Важно отметить, что мы ввести прогнозируемость набора переменных в качестве нового параметра, представляющего интерес для оценки, и предоставить I-балл как статистику кандидата для оценки прогнозируемости набора переменных ».Современные подходы к прогнозированию обычно включают использование критерия на основе значимости для оценки переменных для использования в моделях и одновременной оценки переменных и моделей для прогнозирования с использованием перекрестной проверки или данных независимых тестов.«Использование структуры прогнозирования I-score позволяет нам определить новую меру прогнозируемости на основе наблюдаемых данных, что, в свою очередь, позволяет оценивать наборы переменных для прогнозируемости, желательно высокой», — сказал Ло, добавив, что, хотя это интуитивно очевидно, недостаточно внимания было уделено внимание прогнозированию как параметру, представляющему интерес для оценки.

Мотивированные потребностями текущих полногеномных ассоциативных исследований (GWAS), авторы исследования предоставляют такое обсуждение.В статье авторы описывают предсказуемость для набора переменных и показывают, что простая выборочная оценка предсказуемости напрямую не дает полезной информации для ориентированного на предсказание исследователя. Далее они демонстрируют, что I-оценка может использоваться для вычисления показателя, который асимптотически приближается к предсказуемости.

Ло объяснил, что с помощью I-балла можно эффективно различать зашумленные и прогнозирующие переменные, что делает его полезным при выборе переменных. Еще одно преимущество состоит в том, что в то время как обычные подходы требуют интенсивного использования данных перекрестной проверки или данных тестирования для оценки предикторов, подход I-score не так сильно полагается на это.«Мы предлагаем моделирование и применение I-Score к реальным данным, чтобы продемонстрировать прогностическую эффективность статистики на выборочных данных», — сказал он. "Они показывают, что I-оценка может фиксировать наборы переменных с высокой степенью предсказания, оценивает нижнюю границу теоретической вероятности правильного предсказания и хорошо коррелирует с правильной частотой вне выборки.

Мы предполагаем, что использование метода I-score может помочь в поиске наборы переменных с многообещающими скоростями предсказания, однако необходимы дальнейшие исследования в области выборочных критериев предсказуемости ".Авторы приходят к выводу, что существует множество приложений, для которых использование I-score было бы полезно, например, при формулировании прогнозов о заболеваниях с использованием данных большого размера, таких как наборы данных генов, в социальных науках для предсказания текста или предсказаний финансовых рынков; в терроризме, гражданской войне, выборах и финансовых рынках.

«Мы надеемся внушить научному сообществу идею о том, что для тех из нас, кто может быть заинтересован в прогнозировании интересующего результата, возможно, с довольно сложными или многомерными данными, мы могли бы выиграть, пересмотрев этот вопрос как один из способов поиск переменных с высокой степенью предсказания (или наборов переменных) и использование статистики, которая измеряет предсказуемость, чтобы помочь нам идентифицировать эти переменные, чтобы затем хорошо предсказывать ", — сказал Ло. «В частности, для статистиков мы надеемся, что это откроет новую область работы, которая будет сосредоточена на разработке новых статистических данных, измеряющих предсказуемость».