Модели внимания (attention mechanism) на случайных лесах и градиентном бустинге
Published:
Модель внимания можно рассматривать как инструмент, с помощью которого нейронная сеть может автоматически определять относительную важность признаков или примеров, взвешивать их для повышения точности классификации или регрессии. Многие приложения механизма внимания сосредоточены на обработке естественного языка (NLP), в области компьютерного зрения. Модели внимания считаются важным компонентом нейронных архитектур. В то же время, когда возникает необходимость обрабатывать табличные данные, с нейронными сетями могут конкурировать такие модели как случайный лес (СЛ) и градиентный бустинг. Поэтому были разработаны новые модели случайного леса на основе механизма внимания (ABRF – Attention-Based Random Forests), которые можно рассматривать как эффективную альтернативу нейронным сетям в ряде приложений, где используются табличные данные. Основная идея предлагаемых моделей ABRF состоит в том, чтобы определенным образом присвоить веса деревьям решений, примерам и признакам. Веса внимания в ABRF имеют обучаемые параметры и зависят от того, насколько далеко пример, попадающий в лист, находится от примеров, которые попали в тот же лист. Результирующее предсказание ABRF вычисляется как взвешенная сумма предсказаний, полученных с помощью деревьев решений. Идею моделей внимания можно рассмотреть с точки зрения известной модели регрессии Надарая-Уотсона. Наша идея с точки зрения исходного механизма внимания состоит в том, чтобы рассматривать каждое предсказание дерева решений как значение (value), среднее значение примеров, попавших в соответствующий лист из обучающей выборки, как ключ (key), тестовый пример как запрос (query). По сути, мы комбинируем ядерную регрессионную модель Надарая-Уотсона и СЛ. В зависимости от способа определения весов и способа их обучения мы предлагаем различные модификации моделей ABRF. Одна из основных, ε-ABRF, предполагает, что веса внимания обучаются с использованием известной модели ε-засорения Хьюбера. Обучение весов внимания осуществляется решением задачи квадратичного или линейного программирования. Другая модификация, ε-σ-ABRF, расширяет набор обучаемых параметров весов внимания. Для этой модели используется метод градиентного спуска для обучения весов внимания. Реализованы идеи, лежащие в основе ABRF к модели градиентного бустинга (GBM), что привело к совершенно новой модели градиентного бустинга на основе внимания, названный AGBoost. Еще одним обобщением ABRF, Att-RSF, является применение модели внимания к случайному лесу выживаемости. Случайный лес выживаемости обучается на цензурированных данных, когда для одних объектов интересующее нас событие, например смерть пациента, наблюдается и известно время его наступления, а для других событий не наблюдается и известен только момент времени того, что событие еще не наступило. Эти и другие модификации ABRF приведены в следующих работах:
- Utkin L.V., Konstantinov A.V. Attention-based random forest and contamination model // Neural Networks. vol. 154, pp. 346–359, 2022. DOI: 10.1016/j.neunet.2022.07.029
- Utkin L. and Konstantinov A. Random Survival Forests Incorporated by the Nadaraya-Watson Regression // Informatics and Automation, vol. 21(5), 851-880, 2022. DOI: 10.15622/ia.21.5.1
- Utkin L.V., Ageev A.Y., Konstantinov A.V., Muliukha V.A. Improved Anomaly Detection by Using the Attention-Based Isolation Forest // Algorithms. 2023; 16(1):19. DOI: 10.3390/a16010019
- Konstantinov A.V., Utkin L.V., Kirpichenko S.R., Kozlov B.V., Ageev A.Y. Random Forests with Attentive Nodes // Procedia Computer Science, vol. 212, pp. 454-463, 2022. DOI: 10.1016/j.procs.2022.11.029
- Konstantinov A., Utkin L. and Kirpichenko S., AGBoost: Attention-based Modification of Gradient Boosting Machine // 2022 31st Conference of Open Innovations Association (FRUCT), 2022, pp. 96-101, DOI: 10.23919/FRUCT54823.2022.9770928