Извлечение надежного сигнала из гетерогенных данных

Авторы

DOI:

https://doi.org/10.47813/2782-2818-2024-4-1-0122-0132

Ключевые слова:

разнородные данные, мягкая оценка максимума, общий надежный сигнал, крупномасштабные системы, неоднородность данных.

Аннотация

Статья посвящена исследованию извлечения общего надежного сигнала из данных, разделенных на разнородные группы. Предлагается мягкая максиминная оценка максимального значения в качестве привлекательной с вычислительной точки зрения альтернативы, направленной на достижение баланса между объединенной оценкой и (жесткой) оценкой максимального значения. Рассматривается проблема извлечения общего сигнала из разнородных данных. Поскольку гетерогенность преобладает в крупномасштабных системах, цель - эффективный в вычислительном отношении оценщик (решение) с хорошими статистическими свойствами при различной степени неоднородности данных. Использование этой оценки может привести к более надежным оценкам для разнородных данных по сравнению с оценкой, которая не учитывает группировку, то есть объединенной оценкой. В крупномасштабных системах обработки данных, где обычно встречается неоднородность данных, вычислительный аспект оценки имеет решающее значение. В обоснование данного тезиса в статье приводится анализ эффективности мягкой максиминной оценки для крупномасштабных систем обработки данных, подтверждающий эффективность примененного метода. Таким образом, оценка мягкого максимума будет практически полезна в ряде различных контекстов как способ агрегирования объясненных отклонений по группам.

Биографии авторов

Д. И. Атласов

Атласов Денис Игоревич, аспирант, кафедра автоматизированных и вычислительных систем, Воронеж, Российская Федерация

О. Я. Кравец

Кравец Олег Яковлевич, доктор технических наук, профессор, кафедра автоматизированных и вычислительных систем, Воронеж, Российская Федерация

Библиографические ссылки

Meinshausen N., Bühlmann P. Maximin effects in inhomogeneous large-scale data. The Annals of Statistics. 2015; 43(4): 17-22. https://doi.org/10.1214/15-AOS1325

Fanaee-T H., Gama J. Event labeling combining ensemble detectors and background knowledge. Progress in Artificial Intelligence. 2013; 2(2): 113-127. https://doi.org/10.1007/s13748-013-0040-3

Tseng P., Yun S. A coordinate gradient descent method for nonsmooth separable minimization. Mathematical Programming. 2009; 117(1-2): 387-423. https://doi.org/10.1007/s10107-007-0170-0

Lund A. SMME: Soft maximin estimation for large scale heterogeneous data. R package version 1.0.1; 2021.

Lund A., Mogensen W.S., Hansen R.N. Soft maximin estimation for heterogeneous data. Scandinavian Journal of Statistics. 2022; 49(4): 1761-1790. https://doi.org/10.1111/sjos.12580

Rothenhdusler D., Meinshausen N., Behlmann P., Peters, J. Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2021; 83(2): 215-246. https://doi.org/10.1111/rssb.12398

Atlasov D.I., Kravets O.Ja. To the formulation of the problem of extracting a common signal from heterogeneous data of heterogeneous information systems. Modern informatization problems in simulation and social technologies (MIP-2023’SCT). Proc. of the XXVIII-th Int. Open Science Conf. January 2023; Yelm, WA, USA: Science Book Publishing House; 2023: 8-13.

REFERENCES

Meinshausen N., Bühlmann P. Maximin effects in inhomogeneous large-scale data. The Annals of Statistics. 2015; 43(4): 17-22. https://doi.org/10.1214/15-AOS1325 DOI: https://doi.org/10.1214/15-AOS1325

Fanaee-T H., Gama J. Event labeling combining ensemble detectors and background knowledge. Progress in Artificial Intelligence. 2013; 2(2): 113-127. https://doi.org/10.1007/s13748-013-0040-3 DOI: https://doi.org/10.1007/s13748-013-0040-3

Tseng P., Yun S. A coordinate gradient descent method for nonsmooth separable minimization. Mathematical Programming. 2009; 117(1-2): 387-423. https://doi.org/10.1007/s10107-007-0170-0 DOI: https://doi.org/10.1007/s10107-007-0170-0

Lund A. SMME: Soft maximin estimation for large scale heterogeneous data. R package version 1.0.1; 2021.

Lund A., Mogensen W.S., Hansen R.N. Soft maximin estimation for heterogeneous data. Scandinavian Journal of Statistics. 2022; 49(4): 1761-1790. https://doi.org/10.1111/sjos.12580 DOI: https://doi.org/10.1111/sjos.12580

Rothenhdusler D., Meinshausen N., Behlmann P., Peters, J. Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2021; 83(2): 215-246. https://doi.org/10.1111/rssb.12398 DOI: https://doi.org/10.1111/rssb.12398

Atlasov D.I., Kravets O.Ja. To the formulation of the problem of extracting a common signal from heterogeneous data of heterogeneous information systems. Modern informatization problems in simulation and social technologies (MIP-2023’SCT). Proc. of the XXVIII-th Int. Open Science Conf. January 2023; Yelm, WA, USA: Science Book Publishing House; 2023: 8-13.

Загрузки

Опубликован

2024-03-11

Как цитировать

Атласов, Д. И., & Кравец, О. Я. (2024). Извлечение надежного сигнала из гетерогенных данных. Современные инновации, системы и технологии - Modern Innovations, Systems and Technologies, 4(1), 0122–0132. https://doi.org/10.47813/2782-2818-2024-4-1-0122-0132

Выпуск

Раздел

Управление, вычислительная техника и информатика.