Извлечение надежного сигнала из гетерогенных данных
DOI:
https://doi.org/10.47813/2782-2818-2024-4-1-0122-0132Ключевые слова:
разнородные данные, мягкая оценка максимума, общий надежный сигнал, крупномасштабные системы, неоднородность данных.Аннотация
Статья посвящена исследованию извлечения общего надежного сигнала из данных, разделенных на разнородные группы. Предлагается мягкая максиминная оценка максимального значения в качестве привлекательной с вычислительной точки зрения альтернативы, направленной на достижение баланса между объединенной оценкой и (жесткой) оценкой максимального значения. Рассматривается проблема извлечения общего сигнала из разнородных данных. Поскольку гетерогенность преобладает в крупномасштабных системах, цель - эффективный в вычислительном отношении оценщик (решение) с хорошими статистическими свойствами при различной степени неоднородности данных. Использование этой оценки может привести к более надежным оценкам для разнородных данных по сравнению с оценкой, которая не учитывает группировку, то есть объединенной оценкой. В крупномасштабных системах обработки данных, где обычно встречается неоднородность данных, вычислительный аспект оценки имеет решающее значение. В обоснование данного тезиса в статье приводится анализ эффективности мягкой максиминной оценки для крупномасштабных систем обработки данных, подтверждающий эффективность примененного метода. Таким образом, оценка мягкого максимума будет практически полезна в ряде различных контекстов как способ агрегирования объясненных отклонений по группам.
Библиографические ссылки
Meinshausen N., Bühlmann P. Maximin effects in inhomogeneous large-scale data. The Annals of Statistics. 2015; 43(4): 17-22. https://doi.org/10.1214/15-AOS1325
Fanaee-T H., Gama J. Event labeling combining ensemble detectors and background knowledge. Progress in Artificial Intelligence. 2013; 2(2): 113-127. https://doi.org/10.1007/s13748-013-0040-3
Tseng P., Yun S. A coordinate gradient descent method for nonsmooth separable minimization. Mathematical Programming. 2009; 117(1-2): 387-423. https://doi.org/10.1007/s10107-007-0170-0
Lund A. SMME: Soft maximin estimation for large scale heterogeneous data. R package version 1.0.1; 2021.
Lund A., Mogensen W.S., Hansen R.N. Soft maximin estimation for heterogeneous data. Scandinavian Journal of Statistics. 2022; 49(4): 1761-1790. https://doi.org/10.1111/sjos.12580
Rothenhdusler D., Meinshausen N., Behlmann P., Peters, J. Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2021; 83(2): 215-246. https://doi.org/10.1111/rssb.12398
Atlasov D.I., Kravets O.Ja. To the formulation of the problem of extracting a common signal from heterogeneous data of heterogeneous information systems. Modern informatization problems in simulation and social technologies (MIP-2023’SCT). Proc. of the XXVIII-th Int. Open Science Conf. January 2023; Yelm, WA, USA: Science Book Publishing House; 2023: 8-13.
REFERENCES
Meinshausen N., Bühlmann P. Maximin effects in inhomogeneous large-scale data. The Annals of Statistics. 2015; 43(4): 17-22. https://doi.org/10.1214/15-AOS1325 DOI: https://doi.org/10.1214/15-AOS1325
Fanaee-T H., Gama J. Event labeling combining ensemble detectors and background knowledge. Progress in Artificial Intelligence. 2013; 2(2): 113-127. https://doi.org/10.1007/s13748-013-0040-3 DOI: https://doi.org/10.1007/s13748-013-0040-3
Tseng P., Yun S. A coordinate gradient descent method for nonsmooth separable minimization. Mathematical Programming. 2009; 117(1-2): 387-423. https://doi.org/10.1007/s10107-007-0170-0 DOI: https://doi.org/10.1007/s10107-007-0170-0
Lund A. SMME: Soft maximin estimation for large scale heterogeneous data. R package version 1.0.1; 2021.
Lund A., Mogensen W.S., Hansen R.N. Soft maximin estimation for heterogeneous data. Scandinavian Journal of Statistics. 2022; 49(4): 1761-1790. https://doi.org/10.1111/sjos.12580 DOI: https://doi.org/10.1111/sjos.12580
Rothenhdusler D., Meinshausen N., Behlmann P., Peters, J. Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2021; 83(2): 215-246. https://doi.org/10.1111/rssb.12398 DOI: https://doi.org/10.1111/rssb.12398
Atlasov D.I., Kravets O.Ja. To the formulation of the problem of extracting a common signal from heterogeneous data of heterogeneous information systems. Modern informatization problems in simulation and social technologies (MIP-2023’SCT). Proc. of the XXVIII-th Int. Open Science Conf. January 2023; Yelm, WA, USA: Science Book Publishing House; 2023: 8-13.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Д. И. Атласов, О. Я. Кравец
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Журнал MIST - «Modern Innovations, Systems and Technologies» / «Современные инновации, системы и технологии» публикует материалы на условиях лицензии CreativeCommons Attribution 4.0 International (CC BY 4.0), размещенной на официальном сайте некоммерческой корпорации Creative Commons:
This work is licensed under a Creative Commons Attribution 4.0 International License.
Это означает, что пользователи могут копировать и распространять материалы на любом носителе и в любом формате, адаптировать и преобразовывать тексты, использовать контент для любых целей, в том числе коммерческих. При этом должны соблюдаться условия использования — указание автора оригинального произведения и источника: следует указывать выходные данные статей, предоставлять ссылку на источник, а также указывать, какие изменения были внесены.