510 likes | 682 Vues
Параллельная поисковая машина для сверх-больших баз данных по окружающей среде. Михаил Жижин, ИФЗ РАН jjn@wdcb.ru Eric Kihn, NGDC NOAA ekihn@ngdc.noaa.gov. Что мы храним и ищем?. Параллельная поисковая машина. Ищет события как определенные условия и / или тренды в архивах данных
E N D
Параллельная поисковая машина для сверх-больших баз данных по окружающей среде Михаил Жижин, ИФЗ РАН jjn@wdcb.ru Eric Kihn, NGDC NOAA ekihn@ngdc.noaa.gov
Параллельная поисковая машина • Ищет события как определенные условия и/или тренды в архивах данных • Реализована на вычислительном кластере с распределенными базами данных и параллельными алгоритмами их обработки • Подключение сетевых клиентов к поисковой машине не требует особых вычислительных затрат и трафика
Архитектурные шаблоны (patterns) • Pattern 1: Data Source – Источник данных • Pattern 2: Discovery – Обнаружение данных • Pattern 3: Search for Events – Параллельный поиск событий окружающей среды • Pattern 4: Modeling and Re-analysis – Моделирование и реанализ данных
Pattern 1: Data Source Список ресурсов (баз данных) Метаданные о ресурсе Выборка из базы данных
Основные модели данных • Временные ряды на сетке - BLOBs • Гранулированиепо времени (объем BLOB)зависит от приложений: • 1 год для климатических данных, • 1 день космической погоды • Метаданные в формате XML, включая символьные выражения и формулы для виртуальных параметров (напр.,скорость ветра) • Проекция на общую терминологическую базу метаданных и базы знаний
Обнаружение данных в IDEAS • Поиск и отбор источников данных • ГИС-карты для выбора области (region of interest, ROI) и узлов на сетке (probes) • Выбор параметров окружающей среды в общих или предметных терминах • Виды воздействий окружающей среды в предметных базах знаний
Поиск событий в IDEAS • Редактор сценариев нечеткого поиска • Параллельный запрос в базы (источники) данных • Нечеткий поиск событий • Визуализация результатов поиска • Экспорт данных, внешние сервисы
Поиск событий в терминах нечеткой логики «классическое» множество «нечеткое» множество
Нечеткая логика First operand: fuzzy set A Fuzzy NOT Fuzzy AND Second operand: fuzzy set B Fuzzy OR
Нечеткое И: Т-норма Определение: Примеры:
Формулы Ягера (Yager) Определение: Пределы:
Гладкость норм Ягера • Нечеткие функции • принадлежности • множеств A и B; • b) T-нормы(И) для • q = 1, 2, 5, и 50; • c) T-конормы (ИЛИ) • для q = 1, 2, 5, и 50
Многомерный поиск в IDEAS • Многомерные функции принадлежности в IDEAS задаются как конъюнкции (И)одномерных функций принадлежности для каждого параметра и узла • Например, «сильный ветер» И «средняя температура» И «влажность 60%» • В качестве оператора И используется Т-норма Ягера при q=5
“High” Wind “Average” Temperature “About” 60% Humidity
Заполнить форму на счет модели Собрать данные из сети Рассчитать модель Визуализировать результаты Вернуть ссылки на графику и данные Интерактивное (синхронное) моделирование
Асинхронное моделирование - реанализ • Собрать данные с сетевых сервисов • Рассчитать модель на вычислительном кластере • Загрузить результаты расчетов в реляционную базу данных • Создать (обновить) метаданные • Создать (обновить) ресурс данных
Климатические модели ESG • NCEP/NCAR CDAS/Reanalysis Project Output Parameters: 1) pressure level data on 10 isentropic surfaces: horizontal winds, omega (dP/dt), geopotential height, specific/relative humidity, absolute vorticity and divergence on standard pressure levels every 6 hours; 2) total cloud cover, convective and total precipitation; 3) surface wind stress, latent/sensible heat flux, soil temperature/moisture, gravity wave drag, SST, 2m temperature, 2m humidity, 10m winds, runoff, mean sea level pressure, surface pressure, and snow. The data is available every 6 hours. The above list is not complete. URL: http://wesley.wwb.noaa.gov/reanalysis.html • COAMPS - Coupled Ocean/Atmosphere Mesoscale Prediction System Output Parameters: Similar to NCEP/NCAR model URL: http://www.nrlmry.navy.mil/projects/coamps/ • ACMES - Advanced Climate Modeling and Environmental Simulations Output Parameters: Similar to NCEP/NCAR model URL: http://www.meso.com/meso/research/acmes/acmes.html • MM5 – 5th generation mesoscale model of atmospheric circulation Output Parameters: Similar to NCEP/NCAR model URL: http://www.mmm.ucar.edu/mm5/mm5-home.html
Космические модели ESG • IRI - International Reference Ionosphere Model Output Parameters: Electron density, electron temperature, ion temperature, ion composition (O+, H+, He+, NO+, O+2) URL: http://nssdc.gsfc.nasa.gov/space/model/models/iri.html • AMIE - Assimilative Mapping of Ionospheric Electrodynamics Model Output Parameters: Ionospheric electric potential distribution URL: http://www.hao.ucar.edu/public/research/tiso/amie/AMIE_head.html • MSM - Magnetospheric Specification Model Output Parameters: Electron and ion fluxes in the inner and middle magnetosphere; fluxes of electrons precipitating into the ionosphere; ionospheric electric fields; magnetic-field mapping information URL: http://rigel.rice.edu/~freeman/dmb/index.html • PIM - Parameterized Ionospheric Specification Model Output Parameters: Electron density profiles (EDPs) between 90 and 25000 km altitude, corresponding critical frequencies and heights for the ionospheric E and F2 regions, and Total Electron Content (TEC) URL: http://users.primushost.com/~cpibos/ • IONSCINT - Ionospheric Scintillation Simulation Algorithm Output Parameters: A simulated prediction of scintillation intensity throughout a specified theater for communication with a specified satellite.
Что такое SABR? SABR создавался как единый веб-интерфейс к архивам спутниковых данных Национального центра геофизических данных (NGDC) NOAA в Болдере, штат Колорадо, США. SABR объединяет данные со спутников DMSP (DoD), GOES (NOAA), и Terra (NASA) с многодисциплинарными базами данных по окружающей среде(NCEP/NCAR reanalysis project и SPIDR NGDC) и ГИС (MapServer, University of Minnesota) для интерактивной визуализации, поиска и заказа изображений со спутников, телеметрии и производных продуктов, которые хранятся на в реляционных базах данных, на дисковых массивах и на роботизированной библиотеке магнитных лентв NGDC.
Прогноз объемов спутниковых данных НОАА
Основные продукты SABR • DMSP орбиты в видимом и инфракрасном диапазонах с июня 1992; • DMSP «мозаики» (весь мир, Африка, Нигерия, Центральный регион России, Сибирь) с сентября 2001; • DMSP базы данных стабильных ночных огней (изображения с координатной привязкой и слой ГИС) на 1993 и 2001; • DMSP архив сканированных фотоизображенийс 1979; • DMSP SSJ4 телеметрия с 2001; • GOES телеметрия: протоны, электроны, рентгеновское излучениеи магнитное поле с 1986; • GOES SXI изображения Солнца в рентгеновском диапазоне • Terra MODIS гранулы уровня 1 за июнь 2001 и октябрь 2003;
Основные функции SABR • Поиск изображений и продуктов в заданных координатах и интервале времени для определенного типа орбит, сенсоров и разрешения; • Отображение на карте наличия данныхв заданном интервале времени для определенного типа орбит, сенсоров и разрешения; • Анимационный просмотр временных рядов изображений (“VCR controls”); • Орбитальная навигация по изображениям (“joystick”); • Совмещение интерактивных ГИС-карт и изображений со спутников; • Оpen GIS Сonsortium (OGC) Web Map Server (WMS) интерфейс к совмещенным картам и изображениям со спутников.
Основные функции SABR (продолжение) • Интерактивные графики многоканальной телеметрии со спутников; • Параллельный поиск событий в базах данных по окружающей среде и отображение спутниковых снимков (“fuzzy search engine”); • Заказ данных с помощью “покупательской корзины” с просмотром метаданных и изображений для каждого элемента заказа; • Асинхронная обработка заказовс подтверждением выполнения по электронной почте
Сценарий работы в SABR • Выбрать продукт или сервис на домашней странице SABR; • Определить критерии поиска на форме, используя ГИС-карты и информацию о покрытия данными; • Просмотреть последовательность найденных изображений и отобрать интересующие в «пользовательскую корзину»; • Просмотреть/отредактировать содержимое «пользовательской корзины» и отправить заказ на асинхронную обработку; • Получить подтверждение о выполнение заказа со ссылками на подготовленные данные и загрузить данные на свой компьютер.
Системные компоненты SABR - загрузчик
Системные компоненты SABR - браузер
«Пользовательская корзина» (мета)данных
Как SABR связан с другими системами NOAA? • SPIDR – Bpace Physics Interactive Data Resource • IDEAS - Investigation of Distributed Environmental Archives System • CLASS - Comprehensive Large Array-data Stewardship System