1 / 51

Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параллельная поисковая машина для сверх-больших баз данных по окружающей среде. Михаил Жижин, ИФЗ РАН jjn@wdcb.ru Eric Kihn, NGDC NOAA ekihn@ngdc.noaa.gov. Что мы храним и ищем?. Параллельная поисковая машина. Ищет события как определенные условия и / или тренды в архивах данных

salome
Télécharger la présentation

Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Параллельная поисковая машина для сверх-больших баз данных по окружающей среде Михаил Жижин, ИФЗ РАН jjn@wdcb.ru Eric Kihn, NGDC NOAA ekihn@ngdc.noaa.gov

  2. Что мы храним и ищем?

  3. Параллельная поисковая машина • Ищет события как определенные условия и/или тренды в архивах данных • Реализована на вычислительном кластере с распределенными базами данных и параллельными алгоритмами их обработки • Подключение сетевых клиентов к поисковой машине не требует особых вычислительных затрат и трафика

  4. Архитектурные шаблоны (patterns) • Pattern 1: Data Source – Источник данных • Pattern 2: Discovery – Обнаружение данных • Pattern 3: Search for Events – Параллельный поиск событий окружающей среды • Pattern 4: Modeling and Re-analysis – Моделирование и реанализ данных

  5. Pattern 1: Data Source Список ресурсов (баз данных) Метаданные о ресурсе Выборка из базы данных

  6. Основные модели данных • Временные ряды на сетке - BLOBs • Гранулированиепо времени (объем BLOB)зависит от приложений: • 1 год для климатических данных, • 1 день космической погоды • Метаданные в формате XML, включая символьные выражения и формулы для виртуальных параметров (напр.,скорость ветра) • Проекция на общую терминологическую базу метаданных и базы знаний

  7. XML Schema– Метаданные IDEAS

  8. Модель данных IDEAS

  9. Pattern 2: Discovery

  10. Обнаружение данных в IDEAS • Поиск и отбор источников данных • ГИС-карты для выбора области (region of interest, ROI) и узлов на сетке (probes) • Выбор параметров окружающей среды в общих или предметных терминах • Виды воздействий окружающей среды в предметных базах знаний

  11. Поиск и отбор источников данных

  12. Узлы и области на сетке

  13. Параметры и терминология

  14. Pattern 3: Search for Events

  15. Поиск событий в IDEAS • Редактор сценариев нечеткого поиска • Параллельный запрос в базы (источники) данных • Нечеткий поиск событий • Визуализация результатов поиска • Экспорт данных, внешние сервисы

  16. Временные ряды в узле

  17. 5-мерная визуализация в области

  18. Поиск событий в терминах нечеткой логики «классическое» множество «нечеткое» множество

  19. Нечеткие термины

  20. Нечеткая логика First operand: fuzzy set A Fuzzy NOT Fuzzy AND Second operand: fuzzy set B Fuzzy OR

  21. Нечеткое И: Т-норма Определение: Примеры:

  22. Формулы Ягера (Yager) Определение: Пределы:

  23. Гладкость норм Ягера • Нечеткие функции • принадлежности • множеств A и B; • b) T-нормы(И) для • q = 1, 2, 5, и 50; • c) T-конормы (ИЛИ) • для q = 1, 2, 5, и 50

  24. Случай двух переменных

  25. Многомерный поиск в IDEAS • Многомерные функции принадлежности в IDEAS задаются как конъюнкции (И)одномерных функций принадлежности для каждого параметра и узла • Например, «сильный ветер» И «средняя температура» И «влажность 60%» • В качестве оператора И используется Т-норма Ягера при q=5

  26. “High” Wind “Average” Temperature “About” 60% Humidity

  27. Форма нечеткого запроса

  28. Редактор сценария IDEAS

  29. Результат нечеткого поиска

  30. Pattern 4: Modeling and Re-analysis

  31. Заполнить форму на счет модели Собрать данные из сети Рассчитать модель Визуализировать результаты Вернуть ссылки на графику и данные Интерактивное (синхронное) моделирование

  32. Асинхронное моделирование - реанализ • Собрать данные с сетевых сервисов • Рассчитать модель на вычислительном кластере • Загрузить результаты расчетов в реляционную базу данных • Создать (обновить) метаданные • Создать (обновить) ресурс данных

  33. Климатические модели ESG • NCEP/NCAR CDAS/Reanalysis Project Output Parameters: 1) pressure level data on 10 isentropic surfaces: horizontal winds, omega (dP/dt), geopotential height, specific/relative humidity, absolute vorticity and divergence on standard pressure levels every 6 hours; 2) total cloud cover, convective and total precipitation; 3) surface wind stress, latent/sensible heat flux, soil temperature/moisture, gravity wave drag, SST, 2m temperature, 2m humidity, 10m winds, runoff, mean sea level pressure, surface pressure, and snow. The data is available every 6 hours. The above list is not complete. URL: http://wesley.wwb.noaa.gov/reanalysis.html • COAMPS - Coupled Ocean/Atmosphere Mesoscale Prediction System Output Parameters: Similar to NCEP/NCAR model URL: http://www.nrlmry.navy.mil/projects/coamps/ • ACMES - Advanced Climate Modeling and Environmental Simulations Output Parameters: Similar to NCEP/NCAR model URL: http://www.meso.com/meso/research/acmes/acmes.html • MM5 – 5th generation mesoscale model of atmospheric circulation Output Parameters: Similar to NCEP/NCAR model URL: http://www.mmm.ucar.edu/mm5/mm5-home.html

  34. Космические модели ESG • IRI - International Reference Ionosphere Model Output Parameters: Electron density, electron temperature, ion temperature, ion composition (O+, H+, He+, NO+, O+2) URL: http://nssdc.gsfc.nasa.gov/space/model/models/iri.html • AMIE - Assimilative Mapping of Ionospheric Electrodynamics Model Output Parameters: Ionospheric electric potential distribution URL: http://www.hao.ucar.edu/public/research/tiso/amie/AMIE_head.html • MSM - Magnetospheric Specification Model Output Parameters: Electron and ion fluxes in the inner and middle magnetosphere; fluxes of electrons precipitating into the ionosphere; ionospheric electric fields; magnetic-field mapping information URL: http://rigel.rice.edu/~freeman/dmb/index.html • PIM - Parameterized Ionospheric Specification Model Output Parameters: Electron density profiles (EDPs) between 90 and 25000 km altitude, corresponding critical frequencies and heights for the ionospheric E and F2 regions, and Total Electron Content (TEC) URL: http://users.primushost.com/~cpibos/ • IONSCINT - Ionospheric Scintillation Simulation Algorithm Output Parameters: A simulated prediction of scintillation intensity throughout a specified theater for communication with a specified satellite.

  35. Что такое SABR? SABR создавался как единый веб-интерфейс к архивам спутниковых данных Национального центра геофизических данных (NGDC) NOAA в Болдере, штат Колорадо, США. SABR объединяет данные со спутников DMSP (DoD), GOES (NOAA), и Terra (NASA) с многодисциплинарными базами данных по окружающей среде(NCEP/NCAR reanalysis project и SPIDR NGDC) и ГИС (MapServer, University of Minnesota) для интерактивной визуализации, поиска и заказа изображений со спутников, телеметрии и производных продуктов, которые хранятся на в реляционных базах данных, на дисковых массивах и на роботизированной библиотеке магнитных лентв NGDC.

  36. Прогноз объемов спутниковых данных НОАА

  37. Основные продукты SABR • DMSP орбиты в видимом и инфракрасном диапазонах с июня 1992; • DMSP «мозаики» (весь мир, Африка, Нигерия, Центральный регион России, Сибирь) с сентября 2001; • DMSP базы данных стабильных ночных огней (изображения с координатной привязкой и слой ГИС) на 1993 и 2001; • DMSP архив сканированных фотоизображенийс 1979; • DMSP SSJ4 телеметрия с 2001; • GOES телеметрия: протоны, электроны, рентгеновское излучениеи магнитное поле с 1986; • GOES SXI изображения Солнца в рентгеновском диапазоне • Terra MODIS гранулы уровня 1 за июнь 2001 и октябрь 2003;

  38. Основные функции SABR • Поиск изображений и продуктов в заданных координатах и интервале времени для определенного типа орбит, сенсоров и разрешения; • Отображение на карте наличия данныхв заданном интервале времени для определенного типа орбит, сенсоров и разрешения; • Анимационный просмотр временных рядов изображений (“VCR controls”); • Орбитальная навигация по изображениям (“joystick”); • Совмещение интерактивных ГИС-карт и изображений со спутников; • Оpen GIS Сonsortium (OGC) Web Map Server (WMS) интерфейс к совмещенным картам и изображениям со спутников.

  39. Основные функции SABR (продолжение) • Интерактивные графики многоканальной телеметрии со спутников; • Параллельный поиск событий в базах данных по окружающей среде и отображение спутниковых снимков (“fuzzy search engine”); • Заказ данных с помощью “покупательской корзины” с просмотром метаданных и изображений для каждого элемента заказа; • Асинхронная обработка заказовс подтверждением выполнения по электронной почте

  40. Сценарий работы в SABR • Выбрать продукт или сервис на домашней странице SABR; • Определить критерии поиска на форме, используя ГИС-карты и информацию о покрытия данными; • Просмотреть последовательность найденных изображений и отобрать интересующие в «пользовательскую корзину»; • Просмотреть/отредактировать содержимое «пользовательской корзины» и отправить заказ на асинхронную обработку; • Получить подтверждение о выполнение заказа со ссылками на подготовленные данные и загрузить данные на свой компьютер.

  41. Системные компоненты SABR - загрузчик

  42. Системные компоненты SABR - браузер

  43. Поиск орбит DMSP

  44. Орбитальный навигатор DMSP

  45. Поиск орбит TerraMODIS

  46. Орбитальный навигатор Terra/MODIS

  47. Поиск «мозаик» DMSP

  48. «Пользовательская корзина» (мета)данных

  49. Как SABR связан с другими системами NOAA? • SPIDR – Bpace Physics Interactive Data Resource • IDEAS - Investigation of Distributed Environmental Archives System • CLASS - Comprehensive Large Array-data Stewardship System

  50. Спутниковые данные в SPIDR

More Related