1 / 36

26 марта 201 3

“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики” Вирджиния Рометти - IBM CEO 2 марта 2012 года. Big Data: Революция в области философии и технологий принятия корпоративных решений. А.В. ШМИД Д.т.н., Профессор

Télécharger la présentation

26 марта 201 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики” Вирджиния Рометти- IBM CEO 2 марта 2012 года Big Data: Революция в области философии и технологий принятия корпоративных решений А.В. ШМИД Д.т.н., Профессор Председатель правления ЗАО «ЕС-лизинг» www.ec-leasing.ru 26 марта 2013

  2. Содержание • Стратегические угрозы XXI века в области ИТ: борьба за качество корпоративных решений- компьютеры против людей2. Интеллектуальность решающего центра: экспертные системы и люди3. Информированность решающего центра. Амнезия корпораций4. Состав конструктора платформы IBMBigData и философия сборки из конструктора: что собираем?5. Современная схема принятия решений и ее отличия от традиционной6. Заключение: что делать нам?

  3. Стратегические угрозы XXI века в области ИТ: борьба за качество корпоративных решений- компьютеры против людей

  4. Традиционная постановка задачи информационной поддержки принятия решений. 1. Инфо-потребность Информируемость и интеллектуальность решающего центра (Удовлетворение информационной потребности Руководителя) Представление о реальности Реальность Детализация инфо-потребности I II 2. Решение Хранение Обработка Разведчик(Поисковик) Руководитель Аналитик Реализация (П1, П2, П3) Единое информационное пространство (ЕИП) Инфо потребность должна удовлетворяться: БЫСТРО – информация об изменениях обстановки должна поступать к моменту принятия решения (быстрее, чем у конкурентов) ПОЛНО – необходимая и достаточная для принятия решений ДОСТОВЕРНО – исключение фальсификации

  5. Интеллектуальность решающего центра: экспертные системы и люди

  6. Watson – взгляд изнутри Технологии IBM Системные спецификации 2880 Processing Cores Content Analytics Интеллектуальность 90 IBM P750 Servers Business Analytics 16 Terabytes Memory (RAM) – 20TB Disk Big Data 80 Teraflops (80 trillion operations per second) Информируемость Databases / Data Warehouses Workload Optimized Systems Cores x 20 + 1 = 57600 + 2880 = 60480 On Oncology Task

  7. Информированность решающего центра. Амнезия корпораций

  8. Information Creation and Available Storage 1,800 Information Created 1,600 Available Storage, 2007 1,400 1,200 Tape 21% Optical22% Other1% Exabytes Available Storage 1,000 Disk 56% 0,800 0,600 264 EB 0,400 0,200 2006 2008 2005 2007 2009 2011 2010 Сколько информации мы теряем? 10

  9. «Амнезия корпорации» или объем воспринимаемых ИАС первичных данных Все доступные данные Что можно обработатьIBM BigData Объем данных Йоттабайт • Качество ИАС: • Объем первичных данных • Глубина и скорость анализа (площадь анализа) • Кто готовит и кто принимает решение Лимит: скорость обработки Потеря памяти (амнезия) Зеттабайт Что можно обработать Стандартным подходом Петабайт Терабайт Лимит: Объем базы Гигабайт Время Стандарт: запомнил – обработал IBM Big Data:обработал - запомнил Потоковая обработка IBM Big Data кардинально повышает объем используемых данных для аналитической разведки

  10. Идея BigData №1 ПОТОКОВАЯ ОБРАБОТКА (streaming): преодоление проклятия размерности при хранении данных

  11. 2002 • IBM получает заказ на разработку технологии: • 1. Любые виды источников • 2. Любая скорость потока данных от источника • 3. Принятие решения – в потоке (миллисекунды)

  12. Декларативный язык потоковой обработки SPL (streams processing language)

  13. Большие данные Итеративностьи исследование Традиционный подход Структурный и повторяемый анализ Запомнил - обработал Обработал - запомнил ИТ Обеспечивает платформу для креативного анализа Бизнес Определяет что спросить ИТ Структурирует данные для ответа на вопрос Бизнес Исследует что можно спросить Отношение к бренду Стратегия продуктов Оптимизация ресурсов Месячная отчетность Анализ прибыльности Анализ анкет Ограничение: производительность Ограничение: память Изменение парадигмы при работе с данными

  14. Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ доступных данных Эффективно с точки зрения затрат управлять и анализироватьвсе доступные данные, вих первозданном виде – структурированные, неструктурированные, потоковые Social Media Website Billing Network Switches ERP CRM RFID

  15. Более умная аналитика!!! Leverage purpose-built connectors for multiple data sources Connect any type of data through optimized connectors and information integration capabilities Big Data Platform ЦБ Structured ЦБ Unstructured IBM BigData Интеграция всех типов данных Более 95% аналитической инфо Streaming Новые направления с 2012г. • Massive volume of structured data movement • 2.38 TB / Hour load to data warehouse • High-volume load to Hadoop file system • Ingest unstructured data into Hadoop file system • Integrate streaming data sources

  16. Идея BigData №2 Обучающиеся Системы реального времени

  17. Фильтрация данных с обратной связью Data Ingest Opportunity Cost Starts Here 01011001100011101001001001001 11000100101001001011001001010 10011100101001111001000100100010010001000100101 01100100101001001010100010010 01100100101001001010100010010 11000100101001001011001001010 01100100101001001010100010010 01100100101001001010100010010 Bootstrap Enrich 01100100101001001010100010010 01100100101001001010100010010 11000100101001001011001001010 01100100101001001010100010010 Nowcast Forecast 01100100101001001010100010010 01100100101001001010100010010 01100100101001001010100010010 01100100101001001010100010010 AdativeAnalyticsModel 11000100101001001011001001010 01100100101001001010100010010 01100100101001001010100010010 01100100101001001010100010010 11000100101001001011001001010

  18. Идея BigData №3 Открыться цифровому миру

  19. Какие объемы данных нужны для поддержки принятия решений? User Creation: Enterprise Worries **Consumersand WorkersCreating,Capturing orReplicatingPersonalInformation **Transported,Hosted,Managed or Secured User Generated Content* Enterprise Touch Content** Overlap-1,000Exabytes 1,234 Exabytes 1,530 Exabytes Size of Digital Universe in 2011 1,773 Exabytes Размещение значимых данных предприятия: Внутренние данные - 33% Внешние данные - 67%

  20. Состав конструктора платформы IBM BigData и философия сборки из конструктора:что собираем?

  21. Требования к функциям платформы Больших Данных Поиск и навигация источников данных в киберпространстве InfoSphere Data Explorer и т.д. Hadoop File System и т.д. Подключение источников и анализ данных «в покое» Подключение источников и анализ данных «в движении» InfoSphere Streams и т.д. Традиционные функции работы со структурированными данными Netezza и т.д. IBM Information Server IBM Change Data Capture Интеграция всех видов данных для комплексного анализа Автоматизация принятия решений и построение гипотез и прогнозов IBM Cognos IBM SPSS

  22. Акселераторы : ускорители разработки прикладных задач Более умная аналитика!!! Простой & Комплексный текст Текст (слушать, глагол), (радио, существительное) Звук Комплексные математические модели Добыча в микросекундах Прогнозирование Статистика Фото & Видео Геопространство

  23. Общая схема компонентов платформы Big Data SPSS (Декларативный язык PMML) Streams NZ DE Big Ins Декларативные языки Готовые средства разработки Инструменты Коннекторы Cognos BI Языки программирования 3-го поколения: Java, C/C++, Python, Perl

  24. Инструменты Streams Обработка потоковой информации Streams Декларативный язык:Stream Processing Language (SPL) Готовые средства разработки(акселераторы разработки): Анализ текстов Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов (СПО) Анализ данных из сетей (СПО) Инструменты: Standard Toolkit Internet Toolkit Database Toolkit Financial Toolkit Data Mining Toolkit Big Data toolkit Text Toolkit Коннекторы: Netezza Connector Hadoop Connector Языки программирования 3-го поколения:Java, C/C++, Python, Perl, JavaScript, Ruby и т.д.

  25. Инструменты BigInsights Анализ «сырых» данных и сокращение затрат на хранение BigInsights Декларативные языки:Annotation Query Language (AQL), JaQL (Query Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R Средства и инструменты обработки: Flume Hive Lucene Zookeeper Avro HBase HCatalog Sqoop Oozie Коннекторы: Netezza Connector Streams Connector Языки программирования 3-го поколения:Java, C/C++

  26. IBM Data Explorer – функционально завершенная платформа работы с текстами

  27. Современная схема принятия решений и ее отличия от традиционной Революция: решения принимают роботы, а не люди Эволюция: люди пока остаются, но их роли изменяются

  28. Современная схема принятия решений: Что делают люди? CEO Подтверждение решения Задания интегральной инфо потребности Детализацияобласти интересов Область интересов Обсуждение области интересов Big Data Принятиерешения Цифровая реальность Поиск в области интересов Креативная команда (П1 + П3) Обучение в области интересов

  29. Заключение: что делать нам?

  30. Центр компетенции IBM Big Data ЕС-лизинг • Цели: Освоение и демонстрация технологии IBM Big Data • Отраслевая кастомизация технологий • Оказание услуг по созданию прототипов корпоративных решений • Предоставление виртуальных стендов IBM Big DataBig для удаленного использования у заказчика В декабре 2012 создан первый полнофункциональный виртуальный тестовый стенд IBM Big Data для ИПИ РАН с удаленным доступом к вычислительным ресурсам и инструментальным средствам

  31. Intranet Инфраструктура ЦК ЕСЛБазовые кафедры по аналитике(подготовка кадров) IBM zSeries Сервера (mainframes): 1) IBM System z1142818-M052) IBM System z10 BC model 2098-E10 3) IBM zSeries z94) IBM zSeries z800-2066 Операционные системы: 1) z/OS 2) Linux for System z (SuSE, Redhat) 3) ISX 4) z/VM IBM Pure Data “Netezza” 3563-CCO IBM PureData System for Analytics N1001-002 Appliance for System z Appliance IBM Pure Data “Netezza” 3563-CCO IBM PureData System for Analytics N1001-002 Appliance ЛВС и SAN сети вычислительного центра Сервера: 1) IBM PowerSystemBladeServers 7778-23X(JS23) в стойке BladeCenter 7989-BCH Операционные системы: 1) AIX 2) LinuxforSystemp (SuSE, Redhat) IBM pSeries DMZ АРМ управление инфраструктурой Внутренний Firewall IBM xSeries и HP (Intel) • Сервера: • HP BL460cG6 двухпроцессорный четырехядерныхблэйд-сервер (3 сервера) • IBM хSeries 460 четырехпроцессорных сервера (2сервера) Внешний Firewall SSH, sFTP, HTTPs Internet VPN Программное обеспечение : Более 900 продуктов IBM и др.

  32. Центр компетенции по IBM Big Data Приглашаем посетить центр компетенции, ознакомиться с технологиями IBM BigData, принять участие в создании виртуальных отраслевых стендов www.ec-leasing.ru Тел.: (495) 319-58-09 Факс: (495) 319-69-90 e-mail: contact@ec-leasing.ru

  33. Спасибо за внимание! www.ec-leasing.ru

More Related