Related Communities:

Управление разно-структурированными большими данными

Управление разно-структурированными большими данными

Вторник, 16-20, 609 аудитория (лекции)

Для студентов МГУ ВМиК 2го – 6го курсов и магистратуры.

Аннотация

В курсе рассматривается специальный вид стека для параллельных архитектур оперирования данными в аналитических приложениях Big Data. Параллельная архитектура оперирования данными основана на кластере узлов анализа данных, соединяемых быстрой сетью. Свободно распространяемая реализация такого стека (Hadoop) включает Hadoop Distributed File System, и поддержку парадигмы программирования map-reduce. Такие архитектуры поддерживают разно-структурированные данные, которые могут быть представлены в разнообразных моделях данных (структурированных, слабоструктурированных, неструктурированных).

В курсе рассматриваются основные идеи и подходы параллельных архитектур оперирования разно-структурированными данными. Рассматриваются вопросы реализации различных алгоритмов в среде map-reduce (таких как матрично-векторное умножение, поддержка SQL-подобных операций и операций реляционной алгебры), сравнения реализации таких операций с традиционными.

Map-reduce программирование в курсе изучается применяя собственно язык map-reduce Hadoop’a наряду с декларативными языками над Hadoop’ом (такими как PigLatin, Hive, Jaql (IBM)).

Также в курсе рассматривается перспективные методы анализа данных (в дополнении к MapReduce) в середе Hadoop 2.0, основанные на парадигме распределения ресурсов YARN (Yet Another Resource Negotiator). Yarn поддерживает выполнение любых программ, которые могут выполняться параллельно, и позволяет уйти от традиционной парадигмы программирования в Hadoop (map-shuffle-reduce). Это позволяет эффективно программировать сложные задачи, такие как ETL, обработку графов (Giraph), массивно параллельные алгоритмы машинного обучения и моделирования в среде Hadoop. Данная область является широко перспективной и открыта для множества исследований.

В комбинации с Hadoop’ом в курсе рассматриваются базы данных NoSQL (такие как HBase). Их использование совместно с Hadoop’ом изучается на примерах приложений. Также в курсе рассматриваются перспективные методы анализа данных (такие как методы машинного обучения) в среде Hadoop’а , на примере реализации алгоритмов на базе YARN и использования библиотек машинного обучения над Hadoop (Mahout). Все практически занятия проводятся на базе Hadoop в составе IBM BigInsights.

Программа курса

  1. (30/09 - Лекция) Введение в курс. Основные понятия курса. Введение в проблематику управления большими данными. Сравнение с традиционными подходами моделирования данных и манипулирования данными в СУБД
  2. (7/10 - Лекция) Введение в Hadoop, архитектура Hadoop, парадигма map-reduce, Архитектура стека компонентов Hadoop
  3. (14/10 - Самостоятельная работа) Работа с HDFS, запуск простейших заданий MapReduce (подсчет слов), администрирование Hadoop
  4. (21/10 - Лекция) Алгоритмы известных операций в map-reduce (матрично-векторное умножение, реляционные операции и др.). Введение в теорию сложности алгоритмов для map-reduce
  5. (28/10 - Лекция) Языки программирования высокого уровня над Hadoop: Pig, Hive, JAQL, BigSQL
  6. (04/11 - Самостоятельная работа) Разработка на Java собственного приложения map-reduce. Знакомство с языками Pig, Hive, Jaql.
  7. (11/11 - Лекция) Современные и перспективные около-Hadoop технологии (YARN, Spark, Giraph, BDAS, ...)
  8. (18/11 - Лекция) Введение в базы нетрадиционных моделей данных not only SQL (noSQL). Введение в базу данных с поколоночным хранением - HBase.
  9. (25/11 - Лекция) Методы и средства текстовой аналитики над большими данными.
  10. (2/12 - Самостоятельная работа) Практикум по HBase и text-analytics
  11. (9/12 - Лекция) Взаимодействие методов анализа данных с Hadoop на примере Apache Mahaout, RHadoop и BigR.

Информация и вопросы по спецкурсу

проф. д.ф.-м.н. Л. А. Калиниченко (leonidk@synth.ipi.ac.ru)
к.т.н. А.Е. Вовченко (alexey.vovchenko@gmail.com)
Supported by Synthesis Group