Related Communities:

Особенности организации спецсеминара и примеры возможных исследовательских тем

Особенности организации спецсеминара и примеры возможных исследовательских тем

Особенности организации семинара

Исследования, разработки и применения, связанные с BIg Data, доминируют в мире, определяют стратегическое направление развития ИТ. Потребности в специалистах, которые имели бы нужную квалификацию в управлении и анализе BIg Data, быстро растут. Такие специалисты ценятся очень высоко. Предлагаемый семинар вместе со связанными с ним курсами направлен на то, чтобы формировать у студентов соответствующие компетенции.

Отличительная особенность этого семинара в том, что он не привязан к какой-либо кафедре ВМК. Мотивацией такого решения является простое соображение: Big Data сейчас интересны всем. Поэтому предлагаемый семинар направлен на изучение и анализ направлений развития методов и средств Big Data mining, высокопроизводительных платформ управления Big Data, их применения в различных областях с интенсивным использованием данных. При этом существенное внимание предполагается уделять вопросам применения Big Data, увязывая теоретические вопросы и инструменты Big Data с конкретными применениями. Такой подход дает возможность студентам различных кафедр согласовывать при необходимости темы своих работ (курсовых, выпускных, дипломных, магистерских диссертаций) со своими кафедральными руководителями так, чтобы по меньшей мере в своей практической части они были привязаны к технологиям BIg Data (такая привязка определяется руководителями семинара). Примеры тем подобных студенческих работ рассматриваются ниже.

Примеры тем возможных работ

В действительности, каждая из тем может быть конкретизирована, что позволяет порождать из нее множество тем

  • Трансформация неструктурированного контента в структурированный формат для последующего анализа (например, тексты твитов и блогов, или страницы Веба, или логи, или сенсорные данные, или данные NoSQL моделей, и пр.). Интеграция подобных коллекций. Такие темы могут быть частью более общих тем, предполагающих применение методов анализа (например, машинного обучения) над полученными структурированными данными.
  • Методы и средства извлечения информации из данных, включая формирование интегрированных, достоверных, эффективно доступных данных, создание декларативных языков, интерфейсов, масштабируемых алгоритмов для mining, сред для Big Data вычислений.
  • Средства композиции и построения многошаговых аналитических комплексов над Big Data для извлечения информации, существенным является использование специальных языков высокого уровня (уровень Map-Reduce, и даже языков, подобных Pig Latin, очень низкий для выражения сложных задач анализа). Нужно выражать, что требуется сделать, а не как.
  • Поддержка разнообразия (variety) данных (неоднородность типов и их семантической интерпретации), семантическая интеграция данных (включая унификацию моделей данных, происхождение, неопределенность, слияние данных, и пр.

Информация и вопросы по спецсеминару

проф. д.ф.-м.н. Л. А. Калиниченко (leonidk@synth.ipi.ac.ru)
Supported by Synthesis Group