Related Communities:

NeuroData Project

Проект РФФИ 18-29-22096

Методы и средства решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии

Цель и задачи проекта

Целью проекта является разработка методов и средств решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии.

Для достижения цели необходимо решение следующих задач:

  • анализ нейрофизиологии как предметной области для решения задач с интенсивным использованием данных (в том числе, разработка концептуальных спецификаций предметной области, анализ форматов данных);
  • постановка актуальных задач в области нейрофизиологии (в частности, задач моделирования когнитивных функций) для решения в распределенных вычислительных инфраструктурах;
  • разработка архитектуры распределённого решения задач анализа данных в области нейрофизиологии;
  • разработка методов решения задач анализа данных в области нейрофизиологии;
  • разработка экспериментальной распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии;
  • решение задач анализа данных в области нейрофизиологии на разработанной инфраструктуре.

Актуальность

Исследования и принятие решений в различных областях деятельности реализуются в настоящее время на основе анализа данных, накопленных в соответствующих областях, называемых областями с интенсивным использованием данных - ОИИД. Объем и разнообразие данных при этом растут экспоненциально. Организуются глобальные проекты по сбору и накоплению данных при помощи специализированных высокотехнологичных инструментов. Наряду со сбором данных развиваются методы и средства накопления, обработки, анализа и управления данными в разнообразных ОИИД, происходит быстрое расширение спектра задач, требующих решения на основе полученных данных, накопление опыта решения подобных задач и обеспечение возможности его междисциплинарного использования.

Одним из примеров ОИИД является нейронаука — это совокупность анатомии, физиологии, генетики, биохимии, патологии нервной системы, психологии. Она является передним краем изучения мозга и мышления. Изучение мозга важно для понимания того, как мы воспринимаем и взаимодействуем с внешним миром. Количество данных, генерируемых в типовой лаборатории, проводящей исследования в нейронауке, растет с поражающей быстротой. Интеграция полученных данных в единую картину является сложной задачей. Для ее решения необходима нейроинформатика, возникающая как междисциплинарная область при сотрудничестве исследователей в нейронауке с информатиками, для того чтобы как новые, так и ранее известные данные стали доступнее сообществу исследователей для ускорения нашего понимания работы мозга.

Несмотря на большое количество работ в области нейроинформатики, и развитие специализированных программных библиотек анализа данных, в настоящее время не существует единой общепринятой распределенной платформы решения задач в области нейрофизиологии. Потребность в разработке методов и средства решения задач анализа данных (в частности, задач моделирования когнитивных функций) в распределенных вычислительных инфраструктурах остается высокой.

Предлагаемые подходы и методы

Для разработки концептуальных спецификаций предметной области нейрофизиологии предлагается использовать ряд высокоуровневых онтологических и логических языков, основанных на стандартах W3C RDF, OWL, RIF. На основании анализа терминологии, связей и определений терминов в тематической литературе, текстовых описаниях данных и методов, постановках задач производится концептуализация предметной области. Концептуальное моделирование предметной области является базисом взаимодействия человека и автоматизированных процессов с инфраструктурой данных для решения исследовательских задач. Связью с понятиями предметной области обеспечиваются все основные виды хранимых в инфраструктуре данных: структуры данных формируются на основе спецификаций предметной области. Описанием в терминах понятий снабжаются реализации методов предметной области и их интерфейсы. Это необходимо для классификации и организации данных и методов в коллекции.

Решение задач в предметной области с применением накопленных методов может формулироваться с использованием языков спецификации потоков работ в распределённой среде, таких как Ozzie. С другой стороны, потоки работ также классифицируются с точки зрения предметной области в коллекции методов и могут использоваться повторно.

Предлагается использование для анализа данных, полученных в результате применения различных подходов к регистрации активности мозга: фМРТ (функциональная МРТ), ЭЭГ (электроэнцефалография).

При проектировании и реализации распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии предлагается использование современных методов распределенных вычислений и свободно распространяемых программных средств, таких, как Hadoop, Spark, HBase, Hive.

Для решения конкретных задач в области нейрофизиологии перспективным представляется применение методов машинного обучения, в частности, нейросетей глубокого обучения. При этом предполагается использование программных библиотек, таких, как PyTorch и TensorFlow, применимых в распределенных вычислительных инфраструктурах.

Публикации

  • Skvortsov N.A. (2019) Meaningful Data Reuse in Research Communities. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003. Springer, Cham.
    DOI: https://doi.org/10.1007/978-3-030-23584-0_3
  • Stupnikov S., Kalinichenko L. (2019) Extensible Unifying Data Model Design for Data Integration in FAIR Data Infrastructures. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003, P. 17-36. Springer, Cham. DOI: https://doi.org/10.1007/978-3-030-23584-0_2
  • Skvortsov N.A., Stupnikov S.A. (2019) Formalizing Requirement Specifications for Problem Solving in a Research Domain. In: Welzer T. et al. (eds) New Trends in Databases and Information Systems. ADBIS 2019. Communications in Computer and Information Science, vol 1064, P. 266-279. Springer, Cham.
    DOI: https://doi.org/10.1007/978-3-030-30278-8_29
  • Lev Bulygin, Sergey Stupnikov. Applying of Machine Learning Techniques to Combine String-based, Language-based and Structure-based Similarity Measures for Ontology Matching. Data Analytics and Management in Data Intensive Domains: ХХI International Conference DAМDID/RCDL' 2019 (October 15–18, 2019, Kazan, Russia): Conference Proceedings. Edited bу Alexander Elizarov, Boris Novikov, Sergey Stupnikov. P. 148-166. – Kazan: Kazan Federal University, 2019. https://dspace.kpfu.ru/xmlui/handle/net/151948
Supported by Synthesis Group