[ Russian ] [ English ]

Распределенные хранилища данных для крупных научных экспериментов и управление ими на основе метаданных провенанса

А. П. Крюков, А. П. Демичев
Научно-исследовательский институт ядерной физики имени Д. В. Скобельцына,
Московский государственный университет им. М. В. Ломоносова

В настоящее время осуществление крупных научных, инженерных и бизнес-проектов связано, как правило, с необходимостью хранения и обработки больших объемов данных. Это приводит к необходимости развивать новые, более экономичные и надежные, архитектуры и принципы работы информационных систем, в том числе систем хранения данных. Экстремальными вариантами архитектурных решений для таких систем являются полностью централизованные хранилища и хранилища на основе одноранговых P2P-сетей [1]. Однако, во многих случаях такие решения оказываются неприемлемыми, например, из-за их высокой стоимости или низкой надежности, а оптимальным является промежуточное между такими экстремальными вариантами решение.

В докладе рассматривается случай объединения нескольких хранилищ в одно локальное хранилище данных. Для организации такого хранилища участники крупного проекта объединяют свои локальные ресурсы хранения в единый распределенный пул и, при необходимости, дополнительно арендуют облачные ресурсы хранения, возможно у нескольких провайдеров. Особенно выгодным с экономической и технической точек зрения такое решение может оказаться в случае, когда появляется потребность в хранении больших объемов данных в течение ограниченного срока осуществления какой-либо проекта и в ситуации, когда проект объединяет многих организационно несвязанных между собой участников. Например, для более тонкого анализа явлений в астрофизике и, соответственно, для получения более полных знаний о Вселенной, чрезвычайно важно объединять и всесторонне анализировать полученную информацию различных типов (например, о заряженных космических частицах, гамма-лучах, нейтрино и т. д.) с помощью разнообразных экспериментальных установок, расположенных по всему миру. В докладе будет представлен общий подход [2] к построению и архитектуре системы, чтобы иметь возможность собирать, хранить и предоставлять пользователям доступ к астрофизическим данным.

В докладе также представлен принципиально новый подход к построению системы управления метаданными провенанса (метаданные, описывающие происхождение источник и историю эволюции данных [12]) и правами доступа к данным, основанный на интеграции блокчейн-технологии, смарт-контрактов и управления данными на основе метаданных [3]. Будут обсуждаться принципы и алгоритмы работы такой системы, названной ProvHL (Provenance HyperLedger), которая является отказоустойчивой, безопасной, надежной с точки зрения сохранности и защищенности записей метаданных провенанса от случайных или намеренных искажений. Исследованы вопросы оптимального выбора типа блокчейна для такой системы, а также выбора блокчейн-платформы. А именно, предложено использовать эксклюзивный (permissioned) тип блокчейна и блокчейн-платформу Hyperledger Fabric (HLF, www.hyperledger.org), на основе которой реализуется система ProvHL.

Отдельно будут обсуждены вопросы безопасности в подобных системах и возможные пути решения.

Исследования выполнены при финансовой поддержке Российского научного фонда, проекты 18-41-06003, 18-11-00075.

Литература:

  1. A. P. Kryukov and A. P. Demichev. Decentralized Data Storages: Technologies of Construction. Programming and Computer Software, vol. 44, No. 5, pp. 303–315, 2018 (А.П. Крюков, А.П. Демичев «Децентрализованные хранилища данных: технологии построения», Программирование , 2018, No. 5 , с .12 — 30).
  2. A. P. Kryukov and A. P. Demichev. Architecture of Distributed Data Storage for Astroparticle Physics. Lobachevskii Journal of Mathematics, 2018, Vol. 39, No. 9, pp. 1199–1206.
  3. A. Demichev, A. Kryukov, Nikolai Prikhodko. The Approach to Managing Provenance Metadata and Data Access Rights in Distributed Storage using the Hyperledger Blockchain Platform. Proceedings of Ivannikov ISPRAS Open Conference (подано в печать).
  4. F. Zafar et al. Trustworthy Data: A Survey, Taxonomy and Future Trends of Secure Provenance Schemes. Journal of Network and Computer Applications, vol. 94, pp.50-68, 2017.
  5. S. M. S. da Cruz, M. L. M. Campos and M. Mattoso. Towards a Taxonomy of Provenance in Scientific Workflow Management Systems. World Conference on Services-I, pp. 259-266, IEEE, 2009.
  6. A. Ramachandran and M. Kantarcioglu. SmartProvenance: A Distributed, Blockchain Based Data Provenance System. The 8th ACM Conference on Data and Application Security and Privacy, 2018.
  7. X. Liang et al. Provchain: A Blockchain-based Data Provenance Architecture in Cloud Environment with Enhanced Privacy and Availability. Proceedings of the 17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing, pp. 468-477. IEEE Press, 2017.
  8. Rabin M.O. E cient dispersal of information for security, load balancing and fault tolerance // Journal of the ACM. 1989. 36(2):335-348.
  9. P. Vassiliadis. A survey of Extract-transform-Load technology. Int. J. Data Warehousing Mining 5, 1–27 (2009).
  10. J. Blomer, P. Buncic, and R. Meusel. The CernVM file system. Technical Report (2013). http://jblomer.web.cern.ch/jblomer/cvmfstech-2.1-0.pdf.
  11. A. J. Peters, E. A. Sindrilaru, G. Adde. EOS as the present and future solution for data storage at CERN. Journal of Physics: Conference Series, V. 664, 2015.
  12. What Is Provenance. The World Wide Web Consortium. https://www.w3.org/2005/Incubator/prov/wiki/What_Is_Provenance
Supported by Synthesis Group