Accueil > Activités > Projets R&D >Datascale

Projets R&D

 

Big Data et Calcul Haute performance

Porteur : BULL:
Statut : En cours
Date de début du projet : Juin 2013
Date de fin de projet : Juin 2015
Durée : 24 months
Partenaires du projet : ACTIVEEON - ARMADILLO - BULL - CEA/DAM - CEA/LIST - INRIA - INSTITUT DE PHYSIQUE DU GLOBE DE PARIS - SENSEETIVE

Decembre 2014 : Avancées technologiques et cas d'usages

Objectifs du projet  DataScale

L’objectif principal est de développer les synergies entre les domaines du Big Data et du calcul haute performance (ou HPC - High Performance Computing), et plus concrètement de développer des briques technologiques Big Data qui viendront enrichir l’écosystème HPC.

Ces briques technologiques couvrent trois thèmes amenés par la convergence HPC – Big Data :

  1. Une gestion efficace des données est essentielle pour conserver et exploiter des masses de données toujours croissantes (notamment avec l’utilisation d’un stockage hiérarchique),
  2. l’ouverture de cette gestion de données vers des environnements tiers, en particulier vers des environnements Clouds,
  3. L’organisation des données est à revoir, avec l’architecture des bases de données (NoSQL), et des techniques de fouille adaptées pour traiter efficacement les grandes masses de données et les différents types de données.

Le projet s’attache également à évaluer l’intérêt de ces briques technologiques en réalisant des démonstrateurs basés sur des cas réels d’application, avec passage à l’échelle, dans les domaines

  1. de la détection d’événements sismiques
  2. de la gestion de clusters HPC
  3. de l’analyse de produits multimédia.

Les objectifs projets, articulés autour de la convergence HPC et Big Data, se trouvent parfaitement en phase avec les évolutions actuellement  observées dans le marché HPC, (voir par exemple l’émergence de la problématique HPDA (High Performance Data Analytics, encore mise en lumière par IDC lors du salon Supercomputing 2014).

Le projet DataScale aura été présenté lors de l’évènement Teratec 2014 (workshop Big Data), et présent au salon Big Data d’Avril 2014.  

Avancements technologiques 2014:

L’année 2014 aura vu la définition at la réalisation des trois briques technologiques prévues

  1. Gestionnaire  hiérarchique de données (HSM), intégré aux outils système de base (Lustre, SLURM, Bull SCS) qui permet le stockage et l’archivage de données en fonction d’un système de règles.
  2. un « Cloud Front End » basé sur la technologie ProActive d’ActiveEon, orchestrateur qui permet l’activation d’un job HPC à partir du cloud en fournissant les données à traiter et inversement de récupérer des données du cloud pour les exécuter sur des ressources HPC puis de renvoyer les résultats.
  3. Une organisation de métadonnées, organisées dans une base de donnée NoSQL (Armadillo) et la parallélisation de l’application permettant de traiter les données sismiques.

Ainsi que l’installation intégrée de ces briquées sur une plateforme HPC dédiée (plateforme NovaX, hébergée chez Bull)

Avancements 2014 – cas d’usages

Les trois cas d’usages ont été définis, et des premiers jeux de données significatives ont pu être éprouvées : il est trop tôt pour disposer de résultats consolidés, mais les essais réalisés démontrent une bonne complémentarité entre les technologies choisies et les usages prévus . Plus précisément, on peut noter

1. Prévention d’évènements sismiques :

  • Portage sur Linux et parallélisation de l’application (Armadillo - CEA) de traitement des données sismiques.
  • Les données de l'année 2010 de l'USArray sont produites à l'IPGP. Des tests de performances en CPU, en occupation mémoire et en terme IO sont en cours. Essai réalisé sur 48 cœurs pour un jeu d’exemple de 299 signaux, soit 44551 corrélations, avec une première volumétrie significative (données produites de 71.72Go avec un temps calcul de 174.97s, à comparer avec une journée du cas d'usage réel représentant 1200 traces et 784000 corrélations soit 767Go en sortie).

2. Gestion de clusters HPC : travaux réalisés

  • mise en œuvre des algorithmes de fouille de motifs séquentiels fréquents en distribué, en utilisant le framework Map-Reduce/ Hadoop YARN, et prochainement sur Map-Reduce/Lustre.
  • expérimentations sur données réelles, avec notamment un fichier syslog, fourni par le CEA de 5 Go (ce fichier regroupant  plus de 34 millions de messages survenus pendant 50j).
  • Mise en place d’une stack logicielle Elasticsearch Logstash Kibana (ELK) pour rassembler et formater les données (log, trace, evènement) dans une base No-SQL.
  • préparation du passage à l'échelle : vérification de la linéarité et de la performance des algorithmes, et de l’efficacité et la pertinence des méthodes d'optimisation de fouille.

3. Analyse de produits multimédia :

  • les technologies de base ont été développée en portées sur la plateforme d’essai
  • une pré-expérimentation portants sur un « subset » de 12 Toctets et deux des trois axes applicatifs détection de copie & exploration corpus d’images) a été réalisée, validant la pertinence des algorithmes sélectionnés et développés


Octobre 2013 - Le projet DataScale fédère un éventail de partenaires très divers – grands laboratoires de recherche, PME et grandes entreprises – dont l’ambition commune est de créer des solutions Big Data efficaces, adaptées à des cas réels d’utilisation dans le domaine du calcul haute performance.

DataScale est un projet sur deux ans, lancé en juin 2013 dans le cadre des “Investissements d’Avenir” mis en place par le gouvernement français.

Sa mission principale est de développer les synergies entre les domaines du Big Data et du calcul haute performance (ou HPC - High Performance Computing), et plus concrètement de développer des briques technologiques Big Data qui viendront enrichir l’écosystème HPC.

Ces briques technologiques couvriront trois thèmes essentiels pour la problématique Big Data :

la gestion efficace des données, essentielle pour savoir conserver et exploiter des masses de données toujours croissantes (notamment avec l’utilisation d’un stockage hiérarchique),

l’ouverture de cette gestion de données vers des environnements tiers, en particulier vers des environnements clouds,

l’architecture des bases de données, avec des techniques de fouille adaptées pour traiter efficacement les grandes masses de données et les différents types de données.

Le projet s’attachera en outre à évaluer l’intérêt de ces briques technologiques en réalisant des démonstrateurs basés sur des cas réels d’application, avec passage à l’échelle, dans les domaines de la détection d’événements sismiques, de la gestion de clusters HPC et de l’analyse de produits multimédia.

Le projet regroupe des partenaires aux profils très divers, qui apportent chacun leurs compétences propres, leur savoir-faire dans des domaines aussi variés que les infrastructures, le HPC, les bases de données, le Cloud Computing, l'administration de système, le multimédia, la fouille de donnée et le domaine sismique. En s’appuyant sur leurs connaissances des besoins du marché, les partenaires DataScale proposeront des méthodes et algorithmes pertinents et développeront des solutions susceptibles de donner naissance à de futurs produits. La variété d'approches et de savoir-faire des partenaires garantit une large couverture des problèmes et des solutions du Big Data, ainsi que la constitution de synergies que le projet pourra exploiter.

"Le projet DataScale se distingue par son approche à la fois technologique mais aussi guidée par l’usage. Il apportera une réponse très concrète aux défis posés par la croissance exponentielle des volumes de données à exploiter. Bull et tous les partenaires de DataScale comptent sur les outils transversaux créés ou étendus dans le cadre du projet pour accélérer leur innovation et enrichir leurs offres commerciales respectives. » déclare Etienne Walter Chef de projet DataScale Bull..

Denis Caromel (fondateur et CEO d’ActiveEon) déclare "Le Big Data est très souvent, trop souvent, associé avec une problématique MapReduce, et en particulier Hadoop – ce qui conduit les entreprises à faire des choix technologiques inadéquats. En réalité, la problématique de la gestion de grandes quantités de données est souvent diverse, et nécessite une combinaison de solutions, telles que orchestration et scheduling, déploiement, optimisation des ressources. DataScale va renforcer les offres existantes des partenaires français du projet, et conduire rapidement à une solution complète et souveraine. >>.



 
 
© TERATEC - Tous droits réservés - Mentions légales