Traiter toujours plus vite un volume de données exponentiel
Après la pause, Thierry Pellegrino VP & General manager of HPC chez Dell EMC est venu évoquer l’explosion des données et l’importance du HPC pour les traiter.
« La digitalisation grandissante est disruptive dans de nombreux domaines par rapport au monde traditionnel que nous avons connu. De grandes enseignes commerciales ont disparu ou sont en grandes difficultés à cause du commerce en ligne tel Amazon ; la chaine qui propose le plus de chambres d’hôtel c’est booking.com ; les taxis disparaissent au profit de Uber ; les banques traditionnelles ferment leurs agences les unes après les autres, alors que les banques en ligne se développent. Tout cela a un point commun l’utilisation massive de données grâce à des performances informatiques en constante hausse, alors que les prix chutent ».
Les processeurs ne sont qu’une partie de l’évolution des matériels, qui porte aussi sur les architectures de systèmes, et les multiples technologies de mémoire qui donnent de la granularité et facilitent le calcul. De même pour les cartes réseaux SmartNIC (Network Interface Card) dotées d’un processeur ARM pour faire du calcul. Les GPU largement utilisés pour le calcul fortement parallèle sont maintenant la coqueluche des applications d’IA. Enfin, les FPGA permettent de disposer rapidement de processeurs parfaitement adaptés à des traitements spécifiques, tandis que des processeurs spécialisés, tels Nervana de Intel ou ceux de Graphcore, vont permettre d’aller encore plus loin dans les performances de calcul.
« Cette évolution rapide des technologies va permettre de faire face à l’explosion des volumes de données et au temps toujours plus court laissé pour les traiter. En 2005, l’humanité a généré 0,1 ZB de données, en 2010 c’était 1,2 ZB, en 2015 8,5 ZB et il est prévu d’atteindre les 40 ZB en 2020. Parallèlement, plus la donnée est analysée vite plus elle a de valeur ».
« Le calcul a aussi changé passant du statut de créateur de données à celui de consommateur de données. Ainsi la définition même du HPC a évolué. Originellement cantonné au calcul pour des applications de conception, de prévisions météorologiques ou de prospection pétrolière, il a évolué vers des applications plus centrées sur les données, telles la génomique, la modélisation financière ou le traitement du signal, pour devenir le High Performance Data Analysis (HPDA) très utilisé en médecine personnalisée, en détection de fraude ou en intelligence économique. Enfin le HPC est maintenant aussi très utilisé pour le Machine Learning et le Deep Learning au cœur des applications d’Intelligence Artificielle ».
Un marché du HPC qui pèsera cette année environ 13,5 milliards de dollars en hausse régulière de 10 % par an. Mais on ne fait pas du HPC pour le plaisir de traiter des données. On le fait dans de multiples secteurs économiques pour leur ajouter de la valeur, afin de faire progresser la connaissance et mieux répondre aux attentes des utilisateurs, qu’il s’agisse de sciences de la vie ou de la terre, de recherche, de connaissance de l’univers, de défense, d’industries manufacturières, de finances ou de météorologie.
« Ainsi à l’Institut Gustave Roussy, premier centre européen de lutte contre le cancer, la capacité d’analyser le plus rapidement possible le génome humain est un facteur clé dans le traitement des patients. La mise en place d’une solution HPC a permis de multiplier par 8 le nombre de génomes calculé par jour, accélérant la recherche sur les cancers pédiatriques, tout en réduisant les listes d’attente. Les échantillons de tumeurs prélevés sur le patient sont analysés pour en déterminer le profil moléculaire et quelles molécules sont atteintes. Cela permet de créer une thérapie personnalisée beaucoup plus efficace. Accessoirement, cela s’est fait en réduisant la consommation énergétique de 23 %, ce qui est non négligeable dans un secteur où les financements sont toujours trop justes ».
Dans un tout autre domaine puisqu’il s’agit de finance avec MasterCard, le projet MosaicCrown vise à anonymiser des données et à en sécuriser le partage entre de multiples acteurs. Une technique qui pourrait trouver de nombreuses applications dans de multiples secteurs. « Imaginez les progrès que pourraient faire les constructeurs automobiles si, pour développer leurs véhicules autonomes, ils avaient accès non plus aux seules données récoltées sur leurs propres véhicules d’essai, mais à l’ensemble des données récoltées par tous les constructeurs, après qu’elles aient été nettoyées des informations propriétaires propres à chaque constructeur ? »
En résumé, beaucoup de technologies sont déjà disponibles, pour analyser de façon rapide et intelligente d’importants flots de données. C’est critique pour l’avancement de la science et de la recherche. Et il existe des techniques permettant de les anonymiser pour les partager largement, afin de faire progresser encore plus vite la communauté. |
|
Processing exponential amounts of data, faster and faster
After the break, Thierry Pellegrino VP & General manager of HPC at Dell EMC spoke about the explosion of data and the importance of HPC for processing it.
"The increasing digitalization is disruptive in many areas compared to the traditional world we have known thus far. Large commercial chains have disappeared or are in great difficulty because of online commerce such as Amazon; the chain offering most choice of hotel rooms is booking.com; taxis disappear in favor of Uber; traditional banks are closing their branches one after the other, while online banks are expanding. All of this unveils one common factor: the massive use of data made possible with ever-increasing IT performance, while prices are falling.”
Processors are only one part of the hardware evolution which also includes system architectures, and the multiple memory technologies that provide granularity to facilitate computation. The same scheme applies to SmartNIC (Network Interface Card) network cards with an ARM processor for computing. GPUs widely used for highly parallel computing are now highly favored by AI applications. Finally, FPGAs provide fast access to processors that are perfectly adapted to specific processing while specialized processors, such as Intel's Nervana or Graphcore's, will allow us to go even further in computing performance.
"This rapid evolution of technologies will make it possible to cope with the explosion in data volumes and the ever shorter time left to process them. In 2005, humanity generated 0.1 ZB of data, in 2010 it was 1.2 ZB, in 2015 8.5 ZB and it is expected to reach 40 ZB in 2020. At the same time, the faster the data is analyzed the more valuable it is.”
"The calculation has also changed from being a data generator to a data consumer. Hence, the very definition of HPC has evolved. Originally limited to computation for design, weather forecasting or petroleum exploration applications, it has evolved into more data-centric applications such as genomics, financial modelling or signal processing, to become High Performance Data Analysis (HPDA) widely used in personalized medicine, fraud detection or economic intelligence. Finally, HPC is now also widely used for Machine Learning and Deep Learning at the heart of Artificial Intelligence applications.”
This year, HPC market will be worth around $13.5 billion with a steady 10% annual increase. But we don't invest in HPC for the sake of data processing. This is done in multiple economic sectors to add market value, to advance knowledge and better meet user expectations, whether in life or earth sciences, research, knowledge of the universe, defence, manufacturing, finance or meteorology.
"Thus, at the Gustave Roussy Institute, Europe's leading control center for cancer, the ability to analyze human genome as quickly as possible is a key factor in the treatment of patients. The implementation of an HPC solution has made it possible to multiply by 8 the number of genomes calculated per day, accelerating research on pediatric cancers, while reducing waiting lists. Tumor samples taken from the patient are analyzed to determine their molecular profile and which molecules are affected. This makes it possible to create a much more effective personalized therapy. Incidentally, this has been done by reducing energy consumption by 23%, which is not insignificant in a sector where financing is still lacking.”
In a completely different field, closely related to finance with MasterCard, the MosaicCrown project aims to make data anonymous and secure data exchanges between multiple actors. Such a technique could have many applications in many different sectors. "To develop autonomous vehicles, imagine progress that car manufacturers could make if they not only had access to data collected on their own test vehicles any longer, but to all data collected by all manufacturers after they had been cleared from each manufacturer's own proprietary information?”
In summary, many technologies are already available to quickly and intelligently analyze large amounts of data. It is critical for the advancement of science and research. And there are techniques available to anonymize those data and share them widely in order to progress even faster to benefit the community. |