Fort de notre expérience en formations Big Data, nous vous proposons deux nouvelles formations adaptées à vos besoins : Introduction au Big Data et Apprendre le Big Data par la pratique.

Nos principes

Les principes qui résultent de notre expérience et qui structurent notre offre sont les suivants :

  • Pas de formations mixtes développeurs et managers
  • Neutralité : pas de formation spécifique à un produit ou à une distribution
  • Utilisation de datasets de tailles significatives, de clusters sur le Cloud, de vos machines pour s’y connecter : Bring Your Own Device !
  • Pas de papier : diffusion des supports et des corrections des exercices au format PDF
  • Agilité : résultante des choix précédents, nous pouvons mieux coller aux évolutions de cet écosystème très mouvant et, par exemple, consacrer davantage de temps à Spark qu’à Hadoop !

 

Pourquoi Spark ?

L’écosystème du Big Data en rupture permanente pose un nouveau défi aux organisations, aux projets et aux individus : sur quelles technologies peut-on raisonnablement s’engager ? Les repères confortables des marques habituelles disparaissent et laissent place à un nuage de points aux noms exotiques et en perpétuel mouvement. Tout le monde ne peut pas revoir la moitié de sa base de code tous les mois comme Google, il faut bien que les choix aient une certaine pérennité.

Nous pensons qu’aujourd’hui il est judicieux de partir sur Spark pour les raisons suivantes.

  • Rapidité : Spark a été conçu pour tirer le meilleur parti des machines actuelles. L’utilisation de la mémoire lui permet d’aller de 10 à 100 plus vite que le couple Hadoop + MapReduce. Il devient dès lors possible de traiter des données massives avec des algorithmes itératifs de Machine Learning.
  • Généricité : un graphe orienté acyclique (DAG), le concept de base que Spark manipule, est beaucoup plus générique que MapReduce qui n’en est qu’un exemple.
  • Expressivité :  pour un traitement équivalent, il faut trois fois moins de code avec Spark qu’avec Hadoop. “Ce qui ce conçoit bien s’énonce clairement et les mots pour le dire arrivent aisément.” [Boileau – L’Art Poétique]
  • Unicité : Spark fait marcher le modèle Open Source à plein régime et n’est pas soumis aux tentatives de différenciation des éditeurs de distribution Hadoop.
  • Continuité :  le déploiement sur un cluster d’un traitement mis au point par un Data Scientist sur sa machine s’opère par un simple changement d’URL.

 

Découvrir la formation “Introduction au Big Data”

 

Découvrir la formation “Apprendre le Big Data par la pratique”