Le Big Data, c’est bien

Il ne fait aucun doute que les géants du web savent tirer parti du Big Data pour se développer mais qu’en est-il du reste des entreprises ?

Les études démontrant les bénéfices du Big Data commencent à sortir.

Selon celle du cabinet Morar Research publiée en Juillet 2015, l’accès rapide aux données améliorerait les performances commerciales de 21% en moyenne.
De même, selon le Harvard Business Review, les entreprises utilisant le Big Data font de 5 à 6% de marge supplémentaire par rapport à leurs concurrents qui ne les utilisent pas.

Pourquoi ?

Eh bien, c’est comme si les entreprises qui utilisent le Big Data étaient équipées de lunettes leur permettant de voir des situations invisibles pour leurs concurrents telles que : Lunettes-de-vue-EXCELLENCE-EX-EL3011-C1-53-16-6485_w400

  • ce client est en train de me lâcher,
  • cet utilisateur est en train de frauder,
  • ce prospect est en bonne voie,
  • ce client pourrait être intéressé par ce produit.

 

Ce sont ces nouvelles capacités qui confèrent aux entreprises utilisatrices du Big Data un avantage concurrentiel quasiment déloyal.
Donc la question qui reste à traiter n’est pas s’il faut y aller ou pas, ni même quand sera le bon moment mais…

Comment ?

Presque aussi nombreux que les études sur les bénéfices du Big Data sont les articles sur les échecs de projets Big Data. Ainsi, le Gartner estime donc que 60 % des projets d’analytique seront sanctionnés par des échecs d’ici 2017 faute de compétences ou réel projet d’entreprise.

Les causes d’échec des projets Big Data avancées par les analystes sont multiples; on peut citer :

  • la dispersion des données,
  • l’absence de cas d’usage clair,
  • la dépendance aux systèmes “legacy”,
  • la résistance au changement,
  • le manque de compétences,
  • des méthodes de gestion de projets inadaptées.

Nos principes

Chez Neoxia, nous sommes moteur de transformation numérique depuis plus de 15 ans et nous avons appris à contourner ces écueils. Nous vous proposons de réussir votre démarrage dans le ‘Big Data’ en capitalisant sur cette expérience ainsi que sur nos compétences en data engineering et en data science.

Le métier d’abord

albert_einsteinIf I had an hour to solve a problem and my life depended on the solution, I would spend the first 55 minutes determining the proper question to ask, for once I know the proper question, I could solve the problem in less than five minutes.

Albert Einstein (1879 – 1955) Physicist & Nobel Laureate

Albert a raison : la technique la plus efficace de réduction des dimensions d’un problème est de bien formuler la question correspondante. C’est donc cette technique qu’il faut appliquer en premier. Et la question à laquelle nous allons chercher une réponse doit être une question du métier, comme par exemple :

  • A quel prix dois-je me positionner sur cet appel d’offres pour optimiser mes chances de gain ?
  • Quels sont les critères qui me permettraient d’identifier dans ma population d’anciens élèves ceux qui ont le plus fort de potentiel de donateur ?
  • Quels sont les caractéristiques qui maximisent l’efficacité de mon coupon de réduction ?

Commencer petit

Pour commencer dans le Big Data, il faut faire du Small Data.

Vous pensez que vos données peuvent contenir la réponse à votre question.

Soit.

Il n’est pas nécessaire de manipuler des centaines de millions de lignes pour vérifier votre intuition et partant de mettre sur le chemin critique de cette vérification de nombreux obstacles. Une feuille Excel suffit. En fait, il faut adopter une démarche Lean Startup et vérifier vos hypothèses fondamentales avec des moyens intermédiaires.

Aller vite

Et pour cela, nous utilisons les meilleurs outils (et les meilleurs ingénieurs :-)): MondoBrain en phase d’exploration des données interactive avec vos experts métier, la stack Spark, MLlib et Zeppelin en phase de conception de l’algorithme de Machine Learning répondant à la question initiale.

 

Synthèse de l’offre

L’application de ces principes nous permet de vous proposer une prestation de mise en œuvre de preuve de concept avec les principales caractéristiques suivantes :

Durée

30 jours ouvrés

Prix

Convenu entre les deux parties au préalable de la prestation, il peut être

  • soit un prix forfaitaire,
  • soit le résultat d’une formule de calcul basée sur la valorisation financière de la question posée.

Livrables

  • Le compte-rendu de la réunion de lancement
  • Le compte-rendu de la réunion de restitution
  • Le support de la réunion de restitution
  • Le programme source commenté du modèle apportant une réponse à la question identifiée pouvant s’exécuter dans un environnement 100% Open Source

 

Plan de Déroulement

Notre prestation de mise en oeuvre de preuve de concept se décompose en quatre étapes successives pilotées par des livrables.

Définition

 

Objectifs Cadrer la prestation
Déclenchement Accord contractuel
Entrées Dictionnaire des données (codebook)

Échantillon des données (< 30 variables, 10 000 observations)

Activités Spécifier la question à laquelle il faut répondre en explorant l’échantillon des données à l’aide de MondoBrain

Quantifier le montant de l’enjeu financier correspondant à cette question

Identifier les données à anonymiser

Transférer les données

Rôles de Neoxia Aider à la spécification de la question à l’aide de MondoBrain

Vérifier le bon transfert des données

Vérifier la qualité des données

Rôles du client Présenter la question à laquelle il faut répondre et les données correspondantes

Valoriser l’enjeu financier associé

Vérifications Transfert des données correct

Qualité des données suffisante

Données à anonymiser identifiées

Livrables Compte-rendu de la réunion de lancement incluant la spécification de la question à traiter, sa valorisation financière, la liste des données à anonymiser

Données transférées

Validations Validation du compte-rendu de la réunion de lancement
Charge 3 jours


MondoBrain

MondoBrain ?

 

MondoBrain est une solution d’exploration des données innovante utilisant des algorithmes de géométrie algébrique issus des travaux d’Alexandre Grothendieck. Cette rupture technologique par rapport aux techniques classiques d’inférence statistique lui confère un réel avantage compétitif : il n’y a plus besoin de faire des hypothèses restrictives sur les données. Continues, discrètes, nominales, ordinales, temporelles ou parfois manquantes, elles sont toutes prises en compte par le système.

 

Cette puissance de calcul est masquée à l’utilisateur qui explore un espace de solutions complexe correspondant à son système de variables de façon graphique et interactive. C’est cette capacité d’interaction qui en fait un outil d’Intelligence Augmentée.

En pratique, grâce à ses algorithmes, MondoBrain peut trouver des solutions là où les outils classiques échouent notamment du fait de données manquantes ce qui est un cas de figure très fréquent dans la réalité.

 

Dernier avantage et non des moindres, MondoBrain permet d’explorer des données brutes. Il n’est pas nécessaire de procéder à de nombreuses tâches de préparation préalable (imputation, centrage, normalisation,…). Cette étape de préparation peut prendre jusqu’à 80% du temps d’un projet de Machine Learning.

Data Engineering

 

Objectifs Mettre les données dans un format exploitable par les algorithmes de Machine Learning
Déclenchement Validation du compte-rendu de la réunion de lancement
Entrées Données transférées

Dictionnaire des données (Codebook)

Liste des données à anonymiser

Activités Anonymiser les données

Transférer les données sur le Cloud

Modifier les formats des données pour qu’ils soient directement exploitables par les algorithmes de Machine Learning

Concevoir et réaliser une stratégie d’imputation pour les données manquantes

Découper les données en trois datasets : train, validation et test

Rôles de Neoxia Réaliser les activités
Rôles du client Valider l’anonymisation

Répondre aux questions de Neoxia

Vérifications Respect des consignes d’anonymisation

Transfert des données correct

Livrables Données prêtes à être traitées
Validations Validation de l’anonymisation des données
Charge 6 à 8  jours

 

Data Science

 

Objectifs Élaborer un modèle répondant à la question posée
Déclenchement Données prêtes à être traitées
Entrées Données prêtes à être traitées
Activités Identifier les variables influentes

Organiser un point de visibilité intermédiaire : échange sur les variables influentes et les marges de manœuvre associées

Concevoir, réaliser et tester une chaîne de traitements de Machine Learning avec Spark et  MLlib

Tester différents algorithmes

Tester différents jeux de paramètres

Rôles de Neoxia Réaliser les activités
Rôles du client Répondre aux questions de Neoxia

Participer au point de visibilité intermédiaire

Vérifications Mesure de la précision du modèle sur le dataset de test
Livrables Modèle répondant à la question identifiée et implémenté dans une chaîne de traitements de Machine Learning
Validations
Charge 10 jours


spark-logo-trademark

Pourquoi Spark ?

Nous pensons qu’aujourd’hui il est judicieux de partir sur Spark pour les raisons suivantes.

  • Rapidité : Spark a été conçu pour tirer le meilleur parti des machines actuelles. L’utilisation de la mémoire lui permet d’aller de 10 à 100 plus vite que le couple Hadoop + MapReduce. Il devient dès lors possible de traiter des données massives avec des algorithmes itératifs de Machine Learning.
  • Généricité : un graphe orienté acyclique (DAG), le concept de base que Spark manipule, est beaucoup plus générique que MapReduce qui n’en est qu’un exemple.
  • Expressivité :  pour un traitement équivalent, il faut trois fois moins de code avec Spark qu’avec Hadoop. “Ce qui ce conçoit bien s’énonce clairement et les mots pour le dire arrivent aisément.” [Boileau – L’Art Poétique]
  • Unicité : Spark fait marcher le modèle Open Source à plein régime et n’est pas soumis aux tentatives de différenciation des éditeurs de distribution Hadoop.
  • Continuité :  le déploiement sur un cluster d’un traitement mis au point par un Data Scientist sur sa machine s’opère par un simple changement d’URL.

Restitution

Objectifs Décider de la suite à donner
Déclenchement Fin des travaux de la phase précédente
Entrées Modèle répondant à la question posée initialement
Activités Réaliser un support de restitution

Organiser une réunion de restitution

Présenter nos résultats

Rôles de Neoxia Réaliser les activités
Rôles du client Valider le modèle réalisé

Décider

  • de mettre en production le modèle réalisé ou
  • d’améliorer le modèle réalisé ou
  • d’arrêter les travaux

Valider le compte-rendu de la réunion de restitution

Vérifications Sans objet
Livrables Modèle répondant à la question posée

Compte-rendu de la réunion de restitution

Validations Validation du modèle réalisé

Validation du compte-rendu de la réunion de restitution

Charge 3 jours