
Rapport de faisabilité d'une application de nutrition
Rédaction d’un rapport d’exploration pour la faisabilité d’une application d’évaluation nutritionnelle.
Contexte
Réponse d’un appel à projet pour une application innovante en lien avec l’alimentation.
Données
Le jeu de données utilisés est celui de Open Food Facts, disponible sur le site officiel. Les variables sont définies à cette adresse.
Les champs sont séparés en quatre sections :
Les informations générales sur la fiche du produit : nom, date de modification, etc.
Un ensemble de tags : catégorie du produit, localisation, origine, etc.
Les ingrédients composant les produits et leurs additifs éventuels.
Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.
Application : Made In Food
Le principe de l’applicaton est le suivant :
L’utilisateur précise son régime (végétarien, vegan, hyper-protéiné, sans sel…) : chaque variable aura un poids différent en fonction du régime sélectionné, positif ou négatif.
L’application donne une note globale aux produits en fonction de la composition, et du régime utilisateur.
L’application peut recommander un produit du même type avec une meilleure note.
Variables
En premier lieu, chaque produit de la liste doit être différentiable, les variables d’identification sont donc gardées (code, nom du produit…).
Afin de donner une note nutritionnelle globale aux produits, il est nécessaire d’avoir accès aux valeurs nutritionnelles (protéines, carbohydrates, sucres, sel…) pour 100 grammes de produit, ainsi qu’au nutriscore et nutrigrade fournis.
Au total, après traitement des valeurs manquantes et valeurs aberrantes, 15 variables sont pré-sélectionnées. Le jeu de données est prêt pour l’analyse, et la sélection finale des variables pertinentes.
Analyse
Analyse univariée
Nutrigrade : variable qualitative

On observe avec ce pie plot que plus de 40% des produits ont un Nutrigrade de d. Les autres grades sont répartis de façon plus ou moins égale, autour de 15%.
Nutriscore variable quantitative discrète

La distribution du Nutriscore semble indiquer une importante proportion de produits possèdant la note 10, cependant, il est possible que ce soit la conséquence du traitement des valeurs manquantes par la médiane.
Macros & nutriments : variables quantitatives continues

Analyse multivariée
Afin de vérifier la redondance de certaines variables, il est intéressant d’étudier le niveau de corrélation entre elles. En effet, garder deux variables corrélées n’apporte aucune valeur ajoutée pour la note finale.
ANOVA (ANalysis Of VAriance) - Nutriscore & Nutrigrade
Un test ANOVA permet de déterminer le degré de relation entre deux variables.

Les moyennes de chaque groupe de Nutriscore apparaissent clairement différentes. Plus le Nutriscore est haut plus la lettre est basse (e), et inversement.
La valeur de eta² est de 0.74, plus proche de 1 que de 0, ce qui semble indiquer de nouveau que les valeurs de chaque groupe du Nutriscore sont très proches, et qu’il existe une relation entre les variables Nutriscore et Nutrigrade.
Afin de confirmer cette idée, effectuons un test de significativité. Posons les hypothèses:
H0 : Les moyennes de chaque groupe sont égales si p-value > 5%
H1 : Les moyennes de chaque groupe ne sont pas toutes égales si p-value < 5%
Il apparait que p-value < 5%, l’hypothèse de corrélation est donc validée. Il est donc possible d'utiliser le Nutriscore ou le Nutrigrade, mais les deux seraient redondant.
Corrélation entre valeurs nutritionnelles
Afin d’observer les possibles relations entre variables nutritionnelles, j’utilise une heatmap qui me permet une vue d’ensemble sur toutes les variables quantitatives.

Grace à la matrice de corrélation, on voit plus clairement que les couples
Sucres/Carbohydrates,
Gras Saturé/Gras,
Nutriscore/Gras Saturé
Nutriscore/Gras
Sucres/Nutriscore
sont corrélés à un certain degré.
Pour chaque couple, j’effectue un test de significativité.
Posons les hypothèses :
H0 : Variables indépendantes si p-value > 5%
H1 : Variables non indépendantes si p-value < 5%
Le calcul de la p-value donne pour chaque couple :
Sucres/Carbohydrates : p-value < 5%
Gras Saturé/Gras : p-value < 5%
Nutriscore/Gras Saturé : p-value < 5%
Nutriscore/Gras : p-value < 5%
Sucres/nutriscore : p-value < 5%
Les variables Sucres, Gras et Gras saturé sont donc corrélé au Nutriscore. De plus les variables gras et gras saturé sont également corrélées, tout comme Sucres et Carbohydrates. J’écarte donc Sucres et Gras Saturé des variables pour la note globale.
Conclusion
Les variables nutritionnelles sélectionnées pour la note globale du produit sont :
Nutriscore
Carbohydrates pour 100g de produit
Gras pour 100 g de produit
Protéines pour 100 g de produit
Sel pour 100 g de produit
En bonus, il serait intéressant d'afficher le Nutrigrade associé au produit, comme information complémentaire, bien que la corrélation avec le Nutriscore soit avérée.