top of page

Forecasting de besoins énergétiques par Linear Regression

Estimation de la faisabilité et développement d’un modèle de prédiction de la consommation d’énergie de bâtiments.

Contexte


Objectif de ville neutre en émissions de carbone en 2050 pour la ville de Seattle.

Consommation et émissions des bâtiments non destinées à l’habitation.


Données


Des relevés minutieux ont été effectués par les agents de la ville en 2016. Le jeu de données utilisés est disponible ici.

Les données datent de 2015 et 2016.


  • 2015 : 3340 individus et 47 variables

  • 2016 : 3376 individus et 46 variables


Variables


Les variables sélectionnées pour le modèles, en dehors des variables d’identification des bâtiments, sont :

  • Building Type/Property type : fonction du bâtiment

  • Year built : année de construction

  • Property Gross Floor Area Total : surface au sol totale du bâtiment

  • Electricity/Natural Gas/Steam Use : type de source d’énergie utilisée dans le bâtiment

  • Source Energy Use : énergie annuelle utilisée pour faire fonctionner la propriété, comprenant les pertes liée à la production, le transport et la distribution de cette énergie.


Les varables “targets” sont les suivantes :

  • Site Energy Use : consommation totale d’énergie du bâtiment

  • Total Green House Gas Emissions : quantité totale de gaz à effet de serre émis par le bâtiment


Analyse exploratoire


Analyse Univariée


Type de Bâtiment



L’analyse exploratoire sur la distribution des types de bâtiment revèle que seul 50% des bâtiments considérés sont de type non résidentiels. Les données des bâtiments résidentiels sont retirées.


Année de construction



Surface Totale du bâtiment



Target 1 : Émissions totales de gaz à effet de serre



Target 2 : Consommation énergétique sur site (kBtu)



Analyse Bivariée




Certaines variables quantitative semblent corrélées plus fortement à d'autres.


Effectuons des tests statistiques pour tester la significativité des valeurs du coefficient de Pearson.

Posons les hypothèses :

  • H0 : Variables indépendantes si p-value > a%

  • H1 : Variables non indépendantes si p-value < a%


On choisira a = 5 par défaut.


Calculons maintenant les p-values.


La target TotalGHGEmissions et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.

La target SiteEnergyUse(kBtu) et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.

Les targets SiteEnergyUse(kBtu) et TotalGHGEmissions sont corrélées, avec une p-value < 5%.


Les deux targets sélectionnées semblent corrélées à au moins une des variables explicatives (PropertyGFATotal), ce qui confirme qu'il est intéressant d'utiliser le jeu de données sélectionné pour les prédire.


Préparation des données


Après une séparation du jeu de données en données test et données d’entraînement pour le modèles, elles sont séparément nettoyées (traitement des valeurs manquantes, valeurs aberrantes…). Puis les variables quantitatives sont normalisées, les variables catégorielles binarisées.


Modélisation


Modèles testés


Dummy Regressor

Un modèle de régression très simple pour comparer avec les modèles les plus complexes.


Linear Regression

Un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.


Pour limiter le sur-apprentissage, on peut utiliser une technique, la régularisation, qui consiste à contrôler simultanément l'erreur du modèle sur le jeu d'entraînement et la complexité du modèle. Deux modes de régularisation sont testés :

  • Régularisation Ridge : modèle de régression avec un terme de régumarisation l2

  • Régularisation Lasso : modèle de régression avec un terme de régumarisation l1


Decision Tree

Un Arbre de Décision est un algorithme de Machine Learning permettant de classifier des données en se basant sur des suites de conditions. C’est un modèle non linéaire de suite de décision binaire.


Random Forest

Un modèle de Random Forest est composé d’un ensemble d’Abres de Décision. C’est donc un modèle ensembliste parallèle, composé de plusieurs Arbres de Décision.


Metrics


Afin de départager les différents modèles testés, les métriques suivantes ont été utilisées :

  • R² : Coefficient de détermination, carré de la corrélation de Pearson, doit être maximisé.

  • MAE (Mean Absolute Error) & MAPE (Mean Absolute Percentage Error) : somme des erreur absolues divisée par la taille de l’échantillon. Doit être minimisée.

  • RMSE (Root Mean Squarred Error) : racine de l’erreur quadratique moyenne. Doit être minimisée.

  • Computation time : temps de calcul par modèle.


Conclusion


Les meilleurs hyperparamètres sont déterminés par GridSearch.



MAE

MAPE

RMSE

Temps de Calcul

Dummy Regressor

0.00

>> 1

>> 1

>> 1

<< 0.01 s

Linear Regression

0.78

0.54

0.26

0.71

<< 0.01 s

Regression Ridge

0.82

0.55

0.25

0.71

<< 0.01 s

Regression Lasso

0.80

0.53

0.25

0.70

0.12 s

Decision Tree

0.94

0.16

0.04

0.40

<< 0.01 s

Random Forest

0.96

0.12

0.03

0.31

0.48 s


bottom of page