
Forecasting de besoins énergétiques par Linear Regression
Estimation de la faisabilité et développement d’un modèle de prédiction de la consommation d’énergie de bâtiments.
Contexte
Objectif de ville neutre en émissions de carbone en 2050 pour la ville de Seattle.
Consommation et émissions des bâtiments non destinées à l’habitation.
Données
Des relevés minutieux ont été effectués par les agents de la ville en 2016. Le jeu de données utilisés est disponible ici.
Les données datent de 2015 et 2016.
2015 : 3340 individus et 47 variables
2016 : 3376 individus et 46 variables
Variables
Les variables sélectionnées pour le modèles, en dehors des variables d’identification des bâtiments, sont :
Building Type/Property type : fonction du bâtiment
Year built : année de construction
Property Gross Floor Area Total : surface au sol totale du bâtiment
Electricity/Natural Gas/Steam Use : type de source d’énergie utilisée dans le bâtiment
Source Energy Use : énergie annuelle utilisée pour faire fonctionner la propriété, comprenant les pertes liée à la production, le transport et la distribution de cette énergie.
Les varables “targets” sont les suivantes :
Site Energy Use : consommation totale d’énergie du bâtiment
Total Green House Gas Emissions : quantité totale de gaz à effet de serre émis par le bâtiment
Analyse exploratoire
Analyse Univariée
Type de Bâtiment

L’analyse exploratoire sur la distribution des types de bâtiment revèle que seul 50% des bâtiments considérés sont de type non résidentiels. Les données des bâtiments résidentiels sont retirées.
Année de construction

Surface Totale du bâtiment

Target 1 : Émissions totales de gaz à effet de serre

Target 2 : Consommation énergétique sur site (kBtu)

Analyse Bivariée

Certaines variables quantitative semblent corrélées plus fortement à d'autres.
Effectuons des tests statistiques pour tester la significativité des valeurs du coefficient de Pearson.
Posons les hypothèses :
H0 : Variables indépendantes si p-value > a%
H1 : Variables non indépendantes si p-value < a%
On choisira a = 5 par défaut.
Calculons maintenant les p-values.
La target TotalGHGEmissions et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.
La target SiteEnergyUse(kBtu) et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.
Les targets SiteEnergyUse(kBtu) et TotalGHGEmissions sont corrélées, avec une p-value < 5%.
Les deux targets sélectionnées semblent corrélées à au moins une des variables explicatives (PropertyGFATotal), ce qui confirme qu'il est intéressant d'utiliser le jeu de données sélectionné pour les prédire.
Préparation des données
Après une séparation du jeu de données en données test et données d’entraînement pour le modèles, elles sont séparément nettoyées (traitement des valeurs manquantes, valeurs aberrantes…). Puis les variables quantitatives sont normalisées, les variables catégorielles binarisées.
Modélisation
Modèles testés
Dummy Regressor
Un modèle de régression très simple pour comparer avec les modèles les plus complexes.
Linear Regression
Un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.
Pour limiter le sur-apprentissage, on peut utiliser une technique, la régularisation, qui consiste à contrôler simultanément l'erreur du modèle sur le jeu d'entraînement et la complexité du modèle. Deux modes de régularisation sont testés :
Régularisation Ridge : modèle de régression avec un terme de régumarisation l2
Régularisation Lasso : modèle de régression avec un terme de régumarisation l1
Decision Tree
Un Arbre de Décision est un algorithme de Machine Learning permettant de classifier des données en se basant sur des suites de conditions. C’est un modèle non linéaire de suite de décision binaire.
Random Forest
Un modèle de Random Forest est composé d’un ensemble d’Abres de Décision. C’est donc un modèle ensembliste parallèle, composé de plusieurs Arbres de Décision.
Metrics
Afin de départager les différents modèles testés, les métriques suivantes ont été utilisées :
R² : Coefficient de détermination, carré de la corrélation de Pearson, doit être maximisé.
MAE (Mean Absolute Error) & MAPE (Mean Absolute Percentage Error) : somme des erreur absolues divisée par la taille de l’échantillon. Doit être minimisée.
RMSE (Root Mean Squarred Error) : racine de l’erreur quadratique moyenne. Doit être minimisée.
Computation time : temps de calcul par modèle.
Conclusion
Les meilleurs hyperparamètres sont déterminés par GridSearch.
R² | MAE | MAPE | RMSE | Temps de Calcul | |
---|---|---|---|---|---|
Dummy Regressor | 0.00 | >> 1 | >> 1 | >> 1 | << 0.01 s |
Linear Regression | 0.78 | 0.54 | 0.26 | 0.71 | << 0.01 s |
Regression Ridge | 0.82 | 0.55 | 0.25 | 0.71 | << 0.01 s |
Regression Lasso | 0.80 | 0.53 | 0.25 | 0.70 | 0.12 s |
Decision Tree | 0.94 | 0.16 | 0.04 | 0.40 | << 0.01 s |
Random Forest | 0.96 | 0.12 | 0.03 | 0.31 | 0.48 s |