Problem.
Die Vorhersage von Heiz- und Kühllasten aus der Gebäudegeometrie ist ein klassisches Problem der Energietechnik. Architekten, die in der frühen Entwurfsphase Entscheidungen treffen (Wandfläche, Glasfläche, Dachfläche, Ausrichtung), müssen wissen, wie diese Entscheidungen in HLK-Auslegung und jährliche Energiekosten durchschlagen, bevor das Gebäude steht.
Der Datensatz simuliert 768 Gebäudekonfigurationen über acht Designparameter und berichtet die resultierenden Heiz- und Kühllasten. Die Frage, die dieses Projekt stellt: Welche Designentscheidungen wiegen am stärksten, und kann ein kleines lineares Modell die Last in der Entwurfsphase belastbar vorhersagen?
Mein Beitrag.
End-to-end-R-Analysepaket, eigenständig verantwortet:
- Datenlader mit Schema-Validierung. Erwartete Spalten, erwartete Typen, NA-Behandlung an der Grenze erzwungen.
- Deskriptive Statistik über alle acht Prädiktoren und beide Zielgrößen (Heizlast, Kühllast).
- Korrelationsanalyse zur Aufdeckung von Multikollinearität. Relative Kompaktheit, Oberfläche und Wandfläche clustern stark.
- Schrittweise lineare Regression zur Variablenauswahl, getrennt für Heizlast und Kühllast. Implementiert mit base
stats::stepund bidirektionalem AIC. - Variance-Inflation-Factor-Checks per
car::vifauf den ausgewählten Modellen, plus Normalitäts- (Shapiro-Wilk) und Heteroskedastizitäts-Tests (Breusch-Pagan-Stil) auf den Residuen. - Standard-Diagnostik-Plots: Residuen vs Fitted, Q-Q-Normalität, Scale-Location, Leverage.
- testthat-Suite mit synthetischer 200-Zeilen-Fixture, lintr-Config, R-CMD-check-CI-Matrix über mehrere R-Versionen.
Was die Analyse ergeben hat.
Glasfläche und Dachtyp tragen mehr Signal, als ich zu Beginn erwartet hatte. Relative Kompaktheit fällt unter schrittweiser Selektion heraus, weil die Oberfläche denselben Informationsgehalt mitführt, und das Modell ist ohne beide besser interpretierbar.
Das Kühllast-Modell hat merklich breitere Residuen als das Heizlast-Modell. Das sagt etwas über die zugrundeliegende Physik aus: Kühlbedarf hängt vom solaren Eintrag ab, der über Ausrichtung und Verglasung nicht-linear interagiert. Ein lineares Modell erfasst die Heizseite gut und liefert einen brauchbaren ersten Aufschlag auf der Kühlseite, aber die Kühlseite verdient für den Produktiveinsatz ein baumbasiertes oder interaktionsreiches Modell.
Warum dieses Projekt neben den größeren Arbeiten steht.
Dies ist eine kleine, fokussierte Übung in statistischer Modellierung. Es ist kein Produktivsystem. Was es zeigt, ist die Diagnostik-Disziplin: Jedes Modell bekommt seine Residuen geprüft, jede Variable ihren Korrelations-Cluster untersucht, jede Aussage über Wichtigkeit gegen die alternativen Erklärungen verteidigt.
Dieselbe Disziplin taucht in den größeren Pipelines wieder auf. Lineage und Tests sind nicht glamourös, aber sie sind der Unterschied zwischen einem Modell, das ausgeliefert wird, und einem, das beim ersten Kontakt mit echten Daten bricht.
Stack.
R · stats::step (schrittweise Selektion) · car (VIF und Diagnostik) · ggplot2 · readxl · testthat · lintr · GitHub Actions (R-CMD-check)