🏠 House Price Prediction ML Pipeline

A comprehensive machine learning pipeline for house price prediction featuring synthetic data generation, advanced feature engineering, and multiple ML algorithms with improved precision.

🎯 Project Overview

This project implements a complete end-to-end machine learning pipeline that:

Generates realistic synthetic house price data with minimal noise
Performs comprehensive data preprocessing and feature engineering
Trains and evaluates 6 different ML models with optimized hyperparameters
Provides detailed performance analysis and visualizations

📊 Key Features

Data Generation

Synthetic Dataset: Creates realistic house price data with logical relationships
Low Noise: Reduced noise (±$5,000) for better model precision
Larger Dataset: 1,000 samples for improved training

Feature Engineering

Advanced Features: 15+ engineered features including interaction terms
Domain Knowledge: Location scores, luxury indicators, efficiency metrics
Automated Pipeline: Seamless integration with preprocessing workflow

Model Training

6 ML Algorithms: Linear Regression, Ridge, Lasso, Elastic Net, Random Forest, Gradient Boosting
Optimized Hyperparameters: Enhanced parameter grids for better performance
10-Fold Cross Validation: Robust model evaluation

Performance Analysis

Comprehensive Metrics: RMSE, R², MAE, MAPE
Improved Precision: Target RMSE < $15,000, R² > 0.95, MAPE < 2.5%
Professional Visualizations: Model comparison, predictions, feature importance

🚀 Quick Start

Prerequisites

pip install -r requirements.txt

Running the Pipeline

python main.py

This executes the complete pipeline:

Generate 1,000 synthetic house price samples
Engineer 15+ features for better predictions
Train 6 ML models with hyperparameter tuning
Evaluate with 10-fold cross-validation
Create comprehensive visualizations
Save best model and results

📁 Project Structure

house-price-ml/
├── src/                          # Core modules
│   ├── data_generator.py         # Synthetic data with reduced noise
│   ├── data_preprocessor.py      # Feature engineering pipeline
│   └── model_trainer.py          # Model training with optimized params
├── config/
│   └── config.py                 # Centralized configuration
├── notebooks/                    # Analysis notebooks
├── data/                         # Generated datasets
├── models/                       # Trained models
├── results/                      # Performance metrics
├── logs/                         # Execution logs
├── main.py                       # Main execution script
└── requirements.txt              # Dependencies

📈 Expected Performance

Improved Metrics (vs Previous Version)

RMSE: < $15,000 (improved from $22,024)
R² Score: > 0.95 (improved from 0.9837)
MAE: < $12,000 (improved from $17,589)
MAPE: < 2.5% (improved from 2.78%)

Model Comparison

Linear Regression: Fast baseline
Ridge: L2 regularization
Lasso: Feature selection via L1
Elastic Net: Combined regularization
Random Forest: Ensemble method
Gradient Boosting: Advanced boosting

🔧 Configuration

Key settings in config/config.py:

Dataset: 1,000 samples, reduced noise
Models: Optimized hyperparameter grids
Validation: 10-fold cross-validation
Features: Enhanced engineering pipeline

📊 Enhanced Features

Base Features

Rooms, bathrooms, surface area, age
Neighborhood quality, city proximity
Garden size, parking, renovation status

Engineered Features

Efficiency: Room density, bathroom ratio, surface efficiency
Location: Location score, proximity categories
Value: Luxury score, property indicators
Interactions: Age×renovation, quality×surface
Categories: Age groups, surface tiers

💻 Usage Example

# Complete pipeline execution
from src.data_generator import HousePriceDataGenerator
from src.data_preprocessor import HousePricePreprocessor
from src.model_trainer import HousePriceModelTrainer

# Generate improved dataset
generator = HousePriceDataGenerator(random_seed=42)
data = generator.generate_dataset(num_samples=1000)

# Advanced preprocessing
preprocessor = HousePricePreprocessor()
X, y = preprocessor.prepare_features(data, include_engineered=True)
X_processed = preprocessor.fit_transform(X)

# Train optimized models
trainer = HousePriceModelTrainer()
models = trainer.train_all_models(X_train, y_train, tune_hyperparameters=True)
results = trainer.evaluate_all_models(X_test, y_test)

📋 Requirements

pandas>=1.5.0
numpy>=1.21.0
scikit-learn>=1.1.0
matplotlib>=3.5.0
seaborn>=0.11.0
openpyxl>=3.0.0
scipy>=1.9.0

🎯 Key Improvements

Reduced Noise: 80% noise reduction for better precision
Enhanced Features: 15+ engineered features with domain knowledge
Optimized Models: Improved hyperparameter ranges
Larger Dataset: 1,000 samples vs 300 for better training
Better Validation: 10-fold CV for robust evaluation

📄 License

MIT License - see LICENSE file for details.

Professional ML Pipeline: Ready for production use with comprehensive testing, documentation, and optimized performance.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🏠 House Price Prediction ML Pipeline

🎯 Project Overview

📊 Key Features

Data Generation

Feature Engineering

Model Training

Performance Analysis

🚀 Quick Start

Prerequisites

Running the Pipeline

📁 Project Structure

📈 Expected Performance

Improved Metrics (vs Previous Version)

Model Comparison

🔧 Configuration

📊 Enhanced Features

Base Features

Engineered Features

💻 Usage Example

📋 Requirements

🎯 Key Improvements

📄 License

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
config		config
data		data
logs		logs
models		models
notebooks		notebooks
results		results
src		src
.gitignore		.gitignore
README.md		README.md
dataset-metadata.json		dataset-metadata.json
main.py		main.py
requirements.txt		requirements.txt

Moanesbbr/HousePriceML

Folders and files

Latest commit

History

Repository files navigation

🏠 House Price Prediction ML Pipeline

🎯 Project Overview

📊 Key Features

Data Generation

Feature Engineering

Model Training

Performance Analysis

🚀 Quick Start

Prerequisites

Running the Pipeline

📁 Project Structure

📈 Expected Performance

Improved Metrics (vs Previous Version)

Model Comparison

🔧 Configuration

📊 Enhanced Features

Base Features

Engineered Features

💻 Usage Example

📋 Requirements

🎯 Key Improvements

📄 License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages