🇬🇧 Welcome to my menjunje!
For the time being, I plan on publishing here a series of articles on data scrubbing, mangling, analysis and ML on a basic and well known database.
The first part will cover some feature ranking and selection, normalization and exploratory analysis. The second one, some comparison between different techniques for balancing an imbalanced dataset. For the inference part I will compare support vector machines as classifiers against artificial neural networks and gradient boosting decision trees. Later, I will implement Bayesian Optimization for hyperparameter tuning (such as RBF kernel γ and SVM C) as opposed to inefficient grid search.
At the end of this series I will be posting a notebook with the whole code used for all of this.
🇪🇸 ¡Bienvenido a mi menjunje!
La idea de este blog es, por el momento, publicar una serie de artículos con técnicas de un proceso end-to-end (de principio a fin) de análisis de datos y construcción de modelos estadísticos o de machine learning (aprendizaje automático).
La primera parte se centrará en hacer una selección de variables según su importancia, reducir la dimensionalidad de la base de datos y análisis exploratorio. En la segunda se compararán distintas de balanceo de datos desbalanceados viendo sus efectos sobre distintos modelos de clasificación: máquinas de vectores soporte, redes neuronales y boosting de árboles de decisión por gradiente. Más adelante se verá cómo seleccionar hiperparámetros con optimización bayesiana.
Al terminar la serie de artículos, haré disponible un notebook de Jupyter con el código de todo el análisis.
Posts
California housing II - Balancing imbalanced data and its consequences
California housing I - Selección de variables y análisis exploratorio de datos
California housing I - Feature selection and data exploration
subscribe via RSS