Evaluación C1: Control de Versiones & Machine Learning
Implementación de modelos predictivos colaborativos
Equipo MothCode:
Ali Astete
|
Terry Chauca
|
Ariana Molina
|
Joaquín Romero
|
Eliab Zamalloa (SCRUM)
📌 1. Fundamentos y Gestión
📁
Datasets (Kaggle)
Dataset A (Viviendas):
Properati Project. Orientado a modelos de predicción continua (Precio).
Dataset B (Salud):
Heart Disease UCI. Orientado al modelo de clasificación binaria.
Preprocesamiento:
Manejo de valores nulos (dropna) y escalado de variables con StandardScaler.
🌿
Flujo Git & GitHub
Ramas Base:
main
(protegida para producción) y
develop
(integración).
Ramas de Trabajo:
Uso del prefijo
feat/
para aislar el desarrollo de cada modelo matemático.
Validación:
Integración estricta mediante
Pull Requests (PR)
para evitar conflictos de código.
🤖 2. Modelos Predictivos
📉
Regresión Simple
Objetivo:
Predecir el precio de una vivienda usando 1 sola variable.
Variable:
Superficie (m²).
Límite del modelo:
Al ignorar el resto de características, la recta de predicción no captura la verdadera complejidad del mercado.
📊
Regresión Múltiple
Variables:
Superficie Total, Cubierta y Ambientes.
Algoritmo:
Mínimos Cuadrados Ordinarios (OLS). Intercepto en $46,024.56.
💡 Impacto:
"Ambientes" es el mejor predictor. Cada ambiente suma
$38,548.44
al precio base.
🎢
Regresión Polinómica
Objetivo:
Trazar curvas predictivas para relaciones no lineales en el Dataset de viviendas.
Mecanismo:
Eleva las variables a potencias (X², X³).
Riesgo analizado:
Potencial de
sobreajuste (overfitting)
si el grado del polinomio es muy alto.
⚕️
Regresión Logística
Objetivo:
Clasificación médica binaria (Sano = 0, Enfermo = 1).
Variables:
Edad (Age) y Colesterol (Chol) estandarizados.
Validación:
Frontera de Decisión gráfica y Matriz de Confusión sobre el conjunto de prueba (20%).
🎯 Acc: 66%
✅ Prec: 70%
🩺 Rec: 73%
🏁 3. Resultados Finales
💡
Conclusiones y Sugerencias
Impacto de los Modelos
La regresión múltiple superó ampliamente a la simple al considerar el contexto multicriterio de la propiedad.
En medicina, el
Recall del 73%
obtenido es clave para minimizar los falsos negativos (enfermos sin diagnosticar).
Trabajo de Ingeniería
El uso riguroso de Git previno la pérdida de código y sobreescrituras durante la integración.
A futuro:
Se sugiere implementar
GitHub Actions
para automatizar las pruebas, y probar
Random Forest
para mejorar el 66% de Accuracy.