Evaluación C1: Control de Versiones & Machine Learning

Implementación de modelos predictivos colaborativos

Equipo MothCode: Ali Astete | Terry Chauca | Ariana Molina | Joaquín Romero | Eliab Zamalloa (SCRUM)

📌 1. Fundamentos y Gestión

📁

Datasets (Kaggle)

Dataset A (Viviendas): Properati Project. Orientado a modelos de predicción continua (Precio).
Dataset B (Salud): Heart Disease UCI. Orientado al modelo de clasificación binaria.
Preprocesamiento: Manejo de valores nulos (dropna) y escalado de variables con StandardScaler.

🌿

Flujo Git & GitHub

Ramas Base: main (protegida para producción) y develop (integración).
Ramas de Trabajo: Uso del prefijo feat/ para aislar el desarrollo de cada modelo matemático.
Validación: Integración estricta mediante Pull Requests (PR) para evitar conflictos de código.

🤖 2. Modelos Predictivos

📉

Regresión Simple

Objetivo: Predecir el precio de una vivienda usando 1 sola variable.
Variable: Superficie (m²).
Límite del modelo: Al ignorar el resto de características, la recta de predicción no captura la verdadera complejidad del mercado.

📊

Regresión Múltiple

Variables: Superficie Total, Cubierta y Ambientes.
Algoritmo: Mínimos Cuadrados Ordinarios (OLS). Intercepto en $46,024.56.

                💡 Impacto: "Ambientes" es el mejor predictor. Cada ambiente suma $38,548.44 al precio base.
            

🎢

Regresión Polinómica

Objetivo: Trazar curvas predictivas para relaciones no lineales en el Dataset de viviendas.
Mecanismo: Eleva las variables a potencias (X², X³).
Riesgo analizado: Potencial de sobreajuste (overfitting) si el grado del polinomio es muy alto.

⚕️

Regresión Logística

Objetivo: Clasificación médica binaria (Sano = 0, Enfermo = 1).
Variables: Edad (Age) y Colesterol (Chol) estandarizados.
Validación: Frontera de Decisión gráfica y Matriz de Confusión sobre el conjunto de prueba (20%).

🎯 Acc: 66% ✅ Prec: 70% 🩺 Rec: 73%

🏁 3. Resultados Finales

💡

Conclusiones y Sugerencias

Impacto de los Modelos

La regresión múltiple superó ampliamente a la simple al considerar el contexto multicriterio de la propiedad.
En medicina, el Recall del 73% obtenido es clave para minimizar los falsos negativos (enfermos sin diagnosticar).

Trabajo de Ingeniería

El uso riguroso de Git previno la pérdida de código y sobreescrituras durante la integración.
A futuro: Se sugiere implementar GitHub Actions para automatizar las pruebas, y probar Random Forest para mejorar el 66% de Accuracy.

Web hosting by Somee.com