Evaluación C1: Control de Versiones & Machine Learning

Implementación de modelos predictivos colaborativos

Equipo MothCode: Ali Astete | Terry Chauca | Ariana Molina | Joaquín Romero | Eliab Zamalloa (SCRUM)

📌 1. Fundamentos y Gestión

📁

Datasets (Kaggle)

  • Dataset A (Viviendas): Properati Project. Orientado a modelos de predicción continua (Precio).
  • Dataset B (Salud): Heart Disease UCI. Orientado al modelo de clasificación binaria.
  • Preprocesamiento: Manejo de valores nulos (dropna) y escalado de variables con StandardScaler.
🌿

Flujo Git & GitHub

  • Ramas Base: main (protegida para producción) y develop (integración).
  • Ramas de Trabajo: Uso del prefijo feat/ para aislar el desarrollo de cada modelo matemático.
  • Validación: Integración estricta mediante Pull Requests (PR) para evitar conflictos de código.

🤖 2. Modelos Predictivos

📉

Regresión Simple

  • Objetivo: Predecir el precio de una vivienda usando 1 sola variable.
  • Variable: Superficie (m²).
  • Límite del modelo: Al ignorar el resto de características, la recta de predicción no captura la verdadera complejidad del mercado.
📊

Regresión Múltiple

  • Variables: Superficie Total, Cubierta y Ambientes.
  • Algoritmo: Mínimos Cuadrados Ordinarios (OLS). Intercepto en $46,024.56.
💡 Impacto: "Ambientes" es el mejor predictor. Cada ambiente suma $38,548.44 al precio base.
🎢

Regresión Polinómica

  • Objetivo: Trazar curvas predictivas para relaciones no lineales en el Dataset de viviendas.
  • Mecanismo: Eleva las variables a potencias (X², X³).
  • Riesgo analizado: Potencial de sobreajuste (overfitting) si el grado del polinomio es muy alto.
⚕️

Regresión Logística

  • Objetivo: Clasificación médica binaria (Sano = 0, Enfermo = 1).
  • Variables: Edad (Age) y Colesterol (Chol) estandarizados.
  • Validación: Frontera de Decisión gráfica y Matriz de Confusión sobre el conjunto de prueba (20%).
🎯 Acc: 66% ✅ Prec: 70% 🩺 Rec: 73%

🏁 3. Resultados Finales

💡

Conclusiones y Sugerencias

Impacto de los Modelos

  • La regresión múltiple superó ampliamente a la simple al considerar el contexto multicriterio de la propiedad.
  • En medicina, el Recall del 73% obtenido es clave para minimizar los falsos negativos (enfermos sin diagnosticar).

Trabajo de Ingeniería

  • El uso riguroso de Git previno la pérdida de código y sobreescrituras durante la integración.
  • A futuro: Se sugiere implementar GitHub Actions para automatizar las pruebas, y probar Random Forest para mejorar el 66% de Accuracy.
Web hosting by Somee.com