MACHINE LEARNING CON R

OBJETIVOS

Que los participantes:

  • Logren cargar y manipular datos en R utilizando RStudio.
  • Puedan explorar y analizar los datos con técnicas estadísticas y análisis gráfico para la comprensión de los datos.
  • Comprendan la importancia de la preparación de datos en cualquier proyecto machine learning.
  • Puedan discernir en el uso de un algoritmo de otro.
  • Logren crear su primer modelo predictivo, validarlo y aplicarlo a nuevos datos simulando una simple implementación en producción.

METODOLOGÍA

El curso se desarrollará a través de la exposición teórica de fundamentos que permitan al participante ubicarse, así como también el intercambio de experiencias formativas y profesionales. Desarrollará su capacidad de análisis y síntesis en las diferentes actividades planteadas. Asimismo, el desarrollo de casos prácticos reales en clase, permitirá aprender – haciendo, integrando la teoría con la práctica, abordando las principales herramientas y metodologías utilizadas para evitar incumplimientos corporativos.

CONTENIDO

Estadística. Variable aleatoria. Vector aleatorio. Función de probabilidad. Función de Distribución. Muestra aleatoria. Matriz de datos. Matriz de covarianzas. Matriz de correlaciones. Distancia euclidiana. Distancia de Mahalanobis. Programación en R. estructuras de control. Creación de funciones. Métodos estadísticos computacionales. Estimación por Simulación Monte Carlo. El método Bootstrap.

Análisis de variables categóricas y numéricas, métricas y gráficos. Métricas de dispersión y percentiles. Visualización y entendimiento de los datos. Introducción a los paquetes standard de gráficos y procesamiento de datos: “tidyverse” con “dplyr”. Breve introducción a ggplot2. Cómo filtrar, ordenar, agrupar y crear nuevas columnas.
 
Joins entre tablas. Tipos de gráficos de acuerdo a la necesidad a resolver. Análisis de valores nulos (missing) y extremos (outliers). Calcular métricas por grupo, aplicando varias funciones (group by). Métricas de asociación entre variables. Análisis de variables respecto a un objetivo dado.

Reduciendo los datos con Clustering y ACP. Clustering jerárquicos y dendogramas. Las distancias y el método de generación del cluster. Clusterings divisitivos y cortes en el dendograma. Clustering partitivos con k-means.

Regresión lineal múltiple. Validación del modelo de regresión lineal. Análisis de los residuos. Regresión no lineal: Logit y Probit binarios. Validación del modelo. Selección de variables relevantes. Entrenamiento y comprobación de los modelos de regresión. Análisis para clasificadores binarios. Matrices de confusión. Diagramas ROC. Predicción.

Análisis y representaciones para clasificar correctamente. Los árboles de clasificación. La poda del árbol de clasificación. Explicación de los modelos más populares: Random Forest y Extreme Gradient Boosting Machine (xgboost). Creación y validación de un modelo Random Forest en R. Implementación del modelo Random Forest, predicción de casos nuevos y reporte final de resultados.

Técnicas de aprendizaje automático: Máquinas de soporte vectorial. Redes bayesianas. Redes neuronales. Otras técnicas: K Nearest Neighbors.

Series temporales y su utilidad. El formato de fecha en R. Operaciones y secuencias de fechas. Análisis preliminar de una serie temporal. La descomposición de una serie temporal. El filtrado de series temporales para localizar tendencias. Suavizado y predicción con el método de Holt-Winters. Creando un modelo autorregresivo integrado de media móvil ARIMA. Entrenamiento y comprobación de un modelo de serie de tiempo. Predicción.

CERTIFICACIÓN

Con el objetivo de certificar el logro de los objetivos de aprendizaje teórico-práctico, el participante deberá rendir un examen teórico y presentar un trabajo donde integrará todo lo aprendido durante el curso con la finalidad de demostrar con una aplicación real su dominio en las herramientas tanto teóricas como prácticas. Para lograr la certificación, a nombre de la Universidad Nacional de Ingeniería, deberá obtener un record de asistencia no menor al 80% del total de clases programadas y con una nota superior a 13.

DOCENTE: Kesber Angulo Sánchez

Profesional en Ingeniería Estadística de la UNI con más de 10 años de experiencia en consultoría en análisis de datos y docencia. Actualmente es Consultor Senior en Business Analytics en Infórmese SAC. Posee mentalidad analítica sobre los datos y capacidad proactiva para plantear soluciones con el uso de los datos. Experto en Minería de Datos consiguiendo desarrollar e implementar estrategias y metodologías para la manipulación y preparación de grandes volúmenes de datos para lograr mejorar la información de los datos y mejorar la capacidad predictiva de los modelos. Es experto en desarrollar Modelos Analíticos que incluyen modelos predictivos, estimación de indicadores de negocio, cálculo de errores muestrales, desarrollo de algoritmos. Ha desarrollado Modelos en Telecomunicaciones, Entidades Gubernamentales, Sector Académico y Multiindustria.

HORARIO:

Sábados :   8:00 am – 12:00 pm
Domingos:  8:00 am – 12:00 pm

INFORMES

Correo: uprobys.fieecs@uni.edu.pe
Telefono: 382-4708 / 481-1070 anexo: 5412
Whatsapp:  941875336

Formulario

El llenado del formulario no significa la reserva de su vacante.

Contáctenos

Rellena los datos