Загрузка...

Curso ML 2026 #5 | Train/Test Split explicado

En este live vamos a profundizar en una de las etapas más críticas y subestimadas de cualquier proyecto de Machine Learning: la creación correcta del conjunto de entrenamiento y prueba (train/test split). No solo veremos cómo dividir los datos, sino por qué hacerlo mal puede llevar a modelos que parecen buenos… pero fallan en producción.

Comenzaremos entendiendo el concepto de data snooping bias y por qué mirar el test set antes de tiempo genera estimaciones demasiado optimistas. A partir de ahí, construiremos un test set desde cero usando muestreo aleatorio, analizaremos sus limitaciones y veremos cómo asegurar reproducibilidad mediante semillas aleatorias.

Luego avanzaremos hacia soluciones más robustas: splits estables basados en identificadores, uso de hashes para evitar fugas de información al actualizar datasets, y cómo manejar escenarios donde no existe un ID natural en los datos. Todo esto con ejemplos prácticos en Python.

También discutiremos los errores más comunes al dividir datos, cómo evitar fugas de información (data leakage) y por qué la estabilidad del conjunto de prueba es clave cuando los datasets evolucionan con el tiempo.

Esta sesión está orientada a que entiendas no solo cómo hacer un train/test split, sino cómo hacerlo correctamente en escenarios reales, pensando en producción y en la confiabilidad de tus métricas.

Temas clave:

Qué es el train/test split y por qué es crítico
Data snooping bias y sobreajuste conceptual
Creación manual de conjuntos de entrenamiento y prueba
Reproducibilidad y uso de semillas aleatorias
Splits estables usando identificadores y hashing
Problemas comunes al actualizar datasets
Uso de train_test_split en Scikit-Learn

Material de apoyo: Leer los siguientes temas del capitulo 2 del libro Hands-On Machine Learning with Scikit-Learn and PyTorch - Aurélien Géron

* Get the Data
- Create a Test Set

Episodio Spotify de apoyo: https://open.spotify.com/episode/3NKxJNWHocviJhWsmgMzpI?si=jFNYQCuARmKdOyCAwqIiEQ

🔗 Suscripciones 👉 https://www.youtube.com/cha.../UCpqqJGMaVEmyinn1J-DhnYg/join
💬 Discord 👉 https://discord.com/users/pildorasdeprogramacion
📸 Instagram 👉 https://www.instagram.com/pildoras_de_programacion/
🎵 TikTok 👉 https://www.tiktok.com/@pil_programacion?lang=en
📘 Facebook 👉 https://www.facebook.com/pilprogramacion
📺 YouTube 👉 https://www.youtube.com/@pildorasdeprogramacion
🔔 ¡Suscríbete y activa la campanita para no perderte futuros lives!
🔴 ¡Nos vemos en el live! 🚀🐳

Видео Curso ML 2026 #5 | Train/Test Split explicado канала Pildoras de programación
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять