Los modelos NLP modernos con arquitectura tipo Transformer son increíblemente efectivos, pero también necesitan una increíble cantidad de datos para entrenar bien. En esta charla comentaré procedimientos para filtrar adecuadamente esos datasets de entrenamiento, especialmente el muestreo basado en perplejidad.