Conjuntos de datos para machine learning

Dialéktico
Compartir

CONTENIDO

Si hay notación matemática, se recomienda la visualización de este contenido en una computadora

Uno de los términos que avistarás con mayor frecuencia por estos rumbos es el de conjunto de datos (dataset), ya que, como vimos en la introducción al machine learning, es uno de los ingredientes principales e emprescindibles en toda técnica del aprendizaje de máquinas, y en general de la ciencia de datos y sus derivados.

En este recorrido definiremos brevemente qué son los conjuntos de datos, cuáles son sus características, y, finalmente, algunos ejemplos enfocados en enfatizar su variedad y uso para la resolución de problemas.

IND Nivel
Inventario recomendado
Travel Bag

Exploración en datos

Conocimiento sobre datos y sus tipos.

TiposDD 3

Algún aperitivo para acompañar

image 6

¿Qué son los conjuntos de datos para machine learning?

Pergamino_3

Un conjunto de datos es una coleccion de datos que puede ser percibida como una unidad para su procesamiento computacional. En aprendizaje de máquinas, se utiliza para entrenar y evaluar modelos matemáticos, y es claramente un bloque más que sustancial en este campo, ya que el aprendizaje se produce exclusivamente a través de su procesamiento.

CDL1v4

Así es, un conjunto de datos se puede ver como la información recabada para propiciar que una máquina logre realizar alguna tarea mediante aprendizaje automático, forjando un modelo a partir de los patrones extraídos de los datos.

El concepto de conjunto de datos tiene una relación con el de muestra y población en estadística, siendo la muestra un subconjunto de una población, y la población el universo o totalidad de datos referentes a un tema de estudio. En el contexto del machine learning, un conjunto de datos se puede percibir como una muestra estadística en un formato legible para una máquina.

CDD K1

Pronto exploraremos algunos ejemplos para tener una percepción más clara. Por el momento, nos detendremos un poco para aprender sobre una distinción clave de los tipos de conjuntos de datos en machine learning: los conjuntos de datos etiquetados.

Conjuntos de datos etiquetados y no etiquetados

En machine learning, una de las principales distinciones que se pueden hacer sobre conjuntos de datos es si estos están etiquetados o no. Con etiquetar datos, nos referimos a especificar entradas y salidas, donde las entradas son las características de los objetos de estudio, mientras que las salidas son algún aspecto o resultado asociado a estas características.

Un ejemplo de esto se puede encontrar en el procesamiento de imágenes, ¿recuerdas el ejemplo de la computadora aprendiendo a reconocer gatos?, bien, pues en ese caso las entradas son las imágenes de animales, y las salidas son los nombres de animales asociados a cada imagen, como se muestra en la Figura 2.3.1.

CDD Types 2
Figura 2.3.1 Ejemplos de datos etiquetados, donde cada imagen representa las características a aprender (entradas), y el nombre del animal es la salida (aquello que se desea predecir o calcular).

En la imagen se puede dilucidar con claridad la distinción entre entradas y salidas, las cuales la máquina tomará en consideración para aprender a reconocer gatos: procesará las imágenes y sus características respecto a las etiquetas de cada una, que en este caso es el nombre asociado (del animal referido en la imagen).

Nota: para casos como este, donde se busca específicamente el reconocimiento de gatos sobre otras especies, las etiquetas pueden ser más eficientes si solo se distingue entre dos clases: gatos y otros animales (en vez de detallar si se trata de un pato, perro, oso, etc). Las etiquetas aquí mostradas son ilustrativas, y su fin es dar a entender las diferencias esenciales entre entradas y salidas de un modelo de machine learning. Con el tiempo lograrás dominar el arte de preparar los datos de la mejor manera para su procesamiento.

El etiquetado de conjuntos de datos puede presentarse en diferentes formas dependiendo de su naturaleza y del objetivo perseguido, otros ejemplos para diversos tipos de enfoques pueden ser:

  • Un conjunto de datos de sonidos, donde cada sonido (entrada) está asociado a un instrumento musical (salida).
  • Un conjunto de datos de rostros de personas, donde cada rostro (entrada) esta etiquetado con un nombre (salida).
  • Un conjunto de datos que contiene información sobre las ventas de un comercio respecto al número de clientes y ofertas; cada número de clientes y ofertas (entradas) está etiquetada con el numero de ventas diarias (salida).
CDD A1 2

El etiquetado de datos y su función se entenderán mejor en lecciones posteriores. Hay que tomar en cuenta que los datos tienen señaladas sus entradas y salidas específicamente cuando se trata de entrenar algoritmos de aprendizaje supervisado, y por lo tanto es sumamente crucial entenderlo y aplicarlo, ya que este es generalmente el tipo de machine learning que se aprende a dominar primero.

Ejemplo de datos etiquetados en tablas

Por último demos un vistazo a lso datos etiquetados en un formato específico y profusamente común: las tablas. A pesar de que existe una gran cantidad de datos no estructurados para aprendizaje de máquinas, la realidad es que, tanto en el ámbito laboral como académico, será muy común realizar tareas utilizando grandes volúmenes en conjuntos de datos dispuestos en tablas, por lo que es necesario entender cómo se etiquetan los datos cuando están contenidos en este formato.

Entenderlo será más sencillo de lo que parece, ya que lo abordaremos con un ejemplo.

Supongamos que deseamos crear un modelo de machine learning capaz de estimar el precio de una computadora respecto a algunas características físicas, como almacenamiento, tamaño de la pantalla, memoria RAM, entre otros.

Para lograr esto, se debe procesar toda la información que tengamos a la mano que sobre dicho objeto de estudio, por lo que buscamos recolectar datos de computadoras de años recientes, sus características, y sus precios.

Supongamos que hemos hallado una base de datos con computadoras vendidas en una página web llamada «computadorasdialektico.com». Nuestro conjunto de datos para este objetivo es justo esta información, la cual debe estar dispuesta de una manera en que pueda ser procesada por una computadora, por lo que elegimos organizarla en una tabla, donde cada renglón contiene un ejemplo u observaciones de los objetos que componen al conjunto; es decir, un renglón contendrá los datos de una computadora: sus especificaciones, y su precio, como se muestra en la Figura 2.3.2:

conjunto de datos
Fig. 2.3.2 Fragmento de una tabla con datos de computadoras y sus precios, donde cada renglón contiene tres especificaciones técnicas (disco HD en GBs, memoria RAM en GBs, tamaño de pantalla en pulgadas) y su precio. Toda la tabla es el conjunto de datos que se utilizaría para entrenar el modelo de aprendizaje automático. Sin embargo, no está limitada a este fin, ya que puede ser utilizada para cualquier tipo de tratamiento matemático que satisfaga uno o más objetivos particulares.

Esta tabla con información de computadoras es nuestro conjunto de datos, el cual se utilizará para entrenar un modelo de aprendizaje capaz de estimar precios.

Justo aquí es donde saltamos a un último concepto medular, llamado ejemplo de entrenamiento.

Ejemplos de entrenamiento

Un ejemplo de entrenamiento (instance) es una pareja de entradas/salida de un conjunto de datos. Pensando en el caso de imágenes de animales etiquetadas, un ejemplo de entrenamiento es una imagen y su respectiva etiqueta.

Retornando a nuestro ejemplo con computadoras, podremos notar que las características de estas son las entradas (las cuales, por cierto, a veces verás nombradas como atributos, características o features/inputs), mientras que su precio es la salida (la cual puede ser identificada como etiqueta, objetivo, o label/outpus), ya que este es del que buscamos realizar predicciones.

Cada emparejamiento de entradas y su respectiva salida (ejemplo de entrenamiento), en el conjunto de datos antes citado, luce de la siguiente forma:

conjunto de datos
Fig. 2.3.3 Un ejemplo de entrenamiento en un conjunto de datos organizado en una tabla, se puede definir someramente como un renglón de la matriz o tabla. Está compuesto por los atributos (entradas) y etiquetas (salidas) de los objetos que conforman al conjunto de datos, en este caso: computadoras.

En la Figura 2.3.4 podemos visualizar cómo los ejemplos de entrenamiento conforman al total del conjunto de datos:

conjunto de datos
Fig. 2.3.4 Ilustración sobre los ejemplos de entrenamiento en un conjunto de datos.

Conjuntos de datos: definición matemática

La definición matemática de los conjuntos antes era parte de esta exploración, pero se ha decidido mover a una sesión posterior para poder realizar las generalizaciones conceptuales de mejor manera. Si gustas echarle un vistazo, puedes visitar el siguiente link:

Sin embargo, te recomiendo esperar a llegar a esta parte de forma orgánica. Antes tocaremos otros temas relevantes y menos intrincados.

Contesta las siguientes preguntas

1 / 2

Tienes la tarea de crear un algoritmo de aprendizaje supervisado que estime las calificaciones de alumnos de una escuela de tu localidad de acuerdo a los siguientes datos de cada uno: nivel socioeconómico, edad, última calificación, y género. ¿Cuáles son las prácticas más recomendadas para crear tu conjunto de datos? Selecciona todas las que apliquen.

2 / 2

Después de colocar tus datos en una tabla, insertando las características en las primeras columnas, y la calificación de cada alumno en la última, ¿cuál de las siguientes representa a un ejemplo de entrenamiento para el aprendizaje de tu modelo?

Tu puntación es

La puntuación media es 59%

0%

Aquí concluye tu introducción a este primordial objeto para la ciencia de datos; recuerda que los conjuntos de datos pueden venir en variadas presentaciones y provenir de diversos orígenes, puede tratarse tanto de datos estructurados como no estructurados, y dependiendo del tipo de algoritmo a utilizar, puede necesitarse que estén etiquetados.

En nuestra siguiente parada, avistaremos algunas metodologías y lugares de donde podrás obtener conjuntos de datos para tus proyectos de machine learning, o cualquier otra tarea que requiera cúmulos de información.

Button2 1

DEJA TUS DUDAS O COMENTARIOS

Suscríbete
Notíficame de
guest

0 Comentarios
Más viejo
Más nuevo Más votado
Respuestas entre líneas
Ver todos los comentarios
0
¿Dudas, sugerencias, o comentarios? Deja un mensaje.x