Conjuntos de datos etiquetados: exploración y definición matemática

En lo que se refiere a conjuntos de datos, existe un tipo de estos que tiene suma importancia para el machine learning, específicamente para el aprendizaje supervisado: los conjuntos de datos etiquetados.

En esta exploración hablaremos sobre qué son los datos etiquetados, sus diferencias con los datos no etiquetados, algunos ejemplos, y su respectiva definición matemática.

dificultad dialéktico
Inventario recomendado
inventario dialéktico

Conjuntos de datos

Conocimiento sobre conjuntos de datos.

conjuntos de datos dialéktico

Matemáticas

Álgebra lineal y conjuntos

Matemáticas dialéktico

Tentempié

snack dialéktico

¿Qué son los conjuntos de datos etiquetados y no etiquetados?

Pergamino_3

En machine learning, una de las principales distinciones que se puede hacer sobre conjuntos de datos es si están etiquetados o no. Con etiquetar datos, nos referimos a especificar dos aspectos principales sobre estos: las entradas y salidas.

Las entradas de un conjunto de datos son las características de los objetos de estudio que comprenden al conjunto de datos, mientras que las salidas son algún aspecto o resultado asociado a estas características.

Para entenderlo, veamos un ejemplo.

Supongamos que queremos utilizar un algoritmo de aprendizaje de máquinas para entrenar un modelo con la capacidad de reconocer animales al entregarle alguna imagen de estos.

En este caso, utilizaremos un conjunto de datos de imágenes de animales, pero además etiquetaremos los datos añadiendo el correspondiente nombre del animal a cada imagen.

El resultado es la obtención del conjunto de datos distinguiendo entre dos elementos clave: las entradas, las cuales son las imágenes de animales, y las salidas, que son los nombres de animales asociados a cada imagen, como se muestra en la Figura 2.3.1.1:

ejemplos de entradas y salidas en machine learning, por ialéktico
Figura 2.3.1.1 Ejemplo de datos etiquetados. Cada imagen representa las características a aprender por el algoritmo (entradas), y el nombre del animal, el cual es aquello que se desea predecir o calcular con el modelo resultante (salidas).

En la imagen se puede dilucidar con claridad la distinción entre entradas y salidas, las cuales la máquina tomará en consideración para aprender a reconocer animales: procesará las imágenes y sus características respecto a las etiquetas de cada una, que en este caso es el nombre del animal referido en cada imagen.

laiahrang

Sí, etiquetar se trata sobre dar información a la computadora sobre la relación que esperamos modelar de las características de los datos con algún resultado. En el ejemplo, buscamos entrenar un modelo para que entienda la forma en que se relacionan las imágenes de los animales con su nombre, propiciando un aprendizaje de identificación, en el que la máquina calculará un nombre dada una imagen nueva.

El etiquetado de conjuntos de datos puede presentarse en diferentes formas dependiendo de su naturaleza y del objetivo perseguido, en la Figura 2.3.1.2 se pueden consultar algunos ejemplos para diversos tipos de enfoques, mencionando el objetivo del modelo, el conjunto de datos, sus entradas y salidas:

Ejemplos de Datos etiquetados para entrenamiento de modelos con machine learning dialéktico
Fig. 2.3.1.2 Ejemplos de entradas y salidas para diversos casos de uso de algoritmos de machine learning.
aelacor

El etiquetado de datos y su función se entenderán mejor en lecciones posteriores. Hay que tomar en cuenta que los datos tienen señaladas sus entradas y salidas específicamente cuando se trata de entrenar algoritmos de aprendizaje supervisado, y por lo tanto, es sumamente crucial entenderlo y aplicarlo, ya que este es generalmente el tipo de machine learning que se aprende a dominar primero, por sus variadas aplicaciones en la industria y la ciencia.

Datos etiquetados en tablas

Demos un vistazo a los datos etiquetados en un formato específico y profusamente común: las tablas. A pesar de que existe una gran cantidad de datos no estructurados para aprendizaje de máquinas, la realidad es que, tanto en el ámbito laboral como académico, será muy común realizar tareas utilizando grandes volúmenes en conjuntos de datos dispuestos en tablas, por lo que es necesario entender cómo se etiquetan los datos cuando están contenidos en este formato.

Lo abordaremos con otro ejemplo.

Supongamos que deseamos crear un modelo de machine learning capaz de estimar el precio de una computadora respecto a algunas características físicas, como almacenamiento, tamaño de la pantalla, memoria RAM, entre otros.

Para lograr esto, se debe procesar toda la información que tengamos a la mano sobre dicho objeto de estudio, por lo que buscamos recolectar datos de computadoras de años recientes, sus características, y sus precios.

Supongamos que hemos hallado una base de datos con computadoras vendidas en una página web llamada «computadorasdialektico.com». Nuestro conjunto de datos para este objetivo es justo esta información, la cual debe estar dispuesta de una manera en que pueda ser procesada por una computadora, por lo que elegimos organizarla en una tabla, donde cada renglón contiene un ejemplo u observación de los objetos que componen al conjunto; es decir, un renglón contendrá los datos de una computadora: sus especificaciones, y su precio, como se muestra en la Figura 2.3.1.3:

conjunto de datos entradas y salidas, por dialéktico
Fig. 2.3.1.3 Fragmento de una tabla con datos de computadoras y sus precios, donde cada renglón contiene tres especificaciones técnicas (disco HD en GB, memoria RAM en GB, tamaño de pantalla en pulgadas) y su precio. Toda la tabla es el conjunto de datos que se utilizaría para entrenar el modelo de aprendizaje automático. Sin embargo, no está limitada a este fin, ya que puede ser utilizada para cualquier tipo de tratamiento matemático que satisfaga uno o más objetivos particulares.

Esta tabla con información de computadoras es nuestro conjunto de datos, el cual se utilizará para entrenar un modelo de aprendizaje capaz de estimar precios.

Justo aquí es donde saltamos a un último concepto medular que ya hemos visto anteriormente: ejemplos de entrenamiento para conjuntos de datos etiquetados.

Ejemplos de entrenamiento para conjuntos de datos etiquetados

Como vimos en nuestro recorrido pasado, un ejemplo de entrenamiento es una observación perteneciente a un conjunto de datos, que será utilizado como instancia para el entrenamiento de un modelo con un algoritmo de machine learning.

Para datos etiquetados el principio es el mismo, pero con algunas especificaciones adicionales: un ejemplo de entrenamiento en este contexto es una pareja de entradas/salida de un conjunto de datos.

Pensando en el caso de imágenes de animales etiquetadas anteriormente invocado, un ejemplo de entrenamiento es una imagen y su respectiva etiqueta.

Retomando nuestro ejemplo con computadoras, podremos notar que las características de estas son las entradas (las cuales, por cierto, a veces verás nombradas como atributos, características o features/inputs), mientras que su precio es la salida (la cual puede ser identificada como etiqueta, objetivo, o label/output), ya que este es del que buscamos realizar predicciones.

Cada emparejamiento de entradas y su respectiva salida (ejemplo de entrenamiento, o instance), en el conjunto de datos antes citado, luce de la siguiente forma:

conjunto de datos, por dialéktico
Fig. 2.3.3.1.4 Un ejemplo de entrenamiento en un conjunto de datos organizado en una tabla, se puede definir someramente como un renglón de la matriz o tabla. Está compuesto por los atributos (entradas) y etiquetas (salidas) de los objetos que conforman al conjunto de datos, en este caso: computadoras.

En la Figura 2.3.1.5 podemos visualizar cómo los ejemplos de entrenamiento conforman al total del conjunto de datos:

conjunto de datos y ejemplos de entrenamiento, por dialéktico
Fig. 2.3.1.5 Ilustración sobre los ejemplos de entrenamiento en un conjunto de datos.

Contesta las siguientes preguntas

1 / 2

Tienes la tarea de crear un algoritmo de aprendizaje supervisado que estime las calificaciones de alumnos de una escuela de tu localidad de acuerdo a los siguientes datos de cada uno: nivel socioeconómico, edad, última calificación, y género. ¿Cuáles son las prácticas más recomendadas para crear tu conjunto de datos? Selecciona todas las que apliquen.

2 / 2

Después de colocar tus datos en una tabla, insertando las características en las primeras columnas, y la calificación de cada alumno en la última, ¿cuál de las siguientes representa a un ejemplo de entrenamiento para el aprendizaje de tu modelo?

Tu puntación es

La puntuación media es 63%

0%

Conjunto de datos etiquetados: definición matemática

Libro_1

En nuestra sesión anterior vimos la definición de conjunto de datos de forma generalizada. Sin embargo, ahora es necesario hablar sobre conjuntos de datos donde los datos tienen una distinción de entradas y salidas, y cómo se definen respecto a esta particularidad.

Conjunto de entradas y conjunto de salidas

Primero, debemos definir dos conjuntos nuevos que formarán parte de la definición de conjunto de datos para datos etiquetados: conjuntos de entradas y salidas.

Conjunto de entradas

Definición 2.2 (Conjunto de entradas). Un conjunto X\mathcal{X} de entradas es un conjunto {x1,x2,...,xN}\{ \mathcal{x}_{1}, \mathcal{x}_{2},...,\mathcal{x}_{N}\} de NN instancias u observaciones sobre las que se desean extraer patrones, donde cada xn\mathcal{x}_{n} está compuesto a su vez de un número DD de características.

Esto quiere decir que el conjunto de entradas X\mathcal{X} está compuesto por observaciones, las cuales a su vez comprenden un cúmulo de características de dicha observación.

Una forma muy común de representar las entradas es utilizando vectores, donde cada xn\mathcal{x}_{n} puede ser representado por un vector xn\mathbf{x_n} como sigue:

xn=[xn1xn2xnD],(2.5)\begin{aligned} \mathbf{x}_{n} &= \begin{bmatrix}\mathcal{x}_{n}^{1} & \mathcal{x}_{n}^{2} & \dots & \mathcal{x}_{n}^{D} \end{bmatrix}\:, \tag{2.5} \end{aligned}

donde cada elemento xn1,xn2,...,xnDx_{n}^{1}, x_{n}^{2},...,x_{n}^{D} corresponde a una característica de interés o atributo de xnx_{n}.

Para ilustrar esto, volvamos a nuestro ejemplo de computadoras y sus características. La tabla de la Figura 2.3.1.3 muestra un conjunto de observaciones xnx_{n} donde los atributos de cada una (almacenamiento, RAM, tamaño de pantalla) son las características de interés xndx_{n}^{d}.

Si tomamos el primer renglón de valores de esa tabla como ejemplo, obtenemos el siguiente extracto:

conjunto de datos
Fig. 2.3.1.6
Características de la computadora del primer renglón del conjunto de datos.

El cual se representaría vectorialmente de la siguiente manera:

x1=[80414 ],(2.6)\begin{aligned} \mathbf{x}_{1} =\begin{bmatrix}80 & 4 & 14 \ \end{bmatrix}\:, \tag{2.6} \end{aligned}

donde sus respectivas características son

x11=80.(2.7)\mathbf{x}_{1}^{1}=80.\tag{2.7}
x12=4.(2.8)\mathbf{x}_{1}^{2}=4.\tag{2.8}
x13=14.(2.9)\mathbf{x}_{1}^{3}=14.\tag{2.9}

Conjunto de salidas

Definición 2.3 (Conjunto de salidas) El conjunto Y\mathcal{Y} de salidas es el conjunto {y1,y2,...,yN}\{\mathcal{y}_{1}, \mathcal{y}_{2},...,\mathcal{y}_{N}\} de NN etiquetas o salidas asociadas a cada elemento xn\mathcal{x}_{n} de X\mathcal{X}.

En nuestro ejemplo, el conjunto de salidas es el conjunto de precios relacionado a cada computadora, de los cuales buscamos hacer estimaciones.

La etiqueta o salida que concierne al renglón visualizado en la Figura 2.3.1.6 es la siguiente:

conjunto de datos
Fig. 2.3.1.7
Precio de la computadora del primer renglón del conjunto de datos.

Por lo que el valor del elemento y1y_{1}, correspondiente al vector x1x_{1} mostrado en la Ecuación (2.6)\mathbf{(2.6)}, se expresa como

y1=1499.(2.10)\begin{aligned} y_{1} = 1499.\: \tag{2.10} \end{aligned}

Ejemplos de entrenamiento de datos etiquetados

Definición 2.4 (Ejemplo de entrenamiento de datos etiquetados). Un ejemplo de entrenamiento on\mathcal{o}_{n}, de datos etiquetados, se define como sigue:

on=(xn,yn),(2.11)\mathcal{o}_{n} = (\mathcal{x}_{n}, \mathcal{y}_{n}),\tag{2.11}

donde xnX\mathcal{x}_{n}\in\mathcal{X} es una entrada de DD características, y ynY\mathcal{y}_{n}\in\mathcal{Y} es su salida asociada.

En nuestro caso ilustrativo, como se había mostrado en la Figura 2.3.1.5, un ejemplo de entrenamiento es el conjunto de características y su respectiva salida. Respecto al primer renglón definido como x1\mathbf{x}_{1} en la ecuación Ecuación (2.6)\mathbf{(2.6)}, este ejemplo de entrenamiento se vería de la siguiente manera:

conjunto de datos
Fig. 2.3.1.8 Conjunto de entradas y su respectiva salida del primer renglón del conjunto de datos, el cual conforma al primer ejemplo de entrenamiento.

Y se expresa matemáticamente como sigue:

(xn,yn)=([80414 ],1499).(2.12)\begin{aligned} (x_{n}, y_{n})=(\begin{bmatrix}80 & 4 & 14 \ \end{bmatrix},1499).\tag{2.12} \end{aligned}

Conjuntos de datos etiquetados

Definición 2.5 (Conjunto de datos etiquetados) Dados un conjunto de entradas X\mathcal{X} y un conjunto de salidas Y\mathcal{Y}, un conjunto de datos etiquetados es el conjunto D={o1,o2,,oN}\mathcal{D}=\{o_1, o_2, \dots, o_N\} de NN observaciones, donde cada observación se considera un ejemplo de entrenamiento de datos etiquetados on=(xn,yn)\mathcal{o}_{n} = (\mathcal{x}_{n}, \mathcal{y}_{n}). Por lo tanto, el conjunto de datos etiquetados D\mathcal{D} se puede definir como

D={(x1,y1),,(xn,yn),,(xN,yN)}.(2.13)\mathcal{D}=\lbrace (x_{1},y_{1}),…,(x_{n},y_{n}),…,(x_{N},y_{N})\rbrace.\tag{2.13}

Es decir, el conjunto de datos está compuesto por ejemplos de entrenamiento, los cuales son a su vez pares de entradas (características) y salidas (etiquetas).

Con esto finalizamos las definiciones correspondientes a los conjuntos de datos. Esto que hemos visto aquí lo retomaremos más adelante, cuando pongamos en práctica los primeros algoritmos de machine learning.

En nuestra siguiente parada, daremos un respiro y avistaremos algunas metodologías y lugares de donde podrás obtener conjuntos de datos para tus proyectos de machine learning, o cualquier otra tarea que requiera cúmulos de información.

image

DEJA TUS DUDAS O COMENTARIOS

Suscríbete
Notíficame de
guest


0 Comentarios
Más viejo
Más nuevo Más votado
Respuestas entre líneas
Ver todos los comentarios
0
¿Dudas, sugerencias, o comentarios? Deja un mensaje.x