En lo que se refiere a conjuntos de datos, existe un tipo de estos que tiene suma importancia para el machine learning, específicamente para el aprendizaje supervisado: los conjuntos de datos etiquetados.
En esta exploración hablaremos sobre qué son los datos etiquetados, sus diferencias con los datos no etiquetados, algunos ejemplos, y su respectiva definición matemática.
Inventario recomendado
Conjuntos de datos
Conocimiento sobre conjuntos de datos.
Matemáticas
Álgebra lineal y conjuntos
Tentempié
¿Qué son los conjuntos de datos etiquetados y no etiquetados?
En machine learning, una de las principales distinciones que se puede hacer sobre conjuntos de datos es si están etiquetados o no. Con etiquetar datos, nos referimos a especificar dos aspectos principales sobre estos: las entradas y salidas.
Las entradas de un conjunto de datos son las características de los objetos de estudio que comprenden al conjunto de datos, mientras que las salidas son algún aspecto o resultado asociado a estas características.
Para entenderlo, veamos un ejemplo.
Supongamos que queremos utilizar un algoritmo de aprendizaje de máquinas para entrenar un modelo con la capacidad de reconocer animales al entregarle alguna imagen de estos.
En este caso, utilizaremos un conjunto de datos de imágenes de animales, pero además etiquetaremos los datos añadiendo el correspondiente nombre del animal a cada imagen.
El resultado es la obtención del conjunto de datos distinguiendo entre dos elementos clave: las entradas, las cuales son las imágenes de animales, y las salidas, que son los nombres de animales asociados a cada imagen, como se muestra en la Figura 2.3.1.1:
En la imagen se puede dilucidar con claridad la distinción entre entradas y salidas, las cuales la máquina tomará en consideración para aprender a reconocer animales: procesará las imágenes y sus características respecto a las etiquetas de cada una, que en este caso es el nombre del animal referido en cada imagen.
Sí, etiquetar se trata sobre dar información a la computadora sobre la relación que esperamos modelar de las características de los datos con algún resultado. En el ejemplo, buscamos entrenar un modelo para que entienda la forma en que se relacionan las imágenes de los animales con su nombre, propiciando un aprendizaje de identificación, en el que la máquina calculará un nombre dada una imagen nueva.
El etiquetado de conjuntos de datos puede presentarse en diferentes formas dependiendo de su naturaleza y del objetivo perseguido, en la Figura 2.3.1.2 se pueden consultar algunos ejemplos para diversos tipos de enfoques, mencionando el objetivo del modelo, el conjunto de datos, sus entradas y salidas:
El etiquetado de datos y su función se entenderán mejor en lecciones posteriores. Hay que tomar en cuenta que los datos tienen señaladas sus entradas y salidas específicamente cuando se trata de entrenar algoritmos de aprendizaje supervisado, y por lo tanto, es sumamente crucial entenderlo y aplicarlo, ya que este es generalmente el tipo de machine learning que se aprende a dominar primero, por sus variadas aplicaciones en la industria y la ciencia.
Datos etiquetados en tablas
Demos un vistazo a los datos etiquetados en un formato específico y profusamente común: las tablas. A pesar de que existe una gran cantidad de datos no estructurados para aprendizaje de máquinas, la realidad es que, tanto en el ámbito laboral como académico, será muy común realizar tareas utilizando grandes volúmenes en conjuntos de datos dispuestos en tablas, por lo que es necesario entender cómo se etiquetan los datos cuando están contenidos en este formato.
Lo abordaremos con otro ejemplo.
Supongamos que deseamos crear un modelo de machine learning capaz de estimar el precio de una computadora respecto a algunas características físicas, como almacenamiento, tamaño de la pantalla, memoria RAM, entre otros.
Para lograr esto, se debe procesar toda la información que tengamos a la mano sobre dicho objeto de estudio, por lo que buscamos recolectar datos de computadoras de años recientes, sus características, y sus precios.
Supongamos que hemos hallado una base de datos con computadoras vendidas en una página web llamada «computadorasdialektico.com». Nuestro conjunto de datos para este objetivo es justo esta información, la cual debe estar dispuesta de una manera en que pueda ser procesada por una computadora, por lo que elegimos organizarla en una tabla, donde cada renglón contiene un ejemplo u observación de los objetos que componen al conjunto; es decir, un renglón contendrá los datos de una computadora: sus especificaciones, y su precio, como se muestra en la Figura 2.3.1.3:
Esta tabla con información de computadoras es nuestro conjunto de datos, el cual se utilizará para entrenar un modelo de aprendizaje capaz de estimar precios.
Justo aquí es donde saltamos a un último concepto medular que ya hemos visto anteriormente: ejemplos de entrenamiento para conjuntos de datos etiquetados.
Ejemplos de entrenamiento para conjuntos de datos etiquetados
Como vimos en nuestro recorrido pasado, un ejemplo de entrenamiento es una observación perteneciente a un conjunto de datos, que será utilizado como instancia para el entrenamiento de un modelo con un algoritmo de machine learning.
Para datos etiquetados el principio es el mismo, pero con algunas especificaciones adicionales: un ejemplo de entrenamiento en este contexto es una pareja de entradas/salida de un conjunto de datos.
Pensando en el caso de imágenes de animales etiquetadas anteriormente invocado, un ejemplo de entrenamiento es una imagen y su respectiva etiqueta.
Retomando nuestro ejemplo con computadoras, podremos notar que las características de estas son las entradas (las cuales, por cierto, a veces verás nombradas como atributos, características o features/inputs), mientras que su precio es la salida (la cual puede ser identificada como etiqueta, objetivo, o label/output), ya que este es del que buscamos realizar predicciones.
Cada emparejamiento de entradas y su respectiva salida (ejemplo de entrenamiento, o instance), en el conjunto de datos antes citado, luce de la siguiente forma:
En la Figura 2.3.1.5 podemos visualizar cómo los ejemplos de entrenamiento conforman al total del conjunto de datos:
Conjunto de datos etiquetados: definición matemática
En nuestra sesión anterior vimos la definición de conjunto de datos de forma generalizada. Sin embargo, ahora es necesario hablar sobre conjuntos de datos donde los datos tienen una distinción de entradas y salidas, y cómo se definen respecto a esta particularidad.
Conjunto de entradas y conjunto de salidas
Primero, debemos definir dos conjuntos nuevos que formarán parte de la definición de conjunto de datos para datos etiquetados: conjuntos de entradas y salidas.
Conjunto de entradas
Definición 2.2 (Conjunto de entradas). Un conjunto X de entradas es un conjunto {x1,x2,...,xN} de N instancias u observaciones sobre las que se desean extraer patrones, donde cada xn está compuesto a su vez de un número D de características.
Esto quiere decir que el conjunto de entradas X está compuesto por observaciones, las cuales a su vez comprenden un cúmulo de características de dicha observación.
Una forma muy común de representar las entradas es utilizando vectores, donde cada xn puede ser representado por un vector xn como sigue:
donde cada elemento xn1,xn2,...,xnD corresponde a una característica de interés o atributo de xn.
Para ilustrar esto, volvamos a nuestro ejemplo de computadoras y sus características. La tabla de la Figura 2.3.1.3 muestra un conjunto de observaciones xn donde los atributos de cada una (almacenamiento, RAM, tamaño de pantalla) son las características de interés xnd.
Si tomamos el primer renglón de valores de esa tabla como ejemplo, obtenemos el siguiente extracto:
El cual se representaría vectorialmente de la siguiente manera:
donde sus respectivas características son
Conjunto de salidas
Definición 2.3 (Conjunto de salidas) El conjunto Y de salidas es el conjunto {y1,y2,...,yN} de N etiquetas o salidas asociadas a cada elemento xn de X.
En nuestro ejemplo, el conjunto de salidas es el conjunto de precios relacionado a cada computadora, de los cuales buscamos hacer estimaciones.
La etiqueta o salida que concierne al renglón visualizado en la Figura 2.3.1.6 es la siguiente:
Por lo que el valor del elemento y1, correspondiente al vector x1 mostrado en la Ecuación (2.6), se expresa como
Ejemplos de entrenamiento de datos etiquetados
Definición 2.4 (Ejemplo de entrenamiento de datos etiquetados). Un ejemplo de entrenamiento on, de datos etiquetados, se define como sigue:
donde xn∈X es una entrada de D características, y yn∈Y es su salida asociada.
En nuestro caso ilustrativo, como se había mostrado en la Figura 2.3.1.5, un ejemplo de entrenamiento es el conjunto de características y su respectiva salida. Respecto al primer renglón definido como x1 en la ecuación Ecuación (2.6), este ejemplo de entrenamiento se vería de la siguiente manera:
Y se expresa matemáticamente como sigue:
Conjuntos de datos etiquetados
Definición 2.5 (Conjunto de datos etiquetados) Dados un conjunto de entradas X y un conjunto de salidas Y, un conjunto de datos etiquetados es el conjunto D={o1,o2,…,oN} de N observaciones, donde cada observación se considera un ejemplo de entrenamiento de datos etiquetados on=(xn,yn). Por lo tanto, el conjunto de datos etiquetados D se puede definir como
Es decir, el conjunto de datos está compuesto por ejemplos de entrenamiento, los cuales son a su vez pares de entradas (características) y salidas (etiquetas).
Con esto finalizamos las definiciones correspondientes a los conjuntos de datos. Esto que hemos visto aquí lo retomaremos más adelante, cuando pongamos en práctica los primeros algoritmos de machine learning.
En nuestra siguiente parada, daremos un respiro y avistaremos algunas metodologías y lugares de donde podrás obtener conjuntos de datos para tus proyectos de machine learning, o cualquier otra tarea que requiera cúmulos de información.