Ahora que sabemos qué son los datos y su colosal importancia para el aprendizaje de máquinas, continuaremos con la exploración de sus atributos: las diferentes formas en las que se presentan y cómo se suelen categorizar.
Equipaje recomendado
Tentempié
Tipos de datos
Todo dato recabado puede ser categorizado de varias maneras dependiendo del enfoque y las características que se desean enfatizar. Dada su particular importancia para el aprendizaje de máquinas. A continuación, hablaremos sobre dos pares de tipificaciones específicas:
- Tipos de datos por la presentación de sus valores.
- Tipos de datos por su estructura.
Tipos de datos por la presentación de sus valores
Una de las formas en las que se pueden clasificar datos es respecto a las propiedades de los valores que contienen, los cuales se expresan mediante el uso de diferentes tipos de signos. Estos son generalmente categorizados como no numéricos o numéricos, o de forma más común, como cualitativos y cuantitativos.
Datos cualitativos
Los datos cualitativos son un tipo de datos que describen entidades subjetivas o cualidades/características de objetos, que no se pueden expresar consistentemente con entidades matemáticas. Se trata de datos a los que no se les puede asignar un número o expresión matemática de acuerdo a un sistema estandarizado, por lo que, generalmente, estos se recolectan y simbolizan en forma de texto.
Un ejemplo de datos cualitativos son las opiniones de un conjunto de personas sobre una película. Al tratarse de valoraciones personales, estas no pueden ser fácilmente comunicadas en términos numéricos, por lo que se recolectan y se almacenan como texto.
Además de juicios personales como opiniones o gustos, como ya he mencionado, los datos cualitativos también pueden referirse a propiedades que no se suelen cuantificar.
Es correcto, toda característica o cualidad que sea fácilmente descrita de una manera no numérica cae en esta clase de datos. Veamos otros ejemplos.
Ejemplos de datos cualitativos:
- Reseñas de productos de una tienda virtual.
- Nombres de personas
- Videojuegos favoritos de un grupo de adolescentes.
- Estaciones del año.
- Marcas de computadoras.
Datos cuantitativos
Los datos cuantitativos son el tipo de datos que representan información mediante cifras o expresiones matemáticas equivalentes.
Los datos cuantitativos, por lo tanto, pueden tratarse sobre cualquier cosa o cualidad que se pueda comunicar sencillamente utilizando números, como el peso de un objeto, su longitud, o su temperatura.
Ejemplos de datos cuantitativos:
- Número de estudiantes extranjeros en una universidad.
- La amplitud de una onda.
- Calificación dada a un hotel (por ejemplo, entre 0 y 5).
- Magnitud de un sismo.
- Porcentaje de sal en el agua.
En la Figura 2.2.1 puedes observar una comparación entre ambos tipos de datos:
Como los datos cualitativos son muy comunes, es necesario que tomes en cuenta que para que una computadora pueda procesar la información para la generación de modelos matemáticos, esta siempre debe ser convertida a una forma numérica. Entre las artes del machine learning residen técnicas que transforman todo tipo de información cualitativa en entidades numéricas digeribles para una máquina. Esto lo irás conociendo poco a poco, conforme avancemos en nuestras travesías.
Tipos de datos por su estructura
En este último tramo, hablaremos sobre otro par de tipos de datos bastante común en la labor de un especialista en aprendizaje automático, y que hacen alusión a la forma en la que se presenta la información recolectada: datos estructurados y no estructurados.
Datos estructurados
Los datos estructurados son los tipos de conjuntos de datos que están organizados en formatos que permiten su fácil almacenamiento y/o procesamiento. La mayoría de las veces, estos se presentan en forma de tablas (las cuales pueden ser almacenadas en lo que se conoce como bases de datos relacionales, y manipularse con lenguajes de programación como SQL o Python), pero también puede presentarse en otros formatos estandarizados o «semi-estructurados» como el JSON.
Datos no estructurados
Los datos no estructurados, por otra parte, son un tipo de datos no organizados en formatos predefinidos para bases de datos tradicionales, por lo cual su almacenamiento y procesamiento computacional no es tan sencillo como con los datos estructurados. Ejemplos de estos pueden ser: videos, imágenes, o sonidos.
La razón por la que estas distinciones son importantes es análoga a la de datos cualitativos y cuantitativos: la información siempre deberá ser estructurada de la mejor manera para su lectura por la computadora, por lo que todo tipo de datos no estructurados se deberá pretender organizar hasta alcanzar un formato adecuado su procesamiento numérico, principalmente en arreglos vectoriales o matriciales. Estas transformaciones forman parte de un conjunto de tareas llamado preprocesamiento, que todos los científicos de datos deben conocer, y sobre el cual aprenderás más en las próximas expediciones.
Con esto concluye esta breve exploración sobre tipos de datos, en el próximo recorrido conocerás qué es y cómo se conforma un conjunto de datos en el contexto del aprendizaje de máquinas, uno de los conceptos más conocidos y utilizados en este ámbito.