Tipos de datos y sus características

Dialéktico
Compartir

CONTENIDO

Ahora que sabemos qué son los datos y su colosal importancia para el aprendizaje de máquinas, continuaremos con la exploración de sus atributos: las diferentes formas en las que se presentan y cómo se suelen categorizar.

IND Nivel 2
Equipaje recomendado
Travel Bag

Tentempié

image

Tipos de datos

Pergamino_3

Todo dato recabado puede ser categorizado de varias maneras dependiendo del enfoque y las características que se desean enfatizar. Dada su particular importancia para el aprendizaje de máquinas. A continuación, hablaremos sobre dos pares de tipificaciones específicas:

  • Tipos de datos por la presentación de sus valores.
  • Tipos de datos por su estructura.

Tipos de datos por la presentación de sus valores

Una de las formas en las que se pueden clasificar datos es respecto a las propiedades de los valores que contienen, los cuales se expresan mediante el uso de diferentes tipos de signos. Estos son generalmente categorizados como no numéricos o numéricos, o de forma más común, como cualitativos y cuantitativos.

Datos cualitativos

Los datos cualitativos son un tipo de datos que describen entidades subjetivas o cualidades/características de objetos, que no se pueden expresar consistentemente con entidades matemáticas. Se trata de datos a los que no se les puede asignar un número o expresión matemática de acuerdo a un sistema estandarizado, por lo que, generalmente, estos se recolectan y simbolizan en forma de texto.

Un ejemplo de datos cualitativos son las opiniones de un conjunto de personas sobre una película. Al tratarse de valoraciones personales, estas no pueden ser fácilmente comunicadas en términos numéricos, por lo que se recolectan y se almacenan como texto.

TDD M1

Además de juicios personales como opiniones o gustos, como ya he mencionado, los datos cualitativos también pueden referirse a propiedades que no se suelen cuantificar.

TDD K1

Es correcto, toda característica o cualidad que sea fácilmente descrita de una manera no numérica cae en esta clase de datos. Veamos otros ejemplos.

Ejemplos de datos cualitativos:

  • Reseñas de productos de una tienda virtual.
  • Nombres de personas
  • Videojuegos favoritos de un grupo de adolescentes.
  • Estaciones del año.
  • Marcas de computadoras.

Datos cuantitativos

Los datos cuantitativos son el tipo de datos que representan información mediante cifras o expresiones matemáticas equivalentes.

Los datos cuantitativos, por lo tanto, pueden tratarse sobre cualquier cosa o cualidad que se pueda comunicar sencillamente utilizando números, como el peso de un objeto, su longitud, o su temperatura.

Ejemplos de datos cuantitativos:

  • Número de estudiantes extranjeros en una universidad.
  • La amplitud de una onda.
  • Calificación dada a un hotel (por ejemplo, entre 0 y 5).
  • Magnitud de un sismo.
  • Porcentaje de sal en el agua.

En la Figura 2.2.1 puedes observar una comparación entre ambos tipos de datos:

E3
Fig. 2.2.1 Colección de datos cualitativos y cuantitativos sobre un conejo.

Como los datos cualitativos son muy comunes, es necesario que tomes en cuenta que para que una computadora pueda procesar la información para la generación de modelos matemáticos, esta siempre debe ser convertida a una forma numérica. Entre las artes del machine learning residen técnicas que transforman todo tipo de información cualitativa en entidades numéricas digeribles para una máquina. Esto lo irás conociendo poco a poco, conforme avancemos en nuestras travesías.

Tipos de datos por su estructura

En este último tramo, hablaremos sobre otro par de tipos de datos bastante común en la labor de un especialista en aprendizaje automático, y que hacen alusión a la forma en la que se presenta la información recolectada: datos estructurados y no estructurados.

Datos estructurados

Los datos estructurados son los tipos de conjuntos de datos que están organizados en formatos que permiten su fácil almacenamiento y/o procesamiento. La mayoría de las veces, estos se presentan en forma de tablas (las cuales pueden ser almacenadas en lo que se conoce como bases de datos relacionales, y manipularse con lenguajes de programación como SQL o Python), pero también puede presentarse en otros formatos estandarizados o «semi-estructurados» como el JSON.

Datos no estructurados

Los datos no estructurados, por otra parte, son un tipo de datos no organizados en formatos predefinidos para bases de datos tradicionales, por lo cual su almacenamiento y procesamiento computacional no es tan sencillo como con los datos estructurados. Ejemplos de estos pueden ser: videos, imágenes, o sonidos.

E4
Fig. 2.2.2 Algunos ejemplos de datos estructurados y no estructurados.
Nota: el formato JSON se considera como un tipo de dato semiestructurado.

La razón por la que estas distinciones son importantes es análoga a la de datos cualitativos y cuantitativos: la información siempre deberá ser estructurada de la mejor manera para su lectura por la computadora, por lo que todo tipo de datos no estructurados se deberá pretender organizar hasta alcanzar un formato adecuado su procesamiento numérico, principalmente en arreglos vectoriales o matriciales. Estas transformaciones forman parte de un conjunto de tareas llamado preprocesamiento, que todos los científicos de datos deben conocer, y sobre el cual aprenderás más en las próximas expediciones.

Contesta las siguientes preguntas

1 / 4

¿Cuáles de los siguientes son datos cuantitativos? Marca todas las opciones que apliquen:

2 / 4

¿Cuáles de los siguientes son datos cualitativos? Marca todas las opciones que apliquen:

3 / 4

Un conjunto de textos provenientes de publicaciones de redes sociales con fecha y nombre de usuario, son datos estructurados.

4 / 4

La información del número de reacciones, compartidas y comentarios de un grupo de publicaciones de una red social, organizada en una tabla, es un conjunto de datos estructurados.

Tu puntación es

La puntuación media es 74%

0%

Con esto concluye esta breve exploración sobre tipos de datos, en el próximo recorrido conocerás qué es y cómo se conforma un conjunto de datos en el contexto del aprendizaje de máquinas, uno de los conceptos más conocidos y utilizados en este ámbito.


siguiente

DEJA TUS DUDAS O COMENTARIOS

Suscríbete
Notíficame de
guest

0 Comentarios
Más viejo
Más nuevo Más votado
Respuestas entre líneas
Ver todos los comentarios
0
¿Dudas, sugerencias, o comentarios? Deja un mensaje.x