Datos: la materia prima del aprendizaje de máquinas

Dialéktico
Compartir

CONTENIDO

Todo artista debe conocer de manera minuciosa los materiales con los que edifica sus obras. Así como el pintor es escrupuloso con los atributos de los colores, lienzos y aditamentos que son artífices de la génesis de sus cuadros, o el músico explora las infinitas formas de combinar sonidos y silencios en secuencias temporales, el escultor de modelos de aprendizaje automático debe dedicar el mismo esmero a la extracción y manipulación de su materia prima: los datos.

En esta ocasión, comenzaremos la primera etapa de un raudo entrenamiento en el que te mostraré los principios y características básicas de estos elementos sobre los que se alimenta todo modelo de machine learning; exploraremos su origen, definición, tipos, y otros aspectos que debemos considerar como un preludio al estudio del aprendizaje supervisado y sus algoritmos más emblemáticos.

IND Nivel 2
Equipaje recomendado
Travel Bag

Tentempié: algún acompañamiento para energizar tus andanzas

image 5

Al igual que en nuestra anterior travesía, este entrenamiento tendrá una carga informativa exenta de conceptos matemáticos y programación, por lo que no habrá necesidad de incluir ningún artefacto especial en tu inventario.

Datos: definición, jerarquía y ejemplos

Pergamino_3

Es indudable que la entidad primaria con la que se trabaja en ciencia de datos es (aunque suene redundante) el dato, y al introducirnos en el estudio del aprendizaje automático, no podemos prescindir del conocimiento de este singular objeto, pues uno de los pecados que a veces cometen las y los aprendices de esta, y toda disciplina que le utiliza para satisfacer sus fines, es no atender los conceptos básicos que las componen.

Y dado el nivel que pretendemos alcanzar, esto es algo que definitivamente no dejaremos que suceda.

IND M1

¿Qué son los datos?

La definición del término dato puede ser sencilla, pero bajo ciertos contextos puede tornarse mucho más compleja de lo que parece, ya que da hincapié a todo tipo de interpretaciones desde distintos enfoques de la ciencia y la filosofía. Para nuestros fines, y en el contexto de las ciencias computacionales, definiremos al dato como una representación unitaria de fenómenos, entidades, o cualquier aspecto de estos, perceptibles directa o indirectamente, en una forma que pueda ser comunicada y almacenada efectivamente.

Para una mejor asimilación, conceptualizaremos esto citando una actividad común en nuestra vida cotidiana: cuando se realizan y registran mediciones con una regla graduada.

Al realizar y tomar nota de este tipo de mediciones, se están recabando datos sobre longitudes de objetos. Aquí, un dato es una medición que se ha decidido representar como un número que indica una cantidad específica de centímetros, el cual puede ser compartido e interpretado por otras personas, dado que se encuentra definido dentro de un sistema generalizado de mediciones.

IND E1
Fig. 2.1.1 Realizar y registrar mediciones realizadas con una regla produce datos: en el momento en que la longitud de un objeto es medida, representada con un número, y almacenada, se está generando uno de estos.

En este ejemplo, la regla es el instrumento de medición, el objeto medido es la entidad percibida de la cual se desea recabar información, y las mediciones representadas en números son los datos.

IND A1

Esta es una pregunta clave, ya que la información juega un rol tan importante como los datos, y en este contexto son casi lo mismo, pero los datos en realidad fungen como las unidades que componen a la información. Hablemos más sobre ello.

¿Qué es la información?

La información es un conjunto de datos organizados en formas significativas y útiles.

En nuestro ejemplo de mediciones con una regla, si se registraran varias longitudes de distintos objetos, y se colocaran en una tabla para que alguien pudiera hacer comparaciones de estos tamaños, y usarlas con algún fin, este conjunto de datos (de mediciones de objetos) es lo que se denomina información.

IND E2
Fig 2.1.2 Desglose de los distintos elementos que participan en la generación de información sobre mediciones de objetos.

En el caso presentado, los componentes identificados y visualizados en la fig. 2.1.2 (el instrumento de medición, los objetos medidos, y los datos e información), conforman lo que se conoce como ecosistema de datos, el cual es el conjunto de elementos que interactúan con el fin de producir, organizar, controlar, almacenar, procesar, y compartir información.

Jerarquía del conocimiento

Para dar finalización a esta rauda introducción, hablaremos sobre las relaciones existentes entre los datos, la información, y dos estadios superiores de estos: el conocimiento y la sabiduría.

Este modelo se conoce como jerarquía del conocimiento, pirámide del conocimiento, o pirámide DIKW (de las siglas en inglés Data, Information, Knowledge, Wisdom), entre otros nombres parecidos. Se trata de una forma de definir las relaciones existentes entre estos elementos, desde los datos en bruto, hasta el conocimiento aplicado en la sabiduría.

¿Por qué es importante saber esto? Porque el fin de usar datos para estudiar fenómenos es el de transformarlos para la obtención de conocimientos de valor (lo que a veces se suele denominar como insights), y esto es una necesidad que permea no solo a la investigación científica, sino también al ramo empresarial (es esto, de hecho, lo que se conoce como inteligencia de negocios: utilizar conocimientos provenientes de datos para la toma de decisiones).

La pirámide del conocimiento se puede concebir como se muestra en la Figura 2.1.3, donde se observa cómo el primer estadio corresponde a los datos, y se va relacionando con los siguientes inmediatos, siendo la sabiduría el de jerarquía más alta.

jerarquía del conocimiento dialéktico
Fig. 2.1.3 Pirámide del conocimiento en la que se observa la jerarquía y relaciones entre diferentes etapas de transformación de los datos.

Las definiciones y relaciones de cada etapa con las siguientes:

  1. Los datos son impresiones medibles que capturamos y almacenamos.
  2. La información es cuando hemos decidido ordenar los datos en formatos significativos, donde adquieren sentido y utilidad.
  3. El conocimiento es la síntesis y comprensión de la información para su aplicación a un problema o actividad.
  4. La sabiduría es el uso de los conocimientos para actuar de la mejor manera ante cualquier situación. Trata sobre la acumulación de conocimientos y el discernimiento de cómo utilizarlos para satisfacer objetivos.
IND M2 2

Ejemplos de la jerarquía del conocimiento

Por último, para tener un panorama más claro, hagamos una distinción de estas relaciones utilizando ejemplos aplicados en tres ámbitos: investigación científica, vida cotidiana, e inteligencia empresarial.

Investigación científica

En la investigación científica, las etapas de la pirámide se pueden invocar conforme el siguiente ejemplo: supongamos que estamos realizando una investigación sobre cómo ciertas regiones cerebrales son afectadas durante el envejecimiento, y para esto utilizaremos datos de imágenes médicas del cerebro, y las analizaremos. Los estadios de la jerarquía serían los siguientes:

  • Datos: Los datos son las señales obtenidas con el equipo médico utilizado para la obtención de imágenes del cerebro, estas señales pueden ser mediciones de la actividad de las regiones cerebrales.
  • Información: Una vez que las señales son acomodadas e interpretadas como imágenes del cerebro, se obtiene información del mismo. Las imágenes pueden ser etiquetadas y resaltadas en los puntos de interés (por ejemplo, tiñendo de algún color las regiones que muestran mayores cambios al envejecer). Así los datos se han contextualizado y adquirido significado con relevancia para la investigación.
  • Conocimiento: A partir de la información obtenida, se analiza y descubre cuáles son las regiones cerebrales cuya actividad sufre más modificaciones con la edad. Estos conocimientos pueden ser empleados para diagnóstico o investigaciones relacionadas.
  • Sabiduría: Estos nuevos conocimientos se pueden enlazar con otros conocimientos del ramo médico para la solución de problemas asociados. Cuando un médico adhiere estos conocimientos a los que ya tiene, y les da utilidad para salvaguardar la vida de un paciente, está haciendo uso de su sabiduría. El conjunto de conocimientos que pueden tener un papel en una situación de este tipo no solo se limita al ramo médico: pueden ser sobre aspectos psicológicos, de química, física, o incluso sobre la vida personal del paciente.
IND L1

Vida cotidiana

Para este ejemplo pensemos en un caso en el necesitas comprar un regalo para tu sobrina de 6 años.

  • Datos: Los datos son las preferencias que muestra la niña sobre sus juguetes o pasatiempos favoritos, las cuales son anotadas por su mamá en una libreta.
  • Información: La información es un resumen de estos datos realizado por la mamá de la sobrina, quien crea una lista de los gustos más destacados y que pueden dar pie a la compra de un regalo, y te la envía por mensaje de texto.
  • Conocimiento: Cuando tomas la información, la analizas, y decides, con base en lo leído y tu presupuesto, qué objetos puedes regalar a la pequeña, estás transformando la información en conocimientos que te ayudarán a solventar el problema.
  • Sabiduría: A lo largo de tu vida los conocimientos obtenidos de estas preferencias, sumados a conocimientos sobre tendencias y gustos de otras personas, te pueden servir para comprar regalos a otros niños de una forma más informada y procurando entregar objetos de valor.

Inteligencia empresarial

Con inteligencia empresarial nos referimos a la manipulación de datos para tomar decisiones de impacto positivo para una empresa. En este caso, imaginaremos que debemos analizar las tendencias de compras de productos de una tienda en línea de videojuegos.

  • Datos: Los datos son el número de compras realizadas por cada cliente, del cual también se tienen datos sobre su edad, identidad sexual, nivel socioeconómico, entre otras variables de interés.
  • Información: La información es el acomodo de estos registros en tablas, encapsulando cada tipo de dato en columnas con nombres específicos. Estas dotan a los datos de contexto y significado para nuestros fines.
  • Conocimiento: La información obtenida es analizada utilizando un algoritmo de agrupación, el cual determina qué grupos de personas tienden a preferir unos videojuegos sobre otros. Estos conocimientos se utilizan para optimizar las ventas de la tienda en línea.
  • Sabiduría: Los conocimientos sobre tendencias de compras se pueden utilizar en conjunto con otros conocimientos para la toma de decisiones en diversas áreas de la empresa como marketing, ventas, atención al cliente y desarrollo; esta sabiduría es propia de personas con años de experiencia en el campo, de forma que pueden ejecutar acciones mucho más robustas con base en su experiencia.

Contesta las siguientes preguntas

1 / 4

Durante cinco años, un médico registra en un cuaderno los síntomas de distintas enfermedades que padecen sus pacientes. Lo hace colocando el nombre de cada paciente, y debajo de este, una lista con todos sus síntomas. ¿Qué se puede decir que está haciendo?

2 / 4

El médico decide transcribir todos esos datos a una computadora, ordenándolos en renglones y columnas, y colocando como título "Cuadros sintomáticos registrados en los últimos 5 años". ¿Qué se puede decir que está haciendo?

3 / 4

El médico hace un análisis de la información y determina los síntomas más comunes para tres enfermedades específicas, lo cual le ayudará en futuros diagnósticos. ¿Qué ha hecho?

4 / 4

Selecciona las etapas de los datos que no forman parte de la jerarquía del conocimiento:

Tu puntación es

La puntuación media es 91%

0%

Así concluye esta primera sesión de entrenamiento sobre datos; en nuestra siguiente parada, hablaremos más sobre las características de los datos, sus tipos, y estructuras.

Button2 1

DEJA TUS DUDAS O COMENTARIOS

Suscríbete
Notíficame de
guest

0 Comentarios
Más viejo
Más nuevo Más votado
Respuestas entre líneas
Ver todos los comentarios
0
¿Dudas, sugerencias, o comentarios? Deja un mensaje.x