Ciclo de vida de los datos

Dialéktico
Compartir

CONTENIDO

Si hay notación matemática, se recomienda la visualización de este contenido en una computadora

Una de las formas en que podemos percibir el lugar que tiene nuestra labor como especialistas en aprendizaje de máquinas es estudiando el ciclo de vida de los datos, ya se trata de una organización de las diferentes etapas de la evolución de los datos en todo proyecto que los utilice para sus fines, y nos permite identificar en qué momento intervienen nuestros conocimientos.

Este breve recorrido fungirá como un preludio a nuestra penúltima sesión de entrenamiento sobre datos, en el cual veremos por primera vez código en Python aplicado al aprendizaje de máquinas, y nos abrirá la puerta al estudio de los algoritmos de aprendizaje supervisado.

Ciclo de vida de los datos dialéktico
Equipaje recomendado
Ciclo de vida de los datos dialéktico

Nociones sobre conjuntos de datos

Ciclo de vida de los datos dialéktico

Algún aperitivo

Ciclo de vida de los datos dialéktico

Ciclo de vida de los datos

Ciclo de vida de los datos dialéktico

El ciclo de vida de los datos es el conjunto de etapas a través de las cuales los datos son transformados desde su recolección hasta el cumplimiento del objetivo u objetivos para los cuales fueron obtenidos, o hasta su destrucción o publicación (si es el caso).

Esto quiere decir que el ciclo de vida de los datos son las distintas formas evolutivas de los datos en cuanto a su formato, presentación y consumo a partir de que son adquiridos. Las etapas de este ciclo no están definidas universalmente, sino que existen versiones que se diversifican en su número y definición.

Para darte una idea de las fases en las que suele dividirse este ciclo, aquí te mostraré algunas versiones del ciclo de vida de datos según diversas organizaciones.

Ejemplos del ciclo de vida de los datos

Ciclo de vida de los datos según Google:

  • Planeación.
  • Captura.
  • Administración.
  • Análisis.
  • Archivado.
  • Destrucción.

Ciclo de vida de los datos según la Escuela de Negocios de Harvard (HBS):

  • Generación.
  • Recolección
  • Procesamiento.
  • Almacenamiento.
  • Análisis.
  • Visualización.
  • Interpretación.
Ciclo de vida de los datos dialéktico

Además, también existe una variación de este ciclo llamado «ciclo de vida del análisis de datos«, que es el mismo ciclo de vida de los datos, pero con la particularidad de que su último nivel es específicamente cuando estos son utilizados para algún fin analítico.

Ejemplos del ciclo de vida del análisis de datos

Algunas versiones del ciclo de vida del análisis de datos son:

Ciclo de vida del análisis de datos de EMC Dll:

  1. Descubrimiento.
  2. Preprocesamiento.
  3. Planeación del modelo.
  4. Construcción del modelo.
  5. Comunicación de resultados.
  6. Operación.

Ciclo de vida del análisis de datos según SAS:

  1. Cuestionamiento (identificación de objetivos).
  2. Preparación.
  3. Exploración.
  4. Modelado.
  5. Implementación.
  6. Accionamiento.
  7. Evaluación.

A pesar de sus variantes, las similitudes entre todas las versiones son palmarias: el ciclo de vida da inicio desde el momento en el que se determina qué datos se desean recolectar, hasta cuando son puestos en operación, o desechados.

Ciclo de vida de los datos dialéktico
Fig. 2.5.1 Visualización simplificada del ciclo de vida de los datos, donde Mmerf representa sus tres principales estadios: se destacan la planeación y adquisición de los datos como primeras etapas, su almacenamiento, transformación y procesamiento como etapas intermedias, y su uso y/o destrucción como últimas fases.

El ciclo de vida de los datos al final se presta para una gama surtida de interpretaciones, pero en este curso tomaremos en cuenta el siguiente:

Ciclo de vida de los datos de Dialéktico

ciclo de vida de los datos Dialéktico
  1. Planeación: se determina qué datos se necesitan para solventar una o un conjunto de necesidades.
  2. Recolección: se adquieren los datos por las vías planeadas.
  3. Transformación: de ser necesario, se realizan adecuaciones a los datos para un almacenamiento eficiente.
  4. Almacenamiento: se guardan los datos en bases de datos relacionales o no relacionales; si estos provienen de diversas fuentes, se almacenan en un espacio centralizado.
  5. Preprocesamiento: en caso de necesitarse, una vez que los datos son tomados de las bases de datos, se realizan modificaciones previas para su eficaz análisis y/o procesamiento computacional.
  6. Procesamiento: se opera computacionalmente sobre los datos para generar conocimiento.
  7. Comunicación: se comparten los resultados a las partes interesadas.
  8. Operación: se utilizan los resultados para la comprobación de hipótesis, o toma de decisiones que derivan en acciones y/o estrategias.
  9. Post-operación: se mantienen los datos resguardados, se trasladan a un dominio de uso público, o se eliminan.

Notas:

  1. Las fases tempranas de recolección, transformación y almacenamiento corresponden a un esquema muy conocido en ciencia de datos llamado proceso ETL (por sus siglas en inglés «Extract, transform, load«), el cual consiste en la obtención de los datos, su acondicionamiento para ser resguardados, y su almacenamiento. Este proceso es generalmente llevado a cabo por el o la ingeniera de datos, pero a veces un proyecto puede requerir que la persona a cargo de la ciencia de datos o los modelos de aprendizaje automático estén determinados a realizar estas tareas.
  2. Como se ha revisado, el ciclo de vida de los datos tiene diferentes formas conforme a diferentes factores. Un ciclo de vida de los datos altamente relevante actualmente en la industria es el correspondiente al MLOps, el cual trata sobre cómo los datos son manipulados a través de etapas orientadas al desarrollo de software. Para más información sobre esto puedes consultar: MLOps Spanning Whole MachineLearningLife Cycle: ASurvey.

El ciclo de vida de los datos nos da una visión global sobre qué sucesión de pasos podemos seguir al momento de crear un proyecto que involucre el uso de estos para satisfacer alguna necesidad, y dentro de este, la gente especializada en machine learning tiene injerencia principalmente en las fases de preprocesamiento y procesamiento, aunque la ciencia de datos puede llegar a abordarlas todas.

Contesta las siguientes preguntas

1 / 3

Supóngase que eres el encargado de un nuevo proyecto de análisis de datos de ventas de una tienda en línea, y debes organizar las diversas fases relacionadas con los datos. ¿Con qué propondrías comenzar?

2 / 3

Después de recolectar los datos, algunos de estos se hallaron en formatos no estructurados, por lo que se modificaron para poderse almacenar en una base de datos SQL, ¿en qué parte del ciclo de vida de los datos se implementaron estas acciones?

3 / 3

Después de haber hecho los primeros análisis, se determinaron las acciones a tomar para optimizar la página web de la tienda en línea y se pusieron en marcha, ¿a qué punto del ciclo de vida de los datos pertenecen estas actividades?

Tu puntación es

La puntuación media es 75%

0%

Este corto vistazo al ciclo de vida de los datos añade conocimiento sobre nuestra materia prima, y nos da una introducción a las últimas sesiones de entrenamiento en datos.

En la siguiente travesía conocerás más a fondo un paso primordial en la construcción de algoritmos de machine learning: el preprocesamiento de datos, el cual ejemplificaremos con código en Python.

botón

DEJA TUS DUDAS O COMENTARIOS

Suscríbete
Notíficame de
guest

0 Comentarios
Más viejo
Más nuevo Más votado
Respuestas entre líneas
Ver todos los comentarios
0
¿Dudas, sugerencias, o comentarios? Deja un mensaje.x