Una de las formas en que podemos percibir el lugar que tiene nuestra labor como especialistas en aprendizaje de máquinas es estudiando el ciclo de vida de los datos, ya que se trata de una organización secuencial de las diferentes etapas de la evolución de los datos en todo proyecto que los utilice para sus fines, y nos permite identificar en qué momento intervienen nuestros conocimientos.
Este breve recorrido fungirá como un preludio a nuestra antepenúltima sesión de entrenamiento sobre datos, en el cual veremos por primera vez código en Python aplicado al aprendizaje de máquinas, y nos abrirá la puerta al estudio de los algoritmos de aprendizaje supervisado.
Equipaje recomendado
Nociones sobre conjuntos de datos y su ciclo de vida
Programación en Python
Algún aperitivo
Ciclo de vida de los datos
El ciclo de vida de los datos es el conjunto de etapas a través de las cuales los datos son transformados desde su recolección hasta el cumplimiento del objetivo u objetivos para los cuales fueron obtenidos, o hasta su destrucción o publicación (si es el caso).
Esto quiere decir que el ciclo de vida de los datos está compuesto por las distintas formas evolutivas de los datos en cuanto a su formato, presentación y consumo a partir de que son adquiridos. Las etapas de este ciclo no están definidas universalmente, sino que existen versiones que se diversifican en su número y definición.
Para darte una idea de las fases en las que suele dividirse este ciclo, aquí te mostraré algunas versiones del ciclo de vida de datos según diversas organizaciones.
Ejemplos del ciclo de vida de los datos
Ciclo de vida de los datos según Google:
- Planeación.
- Captura.
- Administración.
- Análisis.
- Archivado.
- Destrucción.
Ciclo de vida de los datos según la Escuela de Negocios de Harvard (HBS):
- Generación.
- Recolección
- Procesamiento.
- Almacenamiento.
- Análisis.
- Visualización.
- Interpretación.
Además, también existe una variación de este ciclo llamado <<ciclo de vida de la analítica de datos>>, que es el mismo ciclo de vida de los datos, pero con la particularidad de que su último nivel es específicamente cuando estos son utilizados para algún fin analítico (transformarlos en conocimiento útil).
Ejemplos del ciclo de vida de la analítica de datos
Algunas versiones del ciclo de vida de la analítica de datos son:
Ciclo de vida del análisis de datos de EMC Dll:
- Descubrimiento.
- Preprocesamiento.
- Planeación del modelo.
- Construcción del modelo.
- Comunicación de resultados.
- Operación.
Ciclo de vida del análisis de datos según SAS:
- Cuestionamiento (identificación de objetivos).
- Preparación.
- Exploración.
- Modelado.
- Implementación.
- Accionamiento.
- Evaluación.
Razona un poco las diferentes versiones que te he presentado hasta ahora, puedes notar cierto patrón y orden común. A pesar de sus variantes, las similitudes entre todas las versiones son palmarias: el ciclo de vida da inicio desde el momento en el que se determina qué datos se desean recolectar, hasta cuando son puestos en operación, o desechados.
El ciclo de vida de los datos al final se presta para una gama surtida de interpretaciones, pero en este curso tomaremos en cuenta el siguiente:
Ciclo de vida de los datos de Dialéktico
- Planeación: se determina qué datos se necesitan para solventar una o un conjunto de necesidades.
- Recolección: se adquieren los datos por las vías planeadas.
- Transformación: de ser necesario, se realizan adecuaciones a los datos para un almacenamiento eficiente.
- Almacenamiento: se almacenan los datos en bases de datos relacionales o no relacionales; si estos provienen de diversas fuentes, se almacenan en un espacio centralizado.
- Preprocesamiento: en caso de necesitarse, una vez que los datos son tomados de las bases de datos, se realizan modificaciones previas para su eficaz análisis y/o procesamiento computacional.
- Procesamiento: se opera computacionalmente sobre los datos para generar conocimiento.
- Comunicación: se comparten los resultados a las partes interesadas.
- Operación: se utilizan los resultados para la comprobación de hipótesis, o toma de decisiones que derivan en acciones y/o estrategias.
- Post-operación: se mantienen los datos resguardados, se trasladan a un dominio de uso público, o se eliminan.
Notas:
- Las fases tempranas de recolección, transformación y almacenamiento corresponden a un esquema muy conocido en ciencia de datos llamado proceso ETL (por sus siglas en inglés «Extract, transform, load«), el cual consiste en la obtención de los datos, su acondicionamiento para ser resguardados, y su almacenamiento. Este proceso es generalmente llevado a cabo por el o la ingeniera de datos, pero a veces un proyecto puede requerir que la persona a cargo de la ciencia de datos o los modelos de aprendizaje automático estén determinados a realizar estas tareas.
- Como se ha revisado, el ciclo de vida de los datos tiene diferentes formas conforme a diferentes factores. Un ciclo de vida de los datos altamente relevante actualmente en la industria es el correspondiente al MLOps, el cual trata sobre cómo los datos son manipulados a través de etapas orientadas al desarrollo de software. Para más información sobre esto puedes consultar: MLOps Spanning Whole MachineLearningLife Cycle: ASurvey.
El ciclo de vida de los datos nos da una visión global sobre qué sucesión de pasos podemos seguir al momento de crear un proyecto que involucre el uso de estos para satisfacer alguna necesidad, y dentro de este, la gente especializada en machine learning tiene injerencia principalmente en las fases de preprocesamiento y procesamiento, aunque la ciencia de datos puede llegar a abordarlas todas.
Este corto vistazo al ciclo de vida de los datos añade conocimiento sobre nuestra materia prima, y nos da una introducción a las últimas sesiones de entrenamiento en datos.
En la siguiente travesía dejaremos de lado estos aspectos generales, y nos introduciremos en tareas que conllevan el operar directamente sobre los datos.