GLOSARIO DE CIENCIA DE DATOS
ÍNDICE
A
API
Una API es una interfaz de programación de aplicaciones, lo cual es, en pocas palabras, una forma de comunicación entre diferentes softwares, mediante protocolos relativamente sencillos, y consumibles mediante diversos lenguajes de programación.
Algoritmo
Conjunto de instrucciones que una máquina sigue para alcanzar un objetivo o conjunto de objetivos particulares.
Análisis exploratorio de datos
Un análisis de datos exploratorio (EDA, por sus siglas en inglés: Exploratory Data Analysis) es un procedimiento que consiste en obtener conocimientos sobre un conjunto de datos mediante su manipulación, análisis estadístico descriptivo e inferencial, y visualización en representaciones gráficas.
Aprendizaje auto-supervisado
El aprendizaje auto-supervisado un tipo de machine learning que consiste en modelos que aprenden mediante algoritmos que generan sus propias etiquetas a partir de datos no etiquetados, tomando como punto de partida la definición y ejecución de una tarea de pretexto. La tarea de pretexto es una actividad inicial a ejecutar, diseñada para que el modelo aprenda características útiles de los datos, para posteriormente realizar tareas más específicas.
Aprendizaje no supervisado
Tipo de machine learning cuyo fin es generar algoritmos que identifiquen patrones en conjuntos de datos no etiquetados.
Aprendizaje por refuerzo
El aprendizaje por refuerzo es un método de aprendizaje de máquinas cuyo objetivo es entrenar un modelo mediante la búsqueda de las acciones adecuadas en una situación determinada que maximizan la probabilidad de obtener una recompensa específica.
Aprendizaje semi-supervisado
Tipo de machine learning que consiste en la creación de modelos de aprendizaje automático entrenados con montículos de datos combinados: grandes cantidades de datos no etiquetados con porciones más pequeñas de datos etiquetados.
Aprendizaje supervisado
El aprendizaje supervisado es un tipo de aprendizaje de máquinas cuyo objetivo es la generación automática de modelos matemáticos que capturen patrones en un conjunto de datos etiquetados, es decir, de datos tipificados en dos clases: de entrada y de salida, donde las entradas son las variables independientes a considerar para el entrenamiento del modelo, y las salidas los valores de la variable dependiente.
B
C
Ciclo de vida de los datos
El ciclo de vida de los datos es el conjunto de etapas a través de las cuales los datos son transformados desde su recolección hasta el cumplimiento del objetivo u objetivos para los cuales fueron obtenidos, o hasta su destrucción (si es el caso).
Esto quiere decir que el ciclo de vida de los datos son las distintas formas evolutivas de los datos en cuanto a su formato, presentación y consumo a partir de que son adquiridos para la solución de un problema. Las etapas de este ciclo no están definidas universalmente, sino que existen versiones que se diversifican en el número de etapas y la definició nde cada una.
Colaboratory (Google)
Google Colaboratory es una plataforma en línea de Google que permite la creación, ejecución, almacenamiento y compartición de programas en Python en espacios de trabajo amigables y sencillos de utilizar.
Conjunto de datos
Cúmulo de información, generalmente dispuesto en tablas, que puede ser percibido como una unidad para su procesamiento computacional. Es la colección de datos de algún tópico, que se utiliza para alimentar un algoritmo de aprendizaje de máquinas.
Conjunto de datos de desarrollo
Subconjunto que se utiliza para determinar con qué rendimiento funciona el modelo operando sobre datos nuevos (que no pertenecen al conjunto de entrenamiento), permitiendo el ajuste en hiperpárametros para determinar cuáles generan los mejores resultados.
Conjunto de datos de entrenamiento
Subconjunto del conjunto de datos que se procesa para la extracción de patrones, y con ello ajustar automáticamente los parámetros que constituyen al modelo (de machine learning).
Conjunto de datos de prueba
Subconjunto de datos utilizado para evaluar el modelo de machine learning después de su etapa de entrenamiento y (si aplica) de ajuste de hiperparámetros.
Conocimiento
D
Datos
Datos cualitativos
Datos estructurados
Datos cuantitativos
Datos estructurados
Datos semi-estructurados
E
Ecosistema de datos
Ejemplo de entrenamiento
Entradas
F
First Party Data
Función de pérdida
G
H
I
Información
J
Jerarquía del conocimiento
JSON
Formato de tipo textual utilizado para comunicación de información.
K
L
Limpieza de datos
M
Machine Learning
Modelo de machine learning
Representación matemática de un proceso o sistema complejo que se utiliza para hacer predicciones o tomar decisiones basadas en datos. En términos generales, un modelo es una función matemática que describe la relación entre una entrada (o conjunto de entradas) y una salida (o conjunto de salidas).
N
O
P
Preprocesamiento
El preprocesamiento de datos es el conjunto de técnicas empleadas con el fin de preparar los datos para asegurar su calidad, viabilidad, y eficiencia para su procesamiento computacional.