Glosario de Ciencia de Datos

GLOSARIO DE CIENCIA DE DATOS

A

API

Una API es una interfaz de programación de aplicaciones, lo cual es, en pocas palabras, una forma de comunicación entre diferentes softwares, mediante protocolos relativamente sencillos, y consumibles mediante diversos lenguajes de programación.

Algoritmo

Conjunto de instrucciones que una máquina sigue para alcanzar un objetivo o conjunto de objetivos particulares.

Análisis exploratorio de datos

Un análisis de datos exploratorio (EDA, por sus siglas en inglés: Exploratory Data Analysis) es un procedimiento que consiste en obtener conocimientos sobre un conjunto de datos mediante su manipulación, análisis estadístico descriptivo e inferencial, y visualización en representaciones gráficas.

Aprendizaje auto-supervisado

El aprendizaje auto-supervisado un tipo de machine learning que consiste en modelos que aprenden mediante algoritmos que generan sus propias etiquetas a partir de datos no etiquetados, tomando como punto de partida la definición y ejecución de una tarea de pretexto. La tarea de pretexto es una actividad inicial a ejecutar, diseñada para que el modelo aprenda características útiles de los datos, para posteriormente realizar tareas más específicas.

Aprendizaje no supervisado

Tipo de machine learning cuyo fin es generar algoritmos que identifiquen patrones en conjuntos de datos no etiquetados.

Aprendizaje por refuerzo

El aprendizaje por refuerzo es un método de aprendizaje de máquinas cuyo objetivo es entrenar un modelo mediante la búsqueda de las acciones adecuadas en una situación determinada que maximizan la probabilidad de obtener una recompensa específica.

Aprendizaje semi-supervisado

Tipo de machine learning que consiste en la creación de modelos de aprendizaje automático entrenados con montículos de datos combinados: grandes cantidades de datos no etiquetados con porciones más pequeñas de datos etiquetados.

Aprendizaje supervisado

El aprendizaje supervisado es un tipo de aprendizaje de máquinas cuyo objetivo es la generación automática de modelos matemáticos que capturen patrones en un conjunto de datos etiquetados, es decir, de datos tipificados en dos clases: de entrada y de salida, donde las entradas son las variables independientes a considerar para el entrenamiento del modelo, y las salidas los valores de la variable dependiente.

B

C

Ciclo de vida de los datos

El ciclo de vida de los datos es el conjunto de etapas a través de las cuales los datos son transformados desde su recolección hasta el cumplimiento del objetivo u objetivos para los cuales fueron obtenidos, o hasta su destrucción (si es el caso).

Esto quiere decir que el ciclo de vida de los datos son las distintas formas evolutivas de los datos en cuanto a su formato, presentación y consumo a partir de que son adquiridos para la solución de un problema. Las etapas de este ciclo no están definidas universalmente, sino que existen versiones que se diversifican en el número de etapas y la definició nde cada una.

Colaboratory (Google)

Google Colaboratory es una plataforma en línea de Google que permite la creación, ejecución, almacenamiento y compartición de programas en Python en espacios de trabajo amigables y sencillos de utilizar.

Conjunto de datos

Cúmulo de información, generalmente dispuesto en tablas, que puede ser percibido como una unidad para su procesamiento computacional. Es la colección de datos de algún tópico, que se utiliza para alimentar un algoritmo de aprendizaje de máquinas.

Conjunto de datos de desarrollo

Subconjunto que se utiliza para determinar con qué rendimiento funciona el modelo operando sobre datos nuevos (que no pertenecen al conjunto de entrenamiento), permitiendo el ajuste en hiperpárametros para determinar cuáles generan los mejores resultados.

Conjunto de datos de entrenamiento

Subconjunto del conjunto de datos que se procesa para la extracción de patrones, y con ello ajustar automáticamente los parámetros que constituyen al modelo (de machine learning).

Conjunto de datos de prueba

Subconjunto de datos utilizado para evaluar el modelo de machine learning después de su etapa de entrenamiento y (si aplica) de ajuste de hiperparámetros.

Conocimiento

Síntesis y comprensión de la información para su aplicación a un problema o actividad.

D

Datos

En ciencias computacionales, un dato es una representación unitaria de fenómenos, entidades, o cualquier aspecto de estos, perceptibles directa o indirectamente, en una forma que pueda ser comunicada y almacenada efectivamente.

Datos cualitativos

Los datos cualitativos son un tipo de datos que describen entidades subjetivas o cualidades/carecterísticas de objetos, por lo que no se expresan matemáticamente. Se trata de información a la que no se le puede asignar un número de acuerdo a un sistema estandarizado, por lo que, generalmente, estos se recolectan y simbolizan en forma de texto.

Datos estructurados

Tipos de datos organizados en formatos que permiten su fácil almacenamiento y procesamiento.

Datos cuantitativos

Los datos cuantitativos son el tipo de datos que representan información mediante cifras o expresiones matemáticas equivalentes.

Datos desbalanceados

Los datos desbalanceados son aquellos en los que la distribución de una o más variables de interés está sesgada, es decir, ciertos valores, clases o rangos de datos están representados de manera desigual en comparación con otros.

Datos estructurados

Tipo de datos no organizados en formatos predefinidos, lo cual dificulta su almacenamiento y procesamiento computacional.

Datos semi-estructurados

Tipo de datos organizados en formatos distintos a las formas relacionales, mantienen la información etiquetada, pero en una estructura no matricial (renglones y columnas).

E

Ecosistema de datos

Conjunto de elementos que interactúan con el fin de producir, organizar, controlar, almacenar, procesar, y compartir información.

Ejemplo de entrenamiento

Conjunto de entradas (atributos de los objetos que componen a un conjunto de datos) y su respectiva salida (información que tenemos como objetivo predecir/estimar).

Entradas

Características/atributos de los objetos que componen un conjunto de datos.

F

First Party Data

Los datos de fuente primaria, de primera mano, o first party data, son los conjuntos de datos recabados mediante medios propios por la misma persona, conjunto de personas, o asociados que pretenden utilizarlos, sin acudir a datos obtenidos por gente u organizaciones externas.

Función de pérdida

Una función de pérdida, función de error, o función de costo (loss function), es una función matemática que evalúa el desempeño de un modelo de aprendizaje automático calculando las diferencias entre los valores predichos por este, y los valores reales del conjunto de datos.

G

H

I

Información

Conjunto de datos organizados en formas significativas y útiles.

J

Jerarquía del conocimiento

Forma de definir las relaciones existentes entre los datos, información, conocimiento y sabiduría.

JSON

Formato de tipo textual utilizado para comunicación de información.

K

L

Limpieza de datos

Esta es generalmente la primera y más concurrida actividad dentro del preprocesamiento, consiste en la detección y corrección de inconsistencias en el conjunto de datos.

M

Matriz de confusión

La matriz de confusión es una herramienta típica para la evaluación de modelos que realizan clasificaciones binarias. De forma más específica, la matriz de confusión es una matriz de dos dimensiones utilizada para evaluar sistemas de clasificación mostrando la cantidad de datos correcta e incorrectamente categorizados.

Machine Learning

El machine learning es una rama de las ciencias computacionales que estudia y desarrolla técnicas para la creación de sistemas capaces de concretar uno o más objetivos mediante algoritmos no explícitamente programados, a través de un proceso de aprendizaje el cual consiste en la extracción automática de patrones de conjuntos de datos.

Modelo de machine learning

Representación matemática de un proceso o sistema complejo que se utiliza para hacer predicciones o tomar decisiones basadas en datos. En términos generales, un modelo es una función matemática que describe la relación entre una entrada (o conjunto de entradas) y una salida (o conjunto de salidas).

N

O

Optimizador

Un optimizador es un algoritmo diseñado para ajustar los parámetros de un modelo con el objetivo de minimizar una función de pérdida.

P

Preprocesamiento

El preprocesamiento de datos es el conjunto de técnicas empleadas con el fin de preparar los datos para asegurar su calidad, viabilidad, y eficiencia para su procesamiento computacional.

Python

Python es un lenguaje de programación de alto nivel, interpretado, orientado a objetos, y con semántica dinámica, que goza de una enorme y creciente popularidad entre los practicantes de la ciencia de datos. Entre sus principales bondades se encuentran la fácil legibilidad y sintaxis, bajo costo computacional, y enorme variedad de librerías.

Q

R

Reducción de datos

Consiste en la obtención de una representación más pequeña y estadísticamente significativa del conjunto de datos.

Regresión lineal

Método matemático que que consiste en modelar la ecuación de una recta que describe de manera aproximada la relación entre una variable dependiente y una variable independiente.

Regresión logística

La regresión logística es un método matemático cuyo objetivo es modelar la probabilidad de que un evento pertenezca a una o más categorías dados los valores de una o más variables independientes.

S

Sabiduría

Uso de conocimientos para actuar ante cualquier situación que lo requiera. Trata sobre la acumulación de conocimientos y el discernimiento de cómo utilizarlos para satisfacer objetivos

Salidas

Objetivos a predecir por un algoritmo de aprendizaje supervisado, es decir, de los cuales se pretende realizar estimaciones matemáticas.

Second Party Data

Los datos de fuentes secundarias, de segunda mano, o second party data son aquellos conjuntos de datos que se obtienen de otras personas u organizaciones, quienes los recolectaron utilizando sus propios recursos (es decir, para ellos son first party data), y se suelen intercambiar, vender o hacer públicos, dependiendo de la entidad que los posea.

Sobreajuste

Un modelo sobreajustado es un modelo obtenido mediante algoritmos de aprendizaje de máquinas cuyo comportamiento se adhiere de manera muy fiel a la tendencia de los datos de entrenamiento, con un ajuste que no solo captura los patrones subyacentes, sino también el ruido y las variaciones irrelevantes. Esto provoca que el modelo tenga un rendimiento muy aceptable al evaluarse en el conjunto de datos de entrenamiento, pero que sea deficiente al operar sobre datos nuevos (es decir, en el conjunto de datos de prueba, o datos nuevos recolectados), ya que no logra generalizar bien su comportamiento.

Subajuste

Un modelo subajustado es un modelo de aprendizaje de máquinas que no logra capturar o «aprender» correctamente los patrones subyacentes a los datos debido, principalmente, a su simplicidad matemática (del modelo generado) y, por lo tanto, tiene un desempeño deficiente al ser evaluado tanto en el conjunto de datos de entrenamiento como en el de prueba.

T

Tasa de aprendizaje

La tasa de aprendizaje (learning rate) es un hiperparámetro en los algoritmos de optimización que controla el tamaño del paso que da el optimizador al actualizar los parámetros del modelo en cada iteración.

Terreno real

El terreno real o verdad fundamental se refiere a información que se sabe que es real o verdadera, proporcionada por observación y medición directas. En ciencia de datos se suele utilizar como referencia para evaluar la precisión de un modelo.

Third Party Data

Los datos de fuentes terciarias, de tercea mano, o third party data, son conjuntos de datos también provenientes de forma externa, pero que no fueron recolectados directamente por sus proveedores.

Transformación de los datos (preprocesamiento)

Modificación del conjunto de datos para acrecentar la facilidad con la que la computadora puede procesarlo.

ÍNDICE

A

API

Algoritmo

Análisis exploratorio de datos

Aprendizaje auto-supervisado

Aprendizaje no supervisado

Aprendizaje por refuerzo

Aprendizaje semi-supervisado

Aprendizaje supervisado

B

C

Ciclo de vida de los datos

Colaboratory (Google)

Conjunto de datos

Conjunto de datos de desarrollo

Conjunto de datos de entrenamiento

Conjunto de datos de prueba

Conocimiento

D

Datos

Datos cualitativos

Datos estructurados

Datos cuantitativos

Datos desbalanceados

Datos estructurados

Datos semi-estructurados

E

Ecosistema de datos

Ejemplo de entrenamiento

Entradas

F

First Party Data

Función de pérdida

G

H

I

Información

J

Jerarquía del conocimiento

JSON

K

L

Limpieza de datos

M

Matriz de confusión

Machine Learning

Modelo de machine learning

N

O

Optimizador

P

Preprocesamiento

Python

Q

R

Reducción de datos

Regresión lineal

Regresión logística

S

Sabiduría

Salidas

Second Party Data

Sobreajuste

Subajuste

T

Tasa de aprendizaje

Terreno real

Third Party Data

Transformación de los datos (preprocesamiento)

U

V

W

Web Scraping

X

Y

Z

Envíame un mensaje