EAS Latam Academy Logo EAS Latam

Módulo 1: Fundamentos de Google Cloud Data Analytics

Introducción a Google Cloud Platform (GCP) para Datos

Este módulo te introduce a los conceptos fundamentales de Google Cloud Platform (GCP) y a sus servicios clave para el análisis de datos. Aprenderás a navegar por la consola de GCP y a comprender la arquitectura básica necesaria para construir soluciones de datos.

Conceptos Clave de GCP

  • Proyectos: La unidad organizativa fundamental en GCP. Todos los recursos que utilices (máquinas virtuales, bases de datos, buckets de almacenamiento) deben pertenecer a un proyecto.

  • Recursos: Los componentes individuales que utilizas en GCP (ej. una instancia de BigQuery, un bucket de Cloud Storage).

  • Regiones y Zonas: La infraestructura global de Google se divide en regiones (áreas geográficas específicas) y zonas (ubicaciones dentro de las regiones) para alta disponibilidad y baja latencia.

  • IAM (Identity and Access Management): Permite gestionar quién tiene qué acceso a los recursos de GCP. Se basa en el principio de privilegio mínimo.

    • Miembros: Usuarios, grupos de Google, cuentas de servicio o dominios de G Suite.
    • Roles: Conjuntos de permisos que puedes asignar a los miembros (ej. roles/bigquery.dataViewer, roles/storage.objectAdmin).

Almacenamiento de Datos en GCP

GCP ofrece una variedad de servicios de almacenamiento adaptados a diferentes necesidades de datos.

Cloud Storage

Un servicio de almacenamiento de objetos altamente escalable, duradero y rentable. Ideal para:

  • Data Lakes: Almacenar datos brutos de cualquier tipo y tamaño.
  • Archivos de Backup y Recuperación de Desastres: Copias de seguridad de datos.
  • Contenido Estático de Sitios Web: Servir imágenes, videos, etc.

Características clave:

  • Buckets: Contenedores donde se almacenan los objetos.
  • Clases de Almacenamiento: Diferentes niveles de costo/rendimiento (Standard, Nearline, Coldline, Archive) según la frecuencia de acceso.
  • Durabilidad: Diseñado para una durabilidad del 99.999999999% (11 nueves).

BigQuery: El Data Warehouse Sin Servidor

BigQuery es el almacén de datos (data warehouse) de GCP, diseñado para el análisis de grandes volúmenes de datos.

Características clave:

  • Sin Servidor (Serverless): Google gestiona la infraestructura, no necesitas provisionar ni escalar servidores.
  • Altamente Escalable: Puede manejar petabytes de datos y miles de millones de filas.
  • Rentable: Pagas por la cantidad de datos procesados en las consultas y por el almacenamiento.
  • SQL Estándar: Utiliza SQL estándar ANSI 2011.
  • Almacenamiento Columna (Columnar Storage): Optimizado para consultas analíticas.
  • Separación de Cómputo y Almacenamiento: Permite escalar ambos recursos de forma independiente.

Componentes de BigQuery:

  • Proyectos: Contienen tus datasets.
  • Datasets: Contenedores para tus tablas y vistas.
  • Tablas: Donde se almacenan los datos. Pueden ser tablas internas, externas o vistas materializadas.
  • Vistas: Consultas guardadas.

Operaciones Básicas en BigQuery

  • Crear un Dataset: En la consola de GCP o con la CLI/API.

  • Cargar Datos: Desde Cloud Storage, GCS, archivos locales (CSV, JSON), o streaming.

  • Consultar Datos: Usando SQL estándar.

    SELECT
      columna1,
      columna2,
      COUNT(*) as total_registros
    FROM
      `tu_proyecto.tu_dataset.tu_tabla`
    WHERE
      columna_fecha BETWEEN '2023-01-01' AND '2023-12-31'
    GROUP BY
      1, 2
    ORDER BY
      total_registros DESC
    LIMIT 100;

Conclusión

Este módulo ha sentado las bases para tu viaje en Google Cloud Data Analytics. Has aprendido sobre la estructura de GCP, cómo gestionar el acceso con IAM y, lo más importante, cómo almacenar grandes volúmenes de datos de manera eficiente con Cloud Storage y analizarlos a escala con BigQuery. Estos son los servicios fundamentales para cualquier solución de datos en GCP.

¿Listo para el desafío?

Has revisado la teoría. Ahora es momento de poner a prueba tus conocimientos.

Iniciar Desafío