Módulo 4: Arquitectura de Datos y Operaciones (Experto)
Diseño de Arquitecturas de Datos en GCP
Este módulo explora el diseño y la implementación de arquitecturas de datos avanzadas en Google Cloud Platform, incluyendo lagos de datos, almacenes de datos y estrategias para la integración, seguridad y gobernanza.
Data Lakes y Data Warehouses Modernos
- Data Lake: Un repositorio centralizado para almacenar datos brutos a cualquier escala. Permite almacenar datos estructurados, semi-estructurados y no estructurados en su formato nativo.
- Servicio en GCP: Principalmente Cloud Storage.
- Ventajas: Flexibilidad, bajo costo de almacenamiento, ideal para machine learning y análisis exploratorio.
- Data Warehouse: Un sistema para el almacenamiento de datos estructurados y preprocesados, optimizado para consultas analíticas y generación de informes.
- Servicio en GCP: BigQuery.
- Ventajas: Rendimiento de consulta rápido, escalabilidad automática, SQL estándar.
Estrategias de ETL/ELT con Cloud Data Fusion
Cloud Data Fusion es un servicio de integración de datos totalmente gestionado y nativo de la nube, basado en el framework de código abierto CDAP. Proporciona una interfaz gráfica para construir pipelines ETL/ELT complejos.
Características clave:
- GUI Unificada: Diseño visual de pipelines de datos sin necesidad de código.
- Conectores Robustos: Se integra con diversas fuentes de datos on-premise y en la nube.
- Transformaciones Prediseñadas: Amplia biblioteca de transformaciones y funciones.
- Escalabilidad: Se ejecuta en Dataproc o Dataflow, aprovechando su escalabilidad.
Caso de Uso: Migración de datos, modernización de data warehouses, integración de datos complejos.
Seguridad y Gobernanza de Datos
Proteger y gestionar tus datos es fundamental en cualquier arquitectura de datos.
Seguridad de Datos en GCP
- IAM (Identity and Access Management): Control de acceso granular a todos los recursos de datos.
- Cifrado de Datos:
- En Reposo: Todos los datos en Cloud Storage, BigQuery, etc., se cifran por defecto con claves gestionadas por Google.
- Cifrado gestionado por el cliente (CMEK): Usar tus propias claves de cifrado gestionadas en Cloud KMS.
- En Tránsito: Uso de SSL/TLS para proteger los datos mientras se mueven entre servicios.
- VPC Service Controls: Crea perímetros de seguridad alrededor de tus recursos de GCP para mitigar la exfiltración de datos.
- Data Loss Prevention (DLP) API: Descubre, clasifica y enmascara datos sensibles para evitar fugas.
Gobernanza de Datos con Cloud Data Catalog
Revisa el Módulo 2 para los fundamentos de Data Catalog. A nivel experto, se utiliza para:
- Aplicación de Políticas: Definir y aplicar políticas de uso de datos.
- Auditoría y Compliance: Mantener un registro de acceso y uso de datos para cumplir con regulaciones (GDPR, HIPAA).
- Linaje de Datos: Rastrear el origen y las transformaciones de los datos.
Optimización de Costos en BigQuery
La optimización de costos es una habilidad crítica en GCP, especialmente con servicios de pago por uso como BigQuery.
Estrategias de Optimización
- Particionamiento y Clustering de Tablas: Reduce la cantidad de datos escaneados por consulta, minimizando costos y mejorando el rendimiento.
- Diseño de Esquemas Eficiente: Evitar
SELECT *, usar tipos de datos adecuados. - Tarifas Planas (Flat Rate Pricing): Para cargas de trabajo predecibles y de alto volumen.
- Monitoreo de Uso: Utilizar Cloud Monitoring y reportes de facturación para identificar patrones de gasto.
- TTL (Time-To-Live) para Datos: Eliminar automáticamente datos antiguos que ya no son necesarios.
- Vistas Materializadas: Para precomputar resultados de consultas frecuentes.
Conclusión
Este módulo te ha proporcionado una visión experta sobre el diseño, la seguridad, la gobernanza y la optimización de costos de arquitecturas de datos en GCP. Dominar estas habilidades es crucial para construir y mantener soluciones de datos robustas, seguras y eficientes a escala empresarial.