Backlog
Prio:
- Cloud Function con Pub/Sub o EventArc Trigger > problemi di retry (timeout dell'ack, dead letter topic)
- Come controllare i log delle Cloud Function (per isolare l'instance, la singola run)
- Pipeline standard GCS -> Cloud Function -> Destination (BQ, Firestore)
- YouTube BQ Data Transfer
- Insightfully Backfill Details - limiti dei singoli connettori
- Checklist apertura progetto GCP
- Template di Documentazione Data Hub da consegnare al cliente > da fare per "ClioMakeUp Data Hub"
Backlog:
- Processi
- Biblioteca dei progetti / stime (qui sheet)
- Step di progetto / milestone
- Comunicazioni template (come mail per richiedere accessi e consegna)
- People Operations
- Flussi e collaborazione con le altre CoP
- Certificazioni e corsi consigliati
- Strumenti utilizzati
- Onboarding Checklist
- Insightfully
- Come creare le viste per l'export (occhio a includere client_id per i nuovi connettori)
- Software Factory
- Best practices per il design di Data Warehouse e Data Lakes
- Best practices per la progettazione e manutenzione delle pipeline
- Best practices per la connessione BQ > Looker Studio
- Data Freshness Dashboard
- Monitoring e Alerting GCP: Policy utili per CF, BQ, GCS
- Progetti GCP interni (dp-data-lake, gcp-project-493, testing, insightfully)
- Pipeline GCS Landing Bucket > BQ (FPRC/Lines, con schema validation)
- BQ Clustering
- Guida per setup dei limiti di Budget su GCP
- Regole per labeling delle risorse su GCP
- Azure: guide fatte per CSP
- BigQuery Omni / S3
- S3 to Cloud Storage (Cosmico)
- Teorici
- Documentazione: https://docs.divio.com/documentation-system/
- Formati di file (CSV, JSON, Parquet, ORC, Avro)
- Iceberg Tables
- Hive Partitioning
- Networking e VPC su GCP
- Orchestrazione (Cron Job, Sensori, Operatori, DAGs)
- Fasi di sviluppo connettore (1. download non schedulato dei dati storici (pagination, quotas), 2. download incrementale/logiche di aggiornamento, 3. schedulazione e orchestrazione)
- Replica DB (query, CDC, dumps. handling duplicates, schema changes)
- ISO 8601 per le date
- Stateful vs Stateless
- BQ Physical vs Logical Storage Costs
- Onboarding
- Corso con sandbox su Cloud Guru
- Proj di training su GCP
- Repo con connettore ETL e altro codice riutilizzabile
- Connettore ETL Template > aggiungere full_refresh or incremental mode