Skip to main content

Backlog

Prio:

  • Cloud Function con Pub/Sub o EventArc Trigger > problemi di retry (timeout dell'ack, dead letter topic)
  • Come controllare i log delle Cloud Function (per isolare l'instance, la singola run)
  • Pipeline standard GCS -> Cloud Function -> Destination (BQ, Firestore)
  • YouTube BQ Data Transfer
  • Insightfully Backfill Details - limiti dei singoli connettori
  • Checklist apertura progetto GCP
  • Template di Documentazione Data Hub da consegnare al cliente > da fare per "ClioMakeUp Data Hub"

Backlog:

  • Processi
    • Biblioteca dei progetti / stime (qui sheet)
    • Step di progetto / milestone
    • Comunicazioni template (come mail per richiedere accessi e consegna)
  • People Operations
    • Flussi e collaborazione con le altre CoP
    • Certificazioni e corsi consigliati
    • Strumenti utilizzati
    • Onboarding Checklist
  • Insightfully
    • Come creare le viste per l'export (occhio a includere client_id per i nuovi connettori)
  • Software Factory
    • Best practices per il design di Data Warehouse e Data Lakes
    • Best practices per la progettazione e manutenzione delle pipeline
    • Best practices per la connessione BQ > Looker Studio
    • Data Freshness Dashboard
    • Monitoring e Alerting GCP: Policy utili per CF, BQ, GCS
    • Progetti GCP interni (dp-data-lake, gcp-project-493, testing, insightfully)
    • Pipeline GCS Landing Bucket > BQ (FPRC/Lines, con schema validation)
    • BQ Clustering
    • Guida per setup dei limiti di Budget su GCP
    • Regole per labeling delle risorse su GCP
    • Azure: guide fatte per CSP
    • BigQuery Omni / S3
    • S3 to Cloud Storage (Cosmico)
  • Teorici
    • Documentazione: https://docs.divio.com/documentation-system/
    • Formati di file (CSV, JSON, Parquet, ORC, Avro)
    • Iceberg Tables
    • Hive Partitioning
    • Networking e VPC su GCP
    • Orchestrazione (Cron Job, Sensori, Operatori, DAGs)
    • Fasi di sviluppo connettore (1. download non schedulato dei dati storici (pagination, quotas), 2. download incrementale/logiche di aggiornamento, 3. schedulazione e orchestrazione)
    • Replica DB (query, CDC, dumps. handling duplicates, schema changes)
    • ISO 8601 per le date
    • Stateful vs Stateless
    • BQ Physical vs Logical Storage Costs
  • Onboarding
    • Corso con sandbox su Cloud Guru
    • Proj di training su GCP
    • Repo con connettore ETL e altro codice riutilizzabile
    • Connettore ETL Template > aggiungere full_refresh or incremental mode