Engenharia de dados é a disciplina que projeta, constrói e mantém a infraestrutura responsável pela coleta, ingestão, processamento, transformação, armazenamento e disponibilização de dados em escala dentro de uma organização. Diferencia-se da ciência de dados, que se concentra em análise e modelagem, e da análise de negócio, que se concentra na interpretação para tomada de decisão.
O escopo cobre pipelines de extração, transformação e carga (ETL ou ELT), data lakes, data warehouses, data lakehouses, plataformas de streaming (Apache Kafka, Apache Pulsar), ferramentas de orquestração (Apache Airflow, Dagster, Prefect) e arquiteturas modernas como medallion (camadas bronze, prata, ouro) e data mesh. Tecnologias amplamente adotadas incluem Apache Spark, dbt, Snowflake, Databricks, Google BigQuery, Amazon Redshift e plataformas de dados em nuvem.
No Brasil, a engenharia de dados ganhou tração corporativa após 2017, com bancos, varejistas e operadoras criando equipes dedicadas. Em organizações maduras, a função reporta tipicamente a um Chief Data Officer (CDO) ou diretor de engenharia, com governança de dados (data governance) atuando como contraparte normativa.
Origem do termo
A expressão engenharia de dados consolidou-se entre 2010 e 2014, no contexto da popularização do termo big data e da emergência de tecnologias como Apache Hadoop. Maxime Beauchemin, criador do Apache Airflow, publicou em 2017 o ensaio The Rise of the Data Engineer, que formalizou a identidade profissional da disciplina e seu escopo distinto frente a outras carreiras de dados.