Pipeline de Cruzamento de Dados

Stack: Python, SQL, Fuzzy Matching

Ano: 2025

O Problema

A inconsistência de dados entre diferentes bases do estado dificulta auditorias e análises precisas. Nomes escritos de formas diferentes ou erros de digitação impedem cruzamentos diretos por chaves primárias tradicionais.

A Solução

Desenvolvi um pipeline automatizado em Python que realiza a extração de dados via API e aplica algoritmos avançados de **Fuzzy Matching**. Isso permite o cruzamento inteligente de informações mesmo quando há variações textuais significativas.

Como Funciona

O script processa grandes volumes de dados, limpa as entradas e utiliza técnicas de similaridade de strings para encontrar correspondências entre bases governamentais. Os resultados são então inseridos em um banco de dados e exportados em relatórios detalhados para tomada de decisão.