<Technical_View />

Arquitetura Self-Hosted de Alta Performance.

Entenda como o ProspectaBR processa milhões de dados localmente usando DuckDB e Python, garantindo privacidade total e zero latência de rede.

O que é o ProspectaBR?

O ProspectaBR é um software local (instalado no Windows) para prospecção, enriquecimento e análise de empresas do Brasil, operando sobre dados massivos (ex.: base pública de CNPJ) com foco em performance, privacidade e autonomia.

Ele executa 100% no computador do usuário, sem exigir upload dos dados para servidores externos, permitindo consultas e exportações em alto volume com baixa latência.

Na prática, funciona como um motor local de dados + interface web local:

  • Importação e normalização de bases (CNPJ e complementos);
  • Consulta e filtragem em grande escala (segmentos, CNAE, UF/município, porte, etc.);
  • Enriquecimento com fontes externas (presença digital e dados web);
  • Exportação e Integração (CSV/Excel, WhatsApp, e-mail, CRM, n8n).

Arquitetura em Camadas

1. Camada de Dados (DuckDB)

O núcleo de performance é o DuckDB, um banco analítico embutido (in-process) otimizado para leitura/consulta em lote. Roda localmente e gerencia:

  • Ingestão de arquivos (CSV/Parquet/planilhas);
  • Criação de tabelas e índices auxiliares;
  • Filtros complexos e agregações instantâneas;
  • Exportação rápida de resultados (COPY/EXPORT).

2. Processamento (Python ETL)

Implementada em Python, responsável pelo pipeline de dados e regras de negócio:

  • Pipeline de importação (parsing, padronização, deduplicação);
  • Validações de chaves e consistência;
  • Consolidação e modelagem de tabelas finais;
  • Jobs de enriquecimento com controle de taxa e retries.

3. Aplicação (Flask API)

A interface é servida por um servidor local Flask (localhost), acessado via navegador. Expõe endpoints para:

  • Executar buscas e filtros na UI;
  • Paginação de resultados;
  • Disparo de rotinas de importação;
  • Integração com automações via API local.

4. Execução e Isolamento

O sistema roda como aplicativo local, iniciando um serviço em http://127.0.0.1:<porta> apenas na máquina do usuário.

Não precisa estar "na internet" para consultas internas, operando offline para a base de CNPJ (exceto módulos de enriquecimento externo).

Stack Tecnológico

DuckDB
Engine analítica embutida. Ideal para grandes volumes, usando arquivos locais e formatos eficientes como Parquet.
Python
Orquestra os pipelines (ETL), integração com DuckDB e lógica de automação. Modularidade e robustez no tratamento de dados.
Flask
Microframework que serve a aplicação local e a API interna. Permite uma UI moderna (HTML/JS) mantendo o processamento pesado no backend.
Integrações
Módulos opcionais para WhatsApp (Gateways), E-mail transacional, n8n (Webhooks) e CRMs. *Integrações dependem de configuração e credenciais do usuário.

Por que "Local-First"?

Privacidade & LGPD

Os dados ficam no seu computador. Consulta, filtragem e exportação acontecem localmente. Nenhuma base de clientes precisa ser enviada para servidores externos.

Performance

Operações analíticas (filtros, joins, agrupamentos) são executadas in-process no DuckDB. Isso elimina a latência de rede típica de soluções SaaS.

Requisitos de Sistema

  • Sistema Operacional Windows 10 ou Windows 11 (64-bit)
  • Armazenamento SSD recomendado (devido ao tamanho das bases de CNPJ)
  • Memória RAM Quanto mais, melhor (recomendado 8GB+ para operações intensivas)
  • Navegador Google Chrome ou Microsoft Edge atualizados