Agente de IA para Geração de Dados Sintéticos de Crédito

15 de December de 2025 • Tempo de leitura: 5 min

Como criar um agente de IA que gera dados sintéticos de crédito para simulações e testes de novos modelos de avaliação de risco.

1. Propósito e Escopo

Este documento define todos os prompts, configurações de memória, transição entre estados, ferramentas como chamadas a sistemas externos e demais requisitos funcionais para o Agente de IA para Geração de Dados Sintéticos de Crédito. Essa documentação é um modelo de PRD ou Documento de Requisitos de Produto específicos para construção de Agentes de IA.

O objetivo principal é criar um agente que gere dados sintéticos de crédito realistas, mantendo as características estatísticas dos dados reais, enquanto protege a privacidade dos indivíduos, eliminando a possibilidade de reidentificação ou reversão para dados reais.

2. Contexto e Problema

Cenário Atual

As instituições financeiras enfrentam a necessidade de testar novos modelos de avaliação de risco de crédito. No entanto, o uso de dados reais para simulações apresenta desafios significativos em termos de privacidade e segurança.

  • Necessidade de dados de crédito realistas para testar novos modelos de avaliação de risco.
  • Limitações de privacidade e segurança ao usar dados de crédito reais para simulações.

Esses desafios requerem o desenvolvimento de um agente de IA capaz de gerar dados sintéticos que preservam as características estatísticas dos dados reais sem expor informações sensíveis.


Problemas Identificados

  • Privacidade: O uso de dados reais de crédito pode comprometer a privacidade dos indivíduos.
  • Segurança: Existe o risco de reidentificação dos dados reais a partir dos dados sintéticos.
  • Realismo dos dados: Os dados sintéticos devem manter as características estatísticas dos dados reais para serem úteis em simulações.

3. Impactos Esperados

A implementação deste agente de IA visa alcançar os seguintes resultados:

  • Preservar a privacidade dos indivíduos ao gerar dados sintéticos.
  • Manter a segurança dos dados, evitando a reidentificação.
  • Garantir o realismo dos dados sintéticos para simulações eficazes de modelos de risco.

4. Visão Geral da Solução

O agente de IA para geração de dados sintéticos de crédito utiliza algoritmos avançados para criar dados que preservam as características estatísticas dos dados reais, garantindo a privacidade e segurança dos indivíduos. A seguir são detalhadas todas as regras de negócio e especificações funcionais necessárias para que esse agente atue como um gerador confiável de dados sintéticos de crédito.

A solução consiste em um fluxo de automação composto por cinco agentes de IA. O processo inicia com a especificação estatística dos dados e termina com a consolidação final do pacote de dados sintéticos aprovado.

A execução dos agentes é sequencial e linear, seguindo a ordem definida na tabela abaixo.

Agentes Função Principal
Agente de Especificação Estatística de Dados de Crédito (RF 1) Produzir uma especificação estatística completa para geração sintética.
Agente Gerador de Dados Sintéticos de Crédito (RF 2) Gerar o dataset sintético conforme a especificação estatística.
Agente Validador de Utilidade Estatística (RF 3) Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real.
Agente Avaliador de Risco de Privacidade (RF 4) Avaliar e mitigar riscos de privacidade no dataset sintético.
Agente de Remediação e Consolidação Final (RF 5) Executar ajustes orientados por utilidade e privacidade e consolidar o pacote final de entrega.

5. Protótipos

Para proporcionar uma visão clara e tangível da solução proposta, criamos protótipos interativos que demonstram tanto o fluxo de trabalho dos agentes quanto o resultado final que o cliente receberá. Explore os links abaixo para entender melhor a solução em ação.

6. Requisitos Funcionais

RF 1. Agente de Especificação Estatística de Dados de Crédito

1.1 Tarefa do Agente

Receber um briefing sobre o esquema e padrões dos dados reais de crédito e produzir uma especificação estatística completa e executável para geração sintética.

1.2 Prompt ou Instruções do Agente
 # 1. Contexto e explicações sobre inputs iniciais
Você está recebendo uma descrição do dataset de referência, que NÃO deve conter dados individuais. A descrição inclui uma lista de variáveis, tipos, dicionário de valores possíveis, estatísticas-alvo, proporções de classes, proporções de missing, correlações relevantes e tamanhos desejados.

# 2. Objetivo
Produzir uma especificação estatística completa e executável para geração sintética de dados de crédito.

# 3. Regras que você deve seguir para gerar sua resposta
- Padronize tipos: numérico_contínuo, inteiro, categórico, binário, data.
- Para numéricos, derive e registre: min_duro, max_duro, min_plausível, max_plausível, média, mediana, p5, p25, p50, p75, p95, desvio.
- Para categóricos, liste TODAS as categorias válidas e probabilidades-alvo.
- Construa matriz de correlação-alvo (Pearson) para numéricos; para relações categórico→numérico, registre direção esperada e magnitude.
- Defina regras funcionais e restrições de integridade.
- Documente limites de outliers e frações de cauda.
- Inclua metas de segmentação e cotas por segmento.
- Validar consistência e produzir JSON final pronto para consumo pelo próximo agente.

# 4. Exemplo de Output que você deve produzir
{
  "schema": {
    "variables": [
      {
        "name": "renda_mensal",
        "type": "numérico_contínuo",
        "domain": {
          "min_hard": 0,
          "max_hard": 100000,
          "mean": 5000,
          "std_dev": 2000
        }
      }
    ]
  }
} 
1.3 Configurações do Agente

1.3.1 Especificação do Input

  • Mecanismo de Acionamento: Este agente é o ponto de partida do fluxo e deve ser acionado pelo envio de uma descrição do dataset de referência via API. Na fase de testes, o fluxo será iniciado pelo envio manual dos dados, que serão enviados diretamente por upload na interface da Prototipe AI, para acelerar o processo de validação.
  • Tipo do input: O input inicial é uma descrição do dataset de referência sem dados individuais.
  • Formatos Suportados: Esse agente deve ser capaz de receber descrições em formato JSON.
  • Número de caracteres esperado: Este agente deve ter capacidade para processar um input de texto com até 10.000 caracteres.

1.3.2 Especificação do Output

  • Formato de output: O output deve ser um JSON de especificação estatística contendo o schema das variáveis e parâmetros de distribuição-alvo.
  • Exemplo de Estrutura de Output:
     {
      "schema": {
        "variables": [
          {
            "name": "renda_mensal",
            "type": "numérico_contínuo",
            "domain": {
              "min_hard": 0,
              "max_hard": 100000,
              "mean": 5000,
              "std_dev": 2000
            }
          }
        ]
      }
    } 
  • Número de caracteres esperado: O JSON gerado deve ser conciso e informativo, com um tamanho estimado de 3.000 caracteres.

1.3.3 Parâmetros de Geração

  • Modelo: GPT-5
  • Temperatura: 0.6

1.3.4 Ferramentas do Agente

  • Documentos: Não consulta documentos externos.
  • Calculadora: Não utiliza.
  • Busca Online: Não utiliza.
  • Sistemas Externos: Não se conecta a sistemas externos.

1.3.5 Memória

1.3.6 Regras de Orquestração e Transição

Ao concluir sua execução, esse agente aciona o Agente Gerador de Dados Sintéticos de Crédito (RF 2).

RF 2. Agente Gerador de Dados Sintéticos de Crédito

2.1 Tarefa do Agente

Gerar o dataset sintético conforme a especificação estatística, aplicando restrições de integridade e mantendo relações entre variáveis.

2.2 Prompt ou Instruções do Agente
 # 1. Contexto e explicações sobre inputs iniciais
Você está recebendo um JSON de especificação estatística produzido pelo agente anterior. Este JSON inclui a semente aleatória e o tamanho desejado do dataset.

# 2. Objetivo
Gerar o dataset sintético conforme a especificação estatística, aplicando restrições de integridade e mantendo relações entre variáveis.

# 3. Regras que você deve seguir para gerar sua resposta
- Respeite domínio e tipo de cada variável; gere dados dentro de min/max duros.
- Para categóricos, amostre segundo as probabilidades-alvo.
- Replique correlações e preserve direções esperadas em relações.
- Aplique restrições de integridade pós-geração com correções locais.
- Gere missing conforme taxas-alvo.
- Garanta unicidade de identificadores sintéticos.
- Produza no máximo 1% de outliers controlados.

# 4. Exemplo de Output que você deve produzir
{
  "synthetic_data": [
    {
      "renda_mensal": 5300,
      "score_credito": 750
    }
  ],
  "metadata": {
    "seed": 12345,
    "version": "1.0",
    "generation_time": "2025-12-15T12:08:00Z"
  }
} 
2.3 Configurações do Agente

2.3.1 Especificação do Input

  • Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 1).
  • Tipo do input: Este agente deve ser apto a receber como input um JSON de especificação estatística.
  • Formatos Suportados: Esse agente deve ser capaz de receber inputs no formato JSON.
  • Número de caracteres esperado: Este agente deve ter capacidade para processar um input de texto com até 3.000 caracteres.

2.3.2 Especificação do Output

  • Formato de output: O output deve ser um JSON contendo o dataset sintético gerado e metadados de geração.
  • Exemplo de Estrutura de Output:
     {
      "synthetic_data": [
        {
          "renda_mensal": 5300,
          "score_credito": 750
        }
      ],
      "metadata": {
        "seed": 12345,
        "version": "1.0",
        "generation_time": "2025-12-15T12:08:00Z"
      }
    } 
  • Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 5.000 caracteres.

2.3.3 Parâmetros de Geração

  • Modelo: GPT-5
  • Temperatura: 0.6

2.3.4 Ferramentas do Agente

  • Documentos: Não consulta.
  • Calculadora: Não utiliza.
  • Busca Online: Não utiliza.
  • Sistemas Externos: Não utiliza.

2.3.5 Memória

  • Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
  • Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente Validador de Utilidade Estatística (RF 3).

2.3.6 Regras de Orquestração e Transição

Ao concluir sua execução, esse agente aciona o Agente Validador de Utilidade Estatística (RF 3).

RF 3. Agente Validador de Utilidade Estatística

3.1 Tarefa do Agente

Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real descrito na especificação.

3.2 Prompt ou Instruções do Agente
 # 1. Contexto e explicações sobre inputs iniciais
Você está recebendo dois inputs: a especificação estatística e o dataset sintético gerado.

# 2. Objetivo
Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real descrito na especificação.

# 3. Regras que você deve seguir para gerar sua resposta
- Calcule, por variável numérica, Δmédia, Δdesvio, Δp10, Δp50, Δp90.
- Para categóricas, calcule divergência por categoria.
- Para correlações numéricas, aprove se |Δρ| ≤ 0,05 por par-chave.
- Compute KS para variáveis críticas; aprove se KS ≤ 0,2.
- Produza um campo utilidade_aprovada (true/false).

# 4. Exemplo de Output que você deve produzir
{
  "utility_report": {
    "utilidade_aprovada": true,
    "detalhes": [
      {
        "variavel": "renda_mensal",
        "delta_media": 0.02,
        "delta_desvio": 0.01
      }
    ]
  }
} 
3.3 Configurações do Agente

3.3.1 Especificação do Input

  • Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 2).
  • Tipo do input: Este agente deve ser apto a receber dois artefatos como input: a especificação estatística e o dataset sintético gerado.
  • Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
  • Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 8.000 caracteres.

3.3.2 Especificação do Output

  • Formato de output: O output deve ser um relatório de utilidade em JSON contendo diferenças de estatísticas e flag de aprovação.
  • Exemplo de Estrutura de Output:
     {
      "utility_report": {
        "utilidade_aprovada": true,
        "detalhes": [
          {
            "variavel": "renda_mensal",
            "delta_media": 0.02,
            "delta_desvio": 0.01
          }
        ]
      }
    } 
  • Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 2.000 caracteres.

3.3.3 Parâmetros de Geração

  • Modelo: GPT-5
  • Temperatura: 0.6

3.3.4 Ferramentas do Agente

  • Documentos: Não consulta.
  • Calculadora: Não utiliza.
  • Busca Online: Não utiliza.
  • Sistemas Externos: Não utiliza.

3.3.5 Memória

  • Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
  • Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente Avaliador de Risco de Privacidade (RF 4).

3.3.6 Regras de Orquestração e Transição

Ao concluir sua execução, esse agente aciona o Agente Avaliador de Risco de Privacidade (RF 4).

RF 4. Agente Avaliador de Risco de Privacidade

4.1 Tarefa do Agente

Avaliar e mitigar riscos de privacidade no dataset sintético, assegurando que não haja possibilidade prática de reidentificação ou reversão para indivíduos reais.

4.2 Prompt ou Instruções do Agente
 # 1. Contexto e explicações sobre inputs iniciais
Você está recebendo a especificação estatística e o dataset sintético gerado.

# 2. Objetivo
Avaliar e mitigar riscos de privacidade no dataset sintético.

# 3. Regras que você deve seguir para gerar sua resposta
- Defina quasi-IDs padrão de crédito.
- Estime k-anonimato e proporção de registros singulares.
- Calcule uma métrica de distância mista entre pares.
- Assegure que não haja coincidência exata com dados reais.
- Produza um campo privacidade_aprovada (true/false).

# 4. Exemplo de Output que você deve produzir
{
  "privacy_report": {
    "privacidade_aprovada": true,
    "detalhes": [
      {
        "quasi_id": "idade",
        "k_anonimato": 10
      }
    ]
  }
} 
4.3 Configurações do Agente

4.3.1 Especificação do Input

  • Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 3).
  • Tipo do input: Este agente deve ser apto a receber dois artefatos como input: a especificação estatística e o dataset sintético gerado.
  • Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
  • Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 8.000 caracteres.

4.3.2 Especificação do Output

  • Formato de output: O output deve ser um relatório de privacidade em JSON contendo métricas de singularidade e flag de aprovação.
  • Exemplo de Estrutura de Output:
     {
      "privacy_report": {
        "privacidade_aprovada": true,
        "detalhes": [
          {
            "quasi_id": "idade",
            "k_anonimato": 10
          }
        ]
      }
    } 
  • Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 2.000 caracteres.

4.3.3 Parâmetros de Geração

  • Modelo: GPT-5
  • Temperatura: 0.6

4.3.4 Ferramentas do Agente

  • Documentos: Não consulta.
  • Calculadora: Não utiliza.
  • Busca Online: Não utiliza.
  • Sistemas Externos: Não utiliza.

4.3.5 Memória

  • Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
  • Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente de Remediação e Consolidação Final (RF 5).

4.3.6 Regras de Orquestração e Transição

Ao concluir sua execução, esse agente aciona o Agente de Remediação e Consolidação Final (RF 5).

RF 5. Agente de Remediação e Consolidação Final

5.1 Tarefa do Agente

Executar ajustes orientados por utilidade e privacidade, regerar quando necessário e consolidar o pacote final de entrega.

5.2 Prompt ou Instruções do Agente
 # 1. Contexto e explicações sobre inputs iniciais
Você está recebendo o dataset sintético, relatórios de utilidade e privacidade, e a especificação estatística.

# 2. Objetivo
Executar ajustes orientados por utilidade e privacidade, regerar quando necessário e consolidar o pacote final de entrega.

# 3. Regras que você deve seguir para gerar sua resposta
- Se utilidade_aprovada=false, priorize ajustes mínimos.
- Se privacidade_aprovada=false, aplique medidas de mitigação.
- Regenerar apenas as partes necessárias quando possível.
- Produza sumário executivo com principais métricas.

# 4. Exemplo de Output que você deve produzir
{
  "final_package": {
    "status": "aprovado",
    "summary": {
      "tamanho_final": 10000,
      "utilidade_aprovada": true,
      "privacidade_aprovada": true
    }
  }
} 
5.3 Configurações do Agente

5.3.1 Especificação do Input

  • Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 4).
  • Tipo do input: Este agente deve ser apto a receber múltiplos artefatos como input, incluindo o dataset sintético, relatórios de utilidade e privacidade, e a especificação estatística.
  • Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
  • Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 15.000 caracteres.

5.3.2 Especificação do Output

  • Formato de output: O output deve ser um pacote final em JSON com o dataset sintético aprovado e relatórios consolidados.
  • Exemplo de Estrutura de Output:
     {
      "final_package": {
        "status": "aprovado",
        "summary": {
          "tamanho_final": 10000,
          "utilidade_aprovada": true,
          "privacidade_aprovada": true
        }
      }
    } 
  • Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 3.000 caracteres.

5.3.3 Parâmetros de Geração

  • Modelo: GPT-5
  • Temperatura: 0.6

5.3.4 Ferramentas do Agente

  • Documentos: Não consulta.
  • Calculadora: Não utiliza.
  • Busca Online: Não utiliza.
  • Sistemas Externos: Não utiliza.

5.3.5 Memória

  • Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
  • Visibilidade da Resposta: A resposta gerada por este agente é o resultado final do fluxo.

5.3.6 Regras de Orquestração e Transição

A execução deste agente finaliza o fluxo. O pacote final gerado é o entregável que deve ser disponibilizado ao usuário.

© 2025 prototipe.ai. Todos os direitos reservados.