1. Propósito e Escopo
Este documento define todos os prompts, configurações de memória, transição entre estados, ferramentas como chamadas a sistemas externos e demais requisitos funcionais para o Agente de IA para Geração de Dados Sintéticos de Crédito. Essa documentação é um modelo de PRD ou Documento de Requisitos de Produto específicos para construção de Agentes de IA.
O objetivo principal é criar um agente que gere dados sintéticos de crédito realistas, mantendo as características estatísticas dos dados reais, enquanto protege a privacidade dos indivíduos, eliminando a possibilidade de reidentificação ou reversão para dados reais.
2. Contexto e Problema
Cenário Atual
As instituições financeiras enfrentam a necessidade de testar novos modelos de avaliação de risco de crédito. No entanto, o uso de dados reais para simulações apresenta desafios significativos em termos de privacidade e segurança.
- Necessidade de dados de crédito realistas para testar novos modelos de avaliação de risco.
- Limitações de privacidade e segurança ao usar dados de crédito reais para simulações.
Esses desafios requerem o desenvolvimento de um agente de IA capaz de gerar dados sintéticos que preservam as características estatísticas dos dados reais sem expor informações sensíveis.
Problemas Identificados
- Privacidade: O uso de dados reais de crédito pode comprometer a privacidade dos indivíduos.
- Segurança: Existe o risco de reidentificação dos dados reais a partir dos dados sintéticos.
- Realismo dos dados: Os dados sintéticos devem manter as características estatísticas dos dados reais para serem úteis em simulações.
3. Impactos Esperados
A implementação deste agente de IA visa alcançar os seguintes resultados:
- Preservar a privacidade dos indivíduos ao gerar dados sintéticos.
- Manter a segurança dos dados, evitando a reidentificação.
- Garantir o realismo dos dados sintéticos para simulações eficazes de modelos de risco.
4. Visão Geral da Solução
O agente de IA para geração de dados sintéticos de crédito utiliza algoritmos avançados para criar dados que preservam as características estatísticas dos dados reais, garantindo a privacidade e segurança dos indivíduos. A seguir são detalhadas todas as regras de negócio e especificações funcionais necessárias para que esse agente atue como um gerador confiável de dados sintéticos de crédito.
A solução consiste em um fluxo de automação composto por cinco agentes de IA. O processo inicia com a especificação estatística dos dados e termina com a consolidação final do pacote de dados sintéticos aprovado.
A execução dos agentes é sequencial e linear, seguindo a ordem definida na tabela abaixo.
| Agentes | Função Principal |
|---|---|
Agente de Especificação Estatística de Dados de Crédito (RF 1)
| Produzir uma especificação estatística completa para geração sintética. |
Agente Gerador de Dados Sintéticos de Crédito (RF 2)
| Gerar o dataset sintético conforme a especificação estatística. |
Agente Validador de Utilidade Estatística (RF 3)
| Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real. |
Agente Avaliador de Risco de Privacidade (RF 4)
| Avaliar e mitigar riscos de privacidade no dataset sintético. |
Agente de Remediação e Consolidação Final (RF 5)
| Executar ajustes orientados por utilidade e privacidade e consolidar o pacote final de entrega. |
5. Protótipos
Para proporcionar uma visão clara e tangível da solução proposta, criamos protótipos interativos que demonstram tanto o fluxo de trabalho dos agentes quanto o resultado final que o cliente receberá. Explore os links abaixo para entender melhor a solução em ação.
6. Requisitos Funcionais
RF 1. Agente de Especificação Estatística de Dados de Crédito
1.1 Tarefa do Agente
Receber um briefing sobre o esquema e padrões dos dados reais de crédito e produzir uma especificação estatística completa e executável para geração sintética.
1.2 Prompt ou Instruções do Agente
# 1. Contexto e explicações sobre inputs iniciais
Você está recebendo uma descrição do dataset de referência, que NÃO deve conter dados individuais. A descrição inclui uma lista de variáveis, tipos, dicionário de valores possíveis, estatísticas-alvo, proporções de classes, proporções de missing, correlações relevantes e tamanhos desejados.
# 2. Objetivo
Produzir uma especificação estatística completa e executável para geração sintética de dados de crédito.
# 3. Regras que você deve seguir para gerar sua resposta
- Padronize tipos: numérico_contínuo, inteiro, categórico, binário, data.
- Para numéricos, derive e registre: min_duro, max_duro, min_plausível, max_plausível, média, mediana, p5, p25, p50, p75, p95, desvio.
- Para categóricos, liste TODAS as categorias válidas e probabilidades-alvo.
- Construa matriz de correlação-alvo (Pearson) para numéricos; para relações categórico→numérico, registre direção esperada e magnitude.
- Defina regras funcionais e restrições de integridade.
- Documente limites de outliers e frações de cauda.
- Inclua metas de segmentação e cotas por segmento.
- Validar consistência e produzir JSON final pronto para consumo pelo próximo agente.
# 4. Exemplo de Output que você deve produzir
{
"schema": {
"variables": [
{
"name": "renda_mensal",
"type": "numérico_contínuo",
"domain": {
"min_hard": 0,
"max_hard": 100000,
"mean": 5000,
"std_dev": 2000
}
}
]
}
} 1.3 Configurações do Agente
1.3.1 Especificação do Input
- Mecanismo de Acionamento: Este agente é o ponto de partida do fluxo e deve ser acionado pelo envio de uma descrição do dataset de referência via API. Na fase de testes, o fluxo será iniciado pelo envio manual dos dados, que serão enviados diretamente por upload na interface da Prototipe AI, para acelerar o processo de validação.
- Tipo do input: O input inicial é uma descrição do dataset de referência sem dados individuais.
- Formatos Suportados: Esse agente deve ser capaz de receber descrições em formato JSON.
- Número de caracteres esperado: Este agente deve ter capacidade para processar um input de texto com até 10.000 caracteres.
1.3.2 Especificação do Output
- Formato de output: O output deve ser um JSON de especificação estatística contendo o schema das variáveis e parâmetros de distribuição-alvo.
-
Exemplo de Estrutura de Output:
{ "schema": { "variables": [ { "name": "renda_mensal", "type": "numérico_contínuo", "domain": { "min_hard": 0, "max_hard": 100000, "mean": 5000, "std_dev": 2000 } } ] } } - Número de caracteres esperado: O JSON gerado deve ser conciso e informativo, com um tamanho estimado de 3.000 caracteres.
1.3.3 Parâmetros de Geração
- Modelo: GPT-5
- Temperatura: 0.6
1.3.4 Ferramentas do Agente
- Documentos: Não consulta documentos externos.
- Calculadora: Não utiliza.
- Busca Online: Não utiliza.
- Sistemas Externos: Não se conecta a sistemas externos.
1.3.5 Memória
- Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
- Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente Gerador de Dados Sintéticos de Crédito (RF 2).
1.3.6 Regras de Orquestração e Transição
Ao concluir sua execução, esse agente aciona o Agente Gerador de Dados Sintéticos de Crédito (RF 2).
RF 2. Agente Gerador de Dados Sintéticos de Crédito
2.1 Tarefa do Agente
Gerar o dataset sintético conforme a especificação estatística, aplicando restrições de integridade e mantendo relações entre variáveis.
2.2 Prompt ou Instruções do Agente
# 1. Contexto e explicações sobre inputs iniciais
Você está recebendo um JSON de especificação estatística produzido pelo agente anterior. Este JSON inclui a semente aleatória e o tamanho desejado do dataset.
# 2. Objetivo
Gerar o dataset sintético conforme a especificação estatística, aplicando restrições de integridade e mantendo relações entre variáveis.
# 3. Regras que você deve seguir para gerar sua resposta
- Respeite domínio e tipo de cada variável; gere dados dentro de min/max duros.
- Para categóricos, amostre segundo as probabilidades-alvo.
- Replique correlações e preserve direções esperadas em relações.
- Aplique restrições de integridade pós-geração com correções locais.
- Gere missing conforme taxas-alvo.
- Garanta unicidade de identificadores sintéticos.
- Produza no máximo 1% de outliers controlados.
# 4. Exemplo de Output que você deve produzir
{
"synthetic_data": [
{
"renda_mensal": 5300,
"score_credito": 750
}
],
"metadata": {
"seed": 12345,
"version": "1.0",
"generation_time": "2025-12-15T12:08:00Z"
}
} 2.3 Configurações do Agente
2.3.1 Especificação do Input
- Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 1).
- Tipo do input: Este agente deve ser apto a receber como input um JSON de especificação estatística.
- Formatos Suportados: Esse agente deve ser capaz de receber inputs no formato JSON.
- Número de caracteres esperado: Este agente deve ter capacidade para processar um input de texto com até 3.000 caracteres.
2.3.2 Especificação do Output
- Formato de output: O output deve ser um JSON contendo o dataset sintético gerado e metadados de geração.
-
Exemplo de Estrutura de Output:
{ "synthetic_data": [ { "renda_mensal": 5300, "score_credito": 750 } ], "metadata": { "seed": 12345, "version": "1.0", "generation_time": "2025-12-15T12:08:00Z" } } - Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 5.000 caracteres.
2.3.3 Parâmetros de Geração
- Modelo: GPT-5
- Temperatura: 0.6
2.3.4 Ferramentas do Agente
- Documentos: Não consulta.
- Calculadora: Não utiliza.
- Busca Online: Não utiliza.
- Sistemas Externos: Não utiliza.
2.3.5 Memória
- Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
- Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente Validador de Utilidade Estatística (RF 3).
2.3.6 Regras de Orquestração e Transição
Ao concluir sua execução, esse agente aciona o Agente Validador de Utilidade Estatística (RF 3).
RF 3. Agente Validador de Utilidade Estatística
3.1 Tarefa do Agente
Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real descrito na especificação.
3.2 Prompt ou Instruções do Agente
# 1. Contexto e explicações sobre inputs iniciais
Você está recebendo dois inputs: a especificação estatística e o dataset sintético gerado.
# 2. Objetivo
Avaliar o quão bem o dataset sintético preserva as características estatísticas do dataset real descrito na especificação.
# 3. Regras que você deve seguir para gerar sua resposta
- Calcule, por variável numérica, Δmédia, Δdesvio, Δp10, Δp50, Δp90.
- Para categóricas, calcule divergência por categoria.
- Para correlações numéricas, aprove se |Δρ| ≤ 0,05 por par-chave.
- Compute KS para variáveis críticas; aprove se KS ≤ 0,2.
- Produza um campo utilidade_aprovada (true/false).
# 4. Exemplo de Output que você deve produzir
{
"utility_report": {
"utilidade_aprovada": true,
"detalhes": [
{
"variavel": "renda_mensal",
"delta_media": 0.02,
"delta_desvio": 0.01
}
]
}
} 3.3 Configurações do Agente
3.3.1 Especificação do Input
- Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 2).
- Tipo do input: Este agente deve ser apto a receber dois artefatos como input: a especificação estatística e o dataset sintético gerado.
- Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
- Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 8.000 caracteres.
3.3.2 Especificação do Output
- Formato de output: O output deve ser um relatório de utilidade em JSON contendo diferenças de estatísticas e flag de aprovação.
-
Exemplo de Estrutura de Output:
{ "utility_report": { "utilidade_aprovada": true, "detalhes": [ { "variavel": "renda_mensal", "delta_media": 0.02, "delta_desvio": 0.01 } ] } } - Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 2.000 caracteres.
3.3.3 Parâmetros de Geração
- Modelo: GPT-5
- Temperatura: 0.6
3.3.4 Ferramentas do Agente
- Documentos: Não consulta.
- Calculadora: Não utiliza.
- Busca Online: Não utiliza.
- Sistemas Externos: Não utiliza.
3.3.5 Memória
- Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
- Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente Avaliador de Risco de Privacidade (RF 4).
3.3.6 Regras de Orquestração e Transição
Ao concluir sua execução, esse agente aciona o Agente Avaliador de Risco de Privacidade (RF 4).
RF 4. Agente Avaliador de Risco de Privacidade
4.1 Tarefa do Agente
Avaliar e mitigar riscos de privacidade no dataset sintético, assegurando que não haja possibilidade prática de reidentificação ou reversão para indivíduos reais.
4.2 Prompt ou Instruções do Agente
# 1. Contexto e explicações sobre inputs iniciais
Você está recebendo a especificação estatística e o dataset sintético gerado.
# 2. Objetivo
Avaliar e mitigar riscos de privacidade no dataset sintético.
# 3. Regras que você deve seguir para gerar sua resposta
- Defina quasi-IDs padrão de crédito.
- Estime k-anonimato e proporção de registros singulares.
- Calcule uma métrica de distância mista entre pares.
- Assegure que não haja coincidência exata com dados reais.
- Produza um campo privacidade_aprovada (true/false).
# 4. Exemplo de Output que você deve produzir
{
"privacy_report": {
"privacidade_aprovada": true,
"detalhes": [
{
"quasi_id": "idade",
"k_anonimato": 10
}
]
}
} 4.3 Configurações do Agente
4.3.1 Especificação do Input
- Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 3).
- Tipo do input: Este agente deve ser apto a receber dois artefatos como input: a especificação estatística e o dataset sintético gerado.
- Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
- Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 8.000 caracteres.
4.3.2 Especificação do Output
- Formato de output: O output deve ser um relatório de privacidade em JSON contendo métricas de singularidade e flag de aprovação.
-
Exemplo de Estrutura de Output:
{ "privacy_report": { "privacidade_aprovada": true, "detalhes": [ { "quasi_id": "idade", "k_anonimato": 10 } ] } } - Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 2.000 caracteres.
4.3.3 Parâmetros de Geração
- Modelo: GPT-5
- Temperatura: 0.6
4.3.4 Ferramentas do Agente
- Documentos: Não consulta.
- Calculadora: Não utiliza.
- Busca Online: Não utiliza.
- Sistemas Externos: Não utiliza.
4.3.5 Memória
- Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
- Visibilidade da Resposta: A resposta gerada por este agente deve ser visível para o Agente de Remediação e Consolidação Final (RF 5).
4.3.6 Regras de Orquestração e Transição
Ao concluir sua execução, esse agente aciona o Agente de Remediação e Consolidação Final (RF 5).
RF 5. Agente de Remediação e Consolidação Final
5.1 Tarefa do Agente
Executar ajustes orientados por utilidade e privacidade, regerar quando necessário e consolidar o pacote final de entrega.
5.2 Prompt ou Instruções do Agente
# 1. Contexto e explicações sobre inputs iniciais
Você está recebendo o dataset sintético, relatórios de utilidade e privacidade, e a especificação estatística.
# 2. Objetivo
Executar ajustes orientados por utilidade e privacidade, regerar quando necessário e consolidar o pacote final de entrega.
# 3. Regras que você deve seguir para gerar sua resposta
- Se utilidade_aprovada=false, priorize ajustes mínimos.
- Se privacidade_aprovada=false, aplique medidas de mitigação.
- Regenerar apenas as partes necessárias quando possível.
- Produza sumário executivo com principais métricas.
# 4. Exemplo de Output que você deve produzir
{
"final_package": {
"status": "aprovado",
"summary": {
"tamanho_final": 10000,
"utilidade_aprovada": true,
"privacidade_aprovada": true
}
}
} 5.3 Configurações do Agente
5.3.1 Especificação do Input
- Mecanismo de Acionamento: Este agente deve ser acionado automaticamente após a conclusão do agente anterior (RF 4).
- Tipo do input: Este agente deve ser apto a receber múltiplos artefatos como input, incluindo o dataset sintético, relatórios de utilidade e privacidade, e a especificação estatística.
- Formatos Suportados: Esse agente deve ser capaz de receber inputs nos formatos JSON.
- Número de caracteres esperado: Este agente deve ter capacidade para processar uma soma de inputs de até 15.000 caracteres.
5.3.2 Especificação do Output
- Formato de output: O output deve ser um pacote final em JSON com o dataset sintético aprovado e relatórios consolidados.
-
Exemplo de Estrutura de Output:
{ "final_package": { "status": "aprovado", "summary": { "tamanho_final": 10000, "utilidade_aprovada": true, "privacidade_aprovada": true } } } - Número de caracteres esperado: O JSON gerado deve ser conciso, com um tamanho estimado de 3.000 caracteres.
5.3.3 Parâmetros de Geração
- Modelo: GPT-5
- Temperatura: 0.6
5.3.4 Ferramentas do Agente
- Documentos: Não consulta.
- Calculadora: Não utiliza.
- Busca Online: Não utiliza.
- Sistemas Externos: Não utiliza.
5.3.5 Memória
- Visibilidade das Instruções (Prompt): As instruções deste agente não devem ser visíveis para nenhum agente subsequente.
- Visibilidade da Resposta: A resposta gerada por este agente é o resultado final do fluxo.
5.3.6 Regras de Orquestração e Transição
A execução deste agente finaliza o fluxo. O pacote final gerado é o entregável que deve ser disponibilizado ao usuário.