inference latency
Categoria: modelos e inferência
Tempo decorrido entre o envio do prompt ao modelo e o recebimento completo da resposta. É um fator crítico para agentes em tempo real e impacta diretamente a experiência do usuário.
Experimente 5 minutos
Uma IA de voz que entende seu projeto e constrói os agentes com você