inference latency
Categoria: modelos e inferência
Tempo decorrido entre o envio do prompt ao modelo e o recebimento completo da resposta. É um fator crítico para agentes em tempo real e impacta diretamente a experiência do usuário.
Try 5 minutes
A voice AI that understands your project and builds the agents with you