streaming
Categoria: modelos e inferência
Modo de entrega da resposta do modelo onde os tokens são enviados incrementalmente conforme são gerados, em vez de esperar a geração completa. Reduz a latência percebida pelo usuário.
Try 5 minutes
A voice AI that understands your project and builds the agents with you