streaming
Categoria: modelos e inferência
Modo de entrega da resposta do modelo onde os tokens são enviados incrementalmente conforme são gerados, em vez de esperar a geração completa. Reduz a latência percebida pelo usuário.
Experimente 5 minutos
Uma IA de voz que entende seu projeto e constrói os agentes com você