Мы оптимизируем Time to First Token (TTFT). Используем прекэширование популярных запросов (Redis), стриминг ответа — пользователь видит текст по мере генерации, и оптимизируем промпты, сокращая количество входных токенов для ускорения генерации.
Наше SLA — полный ответ до 3 секунд. Если система понимает, что обработка может занять больше времени (например, при сложных расчетах), она сначала показывает промежуточный статус — например, «Считаю расход», чтобы пользователь видел, что процесс идет.