Beeline Cloud запустил Token Factory — собственный сервис для инференса больших языковых моделей (LLM). Платформа позволяет корпоративным клиентам интегрировать передовые нейросети в свои бизнес-процессы, используя привычный OpenAI-совместимый API и защищенную инфраструктуру российского облака.
Сервис развернут на базе собственной GPU-инфраструктуры Beeline Cloud. Это гарантирует клиентам высокую скорость работы и предсказуемую задержку (latency), а также полное соответствие российским требованиям по локализации данных и информационной безопасности. На текущем этапе Token Factory работает в режиме закрытого пилотного проекта с участием ряда крупных корпоративных заказчиков.
Первым пользователям уже доступна GLM 5.1 — одна из самых производительных открытых моделей нового поколения. В ближайшее время каталог будет расширен за счет интеграции Kimi K2.6 и DeepSeek V4, предназначенных для решения сложных аналитических задач, а также линейки более легких моделей для рутинных операций, таких как классификация, извлечение данных, поддержка при написании кода и работе с документацией. Такой широкий состав каталога позволит компаниям гибко балансировать качество ответов, скорость генерации и стоимость каждого токена в зависимости от конкретного бизнес-сценария.