Google Research анонсировала TurboQuant, инновационный алгоритм сжатия памяти для искусственного интеллекта, который обещает значительно повысить эффективность работы ИИ-систем. Новый метод, основанный на векторном квантовании, позволяет уменьшить объём оперативной памяти, необходимой для работы ИИ, без потери производительности.
TurboQuant решает одну из ключевых проблем современных ИИ-систем — высокие требования к памяти во время выполнения задач. Используя методы PolarQuant и QJL, алгоритм позволяет сократить объём рабочей памяти, KV-кэш, в шесть раз. Это открытие может сделать ИИ более доступным и менее затратным в эксплуатации.