Учёные Яндекса разработали и опубликовали в свободном доступе новые методы сжатия больших языковых моделей. По мнению специалистов Yandex Research, они позволят бизнесу сократить расходы на вычислительные ресурсы до восьми раз. Разработка будет полезна корпорациям, стартапам и исследователям, которые запускают нейросети на своём оборудовании.
Чтобы большая языковая модель отвечала качественно и быстро, требуется множество дорогостоящих мощных графических процессоров. Решение Яндекса позволяет уменьшить модель в несколько раз, сократить количество необходимых процессоров и запустить её на устройствах с меньшей вычислительной мощностью. А значит внедрение нейросетей и обслуживание оборудования станет дешевле для бизнеса.