Цифровые сервисы: гид

Синтетические данные захватывают рынок ИИ

Синтетические данные, искусственно созданные информационные массивы, становятся ключевой составляющей современной цифровой инфраструктуры, сообщает издание «Ведомости».

Рыночный бум и российский контекст

Согласно опубликованной информации, аналитики Global Market Insights оценили мировой рынок генерации синтетических данных в 2024 году в $310,5 млн. Прогнозируется, что до 2034 года он будет расти более чем на 35% ежегодно. Однако, как отмечают эксперты, истинная ценность технологии измеряется не объемом этого сегмента, а количеством ИИ-проектов, которые без нее были бы невозможны.

В России интерес к синтетическим данным формировался рано. Одной из причин стал ограниченный доступ к зарубежным датасетам и дефицит качественных русскоязычных текстов. По словам директора консалтинговой компании «Яков и Партнеры» Марины Дороховой, спрос здесь уже перешел от точечных экспериментов к встраиванию в бизнес-процессы, особенно в крупных технологических компаниях и финансовом секторе. Отдельной статистики по объему российского рынка в открытом доступе нет, но активность отечественных вендоров косвенно свидетельствует о его развитии.

Как синтетика решает острые задачи

Применение технологии продиктовано практическими потребностями. Искусственно сгенерированные данные используют, когда реальных данных недостаточно, их сбор слишком дорог или их применение ограничено законодательством. Как пояснил главный конструктор ВЭБ.РФ Денис Кузьмин, синтетика помогает закрывать дефицит информации, защищать персональные данные и создавать редкие сценарии, ускоряя обучение и повышая устойчивость моделей.

Пример из российской практики: при обучении модели GigaChat 3 Ultra было использовано около 14 трлн токенов, из которых примерно 5,5 трлн (около 40%) составили синтетические данные. По оценкам разработчика «Сбера», это больше, чем объем качественных русскоязычных текстов в открытом интернете. Эксперты подчеркивают, что именно синтетические данные стали одним из факторов качественного скачка больших языковых моделей в 2023 году.

Что стоит отслеживать

Развитие этого направления имеет несколько практических последствий для индустрии цифровых сервисов. Во-первых, оно меняет подходы к сбору и подготовке данных для ИИ-решений, снижая зависимость от трудоемких и дорогостоящих пилотных проектов на реальной информации. Во-вторых, возникают новые вопросы к качеству и репрезентативности синтетических наборов.

Для профессионального сообщества важно наблюдать за стандартами и лучшими практиками в этой области. По словам руководителя лаборатории иммерсивных технологий в образовании МШУ «Сколково» Артема Егорова, ценность технологии сопоставима с ролью электропроводки — ее собственный рынок несопоставим с рынком всего, что от нее работает. Следовательно, понимание возможностей и ограничений синтетических данных становится критически важным для разработки конкурентоспособных программных продуктов и мобильных решений.

Проверка первоисточников

Где сверить правила и документы

Ссылки помогают быстро перейти от советов в статье к официальным реестрам, правилам или справочным сервисам. Перед оплатой или претензией сохраняйте дату проверки.