Image

Масштабный спад в сфере данных: почему Databricks и Snowflake достигли своего потолка.

Сделки по приобретению компаний, венчурные инвестиции и растущая конкуренция указывают на то, что рынок достигнет своего потолка.

Делиться

985c00bd9fd82f31047717d0e98734b6

Введение

Насколько крупной может стать компания, работающая с данными?

На этой неделе то, что год назад было бы новостью, перестало ею быть. Snowflake инвестировала в AtScale, поставщика услуг семантического уровня, совершив стратегическую инвестицию в историю этой компании, переживающей упадок. Странный шаг, учитывая приверженность открытой семантической модели обмена данными (OSI) (еще одна аббревиатура, или .yaa), которая, похоже, является Metricflow, замаскированным под что-то другое.

Тем временем компания Databricks, специализирующаяся на искусственном интеллекте и обработке данных, инвестировала в Loveable — быстрорастущую шведскую компанию, занимающуюся разработкой программного обеспечения для создания позитивной атмосферы, которая стала победителем в сфере ИИ и пользуется заслуженным признанием среди венчурных инвесторов.

Создание венчурного подразделения — проверенный путь для крупных предприятий. Все, от Walmart и Hitachi до банков вроде JPMorgan и Goldman Sachs, и, конечно же, гипермасштабные компании — MSFT, GOOG — сами имеют венчурные подразделения (хотя, как ни странно, не AWS).

Преимущества очевидны. Инвестиции в рамках раунда могут дать право преимущественной покупки. Это предоставляет обеим сторонам влияние на взаимодополняющие элементы плана развития, а также очевидные преимущества в распределении прибыли. В советах директоров часто используется слово «синергия», хотя это менее коварный и более дружелюбный младший брат централизованного сокращения расходов, столь распространенного в сфере прямых инвестиций, а не в компаниях, финансируемых венчурным капиталом.

Поэтому неудивительно, что Databricks расширяет свою деятельность за пределы сферы данных. В конце концов (и Али об этом открыто говорил), команда понимает, что путь к росту компании лежит через новые варианты использования, прежде всего, ИИ. Хотя Dolly провалилась, вопрос о партнерстве с OpenAI остается открытым. ИИ/BI, а также приложения Databricks — это многообещающие инициативы, призванные привлечь больше сторонников за пределы основных администраторов кластера SYSADMIN.

Тем временем Snowflake, возможно, пытается использовать аналогичную тактику, но с разным уровнем успеха. Помимо Streamlit, неясно, какую реальную ценность приносят её приобретения. Openflow, работающий на основе Neolithic Nifi, не пользуется популярностью. Скорее, внутренние разработки, такие как интеграция ядра dbt в платформу Snowflake, похоже, набирают большее признание.

В этой статье мы подробно рассмотрим различные факторы, влияющие на ситуацию, и сделаем несколько прогнозов на 2026 год. Давайте начнём!

Рост за счет практических примеров использования

У Databricks проблема. Большая проблема. И это проблема справедливости.

Будучи четвертой по величине частной компанией в мире, ее сотрудникам, достигшим 12-летнего возраста, необходима ликвидность. А ликвидность обходится дорого (см. эту отличную статью).

Для выполнения своих внутренних обязательств компании Databricks на момент привлечения средств требовалось, возможно, более 5 миллиардов долларов. Ежегодные потребности значительны. Поэтому прекращение привлечения средств без увольнения сотрудников и сокращения расходов просто не представляется возможным.

Рост просто ошеломляющий. В последнем отчете серии L (!) компания заявляет о 55% годовом росте по сравнению с предыдущим периодом, что приводит к оценке более чем в 130 миллиардов долларов. Компания должна продолжать привлекать средства для оплаты операционных расходов и акционерного капитала, но есть еще одно ограничение – оценка. На данный момент способность Databricks привлекать средства практически является индикатором состояния отрасли, поэтому у всех участников (список огромен) есть заинтересованность в поддержании такого уровня.

81ac3637f55002fc58340219067893a7

Мечта состоит в том, чтобы компания продолжала расти, поскольку это позволит поддерживать её рыночную стоимость — оценка стоимости привязана к росту выручки. Что возвращает нас к вариантам использования.

Примеры очевидных вариантов использования, как показано здесь, примерно следующие:

  • Обработка больших данных и Spark
  • В рамках этого рассматриваются задачи машинного обучения.
  • Рабочие нагрузки ИИ
  • Хранилище данных
  • Затопление или озерный сток (мы подозреваем, что Арцион, возможно, появился немного раньше).
  • Бизнес-аналитика
  • Приложения

Стоит отметить, что, согласно подавляющему большинству рыночных отчетов (пример здесь), прогнозируется рост всех этих секторов примерно на 15–30% в совокупности. Это отражает базовый спрос на большее количество данных, большую автоматизацию и большую эффективность, что, на мой взгляд, в конечном итоге оправдано, особенно в эпоху искусственного интеллекта.

f2f0973a4e8cd93343b52f0e56145784

Таким образом, похоже, что дно или «нижний предел» для Databricks будет составлять примерно 15–30% роста, а вместе с ним, возможно, и 40% снижение оценочных мультипликаторов (при условии линейной корреляции; да, да, предположения, предположения — подробнее здесь), если, конечно, не произойдут какие-либо внешние потрясения для системы, такие как банкротство OpenAI или война.

Это вряд ли можно назвать пессимистичным сценарием, что заставляет меня задуматься — а что же в этом «бык»?

Главное — это две составляющие: варианты использования ИИ и приложения.

Искусственный интеллект как выход

Если Databricks сможет успешно сотрудничать с поставщиками моделей и стать де-факто платформой для размещения моделей и запуска соответствующих рабочих процессов, это может иметь огромные последствия.

Простые расчеты: выручка составляет 4,8 млрд долларов при росте на 55%. Допустим, в стабильном режиме рост составляет 30%, тогда нам не хватает 25%. 25% от 4,8 млрд долларов — это 1,2 млрд долларов. Откуда возьмутся эти деньги? Предполагается, что существующие продукты на основе ИИ и существующие хранилища данных уже стоят более 2 млрд долларов (см. здесь). Что произойдет в следующем году, когда выручка Databricks достигнет 6 млрд долларов, а нам потребуется рост на 50%, а значит, и 3 млрд долларов? Удвоит ли компания долю ИИ в своем бизнесе?

Confluent — это эталон. Это крупнейшая компания в сфере Kafka/потоковой обработки данных, с годовым доходом около 1,1 млрд долларов. Она растет примерно на 25% в год, но торговалась примерно по 8-кратному показателю выручки и была продана IBM за 11 млрд долларов, то есть примерно по 11-кратному показателю выручки. Даже с учетом преданной базы поклонников и активного внедрения в области ИИ (см., например, Marketecture от Шона Фалконера), ей все равно будет сложно обеспечить ежегодный рост еще на 250 млн долларов.

Приложения — это совсем другая история. Те, кто разрабатывает приложения, интенсивно использующие данные, обычно не занимаются созданием внутренних продуктов, задача, которую часто выполняют внутренние команды разработчиков программного обеспечения или консультантов. Это команды, которые уже знают, как это делать, и знают, как делать это хорошо, используя существующие технологии, специально разработанные для этой цели, а именно основные инженерные примитивы, такие как React, Postgres (самостоятельно размещаемый) и Fast API.

2a442e124d3cf51cb369fccef1d1024d

Инженер по обработке данных мог бы войти в Loveable, запустить Neon-Postgres, декларативный ETL-конвейер на основе Spark и создать интерфейс в Databricks. Да, он мог бы. Но захочет ли он добавить это к своему постоянно растущему списку задач? Я не уверен.

Суть в том, что основной бизнес растет недостаточно быстро, чтобы поддерживать текущую оценку, поэтому необходимы дополнительные направления деятельности. Databricks — это как золотая курица за столом для игры в кости, которая постоянно избегает выпадения невыразимого числа. Теперь они могут делать все больше и больше ставок, в то время как все, кто находится за столом, продолжают получать выгоду.

Компания Databricks специализируется исключительно на обработке данных.

Мы уже писали о том, как они могли бы выйти из этой ситуации. Структурированный поток Spark был очевидным выбором, но поезд уже ушел, и теперь такие компании, как Aiven и Veverica, находятся в лидирующей позиции в гонке за Flink.

📚 Читайте: Что нельзя пропустить в сфере данных в реальном времени и ИИ в 2025 году 📚

Стать компанией, предоставляющей модели обработки данных, или «облачной платформой для ИИ» тоже кажется непростой задачей. Coreweave, Lambda и, конечно же, Nebius находятся на пути к тому, чтобы составить серьезную конкуренцию крупным игрокам рынка.

В основе облачных вычислений для ИИ лежит высокая доступность вычислительных ресурсов, оптимизированных для графических процессоров. Это не просто аренда экземпляров EC2 у Джеффа Безоса. Это означает обращение в личные сообщения к Дженсену Хуангу и покупку огромного количества графических процессоров.

У Nebius около 20 000 таких центров обработки данных, и еще 30 000 находятся в стадии разработки — согласно отчету Yahoo, эти цифры выше. Все облачные сервисы для ИИ арендуют место в центрах обработки данных, а также строят собственные. В отличие от Spark, инференция не является товаром массового потребления из-за огромных программных, аппаратных и логистических сложностей, необходимых для ее реализации.

Не будем забывать, что Nebius владеет чуть более 25% Clickhouse — обе команды ориентированы на разработку программного обеспечения и являются российскими; Клуб выпускников Yandex.

Если мы чему-то и научились, так это тому, что легче подниматься по цепочке создания ценности, чем опускаться по ней. Я писал об этой воронке, наверное, два года назад, но сейчас она актуальна как никогда.

c59f741df4962d3361d1a1e9d430b68b

Snowflake легко отбирает долю у dbt. Databricks легко отбирает часть доходов Snowflake от складских операций. Microsoft будет отбирать долю у Databricks. А в свою очередь, благодаря мощным центрам обработки данных, партнерским отношениям с NVIDIA и Meta, а также армии лучших разработчиков в отрасли, Nebius может отбирать долю у гипермасштабируемых компаний.

Хранилища данных подвергаются атаке

С каждым днем все меньшее значение приобретает перспектива использования собственных платформ для хранения данных в качестве технического решения для искусственного интеллекта и инфраструктуры данных.

Salesforce повышает налоги, базы данных поддерживают возможности кросс-запросов, а директора по цифровым технологиям используют Duck DB непосредственно в Snowflake.

Даже Билл Инмон признает, что складские компании упустили возможность воспользоваться складскими помещениями!

Несмотря на удобство, существуют масштабы, в которых предприятия и даже стартапы на поздних стадиях развития требуют большей открытости, большей гибкости и более дешевых вычислительных ресурсов.

В Orchestra мы убедились в этом на собственном опыте. Компании, изучающие такие технологии, как Iceberg, в подавляющем большинстве своем огромны. От крупнейших телекоммуникационных провайдеров до таких компаний, как Booking.com (которые, кстати, используют и любят Snowflake; об этом позже), традиционные хранилища данных вряд ли будут и дальше занимать ту же долю бюджета, что и в последнее десятилетие.

Компания Snowflake также пыталась расширить свой основной функционал несколькими способами:

  • Поддержка управляемого айсберга; открытый вычислительный движок
  • Каталогизация данных (Выберите *)
  • Приложения (Streamlit)
  • Spark и другие формы вычислений, такие как контейнеры.
  • Искусственный интеллект для аналитиков, также известный как «снежиночный интеллект».
  • Трансформация (т.е. dbt)

Как ни парадоксально для поставщика собственных движков, Iceberg, как и искусственный интеллект, представляет собой перспективное направление для роста. Подробнее об этом можно узнать на сайте TT здесь.

Покупателям Snowflake это очень нравится.

Данные Пангеи

Я думаю, что определения первопроходцев, первых последователей, поздних последователей и отстающих меняются.

Первые пользователи сейчас уделяют большое внимание компонентам реального времени и используют подход, ориентированный на искусственный интеллект. Вероятно, со временем это сменится на машинное обучение, когда люди поймут, что ИИ — это не панацея.

Эти компании стремятся к партнерству с несколькими крупными поставщиками и проявляют большой интерес как к разработке, так и к приобретению программного обеспечения. У них будет как минимум один поставщик в области потоковой обработки данных/искусственного интеллекта, механизмов обработки запросов и аналитики. Хорошим примером является booking.com или, возможно, Fresha, которая использует Snowflake, Starrocks и Kafka (мне очень понравилась статья ниже).

📚 Читайте: Изучение того, как современные инструменты потоковой передачи данных обеспечивают работу аналитики нового поколения с помощью StarRocks. 📚

Первые пользователи будут иметь традиционный набор аналитических инструментов, а затем еще одну область. Им не хватает масштаба для полного внедрения общекорпоративной стратегии работы с данными и ИИ, поэтому им следует сосредоточиться на тех сценариях использования, которые, как они знают, работают. Автоматизация, отчетность.

Ранние пользователи использовали стек технологий Andreesen Horowitz. Боюсь, сейчас это уже не в тренде. Это была старая архитектура. Те, кто перешел на более поздние версии, используют общий стек.

Кто отстаёт? Кто знает. Вероятно, они выберут того, кого их технический директор знает лучше всего. Будь то Informatica (см. этот невероятный пост на Reddit), Fabric или, возможно, даже GCP!

Следующий шаг: хаос для мелких поставщиков.

Многие компании меняют курс. Secoda была приобретена Atlassian, Select Star — Snowflake. Arch.dev, создатели Meltano, закрылись и передали проект Matatika. От крупных компаний до небольших, замедление роста выручки в сочетании с огромным давлением со стороны раздутых венчурных инвестиций делают создание компании в стиле «современного стека данных» нежизнеспособным подходом.

📚 Читайте: Последнее путешествие современной архитектуры данных | Сможет ли контекстный слой для ИИ обеспечить каталоги последним вертолетом, вылетающим из Сайгона? 📚

Что произойдет, когда темпы роста Databricks и Snowflake наконец начнут замедляться, как мы здесь утверждаем?

Что произойдет, если случится крупный внешний рыночный шок или у OpenAI закончатся деньги быстрее, чем ожидалось?

Что произойдет, если Salesforce повысит налоги, а следовательно, и цены на такие инструменты, как Fivetran и dbt, еще больше вырастут?

Назревает идеальная ситуация для миграции и реархитектуры. Инфраструктура данных чрезвычайно нестабильна, а это значит, что в трудные времена компании повышают цены. Цены на спотовые экземпляры EC2 за эти годы практически не изменились, поэтому и цены на вычислительные ресурсы инфраструктуры данных тоже не изменились — и тем не менее даже AWS повышает цены на графические процессоры.

Дополнительные затраты на внедрение нового инструмента становятся очень высокими. Раньше мы всё разрабатывали сами, потому что это был единственный выход. Но наличие одного инструмента для каждой проблемы тоже неэффективно.

b7033ed92bac16f01afc4f2aa7ca8f71

Не следует забывать, что закон Паркинсона применим и к ИТ-бюджетам. Каким бы ни был бюджет, он будет израсходован. Представьте, что у вас есть инструмент, который помогает автоматизировать больше процессов с помощью ИИ, одновременно сокращая расходы на хранилище данных и лицензии на бизнес-аналитику (обычно это значительная статья бюджета, составляющая 25–50% от общей суммы) — что вы будете делать?

Вы не хвалите себя — вы тратите эти деньги. Вы тратите их на большее количество вещей, на большее количество дел. Вероятно, вы снова увеличите свои расходы на Databricks и Snowflake. Но зато у вас будет больше результатов.

Консолидация возвращает средства в центры притяжения. Это Snowflake, Databricks, GCP, AWS и Microsoft (и в меньшей степени Palantir). Для большинства мелких поставщиков это означает хаос.

В заключение — готовьтесь к более простой архитектуре.

Введение налога Salesforce — это поворотный момент в нашей отрасли. Такие компании, как Salesforce, SAP и ServiceNow, обладают огромным объемом данных и достаточным влиянием, чтобы удерживать их на этом уровне.

Любой специалист по работе с данными, кто когда-либо осуществлял миграцию с Salesforce на Netsuite, знает, что перенос этих инструментов, вероятно, является самым масштабным, дорогостоящим и болезненным шагом в профессиональной карьере.

Комиссии поставщиков услуг инфраструктуры зарядки Salesforce приведут к росту цен, что, в свою очередь, в сочетании с все более шатким карточным домиком, который мы наблюдаем в сфере ИИ и данных, указывает на масштабную консолидацию.

Полагаю, приобретение компанией ServiceNow компании Data.World вносит ясность в вопрос о том, почему команды, работающие с данными, будут активнее использовать существующие инструменты, упрощая при этом архитектуру. Data.World — поставщик графов знаний и онтологий. Сопоставив схему данных ServiceNow с онтологией, что является колоссальной задачей, ServiceNow может получить вполне приличный ИИ и агентов, работающих внутри ServiceNow.

AgentForce и Data360 — это попытка Salesforce, и, по имеющимся данным, их доход уже составляет 1,4 миллиарда долларов, хотя мы подозреваем, что он включает в себя и значительную часть устаревших систем.

Эти поставщики на самом деле не хотят, чтобы данные использовались в качестве примеров применения ИИ в Snowflake или Databricks. Они хотят, чтобы специалисты по закупкам, финансовые специалисты и гуру маркетинга оставались на их платформах — и у них есть средства, чтобы заставить их остаться.

Это не финансовая консультация и не безумный прогноз. Предсказать, что Snowflake и Databricks в итоге будут расти в соответствии с консенсус-прогнозом аналитиков, совсем несложно.

Но идея о том, что темпы роста крупнейших компаний, работающих с данными, вот-вот замедлятся, вызывает вопросы. Она бросает вызов риторике. Она бросает вызов дискурсу о максимализме в сфере искусственного интеллекта.

Мы вступаем в эпоху Великой информационной изоляции . В то время как сторонники искусственного интеллекта мечтают о будущем без границ, реальность представляет собой тяжелый потолок, возведенный силой притяжения со стороны действующих игроков. В этом новом ландшафте побеждает не тот, кто обладает лучшим набором инструментов, а те, кто максимально эффективно использует имеющиеся ресурсы.

Обо мне

Я генеральный директор компании Orchestra. Мы помогаем специалистам по работе с данными легко создавать, запускать и отслеживать свои конвейеры обработки данных.

Найти меня в LinkedIn можно здесь.

Источник: towardsdatascience.com

❌ Нет тегов для этой статьи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.
Спутник исследует черную дыру в космосе, испускающий световой луч.
Пикачу использует электрический разряд на фоне неба.
Черный углеродное волокно с текстурой плетения, отражающий свет.
Круглый экран с изображением замка и горы, рядом электронная плата.
Код на экране компьютера, программирование, интерфейс разработчика.
Статистика использования видеокарт NVIDIA RTX, показывающая изменения за октябрь-февраль.
Макросъемка клетки под микроскопом, текстура и форма на голубом фоне.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых