Большие данные — это по-прежнему большая вещь

01.07.2024413
Большие данные — это по-прежнему большая вещь

Старший вице-президент Databricks по продуктам Адам Конвей привлек внимание, заявив, что «большие данные вернулись и стали важнее, чем искусственный интеллект». По его словам, хотя большие данные передали эстафету шумихи ИИ, именно на них людям следует сосредоточиться, сообщает портал Datanami.

На пути к земле обетованной для ИИ произошла забавная вещь: люди поняли, что им нужны данные. Более того, они поняли, что им нужны большие объемы самых разных данных, и еще лучше, если они будут свежими, надежными и точными. Другими словами, люди осознали, что у них есть проблема больших данных.

Конечно, мы добились огромного прогресса в технической сфере. Прорывы в аппаратном и программном обеспечении — благодаря сверхбыстрым твердотельным накопителям (SSD), широкому распространению сетей 100 Гбит/с (и быстрее) и, что самое важное, бесконечно масштабируемым облачным вычислениям и хранилищам — помогли нам преодолеть старые барьеры, которые мешали нам достичь желаемого.

Amazon S3 и подобные сервисы хранения BLOB не имеют теоретических ограничений на объем данных, которые они могут хранить. И вы можете обрабатывать все эти данные по своему усмотрению с помощью огромного ассортимента облачных вычислительных машин на Amazon EC2 и других сервисах. Единственное ограничение — это ваш кошелек.

Сегодняшнее инфраструктурное ПО также стало намного лучше. Одним из самых популярных программных комплексов для работы с большими данными сегодня является Apache Spark. Этот Open Source-фреймворк, получивший известность как замена MapReduce в кластерах Hadoop, был бесчисленное множество раз развернут для решения самых разных задач, связанных с большими данными, будь то создание и запуск конвейеров пакетного ETL, выполнение SQL-запросов или обработка огромных потоков данных в реальном времени.

Databricks, компания, основанная создателями Apache Spark, была в авангарде движения создания озер-хранилищ данных (lakehouse), которые сочетают масштабируемость и гибкость озер данных в стиле Hadoop с точностью и надежностью традиционных хранилищ данных.

Старший вице-президент Databricks по продуктам Адам Конвей привлек внимание многих, опубликовав на этой неделе в LinkedIn статью под названием «Большие данные вернулись и стали важнее, чем искусственный интеллект». По его словам, хотя большие данные передали эстафету шумихи ИИ, именно на них людям следует сосредоточиться.

«Реальность такова, что большие данные повсюду, и они больше, чем когда-либо, — пишет Конвей. — Большие данные процветают на предприятиях и позволяют им внедрять инновации с помощью ИИ и аналитики, что было невозможно всего несколько лет назад».

Размер современных массивов данных, безусловно, велик. На заре появления больших данных, примерно в 2010-м, большим считался объем данных в 1 Пб по всей организации. Сегодня есть компании с 1 Пб данных в одной таблице, пишет Конвей. По его словам, типичное предприятие сегодня имеет массив данных в диапазоне от 10 до 100 Пб, а некоторые компании хранят более 1 Эб данных.

Databricks обрабатывает 9 Пб данных в день от имени своих клиентов. Это, конечно, большой объем данных, но если учесть все компании, хранящие и обрабатывающие данные в облачных озерах данных и локальных кластерах Spark и Hadoop, то это просто капля в море. Объем данных растет с каждым годом, как и скорость их создания.

Но как мы к этому пришли и куда идем? Расцвет Web 2.0 и социальных сетей положил начало революции больших данных. Гигантские технологические компании, такие как Facebook (признана экстремистской организацией и запрещена на территории РФ), Twitter, Yahoo, LinkedIn и др., разработали широкий спектр распределенных фреймворков (Hadoop, Hive, Storm, Presto и т. д.), чтобы дать пользователям возможность обрабатывать огромные объемы новых типов данных на стандартных промышленных серверах, в то время как другие фреймворки, включая Spark и Flink, вышли из научных кругов.

Цифровой всплеск, вытекающий из онлайн-взаимодействия (потоки кликов, журналы), обеспечил новые способы монетизации того, что люди видят и делают на экранах. Это породило новые подходы к работе с другими большими массивами данных, такими как данные IoT, телеметрия и геномные данные, стимулируя все большее использование продуктов и, следовательно, все большее количество данных. Эти распределенные фреймворки были открыты для ускорения их разработки, и вскоре родилось сообщество больших данных.

Компании работают со всеми этими большими данными по-разному. Ученые, занимающиеся изучением данных, анализируют их на предмет выявления закономерностей с помощью SQL-анализа и классических алгоритмов машинного обучения, а затем обучают прогностические модели, чтобы превратить свежие данные в инсайты. По словам Конвея, большие данные используются для создания «золотых» наборов данных в хранилищах данных. И наконец, большие данные используются для создания продуктов данных и, в конечном счете, для обучения моделей ИИ.

Когда мир обратил свое внимание на генеративный ИИ (GenAI), возник соблазн подумать, что век больших данных остался позади, что мы смело идем к преодолению следующего большого барьера в вычислениях. На самом деле все обстоит с точностью до наоборот. Появление GenAI показало предприятиям, что управлять данными в эпоху больших данных не только трудно, но и необходимо.

«Многие из наиболее важных рабочих нагрузок ИИ, приносящих доход или позволяющих сократить расходы, зависят от огромных массивов данных, — пишет Конвей. — Во многих случаях без больших данных не может быть ИИ».

Реальность такова, что компании, которые проделали тяжелую работу по приведению своих хранилищ данных в порядок — то есть внедрили системы и процессы, позволяющие преобразовывать большие объемы необработанных данных в полезные и надежные наборы данных, — оказались наиболее способными воспользоваться новыми возможностями, которые предоставил нам GenAI.

Старая мантра «мусор на входе, мусор на выходе» еще никогда не была столь уместна. Без хороших данных шансы на создание хорошей модели ИИ находятся где-то между малыми и нулевыми. Для создания надежных моделей ИИ необходима функциональная программа управления данными, которая обеспечит сохранность данных, их защиту от хакеров и несанкционированного доступа, сохранность конфиденциальных данных и их точность.

По мере роста объема, скорости и всех остальных параметров данных обеспечить надлежащее управление данными становится все труднее и труднее. Существуют способы, о которых эксперты ежедневно рассказывают в своих статьях. Но не существует коротких путей или простых кнопок, как это выясняют многие компании.

Поэтому, хотя будущее ИИ, безусловно, радужно, ИИ будущего будет настолько хорош, насколько хороши данные, на которых он обучается, или насколько хороши данные, которые собираются и отправляются в модель ИИ в качестве подсказки. ИИ бесполезен без хороших данных. В конечном счете, это и будет основным наследием больших данных.