Пытка водой - аналогия с аналитикой ведет слишком далеко

капельная аналитика

Данные, как и вода, бывают разных форм. Человеческий разум эволюционировал, чтобы отфильтровывать большую часть поступающих к нам данных, потому что их просто так много.

Когда вы открываете глаза и уши, данные повсюду. Цвет стены, звук кондиционера и запах соседского кофе считаются влажностью. Вода все время витает в воздухе, но обращать на нее внимание не стоит.

Когда вода конденсируется в туман, она заставляет вас видеть ее и тем более затрудняет понимание окружающего мира. Неполные наборы данных, искаженные данные, плохая наука, ложные выводы и когнитивная предвзятость - все это заставляет вас заблудиться в тумане.

Данные падают как дождь. Когда есть совсем немного, это дико неудовлетворительно - достаточно, чтобы испачкать вашу машину и запутать разговор. Вы обнаруживаете, что вытираете пятно на очках, когда кто-то выдает какие-то случайные данные, полученные из какого-то непонятного источника.

  • Несвежая вода в мелком водоеме опасно. Данные, собранные из ненадежных источников, не очищенные и не нормализованные и оставленные в застое, могут легко привести к ошибочным выводам.
  • A постоянная струйка воды может быть достаточно, чтобы наполнить столовую или поддерживать лесную экосистему. Всего три точки данных (количество отправленных электронных писем по сравнению с открытыми или нажатыми) могут поддерживать маркетинговую программу.
  • A более здоровый поток данных в виде небольшого ручья можно использовать для купания. Непрерывный поток данных позволяет проводить сравнительный анализ и историческое сравнение. Оптимизация целевой страницы может быть достигнута с постоянными данными о конверсиях.
    A скромная река может привести в действие мельницу для распиливания древесины или измельчения пшеницы. Механизм рекомендаций нуждается только в надежном вкладе горстки притоков, чтобы обеспечить увеличение стоимости тележек для покупок.
  • A водопад of может привести в движение огромное водяное колесо, а достаточный приток информации может управлять системой динамического контента в реальном времени.
  • A река такой широкий и достаточно глубокий может поддержать всю транспортную отрасль. На баржах и грузовых судах может быть достаточно данных в виде набора файлов cookie от рекламных сетей, агрегаторов данных программ карт лояльности и брокеров данных.

Когда данные поступают в ожидаемых количествах в ожидаемое время, их можно собирать, направлять и использовать. Ирригационные системы, плотины и водохранилища обеспечивают ощущение контроля и позволяют строить постоянно расширяющуюся инфраструктуру с каналами, шлюзами и дамбами. Хранилища данных построены на менее надежных потоках.

Чистота - залог здоровья

Чистая вода жизненно важна для успеха жизни, орошения, работы электростанций и т. Д. Определение «чистой» может измениться для этой цели; это нормально, если в воде, охлаждающей электростанцию, есть водоросли, и недопустимо, если в питьевой воде содержится более 10 частей мышьяка на миллиард.

Данные такие же. В заявке на прямую почтовую рассылку вопрос о том, есть ли у вас звание человека (мистер, миссис, мисс), не имеет значения ... если только вы не отправляете письмо врачам. Но грязные данные каждый раз сбивают вас с толку.

Как главный научный сотрудник США, DJ Patil, заявил об этом на Саммите CTO в первом раунде: «Если вы не думаете о том, как сохранить свои данные в чистоте с самого начала, то вы пиздец. Я это гарантирую. Попытки очистить это постфактум займут как минимум месяцы ».

Если нагреть воду до точки кипения, это может привести к целой промышленной революции. Данные, похоже, делают то же самое. С того момента, как компьютеры могли хранить и вычислять, данные собирались настолько быстро, насколько для этого могло быть создано запоминающее оборудование.

Озеро данных

По мере того, как данные из этих притоков просачиваются через двигатели мельниц, все они попадают в озеро за плотиной. Поскольку данные передаются контролируемым образом, они приводят в действие турбины индустрии данных; эти гигантские механизмы обработки данных с такими именами, как Google и Facebook. Здесь не будет засухи.

И, наконец, глубокий бассейн с водой, ожидающий погружения аналитика. Акваланг и ружье в руке, аналитик исследует глубину, наносит на карту новые земли и обнаруживает новые виды. Это очень интересное время для исследователя данных.

Вот почему так много из них приходили на Саммит eMetrics с 2002 года. Следующая возможность - в Бостоне с 27 сентября по 1 октября 2015 года.

Регистрация на саммит eMetrics

Мост слишком далеко

А что можно сказать о силе данных, чтобы прорезать следующий Гранд-Каньон? А как насчет таяния ледников структурированных данных? Как мы обрабатываем сточные воды в мире, который все больше заботится о конфиденциальности?

Это вопросы на другой раз и вода под мостом.

Как вы думаете?

Этот сайт использует Akismet для уменьшения количества спама. Узнайте, как обрабатываются ваши данные комментариев.