— Год назад вы сказали, что Big Data — больше маркетинговая история, чем что-то применимое на практике. Изменилось ли ваше мнение с тех пор?

— Практичности с тех пор заметно прибавилось. То, что показало полезность на уровне концепций, стало внедряться в коммерческие продукты.

Но мне, как и год назад, не нравится сам термин Big Data. Дело-то не в объеме данных, а в их разнообразии, и в том, какие ценные для себя возможности вы можете из этого разнообразия извлечь. Если же люди копаются в огромных объемах однородных и довольно бесполезных данных и называют это «работой с Big Data»… Нет, это что-то другое.

Работа с большими данными начинается, когда ты берешь некий набор информации, на который раньше вообще никогда не смотрел. Неструктурированные тексты, голосовые записи, какие-то логи. И извлекаешь из них что-то интересное и полезное. Только для этого надо заставить себя мыслить принципиально иначе, потому что стандартные подходы к анализу данных абсолютно точно не сработают.

Через три года сам термин Big Data уйдет из употребления.

По моему личному мнению, через три года сам термин Big Data уйдет из употребления. В России еще используют слово «смартфон», но в Штатах мы уже говорим просто «телефон». Потому что все телефоны кругом — смартфоны. Пять лет назад такое уточнение имело смысл в силу разнообразия мобильных телефонов. Теперь уже нет.

То же самое будет с Big Data. Данные перестанут разделяться на структурированные и неструктурированные, «большие» и «маленькие». Работа с данными будет подразумевать использование всех разновидностей информации и извлечение пользы из их синергии.

Никаких Big Data. Просто — Data

— В России вообще немало особенностей. Мы не только называем смартфоны смартфонами. У нас, к примеру, вполне открыто продаются данные о людях, собранные как раз на основе анализа разрозненной информации о них. Теоретически, эти данные обезличены, но грань до перехода на личности настолько тонка, что, кажется, перейти ее — дело одного клика. Не превращается ли Big Data, или, если угодно, Data, в легальный инструмент подглядывания за личной жизнью? И не придет ли вскоре государство регулировать процесс анализа Big Data?

Огромные подборки частной информации о людях появились задолго до того, как придумали термин Big Data.

— На самом деле, государство само работает с такими данными, и довольно успешно. Параллельно наблюдая за тем, как с ними работают коммерческие компании. Кстати, огромные подборки частной информации о людях появились задолго до того, как придумали термин Big Data, например у телеком-операторов, социальных сетей, разработчиков мобильных платформ и т. д. Разработчики систем навигации тоже обычно знают, где вы и что делаете. И вы, кстати, не протестуете. А когда не хотите, чтобы за вашими перемещениями следили, просто отключаете геолокацию. У Google столько разной информации о пользователях, что голова кругом. Таким образом, мы платим за удобство приватностью, и довольно давно.

Недавние события в Париже заставили многих согласиться с мыслью, что приватность приватностью, но у государства должны быть возможности нарушать ее ради общего блага. Например, если бы была возможность заранее прочитать переписку террористов, использовавших мессенджер Telegram, все могло сложиться иначе.

Анализ неструктурированных данных это лишь еще один способ получить информацию, которая есть у многих. И если дойдет дело до регулирования, ничего принципиально нового изобретать не придется.

— На конференции Teradata в Анахейме у меня была возможность побеседовать с банковскими специалистами из разных стран. И все они говорили примерно одно и то же: «Да, Big Data — это очень перспективно, интересуемся, пробуем, но внедрений пока нет». Возможно, вы знаете какие-то удачные примеры из нашей сферы?

— Наверное, я вас не очень удивлю, если скажу, что банковская отрасль проходит сейчас через цифровую трансформацию. В стародавние времена были банковские отделения, много-много отделений, куда люди ходили годами. Там их постепенно начинали узнавать в лицо, знали об их делах и трудностях.

Но времена изменились. Молодежь не хочет ходить в отделения, подстраиваться под их расписание, ждать в очереди. И сегодня на смену сотруднику банка, узнающему клиента, приходит приложение или интернет-банк, также имеющие представление об активностях клиента, на базе которых можно предположить его дальнейшие действия.

Одним из ценнейших источников информации о клиенте является общение в чате.

Кстати, одним из ценнейших источников информации о клиенте является общение в чате, который сейчас часто встраивается в приложения и веб-страницы банка. Потому что там обычно обсуждается что-то спонтанное, с большим потенциалом для развития. Но тут есть другой нюанс: люди обычно пишут в чатах разговорным языком, с употреблением слэнга, сокращений и просто не очень грамотно. Живой человек все это воспринимает нормально, но при автоматическом анализе возникает немало трудностей.

Если мы еще раз вспомним стародавние времена, когда мне был нужен кредит, я надевал свой лучший костюм и ботинки, брал у знакомого солидный портфель и часы, и во всем этом великолепии шел в банк. Там я, конечно, предъявлял различные бумажки о моем финансовом состоянии, но впечатление, которое мой экстерьер производил на сотрудника банка, играло очень важную роль.

Цифровые данные позволяют принимать решения, не опираясь на какие-то субъективные вещи. Например, я могу получить кредит, вообще не приходя в банк. Или придя в него в любимой гавайской рубашке. И ту сумму, которую действительно потяну, а не ту, что мне хотелось бы, и которая могла бы обрушить мой бюджет на многие годы вперед.

Лучше ли такой вариант, когда субъективные факторы заменяются сухими данными? На мой взгляд, гораздо лучше. И для банка, и для клиента. Ловчить, конечно, в таком случае очень трудно. Но об удобстве для ловчил мы думаем в последнюю очередь.

— То есть получается, умные опытные банковские сотрудники скоро вообще не будут нужны?

— Ни в коем случае. Еще как будут нужны. Но не для того, чтобы сидеть за столом в зале и выдавать кредиты.

Скорее, их знания и опыт понадобятся для наладки системы, которая будет делать это вместо них. Для выбора данных, анализ которых позволит принять правильное решение.

— А русская Big Data отличается от, к примеру, американской?

Даже Big Data в Нью-Йорке очень сильно отличается от Big Data в Сан-Франциско.

— На самом деле, даже Big Data в Нью-Йорке очень сильно отличается от Big Data в Сан-Франциско. Знаете, у нас в Калифорнии не считается чем-то плохим, если придуманный тобой стартап по каким-то причинам не взлетает. Все благодарят друг друга, пожимают руки и идут дальше. Даже банку в Калифорнии не зазорно в чем-то ошибиться. Нельзя ошибиться дважды в одном и том же, потому что это уже значит, что ты не способен учиться. Но один раз — можно. Таким образом, неудачи — это часть образования.

Уже в Нью-Йорке к неудачам относятся куда менее терпимо. То есть там готовы применять некие прорывные технологии, но только после того, как они пройдут обкатку где-то еще.

В Европе, например в Германии и России, неудача переживается совсем болезненно. И о том, чтобы внедрить в банке что-то занятное и посмотреть, приживется или нет, речь обычно вообще не идет. Потому что неудачи помнят и припоминают.

В то же время, Россия традиционно сильна специалистами в области математики и программирования. А значит, есть возможность не только дожидаться, пока готовые решения дозреют где-то далеко, но и внести свой вклад. Даже в Кремниевой долине многие аналитики больших данных — русские.