Здравствуйте!
Рассказываем, как учатся и чем занимаются дата-сайентисты в банке.
Data Science — это область знаний на стыке математического анализа, программирования и статистики. Ее суть в том, чтобы творчески использовать большие массивы данных, визуализировать их и создавать модели, которые применяют в бизнесе и научных исследованиях.
Дата-сайентисты помогают бизнесу принимать решения о будущем на основе большого объема данных, которые получены в прошлом. Они их анализируют и применяют в работе алгоритмы машинного обучения, выявляют неочевидные закономерности и прогнозируют события.
Ситуация на рынке
Крупные компании все чаще внедряют алгоритмы машинного обучения в свои продукты и процессы, а data-driven подход используют в принятии бизнес-решений. Раньше работа с большими данными была уделом только IT-компаний, а сейчас их анализируют даже в маркетинге, дизайне, продажах. Это делает специалистов Data Science еще более востребованными.
Требования к опыту работы на позицию дата-сайентиста самые низкие среди всех вакансий в IT-сфере: есть вакансии с опытом работы менее года, в 60 % вакансий — подойдет опыт до 3 лет.
Многие специалисты приходят в эту профессию, чтобы хорошо зарабатывать. Начинающие специалисты с опытом 1-2 года получают 113—166 тыс., а специалисты с опытом 3-6 лет уже могут рассчитывать на доход 247—310 тыс. в месяц. Дата-сайентисты в среднем зарабатывают больше, чем продуктовые и маркетинговые аналитики.
Оксана Ширшакова
Главный специалист по подбору персонала, Райффайзенбанк
Среди специалистов эта профессия становится все более популярной. В Data Science приходят как молодые специалисты, которые сразу получают базовое образование в этом направлении, так и эксперты из других областей, которые переквалифицировались на курсах. Возможно, поэтому нанять хорошего «джуна» или «регуляра» чуть легче, чем уверенного специалиста уровня senior.
Популярность направления можно объяснить тем, что сейчас большой выбор компаний и интересных задач. Работу можно найти за границей и даже в стартапе с опционом.
Что должен уметь дата-сайентист
Набор навыков для дата-сайентиста будет зависеть от того, какие задачи стоят перед ним. Если говорить о базе, то он должен обладать знаниями в IT, математике, статистике и хорошо понимать суть бизнеса компании:
Прикладная математика и анализ данных:
- Умение проводить эксперименты;
- Статистика и моделирование: от линейных моделей до продвинутых методов машинного обучения;
- Подготовка данных: очистка, отбор и преобразование признаков.
Технологии:
- Навыки программирования DS-моделей (чаще всего Python или R), знание библиотек;
- Навыки работы с технологиями распределенных вычислений (Spark, Hadoop и др.);
- Навыки написания продуктивного кода.
Бизнес:
- Умение переводить бизнес-гипотезы в математическую постановку задачи;
- Умение предвидеть, как модель может использоваться в бизнес-процессах и какую ценность может принести;
- Понимание, какие подходы, модели и методы применимы в конкретных бизнес-кейсах.
Чем дата-сайентист отличается от аналитика
Дата-сайентисты и аналитики работают с данными. Разница в том, как они это делают. Если упростить, то аналитики используют данные, чтобы объяснить события в прошлом, а дата-сайентисты на основании исторических данных строят прогнозы о будущем.
Разница часто не очевидна. Это создает путаницу: иногда менеджеры ждут от аналитиков, что те будут работать с данными, как дата-сайентисты, или видят в Data Science волшебную пилюлю и стремятся нанять в команду дата-сайентиста, хотя задачи, с которыми нужно работать, относятся к компетенциям аналитика.
Какие задачи банка решают дата-сайентисты
В банках многие рабочие процессы построены на работе с данными. Вот несколько таких примеров использования DS в Райффайзенбанке:
Скоринг. Дата-сайентисты создают модели для скоринга: алгоритм анализирует данные о клиенте и оценивает, насколько надежным заемщиком он может стать. На основе этой информации банк принимает решение, выдавать ли кредит. При оценке модель учитывает десятки параметров, например стаж работы, среднюю зарплату, образование, счета в других банках и данные сотовых операторов.
Борьба с карточным мошенничеством. Модели анализируют транзакции клиентов и мгновенно принимают решения по каждой из них. Если человек вдруг начал переводить слишком большие суммы или совершать непривычные для себя операции, то система распознает такие действия как мошеннические и даст сигнал об их приостановке, пока владелец счета или карты не подтвердит операцию лично.
CRM. Data Science используют в CRM, чтобы анализировать действия и интересы пользователей и делать персонифицированные предложения.
Улучшение клиентского опыта. DS помогает с улучшением клиентского опыта. Например, в онлайн-банке напротив совершенных транзакций отражается их категория. Для физлиц это происходит автоматически на основании кода торговой точки, а с юрлицами так не работает: почти все их платежи — по платежному поручению. Чтобы это исправить, создали модель, которая категоризирует платежи клиентов с точностью 76 %. При добавлении новых категорий точность будет расти.
Виртуальный помощник в чат-каналах. Чтобы научить чат-бот отвечать на вопросы клиентов и вовремя переводить диалог на оператора, команда анализирует большие объемы таких диалогов, выделяя из них конкретные примеры вопросов. Эти примеры проходят через сложную последовательность предобработки текста, которая включает нейронные сети. Так виртуальный помощник сможет отвечать на персонализированные вопросы и успешно решать клиентские задачи.
Оптимизация внутренних процессов, например обработка жалоб клиентов. Раньше эта работа происходила полностью в ручном режиме: жалобы читали, вручную классифицировали, если автор требовал возврата денег — решали, возвращать ли и сколько, и так далее. Чтобы автоматизировать категоризацию, дата-сайентисты разработали собственное решение, которое показало более высокую эффективность, чем продукт вендора. Модель построена на бесплатных Open Source компонентах, которые не требуют покупки лицензий, и в планах банка — использовать ее для создания первого end-to-end процесса обработки жалоб.
Что делать, если я хочу работать в Data Science?
Проще всего попробовать себя в DS e тем, у кого за плечами техническое или математическое образование, а также тем, чья текущая работа связана с данными или программированием.
- Начните с комплексного курса по всем аспектам Data Science— здесь можно выбирать между платными и бесплатными, очными и дистанционными курсами, которых в последнее время появилось очень много. Изучите перечень и выберите то, что подходит именно вам. Не стоит бояться бесплатных курсов — в СНГ развито открытое сообщество Open Data Science, участники которого делают качественные образовательные проекты, например: Open Machine Learning Course.
- Параллельно с обучением участвуйте в соревнованиях, например на Kaggle. Это своего рода социальная сеть для дата-сайентистов с большим количеством открытых массивов данных. Вы можете просто общаться со специалистами, а можете повышать свой рейтинг за комментарии, публикации исследований, участие в конкурсах, которые там регулярно появляются.
- Подключайтесь к решению реальных Data Science задач. Сделайте пет-проект в той области, которая вам интересна, чтобы продемонстрировать навыки — это особенно актуально тем, кто хочет компенсировать отсутствие практического опыта. Например, можно найти интересующие вас данные, обработать их, найти интересные закономерности, создать несложную модель и красиво это все оформить. Также можно предложить свою помощь в сообществе.
- Следите за вакансиями внутри вашей компании: в Райффайзенбанке были случаи, когда после прохождения дополнительного обучения сотрудники переводились на начальные позиции в DS.
Что делать, если в команду нужен дата-сайентист?
Тем, кому в команду нужен дата-сайентист, мы рекомендуем сначала четко понять, какие задачи вы будете решать с помощью Data Science и точно ли вам нужен такой специалист. В этом могут помочь:
- Бесплатный курс «Искусственный интеллект для каждого» — вводный курс о терминологии, принципах и возможностях применения искусственного интеллекта (машинного обучения) в бизнесе. Подойдет даже людям без технического бэкграунда.
- Книга «Data Science for Business» — описывает фундаментальные принципы Data Science и проводит читателя по полному циклу извлечения инсайтов и бизнес-ценности из данных.
- Курсы по Data Science для менеджеров — ищите то, что подойдет вам по формату.
Следующий шаг — поработать в команде с дата-сайентистом на хакатоне или внутреннем тренинге, если такие есть в вашей компании. Если вы убедитесь, что вашей команде нужен такой специалист, то вам предстоит сформулировать гипотезу и поставить задачу. В Райффайзенбанке с такими вопросами можно обратиться в DS коммьюнити и организовать брейншторм для команды с участием внешних или внутренних профессионалов в этой области.
Для разовых задач лучше воспользоваться временными ресурсами или аутсорсом. Если задачи предполагают полную загрузку, тогда стоит задуматься о найме.
До новых встреч!