Что нужно, чтобы работать дата-сайентистом в банке

Здравствуйте!
Рассказываем, как учатся и чем занимаются дата-сайентисты в банке.

Дата-сайентисты помогают бизнесу принимать решения о будущем на основе большого объема данных, которые получены в прошлом. Они их анализируют и применяют в работе алгоритмы машинного обучения, выявляют неочевидные закономерности и прогнозируют события.
Ситуация на рынке
Крупные компании все чаще внедряют алгоритмы машинного обучения в свои продукты и процессы, а data-driven подход используют в принятии бизнес-решений. Раньше работа с большими данными была уделом только IT-компаний, а сейчас их анализируют даже в маркетинге, дизайне, продажах. Это делает специалистов Data Science еще более востребованными.
Требования к опыту работы на позицию дата-сайентиста самые низкие среди всех вакансий в IT-сфере: есть вакансии с опытом работы менее года, в 60 % вакансий — подойдет опыт до 3 лет.
Многие специалисты приходят в эту профессию, чтобы хорошо зарабатывать. Начинающие специалисты с опытом 1-2 года получают 113—166 тыс., а специалисты с опытом 3-6 лет уже могут рассчитывать на доход 247—310 тыс. в месяц. Дата-сайентисты в среднем зарабатывают больше, чем продуктовые и маркетинговые аналитики.
Оксана Ширшакова
Главный специалист по подбору персонала, Райффайзенбанк

Популярность направления можно объяснить тем, что сейчас большой выбор компаний и интересных задач. Работу можно найти за границей и даже в стартапе с опционом.
Что должен уметь дата-сайентист
Набор навыков для дата-сайентиста будет зависеть от того, какие задачи стоят перед ним. Если говорить о базе, то он должен обладать знаниями в IT, математике, статистике и хорошо понимать суть бизнеса компании:
Прикладная математика и анализ данных:
- Умение проводить эксперименты;
- Статистика и моделирование: от линейных моделей до продвинутых методов машинного обучения;
- Подготовка данных: очистка, отбор и преобразование признаков.

- Навыки программирования DS-моделей (чаще всего Python или R), знание библиотек;
- Навыки работы с технологиями распределенных вычислений (Spark, Hadoop и др.);
- Навыки написания продуктивного кода.
Бизнес:
- Умение переводить бизнес-гипотезы в математическую постановку задачи;
- Умение предвидеть, как модель может использоваться в бизнес-процессах и какую ценность может принести;
- Понимание, какие подходы, модели и методы применимы в конкретных бизнес-кейсах.
Чем дата-сайентист отличается от аналитика

Разница часто не очевидна. Это создает путаницу: иногда менеджеры ждут от аналитиков, что те будут работать с данными, как дата-сайентисты, или видят в Data Science волшебную пилюлю и стремятся нанять в команду дата-сайентиста, хотя задачи, с которыми нужно работать, относятся к компетенциям аналитика.
Какие задачи банка решают дата-сайентисты
В банках многие рабочие процессы построены на работе с данными. Вот несколько таких примеров использования DS в Райффайзенбанке:
Скоринг. Дата-сайентисты создают модели для скоринга: алгоритм анализирует данные о клиенте и оценивает, насколько надежным заемщиком он может стать. На основе этой информации банк принимает решение, выдавать ли кредит. При оценке модель учитывает десятки параметров, например стаж работы, среднюю зарплату, образование, счета в других банках и данные сотовых операторов.
Борьба с карточным мошенничеством. Модели анализируют транзакции клиентов и мгновенно принимают решения по каждой из них. Если человек вдруг начал переводить слишком большие суммы или совершать непривычные для себя операции, то система распознает такие действия как мошеннические и даст сигнал об их приостановке, пока владелец счета или карты не подтвердит операцию лично.
CRM. Data Science используют в CRM, чтобы анализировать действия и интересы пользователей и делать персонифицированные предложения.
Улучшение клиентского опыта. DS помогает с улучшением клиентского опыта. Например, в онлайн-банке напротив совершенных транзакций отражается их категория. Для физлиц это происходит автоматически на основании кода торговой точки, а с юрлицами так не работает: почти все их платежи — по платежному поручению. Чтобы это исправить, создали модель, которая категоризирует платежи клиентов с точностью 76 %. При добавлении новых категорий точность будет расти.

Оптимизация внутренних процессов, например обработка жалоб клиентов. Раньше эта работа происходила полностью в ручном режиме: жалобы читали, вручную классифицировали, если автор требовал возврата денег — решали, возвращать ли и сколько, и так далее. Чтобы автоматизировать категоризацию, дата-сайентисты разработали собственное решение, которое показало более высокую эффективность, чем продукт вендора. Модель построена на бесплатных Open Source компонентах, которые не требуют покупки лицензий, и в планах банка — использовать ее для создания первого end-to-end процесса обработки жалоб.
Что делать, если я хочу работать в Data Science?

- Начните с комплексного курса по всем аспектам Data Science— здесь можно выбирать между платными и бесплатными, очными и дистанционными курсами, которых в последнее время появилось очень много. Изучите перечень и выберите то, что подходит именно вам. Не стоит бояться бесплатных курсов — в СНГ развито открытое сообщество Open Data Science, участники которого делают качественные образовательные проекты, например: Open Machine Learning Course.
- Параллельно с обучением участвуйте в соревнованиях, например на Kaggle. Это своего рода социальная сеть для дата-сайентистов с большим количеством открытых массивов данных. Вы можете просто общаться со специалистами, а можете повышать свой рейтинг за комментарии, публикации исследований, участие в конкурсах, которые там регулярно появляются.
- Подключайтесь к решению реальных Data Science задач. Сделайте пет-проект в той области, которая вам интересна, чтобы продемонстрировать навыки — это особенно актуально тем, кто хочет компенсировать отсутствие практического опыта. Например, можно найти интересующие вас данные, обработать их, найти интересные закономерности, создать несложную модель и красиво это все оформить. Также можно предложить свою помощь в сообществе.
- Следите за вакансиями внутри вашей компании: в Райффайзенбанке были случаи, когда после прохождения дополнительного обучения сотрудники переводились на начальные позиции в DS.
Что делать, если в команду нужен дата-сайентист?

- Бесплатный курс «Искусственный интеллект для каждого» — вводный курс о терминологии, принципах и возможностях применения искусственного интеллекта (машинного обучения) в бизнесе. Подойдет даже людям без технического бэкграунда.
- Книга «Data Science for Business» — описывает фундаментальные принципы Data Science и проводит читателя по полному циклу извлечения инсайтов и бизнес-ценности из данных.
- Курсы по Data Science для менеджеров — ищите то, что подойдет вам по формату.
Следующий шаг — поработать в команде с дата-сайентистом на хакатоне или внутреннем тренинге, если такие есть в вашей компании. Если вы убедитесь, что вашей команде нужен такой специалист, то вам предстоит сформулировать гипотезу и поставить задачу. В Райффайзенбанке с такими вопросами можно обратиться в DS коммьюнити и организовать брейншторм для команды с участием внешних или внутренних профессионалов в этой области.
Для разовых задач лучше воспользоваться временными ресурсами или аутсорсом. Если задачи предполагают полную загрузку, тогда стоит задуматься о найме.
До новых встреч!