Машинное обучение — обновлённая профессия в GeekBrains

Рассказываем о программе подготовки, проектах и профессии в принципе

06 ноября 20206 минут4728

Машинное обучение — это что-то про футуризм и роботов в духе игры Detroit: Become Human и сериала «Мир Дикого Запада»? Пока не совсем так, но направление быстро развивается, а его востребованность постоянно растёт, поскольку решения, созданные специалистами по Machine Learning, помогают компаниям экономить миллионы рублей и тысячи минут.

Мы в GeekBrains уже давно обучаем машинному обучению и недавно решили перезапустить эту профессию. В посте ниже вы узнаете все подробности.

Кто такие специалисты по машинному обучению?

Технологии машинного обучения используют эксперты по работе с данными (Data Scientists). Это люди, которые взаимодействуют с данными, стараясь вычислить и извлечь из них скрытые зависимости, которые принесут пользу заказчику.

К примеру, сейчас, во время пандемии, используются технологии, которые позволяют распознавать лица нарушителей карантина. Для этого необходимо проанализировать огромный поток лиц на видео — и в нём вычислить нужных людей. Чтобы этот процесс проходил автоматически и не требовал усилий сотен специалистов, нужно «научить» алгоритмы распознаванию.

Пример попроще — чтобы сократить время заполнения анкеты на регистрацию на сайте, можно добавить автозаполнение графы «Пол» в зависимости от имени пользователя. А для этого стоит собрать большой массив данных, например, из социальных сетей, и вычислить, что, допустим, 98% пользователей с именем «Андрей» — мужчины. И после внедрить это в алгоритмы.

Специалисты по Machine Learning (машинному обучению) помогают бизнесу существенно сократить операционные и другие издержки. Сегодня можно создать одну виртуальную модель, которая заменит целый отдел сотрудников — как работников «на местах», так и операторов колл-центров. Например, «Сбер» недавно запустил семейство из трёх виртуальных ассистентов. Они упрощают взаимодействие с пользователями и собирают голосовые данные, которые впоследствии можно применить в сервисах с распознаванием речи.

Чем именно занимаются специалисты по Machine Learning? Какие инструменты они используют?

Работа над проектом, как правило, начинается со сбора и классификации данных. Затем специалист занимается построением модели, анализирует и проверяет гипотезы, запускает модели и проверяет, как они взаимодействуют с данными, и, наконец, непосредственно разрабатывает код.

Основные рабочие инструменты такого специалиста — Jupyter Notebook и язык Python, а также популярные библиотеки и другие языки программирования, если это необходимо. Jupyter Notebook — это инструмент для разработки и представления проектов Data Science в интерактивном виде, одновременно выводящий на экран текст, математические уравнения и визуализации.

Что самое интересное и самое сложное в этой профессии?

По словам многих специалистов по машинному обучению, самое интересное в этой профессии — открывать для себя новые данные, разбирать неочевидные взаимосвязи, пытаться понять, почему они возникли и как их можно монетизировать.

Один из педагогов курса привёл такой пример. Выполняя задачу для небольшого стартапа, связанного с ритейлом, он изучал статистику продаж спиртного в Москве. И выяснил, что, помимо ожидаемого всплеска продаж перед выходными, также существовал пик продаж и во вторник. В результате было установлено, что по понедельникам небольшие областные магазины подбивают итоги по предыдущей неделе и занимаются планированием следующей, а во вторник закупаются у более крупных московских ритейлеров, что и вызывает рост продаж в столице.

Самое сложное в профессии — это постоянно держать фокус и не рвать логические цепочки в рассуждениях. А вот техническая часть, кстати, достаточно проста в освоении, легко будет даже новичкам.

Качества, которые очень помогут в Machine Learning — это дотошность, усидчивость и желание разобраться в причинно-следственных связях. Если вы обладаете техническим складом ума, настойчивы и готовы попотеть в поисках истины, а также стараетесь развивать бизнес-мышление — эта профессия вам определённо подойдет.

Чем junior-специалист отличается от senior и кто сколько получает?

Начинающие специалисты по машинному обучению, как правило, очень «академичны» в своих действиях и следуют чёткой стандартной последовательности. Например, если задача состоит в том, чтобы классифицировать тексты, начинающий специалист будет обучать модели для классификации текстов. Опытный дата-сайентист же должен видеть бизнес-задачу за тем, что он делает, понимать мотивацию, и, исходя из этого, предлагать нестандартные и менее затратные в плане ресурсов подходы к решению задачи. Или изменять саму задачу, поскольку это даст лучший эффект для бизнеса.

В среднем путь от junior до senior занимает 5–7 лет. При этом зарплата младших дата-сайентистов и инженеров по ML в среднем составляет 80–120 000 рублей, зарплата мидлов — от 120 до 180 рублей, а старшие специалисты получают 200 000 и выше. При этом вакансий всех уровней предостаточно — всё больше и больше компаний осознают, что, наняв одного дорогого специалиста, в будущем они сильно сократят затраты и издержки.

Если раньше дата-сайентисты были нужны в основном в Москве, то сейчас во всех городах, где есть крупные технологические производства (например, липецкий НЛМК), также начинают активно искать специалистов по машинному обучению, чтобы модернизировать и автоматизировать многие процессы. К тому же в связи с пандемией увеличилось число вакансий, для которых возможна удалённая работа из любой точки мира. Такие специалисты могут работать и на проектной основе для внедрения тех или иных технологических и сервисных новшеств.

Что изменилось в программе GeekUniversity по машинному обучению?

Основное отличие обновлённой профессии как от предыдущих курсов, так и от конкурентов, — это фокус на изучении бизнес-аспектов. Сейчас большинство образовательных программ в ML сфокусировано на изучении исследовательской части и построении моделей — но именно понимание того, как интегрировать процессы и какой это может дать эффект бизнесу, позволяет специалисту быть более востребованным и быстрее подниматься по карьерной лестнице.

Таким образом, и содержание, и структура, и последовательность курсов были актуализированы и приближены к бизнес-реалиям. Кроме того, увеличился объём занятий, связанных непосредственно с программированием.

Как строится обучение?

Курс состоит из семи модулей, которые можно объединить в четыре тематических блока.

Первая часть курса направлена на то, чтобы освежить, упорядочить и дополнить имеющиеся у студентов математические знания. Поскольку Data Science находится на стыке математики, инженерии и разработки, важно добиться, чтобы все студенты в равной степени владели теорией и понятийным аппаратом, умели находить причинно-следственные связи и просчитывать вероятности.

Вторая часть курса — это программирование (то есть написание кода на Python), а также работа с алгоритмами. Алгоритмическое мышление в дальнейшем поможет правильно рассчитывать нагрузку вычислительных мощностей, структурировать и оптимизировать мышление, а также общаться на одном языке с разработчиками.

Третья часть курса — непосредственно машинное обучение, часть Data Science. Теоретически, работать с данными можно и без него — но поскольку запустить модель куда проще, чем вручную прописывать дерево вариантов на 130 000 различных if, лучше освоить Machine Learning. В таком случае извлекать пользу из данных можно будет в полуавтоматическом режиме.

Наконец, четвёртая часть курса посвящена тому, как ранее полученные знания могут быть применены и интегрированы в бизнес. Студенты научатся связывать свои разработки с экономикой заказчика, поймут, откуда брать данные и разметку, научатся общаться с представителями бизнеса, получать от них корректный фидбэк, оптимизировать и дорабатывать свои модели на основе новых вводных.

Обучение проходит в формате онлайн-вебинаров (несколько раз в неделю) и подразумевает выполнение умеренного объёма домашних заданий. Также в рамках курса каждый студент создаст два проекта на основе реальных данных. Такие масштабные практические задания вскрывают пробелы в знаниях и позволяют обнаружить вопросы, которые не приходили в голову раньше.

Вы будете готовить проекты на основе данных из открытых источников, связанные с реальными проблемами — например, с вопросами прогнозирования риска возникновения сердечно-сосудистых заболеваний у конкретных пациентов. Студент также может предложить свою тему для проекта — это только приветствуется. На основе полученных данных студент разработает модель, научится превращать её в микросервис и представлять условным внешним заказчикам. Эта модель станет показательной частью его портфолио.

Что нужно для поступления?

Для обучения требуются определённые знания математики — линейная алгебра и математический анализ. Бонусом также будет опыт программирования на любом из языков.

Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.

программирование, machine-learning

Нашли ошибку в тексте? Напишите нам.

Чтобы завершить регистрацию, подтвердите свою почту!