- Что такое машинное обучение
- Краткая история машинного обучения
- Задачи, решаемые машинным обучением сегодня
- Принцип работы машинного обучения
- 2 типа машинного обучения
- Машинное обучение с учителем
- Машинное обучение без учителя
- Глубокое машинное обучение
- Специалисты по машинному обучению
- Инструменты специалиста машинного обучения
- Зарплата junior-специалиста и senior
- Преимущества курса GeekUniversity по машинному обучению
-
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.Бесплатно от Geekbrains
За последние несколько лет машинное обучение сделало прорыв, облегчив некоторые рутинные обязанности людей. Однако не все до конца понимают, что это такое и по какому принципу работает, хотя сталкиваются с результатом процесса каждый день. Работа некоторых приложений и программ в гаджетах и девайсах налажена благодаря данной технологии. Яркие примеры – Siri и Алиса.
В будущем машинное обучение будет только развиваться, открывая новые возможности для человечества. Это огромные перспективы, и было бы глупо не прыгнуть в этот круговорот, получив определенные знания. Тем более, что специалист по машинному обучению уже сегодня получает около 200 тысяч рублей. Освоить эту профессию можно за несколько лет, а работать начать еще раньше. Что предстоит изучить, какими инструментами пользоваться и куда идти учиться, мы расскажем ниже.
Что такое машинное обучение
На данный момент не существует общепринятого определения понятия «машинное обучение» (machine learning, ML). Хотя в большинстве случаев данный термин определяется специалистами вполне конкретно.
Машинное обучение представляет собой научную дисциплину, главная задача которой — научить искусственный интеллект на основе предоставляемой ему информации об окружающем мире самостоятельно принимать решения, самообучаться и постоянно совершенствоваться в своем самообучении.
Читайте также!
Крупные представители мировой IT-индустрии, а также именитые исследовательские компании так трактуют суть ML:
- «Практическое использование алгоритмов для анализа данных, изучения их и последующего прогнозирования какого-либо явления» (NVIDIA).
- «Наука о том, как научить компьютеры функционировать без явного программирования» (Стэндфортский университет).
- «Технология, основанная на алгоритмах, способных учиться на заложенных данных без помощи средств программирования» (McKinsey & Co).
- «Алгоритмы, способные самостоятельно выбирать метод решения важных задач путем обобщения заложенных в систему примеров» (Вашингтонский университет).
- «Сфера деятельности, функция которой состоит в поиске способов создания компьютерных систем, способных самообучаться и самостоятельно улучшаться по мере накопления опыта, а также в поиске фундаментальных закономерностей, по которым работают все процессы обучения» (Университет Карнеги Меллон).
В целом можно сказать про машинное обучение, что это часть науки об искусственном интеллекте, а нейронные сети являются в свою очередь одной из разновидностей ML.
Краткая история машинного обучения
Работа первых компьютеров изначально основывалась на выполнении программ, заранее известных человеку. Лишь недавно специалисты пришли к выводу, что вычислительная техника способна решать задачи, для которых не существует четкого алгоритма или же этот алгоритм неизвестен. Данное понимание привело к появлению искусственного интеллекта и машинного обучения в частности.
- Первая модель компьютера с искусственным интеллектом была создана в рамках сверхсекретного американского проекта ЭНИАК в 1946 году. С помощью данного средства решались вычислительные и многие другие задачи.
- Алан Тьюринг в 1950 году разработал собственную методику тестирования искусственного интеллекта. Тест оценивал интеллект компьютера и определял способность машины мыслить подобно человеку.
- Нейросеть впервые была воссоздана в проекте «Персептрон» в 1958 году. Ее автором является американский ученый Фрэнк Розенблатт, реализовавший свою идею в виде нейрокомпьютера «Марк-1».
- Другой исследователь из США Марвин Минский в 1959 году создал первый компьютер на основе нейросети, назвав его SNARC.
- Артур Самуэль, коллега Минского, в том же 1959 году показал каким бывает машинное обучение на примере самообучающейся программы по игре в шашки. Этот ученый впервые употребил термин Machine Learning, объяснив его как некий процесс, позволяющий компьютеру действовать не по заранее заложенной программе.
- 1967 год ознаменован созданием первого метрического алгоритма машинного обучения для классификации данных с использованием шаблонов для распознавания и самообучения.
- Через 30 лет, в 1997 году, мир узнал об уникальной шахматной программе Deep Blue, сумевшей впервые в мире обыграть Гарри Каспарова.
- Ученый в области нейронных сетей Джеффри Хинтон в 2006 году ввел в обиход понятие «глубокого обучения» (deep learning).
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Скачивайте и используйте уже сегодня:
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка
Только проверенные нейросети с доступом из России и свободным использованием
ТОП-100 площадок для поиска работы от GeekBrains
Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽
- Интернет-гигант Google также заинтересован в развитии искусственного интеллекта, поэтому в 2011 в компании появилось подразделение Google Brain, занимающееся разработками в этой области.
- Google X Lab – еще одно подразделение Google, связанное с деятельностью в сфере нейронных сетей. В 2012 году здесь был разработан алгоритм, способный распознавать кошек на фотографиях и видеороликах, а также запущен облачный сервис Google Prediction API. Данная система на основе ML может анализировать неструктурированные данные.
- Одним из ключевых примеров машинного обучения является нейронная сеть DeepFace. Она была разработана в 2014 году специалистами Facebook* и способна распознавать лица людей на фотографиях и видео с точностью 97 %.
- Наконец, 2015 год ознаменован запуском платформы Amazon Machine Learning корпорацией Amazon. Аналогичную систему Distributed Learning Machine Toolkit разработали в Microsoft лишь спустя несколько месяцев.
Задачи, решаемые машинным обучением сегодня
Спектр задач, решаемых средствами искусственного интеллекта, весьма широк: анализ информации и ее запоминание, прогнозирование процессов, воспроизведение готовых моделей и выбор наиболее подходящих из них.
С использованием больших данных и машинного обучения, например, компания «Леруа Мерлен» осуществляет поиск остатков продукции на складах.
Скачать файлВыдача персональных рекомендаций пользователям мобильных приложений и сервисов возможна также благодаря внедрению машинного обучения в маркетинг и интернет-бизнес. Например, в стриминговом сервисе Spotify для каждого активного слушателя на основе прослушанной музыки составляется персональная подборка.
Китайские пылесосы Ecovacs Robotics, например, обучаются на множестве фотографий самостоятельно находить мелкие посторонние предметы на своем пути. Функция распознавания улыбок встроена в «умные» камеры на базе Raspberry Pi 3B+. С помощью фреймворка TensorFlow Light эта функция самостоятельно делает снимок точно в нужный момент. Данные камеры также могут выполнять голосовые команды.
Машинное обучение и анализ данных активно используются в области инвестиций. В частности, искусственный интеллект помогает отслеживать рыночную ситуацию и выбирать наиболее выгодную в данный момент операцию с активами. Предикативная аналитика позволяет прогнозировать изменение стоимости определенных акций за конкретный временной период. На основе этого система подстраивается под изменившиеся важные события, корректируя данные.
Благодаря технологиям машинного обучения в науке происходят настоящие открытия. Так, компания DeepMind в 2020 году создала нейронную сеть AlphaFold, расшифровавшую в итоге механизм сворачивания белка. Загадку, над решением которой ученые трудились более полувека, смог разгадать искусственный интеллект.
Принцип работы машинного обучения
Все методы машинного обучения работают по одному общему принципу.
Существует множество однотипных задач с известными условиями и набором правильных результатов. Возьмем к примеру машинный перевод. Здесь входными данными является слово или фраза на одном языке, а ожидаемым ответом — перевод этого слова или фразы на другой язык.
Схематически глубинную нейронную сеть можно представить в виде «черного ящика», на вход которого подается некое условие задачи, а на выходе принимается произвольный результат. В примере это текст на втором языке.
Нейросети назначают дополнительные параметры, влияющие на характер обработки входного сигнала. Суть обучения «черного ящика» состоит в последовательном поиске значений указанных параметров, при которых обеспечивается максимальное сближение выдаваемого ответа с правильным. Настройка дополнительных переменных может обеспечить максимально верные решения подобных задач, даже если нейросеть не сталкивалась с ними ранее.
Итак, для работы нейронной сети потребуется предоставить:
- Исходные данные
Сюда входит любая информация, которая может помочь нейросети обучаться: статистические данные, примеры решений, исторические сведения и т. д. На сбор всех этих данных уходят годы, в течение которых формируются массивы данных (датасеты). Последние имеются у всех крупных IT-компаний. Наиболее известный пример сбора таких сведений — ввод пользователями капчи, заключающийся в выборе фотографий, например, с автомобилями. Выбранные варианты сохраняются в базу как правильные ответы.
Читайте также!
- Признаки (свойства, характеристики)
Данные параметры должны учитываться нейросетью в процессе самообучения. В числе таких признаков можно назвать стоимость акций, картинки животных, частоту слов, пол человека. Процесс обучения пойдет быстрее, если минимизировать количество характеристик и одновременно повысить четкость их описания. Тем не менее, достаточно сложные задачи требуют ввода в модели нескольких миллионов параметров для определения вариантов преобразования входов в выходы.
- Алгоритмы
Алгоритмы задают способы решения поставленной задачи, и этих способов для одной задачи может быть несколько. Необходимо определить из них наиболее точный и эффективный.
2 типа машинного обучения
Все виды машинного обучения могут быть двух типов:
- Индуктивный (прецедентный) тип. Здесь за основу берутся эмпирические закономерности в исходных данных.
- Дедуктивный тип. Учитываются экспертные знания, которые формализуются и переносятся в цифровую базу данных.
Последний тип является частью экспертных систем, поэтому под понятием машинного обучения чаще всего подразумевается именно обучение по прецедентам (обучающей выборке). Эта выборка представляет собой наборы соответствующих друг другу входов и выходов. Четкая и однозначная закономерность между входными данными для машинного обучения и их результатами при этом отсутствует. В качестве примера возьмем метеопрогноз. Какую погоду стоит ждать завтра, если вся прошедшая неделя была морозной, безветренной и солнечной?
Для прогнозирования здесь потребуются дополнительные параметры: географические координаты, рельеф данной территории, текущие климатические особенности и т. п. Далее создается алгоритм, обеспечивающий выдачу достаточно точного результата вне зависимости от того, что подается на вход.
Для регулировки точности выходного сигнала пользуются оценочным функционалом качества. Результат формируется эмпирическим путем с учетом накопленного опыта. В процессе обучения система должна уметь обобщать входные данные, адекватно реагируя на них при выходе этих данных за пределы обучающей выборки. Входная информация на практике бывает неточной, неполной или разнородной.
Далее рассмотрим три метода машинного обучения: с учителем, без учителя и глубокое.
Машинное обучение с учителем
В качестве примера возьмем данные об учениках школы, включая школьные успехи учащихся. Будет анализироваться склонность школьников к определенным дисциплинам.
Учитель здесь вносит данные в систему. К примеру, получилась такая таблица:
Имя ученика | Класс | IQ | Пол | Склад ума | Возраст | Предмет с самой высокой успеваемостью |
Виктор | 8 | 110 | Мужской | Технический | 15 | Черчение |
Анна | 8 | 100 | Женский | Творческий | 14 | Литература |
Сергей | 8 | 95 | Мужской | Гуманитарный | 14 | История |
Александр | 8 | 110 | Мужской | Технический | 15 | Химия |
Ксения | 8 | 115 | Женский | Гуманитарный | 14 | Литература |
Применение машинного обучения позволит установить закономерности между данными из таблицы и в итоге сориентировать каждого ученика в профессиональном плане. К примеру, у Ксении превосходная успеваемость по литературе, а также гуманитарный склад ума. На основании этого компьютер предполагает, что наилучший выбор для нее — поступление на филологический факультет. Виктор более склонен к техническим наукам, в частности к черчению. Поэтому ему имеет смысл обратить свое внимание на направление инженера-проектировщика.
Итак, в компьютер заносится следующий вводный массив: пол учеников, их возраст, IQ и склад ума, класс, в котором они учатся. Кроме того, учитель предоставляет машине данные об успеваемости, подразумевая, что эта информация влияет на выбор профессии, и ожидая от машины ответ, почему она оказывает такое влияние.
И еще один пример машинного обучения и нейронных сетей с учителем — распознавание объектов на фотографиях. Программа изучает огромное количество фотографий с описанием изображенных на них деревьев или облаков и учится давать описания самостоятельно на основе общих черт данных объектов.
Нейросеть, распознающую объекты, полезно использовать в беспилотных автомобилях. Датчики беспилотника собирают информацию и передают ее пользователю, который, например, отмечает автотранспорт на снимках.
Машинное обучение без учителя
Высокую эффективность машинного обучения дает обучение на играх. В простейшем примере это игра «Змейка». Программе дается информация, насколько далеко от змейки находятся препятствия. В соответствии с этими данными выбирается наилучший маршрут движения.
Читайте также!
Снова вернемся к примеру с профессиональной ориентацией школьников. Получив данные о школьниках и их успеваемости, нейросеть сначала не видит какой-либо взаимосвязи между этими данными.
Подобный подход применяется в случаях, связанных с неочевидными решениями. В маркетинге, например, искусственный интеллект не сможет предугадать нелогичность предложения похожего товара, в котором клиент не нуждается, даже если это сулит прибыль.
Нейросети могут работать в паре в процессе машинного обучения. Работа осуществляется в так называемой генеративно-состязательной сети (GAN), состоящей из двух отдельных сетей — G и D. Первая отвечает за генерацию образцов на основе реальных картинок, вторая пробует отсеивать неправильные образцы и оставлять правильные.
Данная технология используется в частности компанией Facebook* для создания фотографий, неотличимых от реальных, для восстановления поврежденных изображений и для повышения четкости фотографий.
Глубокое машинное обучение
Здесь используется анализ больших данных. Обучаться сети также могут как с учителем, так и без него. Для Big Data характерны огромные размеры, обработка такого массива требует как минимум два компьютера. По этой причине в глубоком обучении обязательно используются нейросети.
При этом одна крупная задача разбивается на несколько мелких, которые отдаются на исполнение другим устройствам. К примеру, собранная одним процессором информация пересылается двум другим, которые анализируют полученные данные и далее отправляют на обработку следующим четырем и так далее.
Например, процесс распознавания объектов состоит из следующих этапов:
- получение изображения;
- нахождение всех точек и линий;
- построение простых фигур с использованием линий;
- построение сложных фигур из простых и т. д.
Итак, в полученном изображении нейронная сеть видит сначала точки, затем линии, окружности, треугольники, прямоугольники. Далее из фигур выстраивается уже полноценная картинка.
Задачи машинного обучения могут быть самыми неожиданными. Например, создана нейронная сеть по имени Норман для изучения контента сервиса Reddit с целью выявления откровенных и жестких фотографий и жутких историй. Этой же нейросети было предложено пройти тест Роршаха. Результаты получились весьма любопытные.
Норман определял в показываемых картинках исключительно образы убитых самыми разными способами людей, тогда как другие нейросети видели в этих же изображениях животных, растения и зонты.
Этот опыт говорит о важности информации, получаемой программой на первых этапах. Норману же предстоит курс «лечения», над которым работают специалисты.
Подобная ситуация случилась с чат-ботом Тау. В ходе общения с пользователями Twitter данная нейросеть от Microsoft научилась оскорблять людей, используя в том числе нацистские и ксенофобские высказывания. Бота впоследствии пришлось заблокировать.
Специалисты по машинному обучению
С искусственным интеллектом работают исследователи данных (Data Scientists). В процессе своей работы эти специалисты всесторонне изучают данные, стараясь находить в их взаимодействии какие-то зависимости и связи, полезные для потенциальных заказчиков.
Приведем более простой пример. Имеется форма на сайте, где пользователю нужно указать среди прочего имя и пол. Можно обучить систему автоматически определять половую принадлежность на основании имени, которое вводит посетитель.
Для обучения, например, используется большая база данных пользователей соцсетей и определяется, что подавляющее большинство пользователей с именем Сергей являются мужчинами. Эта закономерность затем внедряется в алгоритм.
Разберем основные сложности и интересные моменты в профессии эксперта по работе с данными.
Многие опытные специалисты говорят, что работа привлекает их в первую очередь возможностью открывать для себя новую информацию, изучать неочевидные закономерности, искать способы монетизации этих взаимосвязей.
Читайте также!
Один из преподавателей по основам машинного обучения поделился собственным опытом. Однажды он изучал статистику продаж алкоголя в московских магазинах. Как и ожидалось, количество реализованной продукции резко возрастало к выходным. Но также наблюдался всплеск продаж во вторник.
Анализируя эту ситуацию, специалист выяснил, что каждый понедельник небольшие торговые точки Подмосковья подводят итоги прошедшей недели и планируют задачи на следующую неделю. По вторникам же происходит массовая закупка спиртного у более крупных ритейлеров Москвы, чем и объясняется резкий пик продаж в московских магазинах в этот день недели.
Экспертам по работе с искусственным интеллектом будут помогать их природная дотошность, усидчивость и постоянное желание разбираться в причинах и следствиях. Данная деятельность подойдет людям, обладающим техническим складом ума, настойчивым в достижении своих целей, готовым трудиться в поисках истины. Дополнительным бонусом будет развитое предпринимательское мышление.
Инструменты специалиста машинного обучения
Здесь разберем основной набор инструментов, которые используются в работе специалистами по ML.
Сначала собираются и классифицируются данные. Далее строится модель, выполняются анализ и проверка всех гипотез. Запуском построенной модели специалист проверяет, каким образом она взаимодействует с данными. После этого начинается разработка кода алгоритма.
Основные средства разработчика на данном этапе машинного обучения — Python, Jupyter Notebook, некоторые популярные библиотеки. При необходимости могут использоваться другие языки программирования. Среда разработки Jupyter Notebook позволяет визуализировать данные, представлять их в интерактивном виде. При этом на экран выводятся соответствующие математические уравнения.
Зарплата junior-специалиста и senior
Новички, изучившие пособия типа «Машинное обучение для чайников», изначально стараются действовать четко по правилам и инструкциям. К примеру, перед начинающим специалистом стоит задача классифицировать текст. Он начнет строить модель конкретно для классификации. Профессионал с большим опытом работы сперва увидит глобальную бизнес-задачу, обозначит конечную цель и затем уже отталкиваясь от этого сформулирует наименее затратные пути достижения этой задачи. В некоторых случаях потребуется и полное изменение поставленной цели, если это обеспечит для бизнеса лучший результат.
Начинающий Junior становится Senior-специалистом в среднем за 5-7 лет. Зарплата «джуниоров» начинается с 80 тысяч рублей, тогда как «миддлы» зарабатывают в районе 120-180 тысяч в месяц. Специалисты более высокого уровня имеют месячный заработок от 200 тысяч рублей. Спрос на эти вакансии только растет, так как все большее количество компаний осознает ценность дорогих специалистов, способных значительно сократить издержки бизнеса.
В прежние времена инженеры Data Science требовались главным образом в столичных компаниях. Теперь же метрики машинного обучения активно внедряются во всех городах страны, где есть крупные технологические предприятия. Соответственно, спрос на специалистов по ML растет и там. Случившаяся в мире пандемия только сильнее поспособствовала росту числа вакансий на удаленную работу. Привлекаемые специалисты также работают на проектной основе, внедряя те или иные нововведения в технологию и сервис.
Преимущества курса GeekUniversity по машинному обучению
Обновленный курс отличается от предыдущих вариантов в основном акцентированием внимания на бизнесе. Этим же GeekUniversity выделяется на фоне продуктов от конкурентов. Большая часть программ сегодня ориентирована на исследования и моделирование. Однако именно знание способов интеграции и понимание конкретной пользы для бизнеса делают специалиста по искусственному интеллекту более востребованным.
Все элементы курсов, включая введение в машинное обучение, а также сама их структура и последовательность учитывают текущие реалии. Разделы, посвященные непосредственно программированию, существенно увеличены в объеме.
Все семь модулей программы объединены в четыре тематических блока.
Первый блок. Служит для структурирования имеющихся у студентов знаний по математике, ведь сама изучаемая дисциплина находится на стыке математических, инженерных наук и программирования. Поэтому на данном этапе крайне важно овладеть теоретической частью и научиться находить закономерности, определять вероятности.
Второй блок. Здесь студенты развивают алгоритмическое мышление, в том числе изучают программирование на языке Python. Это позволит будущим специалистам грамотно распределять нагрузку вычислительных мощностей, структурно мыслить и легко взаимодействовать с разработчиками программ.
Читайте также!
Третий блок. Посвящен непосредственно машинному обучению. Уроки курса позволяют в дальнейшем работать и без ML, однако данный материал существенно облегчит построение и запуск моделей, избавит от необходимости выполнять множество рутинных действий. С этими знаниями работа с данными будет осуществляться в полуавтоматическом режиме.
Четвертый блок. В заключительной части студенты используют полученные знания на практике, интегрируя их в реальные бизнес-задачи — учатся внедрять собственные разработки в экономику заказчика, находить источники данных и разметки, общаться с бизнесменами на одном языке, корректировать модели на основе новых исходных данных.
Обучение имеет формат вебинаров, проходящих несколько раз в неделю, с обязательными домашними заданиями в умеренных объемах. В ходе прохождения курса каждый студент должен подготовить и защитить два проекта, используя реальные данные. Практическая часть дает возможность восполнить пробелы знаниях, недополученных в процессе изучения теории.
Приветствуется самостоятельный выбор студентом темы проекта. На базе разработанной модели будущий специалист может создать микросервис, предоставляющий услуги условным клиентам. Эта модель затем служит основой для портфолио.
Чтобы обучаться на курсах от GeekBrains, абитуриентам нужно хорошо знать линейную алгебру и математический анализ. Преимуществом будет опыт в программировании.
Длительность полного курса обучения составляет 1,5 года. Выпускник затем может занять должность специалиста по Data Science, Data Analysis, Machine Learning или NLP.
Искусственный интеллект уже прочно занял свою нишу в современной жизни. Об этом говорит и устойчивый рост новых стартапов, использующих машинное обучение. Эта отрасль способна коренным образом повлиять на мировой бизнес и развитие целых государств. И сегодня лучшее время, чтобы получить востребованную и высокооплачиваемую профессию специалиста по Data Science.
*Facebook — организация, деятельность которой признана экстремистской на территории Российской Федерации.