Получите бесплатно 4 курса для лёгкого старта работы в IT
Получить бесплатно
Главная БлогДатасет: виды, применение, набор лучших
Датасет

Датасет: виды, применение, набор лучших

Дата публикации: 08.08.2022
23 311
Время чтения: 17 минут
Дата обновления: 08.09.2023
В статье рассказывается:
В статье рассказывается:  
  1. Понятие и задачи датасета
  2. Виды датасетов
  3. Характеристики датасета
  4. Выборка для датасета
  5. Лучшие датасеты для анализа и машинного обучения
  6. Пройди тест и узнай, какая сфера тебе подходит:
    айти, дизайн или маркетинг.
    Бесплатно от Geekbrains

Датасет представляет собой набор данных, которые используются в различных видах анализа и машинного обучения. Причем успешность последнего напрямую зависит от объема исходной информации: чем ее больше, тем качественней будет развиваться ИИ.

Очевидно, что собирать большой объем данных вручную сложно и не всегда целесообразно. В нашей статье мы расскажем, какие бывают датасеты, как они формируются, и предложим набор из лучших вариантов в различных областях.

Понятие и задачи датасета

Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения.

Понятие и задачи датасета
Понятие и задачи датасета

Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.

Под любые задачи имеется определенный вид разметки данных:

  • выделение 2D и 3D объектов;
  • сегментация объектов;
  • сортировка изображений по категориям;
  • классификация текстов;
  • транскрипция рукописного текста;
  • анализ тональности текстов;
  • распознавание сущностей в тексте;
  • транскрибация речи.
Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.
Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

pdf иконка

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb
doc 1,7mb
Уже скачали 30006 pdf иконка

Разметка данных является довольно утомительным и рутинным процессом. Например, нужно сделать так, чтобы приложение могло по фотографии распознать домашних животных. Для решения этой задачи следует произвести выделение кошек на нескольких тысячах изображений. В результате этих действий сеть определяет, присутствует ли на фотографии изображение кошки или нет.

Но в случае, если на картинке запечатлены собаки, обезьянки, хомячки или любые другие животные, то искусственный интеллект никак на них не отреагирует. Это указывает на необходимость проделать еще очень большой объем работы, результатом которого станет размещение всех животных, интересующих нас.

Понятие и задачи датасета
Понятие и задачи датасета

Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.

Виды датасетов

С научной точки зрения существует три категории датасетов:

Простая запись

Это самая простая категория, при которой не прослеживается явная связь между строками-Наблюдениями или столбцами-Признаками, при этом для каждой строки характерен одинаковый набор характеристик. Как правило, такие записи сохраняются или в файлах формата .csv, .parquet, или в реляционных базах данных.

Простые записи имеют несколько подвидов:

  • Транзакционные данные

Примером могут служить покупки в магазине. Наиболее часто встречаются двоичные признаки, по которым можно узнать была ли совершена покупка какого-либо предмета или нет.

  • Матрица данных

В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.

Исходя из этого напрашивается вывод, что преобразование данных и осуществление управления ими, допустимо производить с помощью стандартных матричных операций. Для большего количества статистических данных матрица является стандартным форматом.
  • Матрица разреженных данных (встречается матрица данных документа)

Характеризуется тем, что в отличие от матрицы данных, имеет ассиметричные признаки, то есть важное значение придают только ненулевым значениям.

Графы

Представляют собой данные, имеющие связь между объектами. Графы структурируются, узловые компоненты имеют определенную взаимосвязь между собой.

Упорядоченные записи

Часть данных упорядочена в пространстве или во времени. Они бывают следующими:

  • Последовательными. Эти данные образованы наборами отдельных объектов – словами или буквами, не имеют временных меток, но обладают позициями в упорядоченной последовательности.
  • Временной ряд. Разновидность данных последовательного типа, где любая запись представлена в виде временного ряда, т.е. серии изменений.
  • Пространственными. Эти данные характеризуются наличием координат.

Характеристики датасета

Основные параметры датасетов:

  • Размерность – показывает, сколько признаков имеет набор данных. Если размерность высокая, то осуществить анализ такого набора данных будет затруднительно.
  • Разреженность – показатель, характеризующийся заполненностью датасета, т.е. те ячейки, которые заполнены ненулевыми значениями. Для некоторого количества наборов данных, имеющих асимметричные функции, большое число признаков показывают нулевое значение, и только не более 1 % записей встречается с ненулевым значением.
  • Разрешение. Характеризуется возможностью обнаруживать какое-либо явление, при условии, что данные подробны ровно настолько, насколько это соответствует решению задачи. Пример, перемещение циклона можно отразить по часовому изменению давления, но в масштабе нескольких месяцев это явление незначительно.
Характеристики датасета
Характеристики датасета

Выборка для датасета

Генеральная совокупность – это первоначальный комплект исходных данных. Процесс образования выборок из генеральной совокупности является порождением данных. Конечное подмножество элементов генеральной совокупности называется выборкой.

Внимательно изучив конечное подмножество, становится понятно поведение исходного множества. В качестве примера можно привести пример, в котором генеральная совокупность сформирована из 200 тысяч посетителей сайта, но в выборке из них оказались всего 300.

Ожидаемая модель порождения данных предполагает, что выборка из генеральной совокупности генерируется случайным образом. В случае, когда все множество ее элементов одинаково случайно и независимо друг от друга распределяются по исходному множеству, то такую выборку называют простой.

Данный тип выборки представлен математической моделью серии независимых опытов, и по статистике, чаще всего применяется для обучения машинного вида. Следует иметь в виду, что на каждый этап такого образовательного процесса требуется определенный набор данных:

  • Обучающая выборка необходима для непосредственного обучения модели. По ней производят настройку и оптимизацию параметров модели.
  • Контрольная или тестовая выборка применяется в случае, когда требуется оценить качество модели. В идеале эта выборка должна быть независимой от обучающей.
  • Валидационная или проверочная выборка используется при выборе лучшей модели для машинного обучения. Также как и предыдущая выработка, эта не должна перекликаться с обучающей.
  • Интеллектуальный анализ информации, выборка, датасет, Data Peperation.

Методы, по которым формируются обучающие и оценочные выборки, зависят от класса задачи, чье решение происходит при помощи машинного обучения:

  • Для определения задач классификации, весь объем данных необходимо разделить таким образом, чтобы в образованных наборах соотношение численности объектов различных классов было аналогично исходной генеральной совокупности.
  • Для решения задачи при регрессивном анализе следует одинаково распределить целевую переменную в полученных наборах, которые в будущем применяются для обучения и контроля качества.
Выборка для датасета
Выборка для датасета

После формирования выборки приходит последовательность следующих процессов CRISP-DM: очистка данных и действия с признаками:

  • генерация;
  • трансформация;
  • нормализация и отбрасывание лишней переменной.

Все эти действия направлены на исключение мультиколлинеарности факторов и понижения размерности модели машинного обучения.

Лучшие датасеты для анализа и машинного обучения

Датасеты общего назначения

Государственные датасеты:

  • Data.gov. Тут находится информация от различных организаций США. Данные могут быть абсолютно разными, от государственного бюджета до отметок в школьном табеле.
  • Food Environment Atlas. Включает в себя сведения влиянии многообразия факторов на критерии выбора питания в США и его качества. Из показателей следует отметить расстояние до магазина или ресторана, стоимость продуктов, производителя и другие.
  • School system finances. Информация о финансовом состоянии школьной системы в США.
  • Chronic disease data. Этот датасет содержит сведения о хронических заболеваниях в США.
  • The US National Center for Education Statistics. Содержит данные об образовательных заведениях и демографии не только в США, но и по всей планете.
  • The UK Data Service. Наиболее крупное хранилище информации социальной, экономической и демографической направленности в Великобритании.
  • Data USA. Подробная визуализация данных общего доступа в США.

Дарим скидку от 60%
на обучение «Аналитик больших данных» до 22 сентября
Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей
Забронировать скидку

Данные о жилье:

  • Boston Housing Dataset. Здесь можно увидеть сведения о жилом фонде в Бостоне, которые собрало бюро, осуществляющее перепись населения США.

Экономика и финансы:

  • Quandi. Является неплохим источником информации экономической и финансовой направленности. Используется для строительства прогнозных моделей различных данных экономики или котировок акций.
  • Word Bank Open Data. Включает определенные информационные комплексы, в которых отражается демографическая ситуация, разнообразные экономические показатели и индикаторы развития по всему миру.
  • IMF Data. Содержит сведения международного валютного фонда о мировых финансах, долговых критериях, резервах валют, инвестиционные рекомендации и стоимость основных сырьевых товарах.
  • Financial Times Market Data. Наиболее точная информация о финансовом рынке по всему миру, в том числе индексы стоимости акций, товаров и валют.
  • Google Trends. Здесь можно узнать и проанализировать сведения по активности поисковых систем в сети.
  • American Economic Association. Неплохое место для поиска информации о макроэкономических показателях США.
Датасеты общего назначения
Датасеты общего назначения

Датасеты для машинного обучения

Компьютерное зрение:

  • xView. Является самым крупным из всех наборов воздушных снимков земли общего доступа. Здесь содержатся картинки разных сцен со всех уголков нашей планеты, которые аннотированы при помощи различных ограничений.
  • Labelme. Включает большое количество аннотированных картинок.
  • ImageNet. Датасет, где можно найти изображения для вновь созданных алгоритмов.
  • LSUN. Массив картинок, отсортированных по различным критериям.
  • MS COCO. Здесь можно найти все, что потребуется для обнаружения и сегментации объектов.
  • Visual Genome. Размеры датасета с подробно аннотированными изображениями являются самыми крупными.
  • Google’s Open Images. Включает коллекцию из более чем 9 миллионов URL-адресов, имеющих метки и охватывающих большое количество категорий под лицензией Creative Commons.
  • Labelled Faces in the Wild. Включает изображения более 10000 человеческих лиц для применения приложений, в основе которых лежит распознавание лиц.
  • Stanford Dogs Dataset. Анализ датасета позволит распознать изображения из определенных пород собак.
  • Indoor Scene Recognition. Один из наиболее больших датасетов в плане узнавания интерьеров. В нем содержится 67 категорий включающих 15 620 картинок.

Только до 23.09
Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней
Список документов:
ТОП-100 площадок для поиска работы от GeekBrains
20 профессий 2023 года, с доходом от 150 000 рублей
Чек-лист «Как успешно пройти собеседование»
Чтобы получить файл, укажите e-mail:
Введите e-mail, чтобы получить доступ к документам
Подтвердите, что вы не робот,
указав номер телефона:
Введите телефон, чтобы получить доступ к документам
Уже скачали 52300

Анализ тональности текста:
  • Multidomain sentiment analysis dataset. Достаточно возрастной проект, в котором содержится информация о товарах, купленных на Amazon.
  • IMDB reviews. Маленький ресурс с тематикой «отзовик к фильмам».
  • Stanford Sentiment Treebank. Проект Стенфортского университета, где анализируют тональность.
  • Sentiment140. Модный портал, в котором можно найти множество твитов с удалёнными смайликами.
  • Twitter US Airline Sentiment. Здесь находятся данные из Twitter обо всех компаниях авиаперевозчиках США.
Привлекает мир кодирования и создания программ? На курсе программиста с нуля до Junior вы освоите основы, познакомитесь с языками и инструментами разработки, и станете готовы к созданию своих первых проектов в IT-индустрии.

Обработка естественного языка:

  • HotspotQA Dataset. Ресурс, в котором содержатся вопросы и ответы. С его помощью можно создать систему стандартных ответов.
  • Amazon Reviews. Здесь накопилось огромное количество отзывов с одноименного ресурса за восемнадцатилетний период. В них можно найти различные сведения и статистические данные о товаре.
  • Google Books Ngrams. Включает коллекцию слов из книги Google.
  • Wikipedia Links data. Этот проект построен из веб-страниц, причем на каждой имеется одна ссылка на Википедию и ее якорный текст аналогичен заголовку страницы.
  • Gutenberg eBooks List. Датасет с аннотированным списком электронных книг проекта «Гутенберг».
  • Jeopardy. Содержит архивные данные одноименной телевизионной викторины.
  • Rotten Tomatoes Reviews. Здесь находятся рецензии в количестве 480 тысяч штук с Rotten Tomatoes.
  • Yelp Reviews. Сведения, содержащие около 5 млн отзывов от Yelp.
  • UCI’s Spambase. Крупный датасет, в котором находятся спам-письма.
Датасеты для машинного обучения
Датасеты для машинного обучения

Автопилоты:

  • Berkeley DeepDrive BDD100k. В настоящий момент является самым большим датасетом для автопилотов. В нем содержится множество видеозаписей вождения, при разнообразных ситуациях.
  • Baidu Apolloscapes. Ресурс с функцией распознавания 26 семантически разных объектов. Это могут быть машины, велосипеды, пешеходы, здания, уличные фонари и т. д.
  • Comma.ai. Здесь содержится информация об основных параметрах машины, находящейся в движении.
  • Oxford’s Robotic Car. Проект включает около 100 повторения одного и того же маршрута, которые были запечатлены за один год в Оксфорде. На маршруте явно прослеживаются разные условия: трафик, погода, пешеходы, ремонт дороги и т.д.
  • Cityscape Dataset. Скачав этот датасет, можно найти сто записей с уличных камер из 50 городов.
  • KUL Belgium Traffic Sign Dataset. Информация, содержащая аннотации к тысячам бельгийских светофоров.

Медицинские данные:

  • MIMIC-III. Датасет содержащий обезличенную информацию о состоянии здоровья около 40 тысяч больных, которые подвергаются интенсивной терапии. Он включает карту пациента, показатели жизненной активности, принимаемые лекарства, прогноз лечения и т.д.

В настоящее время заинтересованные участники рынка принимают участие в работе различных структур по разработке и внедрению новых регуляторных норм для создания датасетов. Планируется, что это приведет к облегчению доступа к данным, которые необходимы для обучения искусственного интеллекта, а также разработке ML-сервисов на объединенных наборах данных из разнообразных источников в режиме «песочниц».

Оцените статью:
5
Добавить комментарий

Сортировать:
По дате публикации
По рейтингу
Читайте также
prev
next
Бесплатные вебинары:
prev
next
Как работает дизайн-студия на примере одного кейса 

Как работает дизайн-студия на примере одного кейса 

Узнать подробнее
Инновационные подходы к обучению информационным технологиям

Инновационные подходы к обучению информационным технологиям

Узнать подробнее
Как стать Python-разработчиком

Как стать Python-разработчиком

Узнать подробнее
Что нужно знать разработчику

Что нужно знать разработчику

Узнать подробнее
Кто такой тестировщик и как им стать

Кто такой тестировщик и как им стать

Узнать подробнее
Чем занимается программист и как им стать

Чем занимается программист и как им стать

Узнать подробнее
Как искусственный интеллект помогает и мешает задачам кибербезопасности

Как искусственный интеллект помогает и мешает задачам кибербезопасности

Узнать подробнее
Бесплатный вебинар про внедрение искусственного интеллекта

Бесплатный вебинар про внедрение искусственного интеллекта

Узнать подробнее
Какие есть профессии в ИТ

Какие есть профессии в ИТ

Узнать подробнее
Смените профессию,
получите новые навыки,
запустите карьеру
Поможем подобрать обучение:
Забрать подарок

Получите подробную стратегию для новичков на 2023 год, как с нуля выйти на доход 200 000 ₽ за 7 месяцев

Подарки от Geekbrains из закрытой базы:
Осталось 17 мест

Поздравляем!
Вы выиграли 4 курса по IT-профессиям.
Дождитесь звонка нашего менеджера для уточнения деталей

Иван Степанин
Иван Степанин печатает ...