Программирование

Датасет: виды, применение, набор лучших

Дата публикации: 08.08.2022

23 311

Время чтения: 17 минут

Дата обновления: 08.09.2023

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование

В статье рассказывается:

В статье рассказывается:

Понятие и задачи датасета
Виды датасетов
Характеристики датасета
Выборка для датасета
Лучшие датасеты для анализа и машинного обучения
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.

Бесплатно от Geekbrains

Датасет представляет собой набор данных, которые используются в различных видах анализа и машинного обучения. Причем успешность последнего напрямую зависит от объема исходной информации: чем ее больше, тем качественней будет развиваться ИИ.

Очевидно, что собирать большой объем данных вручную сложно и не всегда целесообразно. В нашей статье мы расскажем, какие бывают датасеты, как они формируются, и предложим набор из лучших вариантов в различных областях.

Понятие и задачи датасета

Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения.

Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.

Под любые задачи имеется определенный вид разметки данных:

выделение 2D и 3D объектов;
сегментация объектов;
сортировка изображений по категориям;
классификация текстов;
транскрипция рукописного текста;
анализ тональности текстов;
распознавание сущностей в тексте;
транскрибация речи.

Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес

Павел Симонов

Исполнительный директор Geekbrains

Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.

Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов

Исполнительный директор Geekbrains

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb

doc 1,7mb

Уже скачали 30006

Разметка данных является довольно утомительным и рутинным процессом. Например, нужно сделать так, чтобы приложение могло по фотографии распознать домашних животных. Для решения этой задачи следует произвести выделение кошек на нескольких тысячах изображений. В результате этих действий сеть определяет, присутствует ли на фотографии изображение кошки или нет.

Но в случае, если на картинке запечатлены собаки, обезьянки, хомячки или любые другие животные, то искусственный интеллект никак на них не отреагирует. Это указывает на необходимость проделать еще очень большой объем работы, результатом которого станет размещение всех животных, интересующих нас.

Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.

Виды датасетов

С научной точки зрения существует три категории датасетов:

Простая запись

Это самая простая категория, при которой не прослеживается явная связь между строками-Наблюдениями или столбцами-Признаками, при этом для каждой строки характерен одинаковый набор характеристик. Как правило, такие записи сохраняются или в файлах формата .csv, .parquet, или в реляционных базах данных.

Простые записи имеют несколько подвидов:

Транзакционные данные

Примером могут служить покупки в магазине. Наиболее часто встречаются двоичные признаки, по которым можно узнать была ли совершена покупка какого-либо предмета или нет.

Матрица данных

В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.

Исходя из этого напрашивается вывод, что преобразование данных и осуществление управления ими, допустимо производить с помощью стандартных матричных операций. Для большего количества статистических данных матрица является стандартным форматом.

Матрица разреженных данных (встречается матрица данных документа)

Характеризуется тем, что в отличие от матрицы данных, имеет ассиметричные признаки, то есть важное значение придают только ненулевым значениям.

Графы

Представляют собой данные, имеющие связь между объектами. Графы структурируются, узловые компоненты имеют определенную взаимосвязь между собой.

Помогут писать код быстрее на 25%

Чтобы получить файл, укажите e-mail: Подтвердите, что вы не робот, указав номер телефона:

Я подтверждаю согласие на обработку персональных данных

Упорядоченные записи

Часть данных упорядочена в пространстве или во времени. Они бывают следующими:

Последовательными. Эти данные образованы наборами отдельных объектов – словами или буквами, не имеют временных меток, но обладают позициями в упорядоченной последовательности.
Временной ряд. Разновидность данных последовательного типа, где любая запись представлена в виде временного ряда, т.е. серии изменений.
Пространственными. Эти данные характеризуются наличием координат.

Характеристики датасета

Основные параметры датасетов:

Размерность – показывает, сколько признаков имеет набор данных. Если размерность высокая, то осуществить анализ такого набора данных будет затруднительно.
Разреженность – показатель, характеризующийся заполненностью датасета, т.е. те ячейки, которые заполнены ненулевыми значениями. Для некоторого количества наборов данных, имеющих асимметричные функции, большое число признаков показывают нулевое значение, и только не более 1 % записей встречается с ненулевым значением.
Разрешение. Характеризуется возможностью обнаруживать какое-либо явление, при условии, что данные подробны ровно настолько, насколько это соответствует решению задачи. Пример, перемещение циклона можно отразить по часовому изменению давления, но в масштабе нескольких месяцев это явление незначительно.

Выборка для датасета

Генеральная совокупность – это первоначальный комплект исходных данных. Процесс образования выборок из генеральной совокупности является порождением данных. Конечное подмножество элементов генеральной совокупности называется выборкой.

Внимательно изучив конечное подмножество, становится понятно поведение исходного множества. В качестве примера можно привести пример, в котором генеральная совокупность сформирована из 200 тысяч посетителей сайта, но в выборке из них оказались всего 300.

Ожидаемая модель порождения данных предполагает, что выборка из генеральной совокупности генерируется случайным образом. В случае, когда все множество ее элементов одинаково случайно и независимо друг от друга распределяются по исходному множеству, то такую выборку называют простой.

Данный тип выборки представлен математической моделью серии независимых опытов, и по статистике, чаще всего применяется для обучения машинного вида. Следует иметь в виду, что на каждый этап такого образовательного процесса требуется определенный набор данных:

Обучающая выборка необходима для непосредственного обучения модели. По ней производят настройку и оптимизацию параметров модели.
Контрольная или тестовая выборка применяется в случае, когда требуется оценить качество модели. В идеале эта выборка должна быть независимой от обучающей.
Валидационная или проверочная выборка используется при выборе лучшей модели для машинного обучения. Также как и предыдущая выработка, эта не должна перекликаться с обучающей.
Интеллектуальный анализ информации, выборка, датасет, Data Peperation.

Методы, по которым формируются обучающие и оценочные выборки, зависят от класса задачи, чье решение происходит при помощи машинного обучения:

Для определения задач классификации, весь объем данных необходимо разделить таким образом, чтобы в образованных наборах соотношение численности объектов различных классов было аналогично исходной генеральной совокупности.
Для решения задачи при регрессивном анализе следует одинаково распределить целевую переменную в полученных наборах, которые в будущем применяются для обучения и контроля качества.

После формирования выборки приходит последовательность следующих процессов CRISP-DM: очистка данных и действия с признаками:

генерация;
трансформация;
нормализация и отбрасывание лишней переменной.

Лучшие датасеты для анализа и машинного обучения

Датасеты общего назначения

Государственные датасеты:

Data.gov. Тут находится информация от различных организаций США. Данные могут быть абсолютно разными, от государственного бюджета до отметок в школьном табеле.
Food Environment Atlas. Включает в себя сведения влиянии многообразия факторов на критерии выбора питания в США и его качества. Из показателей следует отметить расстояние до магазина или ресторана, стоимость продуктов, производителя и другие.
School system finances. Информация о финансовом состоянии школьной системы в США.
Chronic disease data. Этот датасет содержит сведения о хронических заболеваниях в США.
The US National Center for Education Statistics. Содержит данные об образовательных заведениях и демографии не только в США, но и по всей планете.
The UK Data Service. Наиболее крупное хранилище информации социальной, экономической и демографической направленности в Великобритании.
Data USA. Подробная визуализация данных общего доступа в США.

Дарим скидку от 60%
на обучение «Аналитик больших данных» до 22 сентября

Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей

Забронировать скидку

Данные о жилье:

Boston Housing Dataset. Здесь можно увидеть сведения о жилом фонде в Бостоне, которые собрало бюро, осуществляющее перепись населения США.

Экономика и финансы:

Quandi. Является неплохим источником информации экономической и финансовой направленности. Используется для строительства прогнозных моделей различных данных экономики или котировок акций.
Word Bank Open Data. Включает определенные информационные комплексы, в которых отражается демографическая ситуация, разнообразные экономические показатели и индикаторы развития по всему миру.
IMF Data. Содержит сведения международного валютного фонда о мировых финансах, долговых критериях, резервах валют, инвестиционные рекомендации и стоимость основных сырьевых товарах.
Financial Times Market Data. Наиболее точная информация о финансовом рынке по всему миру, в том числе индексы стоимости акций, товаров и валют.
Google Trends. Здесь можно узнать и проанализировать сведения по активности поисковых систем в сети.
American Economic Association. Неплохое место для поиска информации о макроэкономических показателях США.

Датасеты для машинного обучения

Компьютерное зрение:

xView. Является самым крупным из всех наборов воздушных снимков земли общего доступа. Здесь содержатся картинки разных сцен со всех уголков нашей планеты, которые аннотированы при помощи различных ограничений.
Labelme. Включает большое количество аннотированных картинок.
ImageNet. Датасет, где можно найти изображения для вновь созданных алгоритмов.
LSUN. Массив картинок, отсортированных по различным критериям.
MS COCO. Здесь можно найти все, что потребуется для обнаружения и сегментации объектов.
Visual Genome. Размеры датасета с подробно аннотированными изображениями являются самыми крупными.
Google’s Open Images. Включает коллекцию из более чем 9 миллионов URL-адресов, имеющих метки и охватывающих большое количество категорий под лицензией Creative Commons.
Labelled Faces in the Wild. Включает изображения более 10000 человеческих лиц для применения приложений, в основе которых лежит распознавание лиц.
Stanford Dogs Dataset. Анализ датасета позволит распознать изображения из определенных пород собак.
Indoor Scene Recognition. Один из наиболее больших датасетов в плане узнавания интерьеров. В нем содержится 67 категорий включающих 15 620 картинок.

Только до 23.09

Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней

Список документов:

ТОП-100 площадок для поиска работы от GeekBrains

20 профессий 2023 года, с доходом от 150 000 рублей

Чек-лист «Как успешно пройти собеседование»

Чтобы получить файл, укажите e-mail:

Введите e-mail, чтобы получить доступ к документам

Подтвердите, что вы не робот,
указав номер телефона:

Введите телефон, чтобы получить доступ к документам

Уже скачали 52300

Я подтверждаю согласие на обработку персональных данных.

Анализ тональности текста:

Multidomain sentiment analysis dataset. Достаточно возрастной проект, в котором содержится информация о товарах, купленных на Amazon.
IMDB reviews. Маленький ресурс с тематикой «отзовик к фильмам».
Stanford Sentiment Treebank. Проект Стенфортского университета, где анализируют тональность.
Sentiment140. Модный портал, в котором можно найти множество твитов с удалёнными смайликами.
Twitter US Airline Sentiment. Здесь находятся данные из Twitter обо всех компаниях авиаперевозчиках США.

Привлекает мир кодирования и создания программ? На курсе программиста с нуля до Junior вы освоите основы, познакомитесь с языками и инструментами разработки, и станете готовы к созданию своих первых проектов в IT-индустрии.

Обработка естественного языка:

HotspotQA Dataset. Ресурс, в котором содержатся вопросы и ответы. С его помощью можно создать систему стандартных ответов.
Amazon Reviews. Здесь накопилось огромное количество отзывов с одноименного ресурса за восемнадцатилетний период. В них можно найти различные сведения и статистические данные о товаре.
Google Books Ngrams. Включает коллекцию слов из книги Google.
Wikipedia Links data. Этот проект построен из веб-страниц, причем на каждой имеется одна ссылка на Википедию и ее якорный текст аналогичен заголовку страницы.
Gutenberg eBooks List. Датасет с аннотированным списком электронных книг проекта «Гутенберг».