Поиск структуры в данных от Coursera

От: Coursera

Интенсивный курс по освоению инструментов поиска структуры в данных от МФТИ, E-legion и Яндекса. Возможность бесплатного участия. Длится 1 месяц. 3–5 часов занятий в неделю. Полезен специалистам Data Science. Преподаватели научат алгоритмам кластеризации данных, строить матричные разложения и решать задачи тематического моделирования, искать аномалии и визуализировать многомерные данные. Выдаётся сертификат по окончании курса.

Сводка

Цена
0₽
Рассрочка
от 200₽
Статус
Идет набор
Длительность
28 дней
Язык
ru

Описание курса

Решать задачи машинного обучения по поиску внутренних закономерностях в данных

- Разобраться в задаче кластеризации, направленной на поиск групп близких объектов
- Выбирать хороший алгоритм кластеризации, не имея правильных ответов
- Понимать принципы понижения размерности и матричных разложений
- Визуализировать и искать аномалии
- Строить, применять и оценивать тематические модели

О школе

Coursera
Отзывы 0
Информация
Компания основана в 2012 году. Официальный сайт https://ru.coursera.org. Мы собрали и проверили более 17 отзывов об онлайн курсах Coursera.

Программа курса

Кластеризация
Добро пожаловать на курс "Поиск структуры в данных"! В этом курсе вы узнаете про задачи машинного обучения, в которых требуется не предсказать целевую переменную, а найти некоторые внутренние закономерности в данных — например, сгруппировать объекты по схожести, или определить наиболее важные признаки. В первом модуле мы изучим задачу кластеризации, направленную на поиск групп близких объектов. Вы узнаете про основные подходы к её решению, а также узнаете, как можно выбрать хороший алгоритм кластеризации, не имея правильных ответов.
Понижение размерности и матричные разложения
В предыдущем модуле мы обсуждали, как кластеризовать объекты, а в этом модуле займёмся признаками. Нередко возникают ситуации, в которых далеко не все признаки нужны для решения задачи — или же нужны все, но при этом их слишком много. В этом случае нужно перейти в новое признаковое пространство меньшей размерности. Для этого можно либо отбирать наиболее важные признаки, либо порождать новые на основе исходных — мы обсудим оба подхода. В частности, мы разберёмся с методом главных компонент, который используется в самых разных задачах машинного обучения. Затем мы перейдём к матричным разложениям — мы изучим несколько методов, позволяющих получить приближение исходной матрицы в виде произведения нескольких матриц меньшей размерности. Такая аппроксимация часто используется в задачах машинного обучения, например, для понижения размерности данных, восстановления пропущенных значений в матрицах и построения рекомендательных систем.
Визуализация и поиск аномалий
Добро пожаловать на третью неделю курса! В ней мы обсудим две задачи: обнаружение аномалий и визуализация данных. Обнаружение аномалий направлено на поиск объектов, которые являются особенными в некотором смысле. Например, это могут объекты с такими значениями признаков, которые далеки от имеющихся в обучающей выборке — вполне ожидаемо, что на таких объектах модель выдаст очень плохие прогнозы. Вы узнаете, как можно формально дать определение аномалий и с помощью каких методов можно решать задачу их поиска. Вторая задача, о которой мы поговорим — это визуализация, то есть отображение многомерной выборки в пространство размерности два или три. В теории визуализация близка к понижению размерности — но за счёт того, что нам нужно найти всего два или три признака, можно использовать очень сложные нелинейные методы.
Тематическое моделирование
Люди уже много веков сохраняют свои знания в виде книг, а крупнейшая на сегодняшний день коллекция информации — Интернет — состоит из огромного количества текстов. Тексты, по сути, являются наиболее популярным видом данных, и поэтому очень важно уметь искать в них закономерности. Тематическое моделирование — это способ семантического анализа коллекции текстовых документов. Тематическая модель позволяет для каждого документа найти темы, которые его описывают, и кроме того показывает, какие слова характеризуют ту или иную тему. Другими словами, мы находим более компактное представление большого набора текстов в виде нескольких тем. С математической точки зрения тематическая модель — это еще один вид матричного разложения, где в качестве исходной матрицы выступает матрица частот слов в документах. На четвертой неделе мы поговорим о том, где применяют тематические модели, какие они бывают, как их строить и как оценивать.
Инструменты
Python

Отзывы

Еще не добавили ни одного отзыва