Введение
Цели обучения. О чем этот курс? Аттестация. Пререквизиты.
Общее введение в науку о данных
Примеры реальных задач
Типы данных: маленькие и большие данные
Хранения данных. Форматы файлов
Модели данных
Как подготавливались данные для курса
Математический инструментарий науки о данных.
События и вероятность
Определения вероятности
Случайные величины
Примеры распределений
Основы статистики
Элементы линейной алгебры
Сингулярное разложение матрицы
Обоснование метода сингулярного разложения
Примеры и вычислительные аспекты
Программный инструментарий науки о данных.
Язык программирования Python
Основы программирования на Python
Библиотеки для машинного обучения (Matplotlib)
Библиотеки для машинного обучения (Pandas)
Библиотеки для машинного обучения (Scikit-learn)
Демонстрация получения данных из внешней тестовой коллекции
Демонстрация получения данных из авторской тестовой коллекции
Машинное обучение: обучение с учителем.
Постановка задачи обучения с учителем
Оценка классификации и выбор модели
Линейный SVM
Алгоритмические композиции: boosting, stacking, bagging
Машинное обучение: обучение без учителя.
Постановка задачи обучения без учителя
Принципы выбора модели
Оценка качества обучения
Алгоритм K-means
Введение. Алгоритмы иерархической кластеризации
Метрики. Алгоритмы иерархической кластеризации
Алгоритм LSA