[DeepSchool] LLM Pro [Дмитрий Калашников, Сергей Трубецкой. Егор Смирнов]

Robot · Сегодня в 07:15

Соберёте полноценные LLM-системы с учётом требований к качеству и нагрузке, разберёте сложные кейсы и дизайны NLP-решений

Этот курс для тех, кто:

Работает с текстами - вы NLP-инженер, дата-сайентист или разработчик
Хочет расти, решать более сложные задачи, уверенно проходить интервью
Умеет обучать моделии, но не собирал из них полноценные системы
Делает продукт или стартап и хочет быстро запустить надёжное NLP-решение
Понимает: prompt-инженерии и API уже недостаточно, пора строить своё

Что вы получите от курса:

Научитесь проектировать и запускать NLP-системы под реальные продуктовые задачи
Освоите адаптацию LLM и эмбеддингов под специфичный домен и «живые» данные
Построите AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
Поймёте, как собирать и размечать датасеты, даже если данных почти нет
Сможете собрать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
Разберёте реальные кейсы и научитесь применять похожие подходы в своих проектах
Получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд
Разберётесь, как решать задачи классификации, поиска, кластеризации и NER — с ограничениями продакшн-среды

Программа:

01. Архитектура систем текстовой классификации

Разберём ключевые архитектурные паттерны современных систем текстовой классификации. Вспомним, как использовать BERT и его альтернативы, обсудим подходы с дообучаемыми головами и дистилляцией больших моделей. Поговорим о способах работы с меняющимся распределением данных и техниках, которые помогают строить более устойчивые модели
Эвристики и итеративное улучшение
Работа с данными при их дефиците
Генеративный классификатор с reasoning
Дистилляция LLM в компактную модель
Дообучаемые головы
BERT и альтернативы

02. Построение доменных текстовых эмбеддингов

Углубимся в работу с эмбеддингами: от дообучения собственного BERT под специфичный домен до использования triplet loss и contrastive learning. Рассмотрим практики, как строить эмбеддинги для сложных структур. Обсудим, когда и как адаптировать эмбеддеры к новым распределениям данных
Существующие открытые эмбеддеры
Доменная адаптация эмбеддеров
Matching задач через эмбеддинги
Профили и последовательности
Triplet loss, contrastive learning
BERT и альтернативы

03. Кластеризация текстов: в офлайне и в реальном времени

Изучим, как кластеризовать тексты в офлайне и в потоке. Обсудим популярные методы визуализации и алгоритмы кластеризации, включая нейросетевые. Разберём решения на примере кейсов
Архитектура и инфраструктура онлайн-кластеризации
Бинарные автоэнкодеры
Онлайн кластеризация
UMAP, T-SNE, LSH

04. Сбор данных и разметка: от формулировки задачи до крауда

Разберёмся, как правильно ставить задачи и собирать датасеты под реальные задачи. Поговорим про активное обучение, разметку через кластеризацию и LLM, а также про лучшие практики работы с краудплатформами
Крауд: Toloka, MTurk
Инструкции, ханипоты, проверка качества
Selfinstruct, LIMA
Active learning
Разметка через LLM и кластеризацию
Критичность и массовость ошибок
Постановка задач и требования к данным

05. Named Entity Recognition: от BERT до генеративных моделей

Рассмотрим подходы к извлечению сущностей из текста: от эвристик до BERT и генеративных моделей. Научимся мерить качество, решать проблемы со смещением данных и использовать LLM как инструмент для разметки и обучения
Разбор кейсов
Метрики качества
LLM в разметке и дообучении
Дообучение и адаптация под домен
BERT vs генеративные подходы
Постановка задачи и проблемы NER

06. Адаптация LLM под домен

Углубимся в методы адаптации LLM под специфические задачи и домены. Обсудим посттрейнинг, SFT, настройку токенизатора, а также принципы alignment’а. На реальных кейсах разберём, как подходить к адаптации системно
Работа с галлюцинациями
Разбор кейсов
Чистка и генерация датасетов
Alignment через данные
Supervised Fine-tuning (SFT)
Токенизаторы и continious pretrain
Посттрейнинг на домен

07. Проектирование систем текстового поиска

Научимся проектировать поисковые системы от базовых принципов до продвинутых техник. Обсудим dense retrieval, hybrid search, построение индексов, персонализацию и мультимодальный поиск
Мультимодальный поиск
Фактчекинг
Персонализация, расширение запросов
Elasticsearch, FAISS
Sentence-BERT, DPR
TF-IDF, BM25

08. Advanced RAG: создание и тюнинг продакшн-систем

Разберём продвинутые подходы к созданию и улучшению RAG-систем. От ретривера и реранкера до генератора и архитектуры всего пайплайна. Покажем, как бороться с галлюцинациями, ускорять работу и планировать нагрузку
Предсказание качества до генерации
Оптимизация под железо
Достоверность, краткость, ссылки
Кэш, дистилляция, стриминг
Память и сложные базы знаний
Генерация ответов, SFT, posttraining
Подстройка эмбеддера и реранкера
RAG: структура и этапы

09. AI-агенты: как построить рабочего ассистента с нуля

Разберёмся, как построить AI-агента, даже если вначале нет ничего. Поговорим про сбор данных, дообучение моделей под function calls, использование text2sql, а также alignment и обучение через среду с критериями успеха
Alignment для агентов
Кейсы и подходы к обучению
Критерии успешности
Генерация траекторий через среду
Сценарии взаимодействия
Text2SQL
Function calls
Основные темы:

Кто будет преподавать: Опытные инженеры будут вести Zoom-лекции и семинары, отвечать на ваши вопросы и ревьюить код.