Инсайт — неочевидное, ценное понимание или вывод, полученный из данных, который меняет представление о проблеме или открывает новую возможность
Ad-hoc — латинское выражение, означающее «для этого случая»; в современном употреблении обозначает решение, созданное специально для решения одной конкретной задачи
Airflow — платформа для оркестрации и автоматизации рабочих процессов (пайплайнов), особенно ETL-задач
Apache Iceberg — формат таблиц для хранения больших объёмов данных в озёрах данных (data lakes), поддерживающий транзакции и эволюцию схемы
BI (Business Intelligence) — бизнес-аналитика: набор инструментов и практик для сбора, анализа и визуализации данных с целью поддержки управленческих решений
ClickHouse — высокопроизводительная колоночная СУБД для аналитики и обработки больших объёмов данных в реальном времени
Difference-in-Differences (DiD) — метод эконометрического анализа для оценки эффекта вмешательства путем сравнения изменений во времени между контрольной и экспериментальной группами
ETL-пайплайны — процессы Extract (извлечение), Transform (преобразование), Load (загрузка): последовательность шагов для переноса данных из источников в хранилище
Kafka — распределённая система обмена сообщениями (очередь событий) для обработки потоковых данных в реальном времени
MVP (Minimum Viable Product) — минимально жизнеспособный продукт: версия продукта с минимальным набором функций, достаточным для проверки гипотезы на реальных пользователях
Postgres (PostgreSQL) — мощная открытая реляционная СУБД с поддержкой сложных запросов, транзакций и расширений
Propensity Score Matching (PSM) — статистический метод для оценки эффекта вмешательства путем сопоставления объектов с похожей вероятностью попадания в экспериментальную группу
Regression Discontinuity Design (RDD) — метод квазиэкспериментального анализа, использующий пороговое значение для определения причинно-следственного эффекта
S3 — объектное хранилище данных (изначально Amazon S3), используемое для надёжного и масштабируемого хранения больших объемов файлов
Spark — фреймворк для распределенной обработки больших данных, поддерживающий пакетную и потоковую аналитику
Synthetic Control — метод оценки эффекта вмешательства путем создания «синтетической» контрольной группы как взвешенной комбинации похожих объектов
Junior — младший специалист: начинающий сотрудник с опытом до 1–2 лет, работающий под руководством наставника