Что такое нейросеть?
Нейронная сеть (или искусственная нейронная сеть, ANN — Artificial Neural Network) — это математическая модель, вдохновлённая структурой и работой биологического мозга человека. Она состоит из множества interconnected «нейронов» (математических узлов), организованных в слои, которые обрабатывают входные данные, извлекают закономерности и выдают выводы.
В простых словах: представь нейросеть как «чёрный ящик», который учится на примерах. Ты подаёшь ей данные (например, фото кошек и собак), и она сама находит правила, чтобы отличать одно от другого, без явного программирования. Это ключевой элемент машинного обучения (Machine Learning) и глубокого обучения (Deep Learning).
Биологическая аналогия: В мозге нейроны передают сигналы через синапсы. В ANN «нейроны» — это функции, а «синапсы» — веса (числа), которые корректируются во время обучения.
История и эволюция нейросетей
Зарождение (1940-е–1950-е): Идея возникла в 1943 году с модели МакКаллока-Питтса — простого математического нейрона. В 1958 году Фрэнк Розенблатт создал перцептрон — первую реализуемую нейросеть для распознавания паттернов.
Зимы ИИ (1960-е–1980-е): Развитие застопорилось из-за критики (книга Мински и Паперта 1969 года показала ограничения перцептронов). Но в 1980-е возродилось с backpropagation (алгоритм обучения от Румельхарта).
Бум глубокого обучения (2010-е–настоящее): Благодаря большим данным, мощным GPU и моделям вроде AlexNet (2012), нейросети стали доминировать в ИИ. Ключевые вехи: трансформеры (2017) и генеративные модели вроде GPT (2018+).
Факт: Сегодня нейросети — основа ChatGPT, Stable Diffusion и автономных авто. Их рынок оценивается в триллионы долларов.
Как работает нейросеть? (Техническое объяснение)
Нейросеть работает в два этапа: обучение (training) и инференс (inference).
Структура:
Входной слой (Input Layer): Принимает данные (например, пиксели изображения как вектор чисел).
Скрытые слои (Hidden Layers): Здесь происходит магия. Каждый нейрон вычисляет взвешенную сумму входов, применяет активационную функцию (например, ReLU: max(0, x)) для нелинейности.
Выходной слой (Output Layer): Даёт результат (например, вероятность, что фото — кошка: 0.95).
Формула простого нейрона:
«`
output = activation(∑ (weight_i * input_i) + bias)
«`
Глубокие сети имеют много скрытых слоёв (отсюда «deep learning»).
Обучение:
— Использует алгоритм backpropagation: сеть предсказывает, сравнивает с истиной (loss function, например, MSE или cross-entropy), корректирует веса градиентным спуском (optimizer как Adam).
— Данные делят на train/test/validation. Обучение — итеративный процесс: эпохи (проходы по датасету).
— Проблемы: overfitting (переобучение) — решается dropout или regularization; underfitting — больше данных/слоёв.
Типы активаций: Sigmoid (0–1), Tanh (-1–1), ReLU (быстрая, но «dying ReLU» проблема).
Пример кода (простая нейросеть на Python с TensorFlow):
«`python
import tensorflow as tf
from tensorflow.keras import layers, models
# Простая модель для классификации (например, MNIST)
model = models.Sequential([
layers.Dense(128, activation=’relu’,input_shape=(784,)), # Скрытый слой
layers.Dropout(0.2), # Для предотвращения overfitting
layers.Dense(10, activation=’softmax’) # Выход: 10 классов
])
model.compile(optimizer=’adam’, loss=’sparse_categorical_crossentropy’, metrics=[‘accuracy’])
# Теперь можно обучить: model.fit(x_train, y_train, epochs=5)
«`
Это базовая feedforward сеть.
Типы нейросетей (Классификация)
Нейросети делятся по архитектуре и задачам:
Feedforward Neural Networks (FNN): Простые, данные идут только вперёд (например, MLP для классификации).
Convolutional Neural Networks (CNN): Для изображений (свёртки извлекают признаки, как в AlexNet или ResNet).
Recurrent Neural Networks (RNN): Для последовательностей (текст, время; варианты: LSTM, GRU).
Generative Adversarial Networks (GAN): Две сети соревнуются (генератор создаёт фейки, дискриминатор проверяет; как в Stable Diffusion).
Transformers: Для NLP и зрения (внимание вместо рекуррентности; как в BERT или ViT).
Другие: Autoencoders (сжатие данных), Graph Neural Networks (графы), Reinforcement Learning сети (как в AlphaGo).
Применение нейросетей
—Компьютерное зрение: Распознавание объектов (YOLO для реал-тайм детекции), сегментация изображений (U-Net для медицины), генерация (GAN для фейковых фото). Пример: В смартфонах — разблокировка по лицу (как Face ID).
— Обработка естественного языка (NLP): Перевод (Google Translate на базе Seq2Seq), чатботы (GPT для разговоров), анализ тональности (BERT для отзывов). Факт: Модели вроде ChatGPT обрабатывают миллиарды запросов ежедневно.
— Рекомендательные системы: Netflix и Amazon используют нейросети для персонализации (collaborative filtering с embeddings).
— Медицина: Диагностика (CNN для рентгенов на рак), предсказание болезней (RNN для временных данных вроде ЭКГ).
— Автономные системы: Самоуправляемые авто (Tesla Autopilot с CNN и reinforcement learning), робототехника (планирование путей с GNN).
— Генеративное искусство и креатив: Stable Diffusion для изображений по тексту, Jukebox для музыки. Другие: Финансы (предсказание акций с LSTM), игры (AlphaGo с Monte Carlo Tree Search).
— Факт: Нейросети экономят миллиарды долларов — например, в логистике UPS использует их для оптимизации маршрутов.
Преимущества и недостатки нейросетей
Преимущества:
— Автоматическое обучение признаков: Не нужно вручную программировать правила — сеть сама находит паттерны в данных.
— Масштабируемость: С большими данными и вычислениями (GPU/TPU) достигают сверхчеловеческой точности (например, AlphaFold в биологии).
— Гибкость: Применяются везде — от текста до 3D-моделей.
— Инновации: Генерируют новое (текст, изображения), что революционизирует креативные индустрии.
— Эффективность: После обучения инференс быстрый (например, Siri отвечает за секунды).
Недостатки:
— Высокие требования к ресурсам: Обучение требует терабайтов данных и дорогого оборудования (например, GPT-4 стоил миллионов в вычислениях).
— Чёрный ящик: Трудно понять, почему сеть приняла решение (проблема интерпретируемости, решается методами вроде SHAP).
— Предвзятость и этика: Если данные biased (например, расовые предубеждения в распознавании лиц), сеть их усиливает.
— Уязвимости: Adversarial attacks — небольшие изменения в входе обманывают сеть (например, стикер на знаке «стоп» сбивает авто-ИИ).
— Энергопотребление: Обучение больших моделей (как PaLM) потребляет энергию, эквивалентную тысячам домохозяйств, что влияет на экологию.
— Факт: Overfitting — распространённая проблема, когда сеть «запоминает» данные, но не обобщает на новые.
Этические аспекты и вызовы
Нейросети поднимают вопросы:
— Приватность: Модели обучаются на личных данных (GDPR регулирует это в ЕС).
— Рабочие места: Автоматизация может заменить jobs (например, в колл-центрах чатботы).
— Безопасность: Deepfakes (GAN для фейковых видео) используются для дезинформации.
— Регулирование: ЕС AI Act классифицирует ИИ по риску; OpenAI добавляет watermarking в генерируемый контент.
— Доступность: Большие модели (как LLaMA) открыты, но малые компании не могут конкурировать с Google/OpenAI.
— Факт: В 2023 году ИИ-эксперты (включая Хинтона) предупредили о рисках «экзистенциальной угрозы» от сверхинтеллекта.
Будущее нейросетей
— Тренды: Мультимодальные модели (как CLIP: текст + изображения), edge AI (на устройствах, без облака), quantum neural networks для ускорения.
— Интеграция с другими технологиями: ИИ + IoT (умные города), ИИ + биотехнологии (персонализированная медицина).
— AGI (ArtificialGeneral Intelligence): Цель — ИИ, решающий любые задачи как человек (OpenAI работает над этим).
— Улучшения: Более эффективные модели (sparse networks), федеративное обучение (для приватности) и устойчивость (green AI).
— Факт: К 2030 году ИИ может добавить $15 трлн к глобальному ВВП (по PwC), но нужны этические рамки.
Заключение
Нейронные сети — это не просто алгоритмы, а фундамент современной ИИ-революции, эволюционировавший от простых перцептронов к гигантам вроде GPT-4, которые генерируют код, искусство и знания. Они имитируют мозг, но превосходят его в узких задачах, открывая двери для инноваций, но требуя осторожности с рисками.
Список популярных (и не очень) нейронных сетей с описанием:
GPT (Generative Pre-trained Transformer)
Разработчик и год: OpenAI, 2018 (первая версия; GPT-4 вышла в 2023).
Как работает: Это трансформерная модель, обученная на огромных текстах. Она предсказывает следующее слово в последовательности, используя «внимание» (механизм, фокусирующийся на релевантных частях текста). Обучается в два этапа: предобучение на данных и тонкая настройка для задач.
Применение: Чатботы (как ChatGPT), генерация текста, переводы, написание кода, помощь в обучении.
Преимущества и недостатки: Плюсы — универсальность, креативность (может генерировать истории или код); минусы — «галлюцинации» (выдумывает факты), требует много вычислительных ресурсов. Факт: GPT-3 имеет 175 млрд. параметров!
BERT (Bidirectional Encoder Representations from Transformers)
Разработчик и год: Google, 2018.
Как работает: Трансформер, который анализирует текст bidirectional (с обеих сторон слова), чтобы понять контекст. Обучается на задачах вроде заполнения пробелов в предложениях.
Применение: Поисковые системы (улучшает Google Search), анализ настроений, вопросно-ответные системы, классификация текстов.
Преимущества и недостатки: Плюсы — отличное понимание нюансов языка; минусы — энергозатратна, не генерирует текст (только понимает). Факт: BERT повысил точность поиска на 10-20%.
DALL-E
Разработчик и год: OpenAI, 2021 (DALL-E 3 — 2023).
Как работает: Комбинирует GPT-подобную модель с диффузионными процессами: берёт текстовое описание и генерирует изображение, «шумя» и очищая пиксели шаг за шагом.
Применение: Генерация искусства, дизайн (логотипы, иллюстрации), образование (визуализация идей).
Преимущества и недостатки: Плюсы — креативность, реалистичные изображения; минусы — может генерировать предвзятый контент, ограничения на NSFW. Факт: DALL-E 2 создал миллионы изображений по запросам пользователей.
Stable Diffusion
Разработчик и год: Stability AI (в сотрудничестве с другими), 2022.
Как работает: Диффузионная модель: начинает с шума и итеративно «очищает» его в изображение на основе текста. Обучается на миллиардах пар «текст-изображение».
Применение: Генерация изображений, редактирование фото, искусство, видеоигры (текстуры).
Преимущества и недостатки: Плюсы — открытый код, работает на обычных ПК; минусы — может копировать стили художников (проблемы с авторскими правами). Факт: Бесплатные версии доступны на Hugging Face.
AlphaGo
Разработчик и год: DeepMind (Google), 2016.
Как работает: Комбинирует глубокие нейронные сети с Монте-Карло поиском: симулирует миллионы ходов в играх, оценивая позиции с помощью «ценностной» и «политики» сетей.
Применение: Игры (го, шахматы), оптимизация (логистика, энергосети), наука(складывание белков).
Преимущества и недостатки: Плюсы — превосходит людей в стратегии; минусы — требует огромных вычислений. Факт: Победил чемпиона мира по го в 2016 году.
ResNet (Residual Neural Network)
Разработчик и год: Microsoft Research, 2015.
Как работает: Глубокая сверточная сеть с «остаточными» связями: слои учатся на разницах (residuals), чтобы избежать vanishing gradients в очень глубоких сетях (до 1000 слоёв).
Применение: Распознавание изображений, компьютерное зрение (автопилоты, медицинские сканы).
Преимущества и недостатки: Плюсы — высокая точность в классификации; минусы — сложна для обучения без GPU. Факт: Выиграла конкурс ImageNet в 2015 году.
LSTM (Long Short-Term Memory)
Разработчик и год: Hochreiter & Schmidhuber, 1997.
Как работает: Рекуррентная сеть с «воротами» (gates), которые запоминают или забывают информацию в последовательностях, решая проблему долгосрочных зависимостей.
Применение: Обработка речи (Siri), предсказание текста, анализ временных ряданализ временных рядов.
Преимущества и недостатки: Плюсы — справляется с долгосрочными зависимостями; минусы — медленнее трансформеров. Факт: Базис для многих речевых ИИ.
GAN (Generative Adversarial Network)
Разработчик и год: Ian Goodfellow и коллеги, 2014.
Как работает: Две сети соревнуются: генератор создаёт фейки, дискриминатор их выявляет, улучшая оба.
Применение: Генерация изображений, deepfakes, синтез данных.
Преимущества и недостатки: Плюсы — реалистичные фейки; минусы — нестабильность обучения, риски злоупотреблений. Факт: Используется в StyleGAN для лиц.
AlphaFold
Разработчик и год: DeepMind (Google), 2020 (AlphaFold 2 — 2021).
Как работает: Глубокие нейронные сети анализируют последовательности аминокислот и предсказывают 3D-структуры белков с помощью механизмов внимания и эволюционных данных.
Применение: Разработка лекарств, биотехнологии, понимание болезней (например, COVID-19).
Преимущества и недостатки: Плюсы — точность до 90% в предсказаниях структур; минусы — требует огромных данных и вычислений. Факт: Решил 50-летнюю проблему в биологии, предсказав структуры миллионов белков.
YOLO (You Only Look Once)
Разработчик и год: Joseph Redmon и коллеги, 2016 (последние версии — 2020+).
Как работает: Сверточная сеть, которая детектирует объекты на изображении за один проход, разделяя его на сетку и предсказывая bounding boxes и классы.
Применение: Видеонаблюдение, автономные автомобили, распознавание объектов в реальном времени.
Преимущества и недостатки: Плюсы — высокая скорость (реал-тайм); минусы — менее точна на маленьких объектах. Факт: YOLOv8 может обрабатывать 100+ кадров в секунду.
Transformer
Разработчик и год: Google Brain, 2017.
Как работает: Архитектура на основе механизма внимания, обрабатывающая последовательности параллельно, без рекуррентных слоёв.
Применение: Языковые модели (как GPT), машинный перевод, обработка последовательностей.
Преимущества и недостатки: Плюсы — масштабируемость и скорость; минусы — требует много данных для обучения. Факт: Революционизировала NLP, став основой для BERT и GPT.
StyleGAN
Разработчик и год: NVIDIA, 2019 (StyleGAN3 — 2021).
Как работает: GAN с контролем стиля: генератор манипулирует латентным пространством для создания изображений с разными уровнями детализации.
Применение: Генерация реалистичных лиц, искусство, deepfakes.
Преимущества и недостатки: Плюсы — фотореалистичные результаты; минусы — потенциал для злоупотреблений (фейковые изображения). Факт: Создаёт несуществующих людей, неотличимых от реальных.
WaveNet
Разработчик и год: DeepMind, 2016.
Как работает: Генеративная модель на основе сверток, моделирующая аудиоволны сэмпл за сэмплом для синтеза речи.
Применение: Голосовые ассистенты (Google Assistant), синтез речи, музыка.
Преимущества и недостатки: Плюсы — естественный звук; минусы — медленная генерация. Факт: Снизила «роботичность» синтезированной речи на 50%.
EfficientNet
Разработчик и год: Google, 2019.
Как работает: Сверточная сеть, оптимизированная по глубине, ширине и разрешению для баланса точности и эффективности.
Применение: Мобильные устройства, классификация изображений, IoT.
Преимущества и недостатки: Плюсы — высокая эффективность (меньше параметров); минусы — всё равно требует GPU для больших моделей. Факт: EfficientNet-B7 достигает топ-результатов ImageNet с 66 млн параметров.
BERT for Sequence-to-Sequence (BART)
Разработчик и год: Facebook AI (запрещённая на территории Российской Федерации организация), 2019.
Как работает: Трансформер, сочетающий предобучение с шумом в тексте для генерации и понимания последовательностей.
Применение: Суммаризация текстов, диалоговые системы, перевод.
Преимущества и недостатки: Плюсы — хорош в генеративных задачах; минусы — менее универсален, чем GPT. Факт: Улучшил суммаризацию новостей на 20%.
AlphaZero
Разработчик и год: DeepMind, 2017.
Как работает: Самообучающаяся сеть, использующая reinforcement learning без человеческих данных; симулирует игры для улучшения.
Применение: Шахматы, го, шашки; оптимизация в бизнесе и науке.
Преимущества и недостатки: Плюсы — учится с нуля; минусы — огромные вычисления. Факт: Победила Stockfish в шахматах после 4 часов обучения.
U-Net
Разработчик и год: Olaf Ronneberger и коллеги, 2015.
Как работает: Сверточная сеть с U-образной архитектурой: encoder сжимает изображение, decoder восстанавливает его с пропусками связей для сохранения деталей.
Применение: Сегментация изображений в медицине (например, выделение опухолей на МРТ), обработка фото.
Преимущества и недостатки: Плюсы — точная сегментация с малым количеством данных; минусы — ограничена 2D-изображениями (расширения для 3D существуют). Факт: Стала стандартом в биомедицинской визуализации, выиграв конкурс ISBI в 2015.
VAE (Variational Autoencoder)
Разработчик и год: Diederik Kingma и Max Welling, 2013.
Как работает: Автоэнкодер с вариационным выводом: encoder кодирует данные в латентное пространство, decoder реконструирует; добавляет вероятностный шум для генерации новых данных.
Применение: Генерация изображений, сжатие данных, аномалий детекция в финансах или медицине.
Преимущества и недостатки: Плюсы — генерирует разнообразные данные, интерпретируемо; минусы — изображения могут быть размытыми по сравнению с GAN. Факт: Основа для многих генеративных моделей, как в Stable Diffusion.
DQN (Deep Q-Network)
Разработчик и год: DeepMind, 2013 (опубликовано в 2015).
Как работает: Глубокая сеть для reinforcement learning: оценивает Q-значения (ожидаемые награды) для действий в состояниях, используя опыт для обучения.
Применение: Игры (Atari), робототехника, автономные системы, оптимизация трафика.
Преимущества и недостатки: Плюсы — учится играть лучше людей без предварительных знаний; минусы — нестабильность и «катастрофическое забывание». Факт: Играла в 49 Atari-игр на уровне человека.
CLIP (Contrastive Language–Image Pretraining)
Разработчик и год: OpenAI, 2021.
Как работает: Мультимодальная модель: обучается на парах изображение-текст, сопоставляя их эмбеддинги через контрастивную потерю для понимания связей.
Применение: Поиск по изображениям, классификация без обучения (zero-shot), модерация контента.
Преимущества и недостатки: Плюсы — универсальность для мультимедиа; минусы — предвзятость из данных интернета. Факт: Может классифицировать изображения по текстовым описаниям без дополнительного обучения.
LeNet-5
Разработчик и год: Yann LeCun и коллеги, 1998.
Как работает: Сверточная нейронная сеть с чередующимися слоями свертки и подвыборки; извлекает признаки из изображений для классификации.
Применение: Распознавание рукописного текста (например, чеки в банках), базовая обработка изображений.
Преимущества и недостатки: Плюсы — простота и эффективность для маленьких изображений; минусы — не справляется с большими, сложными данными. Факт: Первая успешная CNN, использовалась для чтения почтовых индексов.
AlexNet
Разработчик и год: Alex Krizhevsky и коллеги, 2012.
Как работает: Глубокая сверточная сеть с 8 слоями, использующая ReLU-активацию и dropout для предотвращения переобучения; классифицирует изображения.
Применение: Компьютерное зрение, классификация изображений (ImageNet).
Преимущества и недостатки: Плюсы — прорыв в глубине сетей; минусы — требует много GPU для обучения. Факт: Выиграла ImageNet в 2012, снизив ошибку с 26% до 15%.
VGGNet
Разработчик и год: Visual Geometry Group (Oxford), 2014.
Как работает: Глубокая сверточная сеть (до 19 слоёв) с маленькими 3×3 фильтрами для извлечения признаков.
Применение: Классификация изображений, transfer learning в других задачах.
Преимущества и недостатки: Плюсы — простая архитектура, хорошая для feature extraction; минусы — очень много параметров (138 млн). Факт: Заняла 2-е место в ImageNet 2014.
GoogLeNet (Inception)
Разработчик и год: Google, 2014 (Inception v3 — 2015).
Как работает: Сеть с inception-модулями: параллельные свертки разных размеров для эффективного извлечения признаков.
Применение: Классификация изображений, мобильные приложения.
Преимущества и недостатки: Плюсы — эффективность (меньше параметров); минусы — сложная структура. Факт: Выиграла ImageNet 2014 с 6,7% ошибкой.
DenseNet
Разработчик и год: Gao Huang и коллеги, 2017.
Как работает: Сверточная сеть, где каждый слой подключён ко всем последующим (dense connections) для повторного использования признаков.
Применение: Классификация изображений, медицинская диагностика.
Преимущества и недостатки: Плюсы — экономит параметры, борется с vanishing gradients; минусы — высокая память на обучение. Факт: Лучше ResNet по точности с меньшим размером.
MobileNet
Разработчик и год: Google, 2017 (MobileNetV3 — 2019).
Как работает: Лёгкая сверточная сеть с depthwise separable convolutions для снижения вычислений.
Применение: Мобильные устройства, реал-тайм детекция объектов.
Преимущества и недостатки: Плюсы — работает на слабом железе; минусы — чуть ниже точность. Факт: Идеальна для Android-приложений.
Whisper
Разработчик и год: OpenAI, 2022.
Как работает: Трансформерная модель для распознавания речи; обучается на 680k часов аудио для транскрипции и перевода.
Применение: Транскрипция аудио, субтитры, многоязычная речь.
Преимущества и недостатки: Плюсы — поддержка 99 языков; минусы — требует GPU для больших моделей. Факт: Точность на уровне человека в шумных условиях.
T5 (Text-to-Text Transfer Transformer)
Разработчик и год: Google, 2019.
Как работает: Трансформер, преобразующий все задачи NLP в text-to-text формат.
Применение: Перевод, суммаризация, вопрос-ответ.
Преимущества и недостатки: Плюсы — универсальность; минусы — большой размер. Факт: Обучена на 750 ГБ текста.
PaLM (Pathways Language Model)
Разработчик и год: Google, 2022 (PaLM 2 — 2023).
Как работает: Масштабный трансформер (540 млрд параметров) для multitask обучения; использует «pathways» для эффективного распределения задач по подмоделям.
Применение: Генерация текста, кодинг, математика, логические задачи.
Преимущества и недостатки: Плюсы — state-of-the-art в понимании и генерации; минусы — огромные вычисления, недоступна публично. Факт: PaLM 2 интегрирована в Bard (теперь Gemini).
CycleGAN
Разработчик и год: Jun-Yan Zhu и коллеги, 2017.
Как работает: GAN с цикличной потерей: две сети переводят изображения между доменами (например, лето в зиму) без парных данных, используя цикл для consistency.
Применение: Стилевой transfer (фото в картину), сезонные изменения, медицинские изображения.
Преимущества и недостатки: Плюсы — не требует парных данных; минусы — может генерировать артефакты. Факт: Популярна для «horse to zebra» преобразований.
Pix2Pix
Разработчик и год: Phillip Isola и коллеги, 2017.
Как работает: Условный GAN: генератор создаёт изображения из скетчей или масок, дискриминатор проверяет реалистичность.
Применение: Генерация фото из эскизов, колоризация, карты в спутниковые снимки.
Преимущества и недостатки: Плюсы — точные преобразования; минусы — нуждается в парных данных для обучения. Факт: Используется в Photoshop для AI-инструментов.
DeepDream
Разработчик и год: Google, 2015.
Как работает: Сверточная сеть (как Inception) усиливает паттерны в изображении, итеративно модифицируя его для активации нейронов.
Применение: Генерация психоделического искусства, визуализация того, что «видит» сеть.
Преимущества и недостатки: Плюсы — креативные эффекты; минусы — не для практических задач, больше искусство. Факт: Создаёт «сны» ИИ с глазами и собаками.
Neural Style Transfer
Разработчик и год: Leon Gatys и коллеги, 2015.
Как работает: Сверточная сеть извлекает стиль из одного изображения и применяет его к содержимому другого, минимизируя потери.
Применение: Художественные фильтры (Prisma app), дизайн, видео.
Преимущества и недостатки: Плюсы — простота; минусы — медленная (реал-тайм версии существуют). Факт: Превращает фото в стиль Ван Гога.
Seq2Seq (Sequence-to-Sequence)
Разработчик и год: Ilya Sutskever и коллеги (Google), 2014.
Как работает: Две RNN (encoder и decoder) для преобразования последовательностей (например, текст в текст).
Применение: Машинный перевод, чатботы, суммаризация.
Преимущества и недостатки: Плюсы — основа для NLP; минусы — проблемы с длинными последовательностями (решено вниманием). Факт: Базис для Google Translate.
ELMo (Embeddings from Language Models)
Разработчик и год: Allen Institute for AI, 2018.
Как работает: Двунаправленная LSTM, генерирующая контекстуальные эмбеддинги слов из всего предложения.
Применение: Улучшение NLP-задач (классификация, NER).
Преимущества и недостатки: Плюсы — учитывает контекст; минусы — медленнее трансформеров. Факт: Улучшила SOTA на 6 задачах.
XLNet
Разработчик и год: Google и Carnegie Mellon, 2019.
Как работает: Трансформер с пермутационным обучением (все возможные порядки слов) для bidirectional контекста без масок.
Применение: Текстовые задачи (чтение, вопрос-ответ).
Преимущества и недостатки: Плюсы — лучше BERT в некоторых задачах; минусы — сложнее в реализации. Факт: Превзошла BERT на 20 бенчмарках.
RoBERTa
Разработчик и год: Facebook AI (запрещенная на территории Российской Федерации организация), 2019.
Как работает: Оптимизированная версия BERT с большим обучением, динамическими масками и без NSP-задачи; фокусируется на маскированном языке.
Применение: Анализ текстов, классификация, извлечение сущностей.
Преимущества и недостатки: Плюсы — выше точность, чем у BERT; минусы — требует больше данных и вычислений. Факт: Превзошла BERT на GLUE-бенчмарке.
ViT (Vision Transformer)
Разработчик и год: Google Research, 2020.
Как работает: Трансформер для изображений: разбивает картинку на патчи, обрабатывает их как последовательности с механизмом внимания.
Применение: Классификация изображений, детекция объектов, компьютерное зрение.
Преимущества и недостатки: Плюсы — масштабируемость, лучше CNN на больших данных; минусы — требует предобучения на огромных датасетах.
Факт: Достигает SOTA на ImageNet с 86% точностью.
RNN (Recurrent Neural Network)
Разработчик и год: Различные (основы — 1980-е, популяризация — 1990-е, например, Jordan и Elman).
Как работает: Сеть с петлями: обрабатывает последовательности, сохраняя состояние от предыдущих входов для предсказания следующих.
Применение: Предсказание временных рядов, обработка текста, речь (базис для LSTM).
Преимущества и недостатки: Плюсы — простота для последовательностей; минусы — vanishing gradients на длинных данных. Факт: Основа для ранних чатботов и предсказаний акций.
MuZero
Разработчик и год: DeepMind, 2019.
Как работает: Reinforcement learning модель, планирующая действия без знания правил игры; учится модели мира, ценности и политики.
Применение: Игры (шахматы, го, Atari), планирование в робототехнике, оптимизация.
Преимущества и недостатки: Плюсы — обобщает на неизвестные среды; минусы — высокие вычисления. Факт: Превзошла AlphaZero, не зная правил.
LSTM (Long Short-Term Memory)
Разработчик и год: Sepp Hochreiter и Jürgen Schmidhuber, 1997.
Как работает: Рекуррентная сеть с гейтами (вход, забывание, выход), которые позволяют сохранять долгосрочную информацию в последовательностях.
Применение: Обработка текста, предсказание временных рядов, машинный перевод, распознавание речи.
Преимущества и недостатки: Плюсы — решает проблему vanishing gradients; минусы — сложнее и медленнее базовых RNN. Факт: Основа для многих NLP-моделей до эры трансформеров.
GRU (Gated Recurrent Unit)
Разработчик и год: Kyunghyun Cho и коллеги, 2014.
Как работает: Упрощенная версия LSTM с двумя гейтами (update и reset) для обработки последовательностей с меньшим количеством параметров.
Применение: Текстовые модели, предсказание последовательностей, мобильные приложения (из-за лёгкости).
Преимущества и недостатки: Плюсы — быстрее и проще LSTM при похожей производительности; минусы — может быть хуже на очень длинных последовательностях. Факт: Часто используется в TensorFlow и PyTorch как альтернатива LSTM.
Stable Diffusion
Разработчик и год: Stability AI, 2022.
Как работает: Диффузионная модель на основе latent diffusion: добавляет шум к изображению и учится его удалять, генерируя из текста.
Применение: Генерация изображений по описанию, искусство, дизайн, редактирование фото.
Преимущества и недостатки: Плюсы — открытый код, работает на потребительском GPU; минусы — может генерировать предвзятый контент. Факт: Основа для инструментов вроде DreamStudio.
BigGAN
Разработчик и год: Google Brain, 2018.
Как работает: GAN с большим масштабом: использует классовые условия и техники стабилизации для генерации высококачественных изображений.
Применение: Генерация реалистичных изображений, data augmentation в обучении.
Преимущества и недостатки: Плюсы — фотореалистичные результаты; минусы — требует огромных вычислений. Факт: Достигает Inception Score 166 на ImageNet.
Tacotron
Разработчик и год: Google, 2017 (Tacotron 2 — 2018).
Как работает: Seq2Seq модель с вниманием: преобразует текст в спектрограммы, затем в аудио с вокодером (как WaveNet).
Применение: Синтез речи, голосовые ассистенты, аудиокниги.
Преимущества и недостатки: Плюсы — естественный тон; минусы — медленная генерация в реал-тайм. Факт: Достигает MOS (mean opinion score) близко к человеческому голосу.
DeepFace
Разработчик и год: Facebook (Meta)(запрещённая на территории Российской Федерации организация), 2014.
Как работает: Сверточная сеть для распознавания лиц: выравнивает лица и извлекает признаки для сравнения.
Применение: Теггинг фото в соцсетях, биометрия, безопасность.
Преимущества и недостатки: Плюсы — точность 97% (как у человека); минусы — проблемы с приватностью. Факт: Обучена на 4 млн изображений.
PointNet
Разработчик и год: Charles Qi и коллеги (Stanford), 2017.
Как работает: Сеть для 3D-точечных облаков: применяет MLP к каждой точке, затем max-pooling для глобальных признаков.
Применение: 3D-сканирование, автономные автомобили, робототехника.
Преимущества и недостатки: Плюсы — напрямую работает с сырыми данными; минусы — менее эффективна на очень плотных облаках. Факт: Первая сеть для прямой обработки точек без вокселей.
GNN (Graph Neural Network)
Разработчик и год: Различные (основы — 2000-е, популяризация — 2010-е, например, Scarselli et al., 2009).
Как работает: Сеть для графов: обновляет представления узлов на основе соседей через слои агрегации и комбинации (message passing).
Применение: Рекомендательные системы, молекулярная химия, социальные сети, анализ знаний.
Преимущества и недостатки: Плюсы — эффективна для неструктурированных данных; минусы — сложность с большими графами (over-smoothing). Факт: Используется в Google Maps для маршрутов.
AlphaFold
Разработчик и год: DeepMind, 2020 (AlphaFold 2 — 2020).
Как работает: Трансформер с вниманием: предсказывает 3D-структуры белков из аминокислотных последовательностей, используя эволюционные данные и физические ограничения.
Применение: Биология, разработка лекарств, понимание болезней (например, COVID-19).
Преимущества и недостатки: Плюсы — революционная точность (GDT >90); минусы — вычислительно интенсивна. Факт: Решило 50-летнюю проблему фолдинга белков, выиграв CASP в 2020.









Добавить комментарий