Искусственный интеллект вокруг

Искусcтвенный интеллект: новости, статьи, примеры, термины. Узнайте о нейросетях, машинном обучении и ИИ-приложениях. Полезные статьи для новичков и экспертов — развивайтесь вместе с нами!

Advertisement

Нейронные сети. Обзор некоторых нейросетей.

neural-networks

Что такое нейросеть?

       Нейронная сеть (или искусственная нейронная сеть, ANN — Artificial Neural Network) — это математическая модель, вдохновлённая структурой и работой биологического мозга человека. Она состоит из множества interconnected «нейронов» (математических узлов), организованных в слои, которые обрабатывают входные данные, извлекают закономерности и выдают выводы.

      В простых словах: представь нейросеть как «чёрный ящик», который учится на примерах. Ты подаёшь ей данные (например, фото кошек и собак), и она сама находит правила, чтобы отличать одно от другого, без явного программирования. Это ключевой элемент машинного обучения (Machine Learning) и глубокого обучения (Deep Learning).

Биологическая аналогия: В мозге нейроны передают сигналы через синапсы. В ANN «нейроны» — это функции, а «синапсы» — веса (числа), которые корректируются во время обучения.

История и эволюция нейросетей

Зарождение (1940-е–1950-е): Идея возникла в 1943 году с модели МакКаллока-Питтса — простого математического нейрона. В 1958 году Фрэнк Розенблатт создал перцептрон — первую реализуемую нейросеть для распознавания паттернов.

Зимы ИИ (1960-е–1980-е): Развитие застопорилось из-за критики (книга Мински и Паперта 1969 года показала ограничения перцептронов). Но в 1980-е возродилось с backpropagation (алгоритм обучения от Румельхарта).

Бум глубокого обучения (2010-е–настоящее): Благодаря большим данным, мощным GPU и моделям вроде AlexNet (2012), нейросети стали доминировать в ИИ. Ключевые вехи: трансформеры (2017) и генеративные модели вроде GPT (2018+).

Факт: Сегодня нейросети — основа ChatGPT, Stable Diffusion и автономных авто. Их рынок оценивается в триллионы долларов.

Как работает нейросеть? (Техническое объяснение)

Нейросеть работает в два этапа: обучение (training) и инференс (inference).

Структура:

  Входной слой (Input Layer): Принимает данные (например, пиксели изображения как вектор чисел).

  Скрытые слои (Hidden Layers): Здесь происходит магия. Каждый нейрон вычисляет взвешенную сумму входов, применяет активационную функцию (например, ReLU: max(0, x)) для нелинейности.

 Выходной слой (Output Layer): Даёт результат (например, вероятность, что фото — кошка: 0.95).

  Формула простого нейрона:

  «`

  output = activation(∑ (weight_i * input_i) + bias)

  «`

  Глубокие сети  имеют много скрытых слоёв (отсюда «deep learning»).

Обучение:

  — Использует алгоритм backpropagation: сеть предсказывает, сравнивает с истиной (loss function, например, MSE или cross-entropy), корректирует веса градиентным спуском (optimizer как Adam).

  — Данные делят на train/test/validation. Обучение — итеративный процесс: эпохи (проходы по датасету).

  — Проблемы: overfitting (переобучение) — решается dropout или regularization; underfitting — больше данных/слоёв.

Типы активаций: Sigmoid (0–1), Tanh (-1–1), ReLU (быстрая, но «dying ReLU» проблема).

Пример кода (простая нейросеть на Python с TensorFlow):

  «`python

  import tensorflow as tf

  from tensorflow.keras import layers, models

  # Простая модель для классификации (например, MNIST)

  model = models.Sequential([

            layers.Dense(128, activation=’relu’,input_shape=(784,)),  # Скрытый слой

            layers.Dropout(0.2),  # Для предотвращения overfitting

            layers.Dense(10, activation=’softmax’)  # Выход: 10 классов

  ])

  model.compile(optimizer=’adam’, loss=’sparse_categorical_crossentropy’, metrics=[‘accuracy’])

  # Теперь можно обучить: model.fit(x_train, y_train, epochs=5)

  «`

  Это базовая feedforward сеть.

Типы нейросетей (Классификация)

Нейросети делятся по архитектуре и задачам:

Feedforward Neural Networks (FNN): Простые, данные идут только вперёд (например, MLP для классификации).

Convolutional Neural Networks (CNN): Для изображений (свёртки извлекают признаки, как в AlexNet или ResNet).

Recurrent Neural Networks (RNN): Для последовательностей (текст, время; варианты: LSTM, GRU).

Generative Adversarial Networks (GAN): Две сети соревнуются (генератор создаёт фейки, дискриминатор проверяет; как в Stable Diffusion).

Transformers: Для NLP и зрения (внимание вместо рекуррентности; как в BERT или ViT).

Другие: Autoencoders (сжатие данных), Graph Neural Networks (графы), Reinforcement Learning сети (как в AlphaGo).

Применение нейросетей

Компьютерное зрение: Распознавание объектов (YOLO для реал-тайм детекции), сегментация изображений (U-Net для медицины), генерация (GAN для фейковых фото). Пример: В смартфонах — разблокировка по лицу (как Face ID).

— Обработка естественного языка (NLP): Перевод (Google Translate на базе Seq2Seq), чатботы (GPT для разговоров), анализ тональности (BERT для отзывов). Факт: Модели вроде ChatGPT обрабатывают миллиарды запросов ежедневно.

— Рекомендательные системы: Netflix и Amazon используют нейросети для персонализации (collaborative filtering с embeddings).

— Медицина: Диагностика (CNN для рентгенов на рак), предсказание болезней (RNN для временных данных вроде ЭКГ).

— Автономные системы: Самоуправляемые авто (Tesla Autopilot с CNN и reinforcement learning), робототехника (планирование путей с GNN).

— Генеративное искусство и креатив: Stable Diffusion для изображений по тексту, Jukebox для музыки. Другие: Финансы (предсказание акций с LSTM), игры (AlphaGo с Monte Carlo Tree Search).

— Факт: Нейросети экономят миллиарды долларов — например, в логистике UPS использует их для оптимизации маршрутов.

Преимущества и недостатки нейросетей

Преимущества:

  — Автоматическое обучение признаков: Не нужно вручную программировать правила — сеть сама находит паттерны в данных.

  — Масштабируемость: С большими данными и вычислениями (GPU/TPU) достигают сверхчеловеческой точности (например, AlphaFold в биологии).

  — Гибкость: Применяются везде — от текста до 3D-моделей.

  — Инновации: Генерируют новое (текст, изображения), что революционизирует креативные индустрии.

  — Эффективность: После обучения инференс быстрый (например, Siri отвечает за секунды).

Недостатки:

  — Высокие требования к ресурсам: Обучение требует терабайтов данных и дорогого оборудования (например, GPT-4 стоил миллионов в вычислениях).

  — Чёрный ящик: Трудно понять, почему сеть приняла решение (проблема интерпретируемости, решается методами вроде SHAP).

  — Предвзятость и этика: Если данные biased (например, расовые предубеждения в распознавании лиц), сеть их усиливает.

  — Уязвимости: Adversarial attacks — небольшие изменения в входе обманывают сеть (например, стикер на знаке «стоп» сбивает авто-ИИ).

  — Энергопотребление: Обучение больших моделей (как PaLM) потребляет энергию, эквивалентную тысячам домохозяйств, что влияет на экологию.

  — Факт: Overfitting — распространённая проблема, когда сеть «запоминает» данные, но не обобщает на новые.

Этические аспекты и вызовы

Нейросети поднимают вопросы:

— Приватность: Модели обучаются на личных данных (GDPR регулирует это в ЕС).

— Рабочие места: Автоматизация может заменить jobs (например, в колл-центрах чатботы).

— Безопасность: Deepfakes (GAN для фейковых видео) используются для дезинформации.

— Регулирование: ЕС AI Act классифицирует ИИ по риску; OpenAI добавляет watermarking в генерируемый контент.

— Доступность: Большие модели (как LLaMA) открыты, но малые компании не могут конкурировать с Google/OpenAI.

— Факт: В 2023 году ИИ-эксперты (включая Хинтона) предупредили о рисках «экзистенциальной угрозы» от сверхинтеллекта.

Будущее нейросетей

— Тренды: Мультимодальные модели (как CLIP: текст + изображения), edge AI (на устройствах, без облака), quantum neural networks для ускорения.

— Интеграция с другими технологиями: ИИ + IoT (умные города), ИИ + биотехнологии (персонализированная медицина).

— AGI (ArtificialGeneral Intelligence): Цель — ИИ, решающий любые задачи как человек (OpenAI работает над этим).

— Улучшения: Более эффективные модели (sparse networks), федеративное обучение (для приватности) и устойчивость (green AI).

— Факт: К 2030 году ИИ может добавить $15 трлн к глобальному ВВП (по PwC), но нужны этические рамки.

Заключение

Нейронные сети — это не просто алгоритмы, а фундамент современной ИИ-революции, эволюционировавший от простых перцептронов к гигантам вроде GPT-4, которые генерируют код, искусство и знания. Они имитируют мозг, но превосходят его в узких задачах, открывая двери для инноваций, но требуя осторожности с рисками.

 

Список популярных (и не очень) нейронных сетей с описанием:

GPT (Generative Pre-trained Transformer)

   Разработчик и год: OpenAI, 2018 (первая версия; GPT-4 вышла в 2023).

   Как работает: Это трансформерная модель, обученная на огромных текстах. Она предсказывает следующее слово в последовательности, используя «внимание» (механизм, фокусирующийся на релевантных частях текста). Обучается в два этапа: предобучение на данных и тонкая настройка для задач.

   Применение: Чатботы (как ChatGPT), генерация текста, переводы, написание кода, помощь в обучении.

   Преимущества и недостатки: Плюсы — универсальность, креативность (может генерировать истории или код); минусы — «галлюцинации» (выдумывает факты), требует много вычислительных ресурсов. Факт: GPT-3 имеет 175 млрд. параметров!

BERT (Bidirectional Encoder Representations from Transformers)

   Разработчик и год: Google, 2018.

   Как работает: Трансформер, который анализирует текст bidirectional (с обеих сторон слова), чтобы понять контекст. Обучается на задачах вроде заполнения пробелов в предложениях.

   Применение: Поисковые системы (улучшает Google Search), анализ настроений, вопросно-ответные системы, классификация текстов.

   Преимущества и недостатки: Плюсы — отличное понимание нюансов языка; минусы — энергозатратна, не генерирует текст (только понимает). Факт: BERT повысил точность поиска на 10-20%.

DALL-E

   Разработчик и год: OpenAI, 2021 (DALL-E 3 — 2023).

   Как работает: Комбинирует GPT-подобную модель с диффузионными процессами: берёт текстовое описание и генерирует изображение, «шумя» и очищая пиксели шаг за шагом.

   Применение: Генерация искусства, дизайн (логотипы, иллюстрации), образование (визуализация идей).

   Преимущества и недостатки: Плюсы — креативность, реалистичные изображения; минусы — может генерировать предвзятый контент, ограничения на NSFW. Факт: DALL-E 2 создал миллионы изображений по запросам пользователей.

Stable Diffusion

   Разработчик и год: Stability AI (в сотрудничестве с другими), 2022.

   Как работает: Диффузионная модель: начинает с шума и итеративно «очищает» его в изображение на основе текста. Обучается на миллиардах пар «текст-изображение».

   Применение: Генерация изображений, редактирование фото, искусство, видеоигры (текстуры).

   Преимущества и недостатки: Плюсы — открытый код, работает на обычных ПК; минусы — может копировать стили художников (проблемы с авторскими правами). Факт: Бесплатные версии доступны на Hugging Face.

 AlphaGo

   Разработчик и год: DeepMind (Google), 2016.

   Как работает: Комбинирует глубокие нейронные сети с Монте-Карло поиском: симулирует миллионы ходов в играх, оценивая позиции с помощью «ценностной» и «политики» сетей.

   Применение: Игры (го, шахматы), оптимизация (логистика, энергосети), наука(складывание белков).

   Преимущества и недостатки: Плюсы — превосходит людей в стратегии; минусы — требует огромных вычислений. Факт: Победил чемпиона мира по го в 2016 году.

ResNet (Residual Neural Network)

   Разработчик и год: Microsoft Research, 2015.

   Как работает: Глубокая сверточная сеть с «остаточными» связями: слои учатся на разницах (residuals), чтобы избежать vanishing gradients в очень глубоких сетях (до 1000 слоёв).

   Применение: Распознавание изображений, компьютерное зрение (автопилоты, медицинские сканы).

   Преимущества и недостатки: Плюсы — высокая точность в классификации; минусы — сложна для обучения без GPU. Факт: Выиграла конкурс ImageNet в 2015 году.

LSTM (Long Short-Term Memory)

   Разработчик и год: Hochreiter & Schmidhuber, 1997.

   Как работает: Рекуррентная сеть с «воротами» (gates), которые запоминают или забывают информацию в последовательностях, решая проблему долгосрочных зависимостей.

   Применение: Обработка речи (Siri), предсказание текста, анализ временных ряданализ временных рядов.

   Преимущества и недостатки: Плюсы — справляется с долгосрочными зависимостями; минусы — медленнее трансформеров. Факт: Базис для многих речевых ИИ.

GAN (Generative Adversarial Network)

   Разработчик и год: Ian Goodfellow и коллеги, 2014.

   Как работает: Две сети соревнуются: генератор создаёт фейки, дискриминатор их выявляет, улучшая оба.

   Применение: Генерация изображений, deepfakes, синтез данных.

   Преимущества и недостатки: Плюсы — реалистичные фейки; минусы — нестабильность обучения, риски злоупотреблений. Факт: Используется в StyleGAN для лиц.

   AlphaFold

   Разработчик и год: DeepMind (Google), 2020 (AlphaFold 2 — 2021).

   Как работает: Глубокие нейронные сети анализируют последовательности аминокислот и предсказывают 3D-структуры белков с помощью механизмов внимания и эволюционных данных.

   Применение: Разработка лекарств, биотехнологии, понимание болезней (например, COVID-19).

   Преимущества и недостатки: Плюсы — точность до 90% в предсказаниях структур; минусы — требует огромных данных и вычислений. Факт: Решил 50-летнюю проблему в биологии, предсказав структуры миллионов белков.

YOLO (You Only Look Once)

            Разработчик и год: Joseph Redmon и коллеги, 2016 (последние версии — 2020+).

            Как работает: Сверточная сеть, которая детектирует объекты на изображении за один проход, разделяя его на сетку и предсказывая bounding boxes и классы.

            Применение: Видеонаблюдение, автономные автомобили, распознавание объектов в реальном времени.

            Преимущества и недостатки: Плюсы — высокая скорость (реал-тайм); минусы — менее точна на маленьких объектах. Факт: YOLOv8 может обрабатывать 100+ кадров в секунду.

Transformer

            Разработчик и год: Google Brain, 2017.

            Как работает: Архитектура на основе механизма внимания, обрабатывающая последовательности параллельно, без рекуррентных слоёв.

            Применение: Языковые модели (как GPT), машинный перевод, обработка последовательностей.

            Преимущества и недостатки: Плюсы — масштабируемость и скорость; минусы — требует много данных для обучения. Факт: Революционизировала NLP, став основой для BERT и GPT.     

StyleGAN

            Разработчик и год: NVIDIA, 2019 (StyleGAN3 — 2021).

            Как работает: GAN с контролем стиля: генератор манипулирует латентным пространством для создания изображений с разными уровнями детализации.

            Применение: Генерация реалистичных лиц, искусство, deepfakes.

            Преимущества и недостатки: Плюсы — фотореалистичные результаты; минусы — потенциал для злоупотреблений (фейковые изображения). Факт: Создаёт несуществующих людей, неотличимых от реальных.

WaveNet

            Разработчик и год: DeepMind, 2016.

            Как работает: Генеративная модель на основе сверток, моделирующая аудиоволны сэмпл за сэмплом для синтеза речи.

            Применение: Голосовые ассистенты (Google Assistant), синтез речи, музыка.

            Преимущества и недостатки: Плюсы — естественный звук; минусы — медленная генерация. Факт: Снизила «роботичность» синтезированной речи на 50%.  

EfficientNet    

           Разработчик и год: Google, 2019.

            Как работает: Сверточная сеть, оптимизированная по глубине, ширине и разрешению для баланса точности и эффективности.

            Применение: Мобильные устройства, классификация изображений, IoT.

            Преимущества и недостатки: Плюсы — высокая эффективность (меньше параметров); минусы — всё равно требует GPU для больших моделей. Факт: EfficientNet-B7 достигает топ-результатов ImageNet с 66 млн параметров.

BERT for Sequence-to-Sequence (BART)

            Разработчик и год: Facebook AI (запрещённая на территории Российской Федерации организация), 2019.

            Как работает: Трансформер, сочетающий предобучение с шумом в тексте для генерации и понимания последовательностей.

            Применение: Суммаризация текстов, диалоговые системы, перевод.

            Преимущества и недостатки: Плюсы — хорош в генеративных задачах; минусы — менее универсален, чем GPT. Факт: Улучшил суммаризацию новостей на 20%.

 AlphaZero

            Разработчик и год: DeepMind, 2017.

            Как работает: Самообучающаяся сеть, использующая reinforcement learning без человеческих данных; симулирует игры для улучшения.

            Применение: Шахматы, го, шашки; оптимизация в бизнесе и науке.

            Преимущества и недостатки: Плюсы — учится с нуля; минусы — огромные вычисления. Факт: Победила Stockfish в шахматах после 4 часов обучения.

U-Net

            Разработчик и год: Olaf Ronneberger и коллеги, 2015.

            Как работает: Сверточная сеть с U-образной архитектурой: encoder сжимает изображение, decoder восстанавливает его с пропусками связей для сохранения деталей.

            Применение: Сегментация изображений в медицине (например, выделение опухолей на МРТ), обработка фото.

            Преимущества и недостатки: Плюсы — точная сегментация с малым количеством данных; минусы — ограничена 2D-изображениями (расширения для 3D существуют). Факт: Стала стандартом в биомедицинской визуализации, выиграв конкурс ISBI в 2015.

VAE (Variational Autoencoder)

            Разработчик и год: Diederik Kingma и Max Welling, 2013.

            Как работает: Автоэнкодер с вариационным выводом: encoder кодирует данные в латентное пространство, decoder реконструирует; добавляет вероятностный шум для генерации новых данных.

            Применение: Генерация изображений, сжатие данных, аномалий детекция в финансах или медицине.

            Преимущества и недостатки: Плюсы — генерирует разнообразные данные, интерпретируемо; минусы — изображения могут быть размытыми по сравнению с GAN. Факт: Основа для многих генеративных моделей, как в Stable Diffusion.

DQN (Deep Q-Network)

            Разработчик и год: DeepMind, 2013 (опубликовано в 2015).

            Как работает: Глубокая сеть для reinforcement learning: оценивает Q-значения (ожидаемые награды) для действий в состояниях, используя опыт для обучения.

            Применение: Игры (Atari), робототехника, автономные системы, оптимизация трафика.

            Преимущества и недостатки: Плюсы — учится играть лучше людей без предварительных знаний; минусы — нестабильность и «катастрофическое забывание». Факт: Играла в 49 Atari-игр на уровне человека.   

CLIP (Contrastive Language–Image Pretraining)

            Разработчик и год: OpenAI, 2021.

            Как работает: Мультимодальная модель: обучается на парах изображение-текст, сопоставляя их эмбеддинги через контрастивную потерю для понимания связей.

            Применение: Поиск по изображениям, классификация без обучения (zero-shot), модерация контента.

            Преимущества и недостатки: Плюсы — универсальность для мультимедиа; минусы — предвзятость из данных интернета. Факт: Может классифицировать изображения по текстовым описаниям без дополнительного обучения.

LeNet-5

            Разработчик и год: Yann LeCun и коллеги, 1998.

            Как работает: Сверточная нейронная сеть с чередующимися слоями свертки и подвыборки; извлекает признаки из изображений для классификации.

            Применение: Распознавание рукописного текста (например, чеки в банках), базовая обработка изображений.

            Преимущества и недостатки: Плюсы — простота и эффективность для маленьких изображений; минусы — не справляется с большими, сложными данными. Факт: Первая успешная CNN, использовалась для чтения почтовых индексов.  

 AlexNet

            Разработчик и год: Alex Krizhevsky и коллеги, 2012.

            Как работает: Глубокая сверточная сеть с 8 слоями, использующая ReLU-активацию и dropout для предотвращения переобучения; классифицирует изображения.

            Применение: Компьютерное зрение, классификация изображений (ImageNet).

            Преимущества и недостатки: Плюсы — прорыв в глубине сетей; минусы — требует много GPU для обучения. Факт: Выиграла ImageNet в 2012, снизив ошибку с 26% до 15%.

VGGNet

            Разработчик и год: Visual Geometry Group (Oxford), 2014.

            Как работает: Глубокая сверточная сеть (до 19 слоёв) с маленькими 3×3 фильтрами для извлечения признаков.

            Применение: Классификация изображений, transfer learning в других задачах.

            Преимущества и недостатки: Плюсы — простая архитектура, хорошая для feature extraction; минусы — очень много параметров (138 млн). Факт: Заняла 2-е место в ImageNet 2014.

GoogLeNet (Inception)

            Разработчик и год: Google, 2014 (Inception v3 — 2015).

            Как работает: Сеть с inception-модулями: параллельные свертки разных размеров для эффективного извлечения признаков.

            Применение: Классификация изображений, мобильные приложения.

            Преимущества и недостатки: Плюсы — эффективность (меньше параметров); минусы — сложная структура. Факт: Выиграла ImageNet 2014 с 6,7% ошибкой.

DenseNet

            Разработчик и год: Gao Huang и коллеги, 2017.

            Как работает: Сверточная сеть, где каждый слой подключён ко всем последующим (dense connections) для повторного использования признаков.

            Применение: Классификация изображений, медицинская диагностика.

            Преимущества и недостатки: Плюсы — экономит параметры, борется с vanishing gradients; минусы — высокая память на обучение. Факт: Лучше ResNet по точности с меньшим размером.

MobileNet

            Разработчик и год: Google, 2017 (MobileNetV3 — 2019).

            Как работает: Лёгкая сверточная сеть с depthwise separable convolutions для снижения вычислений.

            Применение: Мобильные устройства, реал-тайм детекция объектов.

            Преимущества и недостатки: Плюсы — работает на слабом железе; минусы — чуть ниже точность. Факт: Идеальна для Android-приложений.

Whisper

            Разработчик и год: OpenAI, 2022.

            Как работает: Трансформерная модель для распознавания речи; обучается на 680k часов аудио для транскрипции и перевода.

            Применение: Транскрипция аудио, субтитры, многоязычная речь.

            Преимущества и недостатки: Плюсы — поддержка 99 языков; минусы — требует GPU для больших моделей. Факт: Точность на уровне человека в шумных условиях.    

T5 (Text-to-Text Transfer Transformer)

            Разработчик и год: Google, 2019.

            Как работает: Трансформер, преобразующий все задачи NLP в text-to-text формат.

            Применение: Перевод, суммаризация, вопрос-ответ.

            Преимущества и недостатки: Плюсы — универсальность; минусы — большой размер. Факт: Обучена на 750 ГБ текста.  

PaLM (Pathways Language Model)

            Разработчик и год: Google, 2022 (PaLM 2 — 2023).

            Как работает: Масштабный трансформер (540 млрд параметров) для multitask обучения; использует «pathways» для эффективного распределения задач по подмоделям.

            Применение: Генерация текста, кодинг, математика, логические задачи.

            Преимущества и недостатки: Плюсы — state-of-the-art в понимании и генерации; минусы — огромные вычисления, недоступна публично. Факт: PaLM 2 интегрирована в Bard (теперь Gemini).

CycleGAN

            Разработчик и год: Jun-Yan Zhu и коллеги, 2017.

            Как работает: GAN с цикличной потерей: две сети переводят изображения между доменами (например, лето в зиму) без парных данных, используя цикл для consistency.

            Применение: Стилевой transfer (фото в картину), сезонные изменения, медицинские изображения.

            Преимущества и недостатки: Плюсы — не требует парных данных; минусы — может генерировать артефакты. Факт: Популярна для «horse to zebra» преобразований.   

Pix2Pix

            Разработчик и год: Phillip Isola и коллеги, 2017.

            Как работает: Условный GAN: генератор создаёт изображения из скетчей или масок, дискриминатор проверяет реалистичность.

            Применение: Генерация фото из эскизов, колоризация, карты в спутниковые снимки.

            Преимущества и недостатки: Плюсы — точные преобразования; минусы — нуждается в парных данных для обучения. Факт: Используется в Photoshop для AI-инструментов.  

DeepDream

            Разработчик и год: Google, 2015.

            Как работает: Сверточная сеть (как Inception) усиливает паттерны в изображении, итеративно модифицируя его для активации нейронов.

            Применение: Генерация психоделического искусства, визуализация того, что «видит» сеть.

            Преимущества и недостатки: Плюсы — креативные эффекты; минусы — не для практических задач, больше искусство. Факт: Создаёт «сны» ИИ с глазами и собаками.

Neural Style Transfer

            Разработчик и год: Leon Gatys и коллеги, 2015.

            Как работает: Сверточная сеть извлекает стиль из одного изображения и применяет его к содержимому другого, минимизируя потери.

            Применение: Художественные фильтры (Prisma app), дизайн, видео.

            Преимущества и недостатки: Плюсы — простота; минусы — медленная (реал-тайм версии существуют). Факт: Превращает фото в стиль Ван Гога.

Seq2Seq (Sequence-to-Sequence)

            Разработчик и год: Ilya Sutskever и коллеги (Google), 2014.

            Как работает: Две RNN (encoder и decoder) для преобразования последовательностей (например, текст в текст).

            Применение: Машинный перевод, чатботы, суммаризация.

            Преимущества и недостатки: Плюсы — основа для NLP; минусы — проблемы с длинными последовательностями (решено вниманием). Факт: Базис для Google Translate.  

ELMo (Embeddings from Language Models)

            Разработчик и год: Allen Institute for AI, 2018.

            Как работает: Двунаправленная LSTM, генерирующая контекстуальные эмбеддинги слов из всего предложения.

            Применение: Улучшение NLP-задач (классификация, NER).

            Преимущества и недостатки: Плюсы — учитывает контекст; минусы — медленнее трансформеров. Факт: Улучшила SOTA на 6 задачах.

XLNet

            Разработчик и год: Google и Carnegie Mellon, 2019.

            Как работает: Трансформер с пермутационным обучением (все возможные порядки слов) для bidirectional контекста без масок.

            Применение: Текстовые задачи (чтение, вопрос-ответ).

            Преимущества и недостатки: Плюсы — лучше BERT в некоторых задачах; минусы — сложнее в реализации. Факт: Превзошла BERT на 20 бенчмарках.

RoBERTa

            Разработчик и год: Facebook AI (запрещенная на территории Российской Федерации организация), 2019.

            Как работает: Оптимизированная версия BERT с большим обучением, динамическими масками и без NSP-задачи; фокусируется на маскированном языке.

            Применение: Анализ текстов, классификация, извлечение сущностей.

            Преимущества и недостатки: Плюсы — выше точность, чем у BERT; минусы — требует больше данных и вычислений. Факт: Превзошла BERT на GLUE-бенчмарке.

ViT (Vision Transformer)

            Разработчик и год: Google Research, 2020.

            Как работает: Трансформер для изображений: разбивает картинку на патчи, обрабатывает их как последовательности с механизмом внимания.

            Применение: Классификация изображений, детекция объектов, компьютерное зрение.

            Преимущества и недостатки: Плюсы — масштабируемость, лучше CNN на больших данных; минусы — требует предобучения на огромных датасетах.

           Факт: Достигает SOTA на ImageNet с 86% точностью.

RNN (Recurrent Neural Network)

            Разработчик и год: Различные (основы — 1980-е, популяризация — 1990-е, например, Jordan и Elman).

            Как работает: Сеть с петлями: обрабатывает последовательности, сохраняя состояние от предыдущих входов для предсказания следующих.

            Применение: Предсказание временных рядов, обработка текста, речь (базис для LSTM).

            Преимущества и недостатки: Плюсы — простота для последовательностей; минусы — vanishing gradients на длинных данных. Факт: Основа для ранних чатботов и предсказаний акций.

MuZero

            Разработчик и год: DeepMind, 2019.

            Как работает: Reinforcement learning модель, планирующая действия без знания правил игры; учится модели мира, ценности и политики.

            Применение: Игры (шахматы, го, Atari), планирование в робототехнике, оптимизация.

            Преимущества и недостатки: Плюсы — обобщает на неизвестные среды; минусы — высокие вычисления. Факт: Превзошла AlphaZero, не зная правил.

 LSTM (Long Short-Term Memory)

            Разработчик и год: Sepp Hochreiter и Jürgen Schmidhuber, 1997.

            Как работает: Рекуррентная сеть с гейтами (вход, забывание, выход), которые позволяют сохранять долгосрочную информацию в последовательностях.

            Применение: Обработка текста, предсказание временных рядов, машинный перевод, распознавание речи.

            Преимущества и недостатки: Плюсы — решает проблему vanishing gradients; минусы — сложнее и медленнее базовых RNN. Факт: Основа для многих NLP-моделей до эры трансформеров.

GRU (Gated Recurrent Unit)

            Разработчик и год: Kyunghyun Cho и коллеги, 2014.

            Как работает: Упрощенная версия LSTM с двумя гейтами (update и reset) для обработки последовательностей с меньшим количеством параметров.

            Применение: Текстовые модели, предсказание последовательностей, мобильные приложения (из-за лёгкости).

            Преимущества и недостатки: Плюсы — быстрее и проще LSTM при похожей производительности; минусы — может быть хуже на очень длинных последовательностях. Факт: Часто используется в TensorFlow и PyTorch как альтернатива LSTM.

Stable Diffusion

            Разработчик и год: Stability AI, 2022.

            Как работает: Диффузионная модель на основе latent diffusion: добавляет шум к изображению и учится его удалять, генерируя из текста.

            Применение: Генерация изображений по описанию, искусство, дизайн, редактирование фото.

            Преимущества и недостатки: Плюсы — открытый код, работает на потребительском GPU; минусы — может генерировать предвзятый контент. Факт: Основа для инструментов вроде DreamStudio.

BigGAN

            Разработчик и год: Google Brain, 2018.

            Как работает: GAN с большим масштабом: использует классовые условия и техники стабилизации для генерации высококачественных изображений.

            Применение: Генерация реалистичных изображений, data augmentation в обучении.

            Преимущества и недостатки: Плюсы — фотореалистичные результаты; минусы — требует огромных вычислений. Факт: Достигает Inception Score 166 на ImageNet.

Tacotron

            Разработчик и год: Google, 2017 (Tacotron 2 — 2018).

            Как работает: Seq2Seq модель с вниманием: преобразует текст в спектрограммы, затем в аудио с вокодером (как WaveNet).

            Применение: Синтез речи, голосовые ассистенты, аудиокниги.

            Преимущества и недостатки: Плюсы — естественный тон; минусы — медленная генерация в реал-тайм. Факт: Достигает MOS (mean opinion score) близко к человеческому голосу.

DeepFace

            Разработчик и год: Facebook (Meta)(запрещённая на территории Российской Федерации организация), 2014.

            Как работает: Сверточная сеть для распознавания лиц: выравнивает лица и извлекает признаки для сравнения.

            Применение: Теггинг фото в соцсетях, биометрия, безопасность.

            Преимущества и недостатки: Плюсы — точность 97% (как у человека); минусы — проблемы с приватностью. Факт: Обучена на 4 млн изображений.

PointNet

            Разработчик и год: Charles Qi и коллеги (Stanford), 2017.

            Как работает: Сеть для 3D-точечных облаков: применяет MLP к каждой точке, затем max-pooling для глобальных признаков.

            Применение: 3D-сканирование, автономные автомобили, робототехника.

            Преимущества и недостатки: Плюсы — напрямую работает с сырыми данными; минусы — менее эффективна на очень плотных облаках. Факт: Первая сеть для прямой обработки точек без вокселей.

GNN (Graph Neural Network)

            Разработчик и год: Различные (основы — 2000-е, популяризация — 2010-е, например, Scarselli et al., 2009).

            Как работает: Сеть для графов: обновляет представления узлов на основе соседей через слои агрегации и комбинации (message passing).

            Применение: Рекомендательные системы, молекулярная химия, социальные сети, анализ знаний.

            Преимущества и недостатки: Плюсы — эффективна для неструктурированных данных; минусы — сложность с большими графами (over-smoothing). Факт: Используется в Google Maps для маршрутов.

AlphaFold

            Разработчик и год: DeepMind, 2020 (AlphaFold 2 — 2020).

            Как работает: Трансформер с вниманием: предсказывает 3D-структуры белков из аминокислотных последовательностей, используя эволюционные данные и физические ограничения.

            Применение: Биология, разработка лекарств, понимание болезней (например, COVID-19).

            Преимущества и недостатки: Плюсы — революционная точность (GDT >90); минусы — вычислительно интенсивна. Факт: Решило 50-летнюю проблему фолдинга белков, выиграв CASP в 2020.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *