25.02.2025 Экспертиза, Искусственный интеллектЗапуск ChatGPT в ноябре 2022 г. стал переломным моментом в обработке естественного языка (NLP), поскольку продемонстрировал поразительную эффективность архитектуры трансформеров для понимания и генерации текстовых данных. Сейчас мы наблюдаем нечто подобное в области компьютерного зрения, когда появляются предварительно обученные большие модели зрения (Large Vision Models, LVM). Шринивас Куппа, директор по стратегии и продуктам SymphonyAI, поставщика решений в области искусственного интеллекта для различных отраслей, рассказал порталу BigDATAwire о том, когда эти модели обеспечат широкое использование визуальных данных. Примерно с 2010 г. новейшим достижением в области компьютерного зрения стала сверточная нейронная сеть (CNN), которая представляет собой тип архитектуры глубокого обучения, моделирующий взаимодействие нейронов в биологическом мозге. Фреймворки CNN, такие как ResNet, обеспечили решение задач компьютерного зрения, таких как распознавание и классификация изображений, и нашли некоторое применение в промышленности. За последние примерно десять лет в области компьютерного зрения получил распространение другой класс моделей, известных как диффузионные. Диффузионные модели — это тип генеративных нейронных сетей, использующих процесс диффузии для моделирования распределения данных, которые затем могут быть использованы для генерации данных аналогичным образом. Среди популярных диффузионных моделей — Stable Diffusion, открытая модель генерации изображений ...
читать далее.