28.03.2024 Экспертиза, Искусственный интеллектБольшие модели компьютерного зрения (Large Vision Models, LVM) могут показаться привлекательными, но модели, специфичные для конкретной области, помогут вам в большей степени, пишет на портале The New Stack Хизер Кутюр, консультант и основатель Pixel Scientia Labs. Может показаться, что ИИ находится на пике своего расцвета, но некоторые области применения только начинаются. Большие языковые модели (LLM) привлекли наше внимание чуть больше года назад, но эта технология создавалась в течение многих лет. Теперь уроки, которые мы извлекли из LLM, просачиваются в другие области, обеспечивая им хорошие возможности для собственного развития. Компьютерное зрение — одна из таких областей. Подобно тому, как базовые модели, такие как GPT, заложили основу для создания чат-ботов и других языковых приложений, базовые модели, основанные на изображениях, позволяют совершить революцию в передовом анализе изображений, от персонализированной медицины до точного сельского хозяйства и промышленной автоматизации. Если ранние модели LLM имели менее миллиарда параметров, то современные GPT, Bard и LLama имеют более триллиона параметров. Самые крупные модели компьютерного зрения, такие как DINO и Segment Anything, имеют около 1 млрд. параметров. Они еще не так велики, как LLM, но движутся в этом направлении. Обучение такой большой модели требует огромного количества обучающих данных. Например, модель DINOv2 была обучена на 142 млн. изображений. Благодаря достижениям самоподдерживающегося обучения ...
читать далее.