05.08.2024 Экспертиза, Искусственный интеллектСергей Назаренко, руководитель направления Big Data группы “Рексофт”
Сегодня тема генеративного интеллекта — одна из самых популярных и востребованных, хотя с момента ее широкой публичности прошло чуть более двух с половиной лет. Компании из всех секторов экономики работают над тем, как встроить новую технологию в свои бизнес-процессы. Согласно прогнозам исследовательской компании Statista, c 2024 по 2030 гг. мировой рынок ИИ будет расти со скоростью 28,46% в год. Но недавно рынок всколыхнула совершенно противоположенная новость: запасы данных в мире для обучения языковых моделей исчерпаются в 2026-2030 гг. Эксперты исследовательского института Epoch AI подсчитали, что мировой запас общедоступных текстов, созданных человеком, составляет 300 трлн. символов, и этот запас будет исчерпан при обучении больших языковых моделей (LLM) уже к 2030 г., а высококачественные данные закончатся к 2028 г. Тем временем ИИ-разработчики продолжают выпускать новые версии своих решений. Например, для обучения языковой модели типа GPT-3 потребовалось 570 Гб текстовой информации. Давайте разбираться, действительно ли данные в Интернете могут закончиться к 2028-2030 гг.? Все исследование преследует цель некоторого «шок-контента». Сейчас обработана самая доступная, преимущественно текстовая информация, хотя пример OpenAI по расшифровке диалогов YouTube и преобразованию в текст продемонстрировал направление по получению новых данных из Интернета. Но источников информации в сети еще много: информация на видео и картинках, голосовая информация — здесь делаются только ...
читать далее.