Актуальные темы
IT Channel News
itWeek
Intelligent Enterprise/RE
Бестселлеры ИТ-рынка
BYTE/Россия

Спецпредложения

В период акции закупай новый ассортимент Defender и получай кешбэк 5% от суммы закупки нового ассортимента. Новым считается ассортимент, который участник акции не покупал в течение 2026 г., т.е. в период с 01.01.2026 по 31.05.2026. Чтобы стать участником маркетинговой программы, необходимо ...
InFocus запускает партнерскую программу по популярным проекторам в период с 15 мая по 15 июня 2026 года. На ряд ключевых моделей серий Genesis III и Genesis IV при покупке в компании AUVIX и у дистрибуторов Мерлион, Треолан, Partners Group действуют специальные цены и выгодные предложения. Модели ...
Уважаемые партнеры! Приглашаем вас принять участие в маркетинговой акции «Жаркие бонусы». Закупайте ноутбуки, неттопы и моноблоки DIGMA и DIGMA PRO в период действия акции и получите бонус 15 000 руб. за каждый 1 000 000 руб. отгрузок. Период действия акции: 1 мая – 30 июня 2026 г. Полное ...
До 6 мая закупайте мониторы бренда ACER и получайте бонус до 5%*! *За подробной информацией по условиям данной программы необходимо связаться с менеджером компании АБСОЛЮТ
Уважаемые партнёры! Приглашаем принять участие в маркетинговой акции и получить бонус 5% за закупку компьютерной периферии брендов Acer, A4Tech Bloody, DIGMA, Оклик. Участвующие товары: мониторы, наушники с микрофоном, web-камеры, клавиатуры, мыши, коврики, разветвители, рюкзаки для ноутбука ...
12345Все

Шесть фреймворков для эффективного инференса LLM

24.09.2025  Экспертиза, Искусственный интеллект, Менеджмент

Направление вывода (инференс, генерация ответов на запросы пользователей) на основе больших языковых моделей (LLM) стремительно развивается, что обусловлено потребностью в низкой задержке, высокой пропускной способности и гибком развертывании на разнородном оборудовании. В результате появился разнообразный набор фреймворков, каждый из которых предлагает уникальные оптимизации для масштабирования, производительности и управления операциями, пишет на портале The New Stack Джанакирам МСВ, главный аналитик компании Janakiram & Associates. От эффективного использования памяти PagedAttention и непрерывной обработки запросов (continuous batching) vLLM до готовой к производству оркестровки Hugging Face TGI и дезагрегированной архитектуры обслуживания NVIDIA Dynamo, экосистема теперь охватывает платформы, ориентированные на исследования, такие как SGLang, собственные стеки Kubernetes, такие как llm-d, и корпоративные плоскости управления, такие как AIBrix. В этой статье подробно рассматриваются эти фреймворки, освещаются их архитектурные решения, технические инновации и пригодность для различных реальных сценариев развертывания. vLLM: оптимизированный инференс с PagedAttention vLLM — это высокооптимизированный механизм вывода для LLM, созданный в Калифорнийском университете в Беркли и в настоящее время развиваемый международным сообществом. Фреймворк основан на механизме PagedAttention, который обеспечивает более эффективное и детальное управление кэш-памятью с парами ... читать далее.

Рекомендовано к прочтению


Риск утечки данных — главный барьер для внедрения генеративного ИИ в бизнесе
Около 40% ИT и ИБ-специалистов российских компаний отметили, что используют гибридный подход, когда ИИ выступает в роли аналитика и ассистента, а человек утверждает или корректирует его предложения. Но даже в таком формате главным барьером для повсеместного внедрения ИИ 42,5% респондентов из числа ...

BSS и «Честный знак» получили премию AI-Олимп за трансформацию клиентского сервиса с помощью речевых ИИ-решений
Компания BSS и Центр развития перспективных технологий (ЦРПТ) стали победителями престижной Премии в области искусственного интеллекта AI-Олимп в номинации «Решение года», категория «Голосовые помощники». Награждение состоялось 27 мая в центре событий РБК Москва в рамках форума «Время Цифры» ...

McKinsey: перестройка разработки ПО для эпохи агентов
То, как сегодня агентный искусственный интеллект используется в разработке ПО, является предвестником более широких изменений в модели разработки, пишут в корпоративном блоге партнеры McKinsey Джаред Мун и Адам Теллуолл (Лондон), Рори Уолш (Дублин) и Вито Ди Лео (Цюрих). В 9:00 утра владелец ...

Почему сотрудники саботируют корпоративный ИИ: главные причины провала внедрения
Представьте типичную ситуацию: компания закупает корпоративный ИИ-инструмент, проводит обучение, запускает пилот. Через три месяца — 5-10% активных пользователей, остальная команда возвращается к привычным инструментам. Формально внедрение состоялось, но реального эффекта нет. По данным McKinsey ...

Как избежать сетевых заторов в эпоху ИИ
В условиях роста сетевых заторов ИТ-командам необходимо сокращать дублирование инструментов, контролировать затраты и готовиться к AIOps и агентам искусственного интеллекта, пишет на портале InformationWeek Мэри Шеклет, президент консалтинговой компании Transworld Data. Затор (logjam) определяется ...
     
McKinsey: перестройка разработки ПО для эпохи агентов
То, как сегодня агентный искусственный интеллект используется в разработке ПО, является предвестником более широких изменений в модели разработки, пишут в корпоративном блоге партнеры McKinsey Джаред Мун и Адам Теллуолл (Лондон), Рори Уолш (Дублин) и Вито Ди Лео (Цюрих). В 9:00 утра владелец ...

Как опыт техподдержки помогает стать DevRel-специалистом
DevRel-специалист говорит на одном языке с разработчиками и клиентами, разбирается в коде и выступает лицом компании. Рассмотрим, какие навыки нужны для этой работы, и почему техподдержка — один из самых подходящих бэкграундов для профессии. Кто такой DevRel и что он делает Слово DevRel — это ...

Почему сотрудники саботируют корпоративный ИИ: главные причины провала внедрения
Представьте типичную ситуацию: компания закупает корпоративный ИИ-инструмент, проводит обучение, запускает пилот. Через три месяца — 5-10% активных пользователей, остальная команда возвращается к привычным инструментам. Формально внедрение состоялось, но реального эффекта нет. По данным McKinsey ...

Как избежать сетевых заторов в эпоху ИИ
В условиях роста сетевых заторов ИТ-командам необходимо сокращать дублирование инструментов, контролировать затраты и готовиться к AIOps и агентам искусственного интеллекта, пишет на портале InformationWeek Мэри Шеклет, президент консалтинговой компании Transworld Data. Затор (logjam) определяется ...

Точка невозврата для корпоративных ИТ: начало эпохи пост-Windows 10
К началу 2026 года корпоративная ИТ-инфраструктура на базе Windows 10 и вышедших в то же время сопутствующих продуктах фактически оказалась в зоне риска: поддержка устаревших решений Microsoft завершена, безопасных способов оставаться на привычной ИТ-инфраструктуре практически не осталось. В ...

Лидеры читательского рейтинга

Подборка по дате

Июнь 2026
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
2930     

© 1991–2026 ITRN (Российская служба ИТ-новостей). Политика конфиденциальности персональных данных. 109147 г. Москва, ул. Марксистская, 34, строение 10. Телефон: +7 495 974-22-60. Факс: +7 495 974-22-63. Электропочта: itrn@itrn.ru.
Версия 21.4.  Создание сайта — студия iMake.