Возрастное ограничение 12+

Разделяй и шардируй: бюджетный GPU-кластер для распределённого инференса | Александр Подмосковный

Описание

Александр Подмосковный, руководитель центра компетенций технологий взаимодействия с клиентом в «МКБ», делится, как сделать вход в мир ИИ проще и доступнее, нацелившись на запуск крупных языковых моделей без внушительных бюджетов. Используя Proxmox для проброса GPU, Kubernetes-кластер под управлением Deckhouse и инструменты вроде vLLM и Ray Serve, он покажет, как организовать эффективный и масштабируемый инференс, не переплачивая за инфраструктуру.

Вы узнаете, как подключить удобный веб-интерфейс (OpenWebUI) и обеспечить безопасность через CDN/WAF, а в итоге увидите, что выделить домашний кластер под серьёзные AI-задачи — вполне реальная, захватывающая и экономная авантюра.

Скачать презентацию: https://drive.google.com/file/d/1sIMZodTml0civ12HT8TDPR2PZgRqJT2M/view?usp=sharing

Читать статью Александра на Хабре: https://habr.com/ru/companies/flant/articles/906700/

Таймкоды:
00:00 | Представление спикера и темы
01:53 | Почему дома, а не в облаке
04:29 | Архитектура домашнего кластера
06:06 | Проброс GPU
07:26 | Почему Deckhouse
10:40 | Запуск LLM дома
13:44 | Интерфейс взаимодействия с LLM
16:46 | Что умеет кластер и какие планы
20:21 | Итоги
22:00 | Песня от Александра
23:44 | Ответы на вопросы

Заходите на наш сайт и GitHub, а также подписывайтесь на каналы, блог и соцсети «Фланта», чтобы узнавать больше о Deckhouse, DevOps и Kubernetes:
Сайт Deckhouse: https://deckhouse.ru/
GitHub: https://github.com/deckhouse/deckhouse
Блог на Хабре: https://habr.com/ru/companies/flant/articles/
Telegram Deckhouse: https://t.me/deckhouse_news
Telegram «Фланта»: https://t.me/flant_ru
ВК: https://vk.com/flant_ru
Дзен: https://dzen.ru/flant
RuTube: https://rutube.ru/u/flant
X: https://x.com/flant_ru

#kubernetes #devops

Автор

Флант
Флант