|
|
Цвет, математика и искусственный интеллект
23 октября 2025 г. 17:00, г. Москва, Большой Каретный пер., д.19 стр.1, ауд. 615
|
|
|
|
|
|
|
Как видят цвет мультимодальные большие языковые нейронные сети?
Г. Р. Лобарев Институт проблем передачи информации им. А. А. Харкевича Российской академии наук, г. Москва
|
|
Аннотация:
Современные мультимодальные модели — такие как Qwen-VL, LLaVA или GPT— объединяют язык и зрение, чтобы «понимать» мир ближе к человеку. Но насколько это понимание действительно перцептивно? Особенно в такой тонкой области, как цвет: ведь для человека он — не RGB-код, более абстрактное ощущение, зависящее от контекста, освещения и даже эмоций.
На семинаре мы поговорим о том, как устроено цветовое пространство внутри MLLM и сравним его с психофизическим пространством человека: извлекаются ли визуальные энкодеры (ViT) достаточно точные представления? И главное — вносит ли языковой блок (LLM) коррекцию, приближающую восприятие модели к человеческому? Мы представим результаты анализа эмбеддингов Qwen-VL на основе классических психофизических данных — шкалы Манселла действительно ли «язык помогает видеть».
|
|