Фэй-Фэй Ли: Пространственный интеллект — следующая граница в развитии ИИ

<aside> 💡

Оригинал записи по ссылке

</aside>

Общее саммари

Доктор Фэй-Фэй Ли, сыграла ключевую роль в создании ImageNet — проекта, который дал толчок развитию глубокого обучения и компьютерного зрения. В выступлении она вспоминает, как данные стали основой для прорывов в ИИ, и как в 2012 году сверточные сети неожиданно превзошли все ожидания, открыв путь к генеративным моделям. Сейчас она работает над следующей большой задачей — пространственным интеллектом, то есть способностью ИИ понимать и моделировать 3D-мир. По её словам, это может быть даже сложнее, чем работа с языком, но критически важно для достижения AGI. По её мнению, AGI невозможен без способности систем понимать, реконструировать, генерировать и действовать в трёхмерном мире, а не только в 1D-тексте. Она объясняет, почему 3D-понимание — это следующая большая проблема после языка и генерации, и как её новая компания World Labs собирается строить foundation-модели, обученные на мире, а не на словах.

🔑 Ключевые блоки выступления

ImageNet и путь к зрительному восприятию машин
От объектов — к сценам, от сцен — к мирам
Почему spatial intelligence — следующий рубеж после LLM
Трудности восприятия и моделирования 3D
Новая архитектура foundation-моделей для трёхмерного мира
Применения: от робототехники до метавселенных
Переход от академии к стартапу: путь предпринимателя
Советы молодым: интеллектуальная смелость и поиск северной звезды

📍 Подробно по каждому блоку

1. ImageNet и путь к зрительному восприятию машин

В 2007–2009 Фей-Фей Ли с командой разработала ImageNet — огромную базу размеченных изображений.
Тогда в CV не было ни данных, ни мощностей, ни интереса со стороны индустрии. Она просто скачала 1 млрд изображений и создала первую визуальную таксономию мира.
ImageNet дал толчок всей современной CV-революции: именно на нём в 2012 году появился AlexNet, доказав, что Deep Learning + данные + GPU = прорыв.