<aside> 💡

Оригинал записи по ссылке

</aside>

Общее саммари

Доктор Фэй-Фэй Ли, сыграла ключевую роль в создании ImageNet — проекта, который дал толчок развитию глубокого обучения и компьютерного зрения. В выступлении она вспоминает, как данные стали основой для прорывов в ИИ, и как в 2012 году сверточные сети неожиданно превзошли все ожидания, открыв путь к генеративным моделям. Сейчас она работает над следующей большой задачей — пространственным интеллектом, то есть способностью ИИ понимать и моделировать 3D-мир. По её словам, это может быть даже сложнее, чем работа с языком, но критически важно для достижения AGI. По её мнению, AGI невозможен без способности систем понимать, реконструировать, генерировать и действовать в трёхмерном мире, а не только в 1D-тексте. Она объясняет, почему 3D-понимание — это следующая большая проблема после языка и генерации, и как её новая компания World Labs собирается строить foundation-модели, обученные на мире, а не на словах.


🔑 Ключевые блоки выступления

  1. ImageNet и путь к зрительному восприятию машин
  2. От объектов — к сценам, от сцен — к мирам
  3. Почему spatial intelligence — следующий рубеж после LLM
  4. Трудности восприятия и моделирования 3D
  5. Новая архитектура foundation-моделей для трёхмерного мира
  6. Применения: от робототехники до метавселенных
  7. Переход от академии к стартапу: путь предпринимателя
  8. Советы молодым: интеллектуальная смелость и поиск северной звезды

📍 Подробно по каждому блоку


1. ImageNet и путь к зрительному восприятию машин