
Глава направления автономного вождения Xpeng сообщил Electrek, что компания ежемесячно тратит около 300 миллионов юаней (~$41 млн) только на обучение ИИ, и полагает, что уже достигла паритета с Tesla FSD v13, а версия v14 будет доступна до конца лета.
Я беседовал с доктором Сяньмином Лю, главой Центра общего интеллекта Xpeng, на следующий день после его ключевого выступления на конференции CVPR 2026 в Денвере, где он делил сцену с Ашоком Эллусвами из Tesla и руководителями из Nvidia и Waymo на одной из самых престижных конференций по компьютерному зрению в мире.
В ходе беседы обсуждались архитектура VLA 2.0 от Xpeng, стратегия компании в отношении датчиков, сделка по лицензированию с Volkswagen и то, почему доктор Лю считает, что вся индустрия автономного вождения должна перестать рассматривать языковые модели как панацею для беспилотных автомобилей.
Полное интервью представлено ниже:
«Язык — это яд»
Доктор Лю стал известен благодаря провокационному заявлению: «язык — это яд» в контексте автономного вождения. В нашем интервью он объяснил нюансы, скрывающиеся за этим заголовком.
Первое поколение модели VLA (Vision-Language-Action — «зрение-язык-действие») от Xpeng использовало языковые токены в качестве промежуточного этапа: система «видела» дорогу, переводила увиденное в представления, подобные языковым, а затем преобразовывала их в действия по управлению автомобилем. VLA 2.0, которую я тестировал в Пекине в апреле и нашел сопоставимой с Tesla FSD v14, полностью исключает этот промежуточный этап.
Однако Лю уточнил, что Xpeng не отказалась от языка полностью. Система по-прежнему принимает язык в качестве входных данных — в виде текстовых запросов и инструкций от водителя. Исключается именно язык как промежуточный выходной результат в процессе самого вождения.
«Мы по-прежнему используем языки как входные данные, так как это ключ к повышению универсальности, — сказал Лю. — Вы разговариваете с автомобилем и даете инструкции. Автомобиль должен понимать, как их выполнить. Но во время движения мы не выводим никаких языковых токенов, потому что это избыточность или «узкое место» модели».
Логика проста: автомобиль получает около двух миллиардов визуальных токенов в секунду со своих камер, но для управления рулем и педалями ему нужно всего 10 или 20 токенов. Это колоссальное снижение размерности, и добавление этапа языкового перевода лишь создает ненужные вычисления и задержки.
«Чтобы получить языковое выражение, вам нужно произвести много лишних вычислений для его формирования. Вот почему мы убрали язык как промежуточный слой, но сохранили его как входной», — пояснил он.
Мировая модель: следующий элемент пазла
На своем выступлении на CVPR Лю представил нечто новое — мировую модель Xpeng, которую он позиционирует не как отдельную технологию, отличную от VLA, а как «другую сторону той же проблемы».
VLA 2.0 обучается на поведении водителей-людей — она изучает, как миллионы водителей реагируют в реальных ситуациях, и учится копировать эти решения. Мировая модель изучает физику окружающей среды: она предсказывает, что произойдет в сцене дальше, как будут двигаться другие участники движения и каковы будут последствия любого действия.
«Люди пытаются разделить эти два понятия, мировую модель и VLA, как два измерения технологии, но на самом деле они идентичны, — отметил Лю. — Наша цель — построить базовую модель, достаточно мощную, чтобы понимать мир».
Практическое применение: Xpeng сейчас обучает VLA 2.0 одновременно предсказывать то, что увидят камеры в ближайшем будущем, и то, что должен сделать автомобиль — объединяя вождение и прогнозирование мира в одной модели. Компания планирует развернуть это обновление на серийных автомобилях позднее в этом году.
Xpeng опубликовала серию научных работ, подтверждающих эту деятельность, включая X-World для контролируемой генерации видео, X-Foresight для совместного прогнозирования будущего и планирования, а также X-Cache, которая сокращает вычисления мировой модели на 70% при пренебрежимо малой потере качества. Кроме того, на конференции CVPR 2026 была принята их работа «DrivePTS» о генерации дорожных сцен.
Радары остаются для активной безопасности, а не для вождения
Одна деталь, которая часто теряется в маркетинге «чистого зрения» Xpeng: модели P7+, G7 и другие недавние новинки по-прежнему оснащены тремя миллиметровыми радарами и двенадцатью ультразвуковыми датчиками в дополнение к камерам. Я спросил Лю, как они вписываются в сквозную (end-to-end) архитектуру.
Его ответ был однозначным: они никак не участвуют в работе основного ИИ вождения.
«Мы действительно используем эти датчики, но они задействованы в системе активной безопасности, которая требует ортогональной системы, полностью дублирующей основную систему вождения», — сказал Лю. Радары и ультразвуковые датчики обеспечивают работу AEB (автоматического экстренного торможения) и AES (автоматического экстренного рулевого управления) — это совершенно отдельный уровень безопасности.
Основная система вождения использует только зрение. Логика Лю сводится к плотности информации и задержкам: «Время считывания с камер составляет пару миллисекунд, это довольно быстро, и частота может быть очень высокой. С точки зрения плотности информации камера — один из лучших датчиков. Если использовать LiDAR или радары, время обработки довольно велико, обычно десятки или сотни миллисекунд».
Это ставит Xpeng в интересное промежуточное положение. Tesla, как известно, полностью убрала радары и ультразвуковые датчики со своих автомобилей, полагаясь исключительно на камеры во всем, включая активную безопасность. Waymo идет по противоположному пути с полноценным комплектом LiDAR. Xpeng использует камеры исключительно как «мозг» для вождения, но сохраняет радары как отдельную страховочную сеть.
Когда я спросил, может ли система зрения со временем стать настолько хорошей, что дублирующий уровень безопасности станет излишним, Лю ответил прямо: «Мы надеемся на это, но, честно говоря, это невозможно. Мы все совершаем ошибки. Система тоже совершает ошибки. Даже если вы достигнете точности 99,9999%, шанс на ошибку все равно останется. Добавление еще одного уровня избыточности определенно поможет».
Он добавил: «Речь не о том, что вы общаетесь с ChatGPT и совершаете ошибку, после чего говорите: «Эй, это глупо, переделай». Здесь на кону человеческие жизни».
300 миллионов юаней в месяц на обучение ИИ
Я спросил Лю о масштабах инвестиций Xpeng в автономное вождение. Его ответ оказался ошеломляющим для компании, которая в прошлом году поставила около 200 000 автомобилей.
«В интернете много шуток о том, что я прошу огромный бюджет у босса, — сказал Лю. — Он выделил что-то около 300 миллионов юаней в месяц на обучение модели. Почти так и есть. Я действительно трачу много денег».
Это около $41 млн в месяц, или почти $500 млн в год только на обучение ИИ-моделей — внушительная цифра для компании, на счетах которой на конец 2025 года было 47,66 млрд юаней ($6,5 млрд) денежных средств. Лю признал, что для автопроизводителя это необычно: «Будучи автомобильной компанией, трудно представить такие огромные инвестиции в R&D, потому что их никогда не окупить. Но наша компания полна решимости стать компанией в области физического ИИ (Physical AI)».
На конференции CVPR компания Xpeng сообщила, что за последние 12 месяцев ее инфраструктура обучения добилась 4360-процентного прироста эффективности выполнения задач, а использование GPU выросло с 40% до 90%. VLA 2.0 использует миллиарды параметров и потребляет более четырех триллионов токенов за одну итерацию обучения модели.
Сравнение с Tesla: «одна философия, разные данные»
Лю был дипломатичен, но конкретен при сравнении подхода Xpeng с Tesla FSD.
«Думаю, мы разделяем схожую философию и принципы, заключающиеся в масштабировании, — сказал он. — Неважно, Tesla это, Xpeng или другие компании, работающие в этом направлении — все делают одно и то же: просто следуют закону масштабирования, гарантируя, что у вас есть система, управляемая данными, в которую можно подавать неограниченный объем данных».
Ключевое различие, по словам Лю, заключается в разнообразии данных. Китайские дороги значительно хаотичнее американских — я убедился в этом на личном опыте во время своего 40-минутного тест-драйва VLA 2.0 в Пекине, где я столкнулся с большим количеством нестандартных ситуаций, чем увидел бы за недели вождения в Северной Америке.
«В Китае у вас больше шансов встретить краевые (сложные) случаи и получить данные. Это преимущество», — считает Лю. Он утверждает, что это может облегчить Xpeng выход на международный рынок, чем Tesla — внедрение FSD в Китае. Не то чтобы проще само по себе, но «у вас больше шансов, потому что у вас более разнообразные данные».
Ставка на мост «Золотые ворота»
Генеральный директор Xpeng Хэ Сяопен в прошлом году заключил публичное пари с Лю: если к 30 августа 2026 года VLA 2.0 не достигнет уровня производительности Tesla FSD, Лю должен будет пробежать голым по мосту «Золотые ворота».
Лю говорит, что он в безопасности. «Я вполне уверен, что мне не придется бежать, — сказал он мне. — Условием было достижение паритета с Tesla FSD в начале этого года. Основываясь на тест-драйвах, мы уже достигли этой цели».
Он утверждает, что всего за несколько месяцев Xpeng перешла от уровня паритета с FSD v12 к «почти v14 или даже лучше, чем v13», приписывая успех высокой скорости итераций команды. Августовский дедлайн все еще в силе, но Лю сохраняет спокойствие.
Аналогия с Google Pixel и сделка с Volkswagen
Пожалуй, самый показательный момент наступил, когда Лю описал идентичность Xpeng. Он сравнил компанию с Google, производящей смартфоны Pixel: оборудование существует в первую очередь для демонстрации возможностей и сбора данных для программного обеспечения.
«Производство автомобилей определенно является одной из основных причин, почему мы работаем, — сказал он. — Нам нужны физические устройства в реальном мире, чтобы убедиться, что мы получаем обратную связь, что мы получаем данные. Точно так же, как Google производит Pixel, просто пытаясь показать: «ОК, вот что может Android». Но, с другой стороны, мы хотим убедиться, что мы — ИИ-компания».
Такая постановка вопроса позволяет по-новому взглянуть на сделку по лицензированию VLA 2.0 с Volkswagen. Ранее в этом году Volkswagen стала первым внешним клиентом VLA 2.0 с планами по развертыванию технологии в 2027 году. Лю преуменьшил техническую сложность переноса системы на автомобили VW, отметив, что Xpeng уже внутренне рассылает OTA-обновления на более чем 20 различных моделей автомобилей.
«Добавление одной или двух машин для нас — это не что-то новое или необычное. Вы обучаете модель, и если вы адаптировали ее для 20 автомобилей, не имеет значения, будет ли их 21, 22 или 23».
Более важная цель, предположил Лю, — вовлечь всю индустрию: «Если над этим будут работать только Xpeng или Tesla, это никогда не станет реальностью. Вам нужно много партнеров, много друзей, вам нужно, чтобы все приняли истину о том, что автоматизация неизбежна».
Мнение Electrek
Это интервью подтвердило мои подозрения после апрельского тест-драйва VLA 2.0: Xpeng реализует полноценную программу автономного вождения, которой удалось в сжатые сроки стать серьезным конкурентом Tesla FSD. И все это при бюджете на обучение ИИ около 300 миллионов юаней в месяц, что может звучать как огромная сумма, но в масштабах затрат на ИИ — совсем немного.
Больше всего меня поразила четкость Лю в вопросах архитектурных решений. Формулировка «язык — это яд» звучит как провокация, но его объяснение технически обосновано: преобразование непрерывных визуальных сигналов в дискретные языковые токены и обратно неэффективно для систем управления в реальном времени. Это иная стратегия, нежели та, которую использует большинство игроков отрасли с большими языковыми моделями, и производительность VLA 2.0 на дорогах начинает подтверждать правоту этого пути.
Аналогия с Pixel также показательна. Xpeng дает понять, что рассматривает производство автомобилей как средство, а не как цель. С учетом того, что Volkswagen уже лицензирует VLA 2.0, а Xpeng, по имеющимся данным, ведет переговоры о покупке завода VW в Европе, компания позиционирует себя и как автопроизводитель, и как поставщик технологий для систем автономного вождения, по сути, страхуя риски относительно того, какой бизнес в конечном итоге принесет больше прибыли.
Для меня становится очевидным, что они стремятся стать скорее компанией в области «физического ИИ», чем просто автопроизводителем.
Если вы хотите быть уверены, что ваш электромобиль заряжается дешевле, переход на солнечную энергию — одно из самых разумных решений. Поскольку тарифы на электроэнергию выросли почти на 10% в прошлом году, домашние солнечные панели защитят вас от будущего повышения цен. А благодаря вариантам лизинга и договорам купли-продажи электроэнергии (PPA), вы можете перейти на солнечную энергию с нулевыми первоначальными затратами и начать экономить немедленно. Если вы хотите найти лучшее предложение, загляните на EnergySage. Это бесплатный сервис, где сотни предварительно проверенных установщиков конкурируют за ваш заказ, что позволяет сэкономить от 20 до 30% по сравнению с самостоятельным поиском подрядчика. Никаких звонков от менеджеров по продажам, пока вы сами не выберете установщика. Получите свои бесплатные сметы здесь.