
Сегодня я разговаривал с руководителем программного обеспечения Rivian Вассимом Бенсаидом о его последних ужасных 36 часах. Команда разработчиков программного обеспечения Rivian бросилась в бой после того, как клиентам было отправлено некорректное обновление операционной системы с неверным сертификатом. По словам Бенсаида, обновление зависло до завершения, что сделало большинство потребительских функций информационно-развлекательной системы неработоспособными примерно у 3% клиентских автомобилей компании.
Rivian предоставила Бенсаида для обсуждения инцидента и исправления через OTA, которое будет отправлено клиентам уже сегодня в 9:30 утра по тихоокеанскому времени (12:30 по восточному времени).
Я думаю, как владелец Rivian, я рад, что это можно исправить с помощью OTA, но меня больше беспокоит, что такое вообще могло произойти. И этого НЕ должно повториться.
Я спросил Бенсаида, что пошло не так, и, насколько я понимаю, программное обеспечение было протестировано как минимум на двух Rivian «разработческих сборках», которые не были затронуты плохим сертификатом, прежде чем оно было выпущено. Конечно, правильная версия тестировалась более месяца на парке из не менее 1000 тестовых автомобилей. Но эта подгруппа предрелизных версий кажется слишком малой и ограниченным подмножеством автомобилей для отправки живого OTA-обновления операционной системы.
За последний месяц при финальном развертывании была выбрана неправильная ссылка, к сожалению, с неправильным сертификатом. Именно это и вызвало проблему. Изначально, когда мы получили отчеты, около 17:30 по тихоокеанскому времени начали поступать отчеты, они были несколько запутанными, поскольку одни люди сообщали о «кирпичах» автомобилей, другие — что кластер и камера все еще работают. Пока мы пытались разобраться с отчетами, мы хотели быть предельно осторожными, и у нас было несколько путей решения. Если бы автомобили были действительно сломаны, это потребовало бы посещения сервисного центра. Если бы части автомобиля все еще работали, это, вероятно, означало бы способ исправить их с помощью наших мобильных сервисных автомобилей. А затем, по сути, команда использовала эту возможность, чтобы действительно выйти из ситуации и придумала суперкреативное решение, которое позволяет нам полностью устранить проблему с помощью OTA-обновления. Так что сегодня мы отправим новое OTA, которое полностью решает проблему. По сути, оно восстанавливает поврежденное изображение.
Вассім Бенсаид
Бенсаид отметил, что Rivian пересматривает весь свой процесс, чтобы человеческая ошибка никогда больше не могла привести к подобным инцидентам. Это означает, что обычные потребительские автомобили будут получать OTA-обновление и проходить тестирование перед отправкой обновления большему числу автомобилей.
Изначально мы не хотели идти по этому пути коммуникации, потому что независимо от того, 3% это, 10%, 1% или 0,5%, это все равно очень важно для нас. Каждый пользователь, каждый клиент имеет значение. А задача номер один за последние 36 часов заключалась в том, как мы, как команда, можем найти наилучшее возможное решение для наших клиентов, и тогда лучшим решением было бы удаленное решение. Худший сценарий — это когда им приходится ехать в сервис или эвакуировать автомобиль, а затем команда прикладывает много усилий. И нам удалось найти действительно отличное решение, которое помогает нам решать проблему удаленно. Это также связано с тем, что у нас есть архитектура с множеством резервирований, которая действительно позволяет нам выполнять такого рода операции, и это проявилось, как только мы начали понимать, что происходит в полевых условиях. Автомобиль все еще был работоспособен, приложение также было работоспособно, а критически важные части системы оставались работоспособными. Таким образом, основанная на безопасности и резервировании конструкция, которую мы внедрили, фактически защитила нас. А затем мы использовали это как способ, по сути, внедрить в данном случае решение для восстановления через удаленное исправление, используя эти системы безопасности, которые мы и будем развертывать сегодня.
Вассім Бенсаид
Сборка, которую предполагалось выпустить, тестировалась месяцами на обычных автомобилях, но одна человеческая ошибка при копировании и вставке привела к отправке неверной сборки. Этот процесс также пересматривается, чтобы перед выпуском для более широкой группы клиентов было проведено несколько проверок сборки.
Владельцы, которые затронуты (опять же, около 3% парка, по данным Rivian), должны увидеть обновление в своем приложении на телефоне и инициировать процесс оттуда. Те немногие, кто не использует приложение со своим Rivian, должны позвонить в сервисную службу Rivian, чтобы инициировать обновление оттуда.
Мнение Electrek
Все вышесказанное — это то, что я хочу услышать как владелец Rivian, но как репортер, я также хотел бы, чтобы коммуникация от Rivian была более официальной. Исходный пост на Reddit был своевременным и лучше, чем ничего, но также потребовалось время, чтобы проверить, действительно ли пользователь является Бенсаидом. Прошло более 10 часов, прежде чем PR-отдел смог хотя бы признать, что есть проблема, и то только после того, как мы показали им пост на Reddit.
Я думаю, что вся команда Rivian может сделать лучше, и, судя по тому впечатлению, которое у меня сложилось, они тоже так думают.
Лучший комментарий от Луиса Лары
Понравилось 5 людям
Я согласен, это расстраивает, но как инженер-программист я понимаю, что такие ошибки случаются. Самое главное здесь — иметь готовые резервные копии для немедленного восстановления. Здесь, в Австралии, один из крупнейших операторов связи был недоступен полдня из-за некорректного обновления программного обеспечения, и теперь эту компанию критикуют, потому что у них, по сути, не было готовой резервной копии на случай сбоя. Технология — наименее надежная из всех наук, поэтому предполагайте, что все, что может пойти не так, обязательно пойдет не так.
Посмотреть все комментарии