arXiv:2603.03507v2 Тип объявления: замена-кросс Аннотация: Атаки с использованием состязательных примеров — возмущения входных данных, незаметные для человека и обманывающие нейронные сети, — остаются как постоянной проблемой в машинном обучении, так и явлением с загадочным происхождением. Чтобы пролить свет на этот вопрос, мы определяем и анализируем перцептивное многообразие (ПМ) сети для концепции класса как пространство всех входных данных, с уверенностью отнесенных сетью к этому классу. Мы обнаруживаем, что размерность ПМ нейронных сетей на порядки выше, чем размерность естественных человеческих концепций. Поскольку объем обычно растет экспоненциально с увеличением размерности, это предполагает экспоненциальное несоответствие между машинами и людьми, когда экспоненциально много входных данных с уверенностью отнесены к концепциям машинами, но не людьми. Кроме того, это дает естественную геометрическую гипотезу происхождения состязательных примеров: поскольку ПМ сети заполняет такую большую область входного пространства, любой вход будет очень близок к ПМ любой концепции класса. Таким образом, наша гипотеза предполагает, что устойчивость к состязательным действиям не может быть достигнута без согласования размерностей машинных и человеческих личных образов, и, следовательно, делает сильные предсказания: как высокая точность, так и расстояние до любого личного образа должны отрицательно коррелировать с размерностью личного образа. Мы подтвердили эти предсказания на 18 различных сетях с разной точностью устойчивости. Важно отметить, что мы обнаружили, что даже самые устойчивые сети все еще экспоненциально не согласованы, и только немногие личные образы, размерность которых приближается к размерности человеческих концепций, демонстрируют согласование с человеческим восприятием. Наши результаты связывают области согласования и состязательных примеров и предполагают, что проклятие высокой размерности машинных личных образов является серьезным препятствием для устойчивости к состязательным действиям.
Источник: arxiv.org






















