За пределами прокрутки ленты: как алгоритмы социальных сетей формируют вашу реальность
Введение в рекомендательные системы
Делиться

Вам наверняка казалось, что ваши подписчики в социальных сетях слишком хорошо вас знают.
Просматривая социальные сети, вы замечаете очень типичное поведение: вы смотрите одно видео, и внезапно ваша лента заполняется подобными роликами. Пять лет назад это казалось чем-то вроде волшебства. Но сегодня мы говорим об «алгоритме» так, будто это таинственная сущность, дергающая за нитки в каком-то подвале Кремниевой долины. Правда гораздо менее драматична и гораздо интереснее.
Алгоритм сам по себе не является злом, он не строит планы вашей радикализации. Это всего лишь фрагмент кода, использующий косинусное сходство и взвешенные средние значения, пытающийся предсказать, на что вы кликнете дальше. Проблема в том, что то, с чем мы взаимодействуем, вызывает вовлеченность. А самый верный способ удержать внимание людей оказывается худшим способом информировать их (провокации, фейковые новости или что-то еще хуже).
В этом посте речь пойдёт о том, как работают системы рекомендаций, почему они склоняют нас к созданию информационных пузырей, и, поскольку чтение о чём-либо никогда не сравнится с его визуальным восприятием, мы создадим такую систему с нуля, направим её на реальные новостные данные и понаблюдаем за формированием пузыря.
Механизм вовлечения: как работают рекомендательные системы
Алгоритм социальных сетей, по своей сути, — это куратор. Его задача — просеять миллионы постов и показать вам те, с которыми вы, скорее всего, будете взаимодействовать: кликать, смотреть, ставить лайки, делиться, оставлять гневные комментарии. Он делает это, основываясь на одном слове: данные.
Каждое ваше действие — это подсказка:
- На каких постах вы задерживаетесь (даже не переходя по ссылкам)?
- Какие видео вы смотрите и как долго?
- На какие аккаунты вы подписаны, какие отключаете уведомления или блокируете
- Какие темы вы ищете в 1 час ночи?
Используя машинное обучение, алгоритм выявляет закономерности в этом потоке поведения. Он постоянно задает один и тот же вопрос: что удерживает этого человека на платформе дольше? Помните, что это главная цель любой компании, работающей в сфере социальных сетей: удержать вас на платформе как можно дольше.
В основе большинства рекомендательных систем лежат две классические методики:
- Функция коллаборативной фильтрации находит пользователей, которые ведут себя так же, как вы, и рекомендует то, что им понравилось. Если Алиса и Боб оба любили «Матрицу» и «Начало», и Алиса также любила «Интерстеллар», система подтолкнет Боба к просмотру «Интерстеллара». Довольно легко понять.
- Фильтрация по контенту анализирует характеристики того, что вам нравилось, и находит похожие вещи. Если вы смотрите много кулинарных видео, система выдаст больше видео с тегами «кулинария», «рецепт» или «мастерство работы с ножом», которые похожи на то, что вам уже нравилось.
Реальные платформы сочетают эти методы с сотнями других сигналов. Но основная идея остается той же: учиться на вашем поведении, предсказывать, что еще может вас заинтересовать.
Алгоритм не ставит целью показывать вам плохой или ложный контент. Он оптимизирует контент для вовлечения аудитории. А один из самых верных способов удержать внимание людей — это воздействовать на наши эмоции, особенно на сильные, негативные. Или, например, с помощью видео с кошками.
Создание системы рекомендаций новостей на основе реальных данных.
Давайте перестанем говорить об этом абстрактно и создадим собственный набор данных. Мы будем использовать реальные анонимизированные журналы кликов из Microsoft News. Этот набор данных называется MIND (Microsoft News Dataset) и опубликован для академических исследований исследовательским центром Microsoft Research. В выборку входят данные о 50 000 пользователях, более 51 000 англоязычных новостных статей по 17 категориям (новости, спорт, финансы, образ жизни, здоровье, путешествия и многое другое), а также более 156 000 реальных сессий просмотра, каждая из которых записывает, что было показано пользователю и на что он кликнул. Всё это умещается примерно в 30 строк кода на Python, хотя вам на самом деле не нужно знать эти подробности:
import numpy as np import pandas as pd from scipy.sparse import csr_matrix from sklearn.metrics.pairwise import cosine_similarity # Build a sparse user × article matrix (1 = clicked, 0 = didn't) matrix = csr_matrix((np.ones(len(clicks)), (user_rows, article_cols)), shape=(n_users, n_articles)) def recommend(user_id, matrix, top_n=15, n_neighbors=50): """Find 50 most similar users and rank the articles they clicked that our user hasn't seen yet.""" u = user_idx[user_id] # Cosine similarity between this user and everyone else sims = cosine_similarity(matrix[u], matrix).flatten() sims[u] = 0 # don't recommend to yourself # Take the top 50 most similar users top_neighbors = np.argsort(sims)[-n_neighbors:][::-1] weights = sims[top_neighbors] # Score articles by weighted sum of neighbour clicks scores = np.asarray(matrix[top_neighbors].T.dot(weights)).flatten() # Zero out articles the user already clicked scores[matrix[u].toarray().flatten() > 0] = 0 # Return the top-scoring articles top_articles = np.argsort(scores)[-top_n:][::-1] return top_articles
Метод косинусного сходства находит ваши пятьдесят ближайших соседей — людей, которые кликают на статьи того же типа, что и вы. Мы берем статьи, на которые они кликали, взвешиваем их по степени сходства каждого соседа с вами и показываем пятнадцать наиболее похожих. Это основа того, что движет многомиллиардной индустрией.
Какое сходство?
Понятие косинусного подобия может показаться чем-то из учебника математики, но потерпите немного, это проще, чем кажется. Чтобы показать вам, как это работает, давайте немного отвлечемся.
Представьте себе следующие данные, распределенные по двум осям: механический и биологический факторы, а также привлекательность:

Косинусное сходство измеряет угол между двумя стрелками, каждая из которых начинается из начала координат (0,0) и указывает на одну из наших точек данных. Чем меньше угол между ними, тем больше сходство между двумя объектами.
Представьте себе: если две стрелки почти указывают в одном направлении, то объекты, которые они представляют, обладают схожими характеристиками. Возьмем в качестве примера кошек и собак. Оба объекта имеют высокие показатели по «биологическому» признаку и по «миловидности», поэтому их стрелки указывают почти в одном направлении, и косинусное сходство возвращает значение, близкое к 1 (его максимальное значение).
Но если сравнивать кошек с плюшевыми мишками, то, хотя они и похожи в плане милости, они различаются по биологическим признакам:

Если сравнивать кошек с плюшевыми мишками, то, хотя они и похожи по милости, они различаются по биологическим признакам: кошка — это полностью биологическое существо, а плюшевый мишка — существо с нулевым показателем.
Это раздвигает их стрелки. Угол между ними увеличивается, а коэффициент косинусного сходства возвращает меньшее значение, отражающее тот факт, что, несмотря на наличие одной общей черты, эти два объекта занимают совершенно разные области нашего пространства.
И, конечно же, если сравнивать кошек с автомобилями, то сходства практически нет, поскольку стрелки, указывающие на них в разных направлениях:

Модели искусственного интеллекта используют такого рода информацию для рекомендации контента, который, вероятно, вызовет у вас аналогичную реакцию. Представьте себе двухмерное пространство, где одна ось отражает ваши чувства от видео (спокойствие, развлечение, возмущение), а другая — его тему. Каждое видео размещается где-то в этом пространстве.
Если вы кликнете на политическое видео, которое вас разозлит, и посмотрите его до конца, платформа зафиксирует оба параметра: тему и эмоциональную реакцию. Используя косинусное сходство, она найдет другие видео, «стрелка» которых указывает в том же направлении (политические видео, провоцирующие гнев), и покажет их вам далее. Чем больше вы взаимодействуете с контентом, тем увереннее алгоритм определяет, какой именно сегмент аудитории заставляет вас продолжать просмотр.
Знакомьтесь, пользователь U92876 (назовем его Джо): спортивный фанат.
Я выбрал пользователя из набора данных MIND, чья история чтения состояла исключительно из спортивных статей, рейтингов команд НФЛ, слухов о трансферах в НБА и запретов в MLB. Он прочитал двадцать пять статей, все о спорте.
Давайте спросим у того, кто дает рекомендации, что им подать:

Распределение по категориям:
- 40% спорта
- 13% новостей
- 13% автомобилей
- 34% рассеяния всего остального.
Алгоритм распознает спортивные увлечения этого человека и предоставляет ему обратную связь, но при этом предлагает достаточно разнообразный контент. Здесь есть политика, развлечения, образ жизни, финансы. Неплохо, правда?
А теперь посмотрите, что произойдет.
Момент любопытства
Я смоделировал нечто гораздо более распространенное, чем масштабное погружение в дебри информации: момент праздного любопытства.
Наш спортивный болельщик не стал часами читать политические статьи. Просматривая свою ленту новостей, он просто кликнул на три пункта, которые привлекли его внимание:
- Новостной сюжет о Джо Байдене.
- Новостной сюжет о Митче Макконнелле.
- Видеоролик о нападках Трампа.
Всего три клика менее чем за десять минут чтения и просмотра. Три крошечные подсказки для алгоритма, и Джо продолжает жить своей жизнью до конца дня.
Теперь, если бы мы пропустили эти клики через написанные ранее 30 строк базового кода на Python, ничего бы существенного не произошло. Математически, 25 кликов по историческим спортивным событиям всё равно перевесили бы 3 новых политических клика. Алгоритм всё равно бы увидел пользователя, который на 89% заинтересован в спорте, и лента практически не изменилась бы.
Но вот в чем заключается очень важный секрет современных социальных сетей: эффект недавности (или эффект затухания во времени).
Реальные алгоритмы не относятся ко всем вашим кликам одинаково: клик, сделанный три года назад, — это практически древняя история, а клик, сделанный три минуты назад, — на вес золота. Чтобы удержать вас в текущей сессии, платформы применяют значительный множитель к вашим недавним действиям.
В алгоритме, который мы рассматривали ранее, это реализуется всего одной строкой кода. Если мы решим, что самые последние клики должны иметь в 100 раз больший вес, чем более старые, мы можем написать что-то подобное:
time_decay_weights = np.array([0.1 if historical_click else 10.0 for click in user_history])
Если мы это сделаем, давайте снова запустим рекомендации:

Вот какой ущерб нанесли нашей системе рекомендаций с учетом временных затрат всего 3 клика:


Политические новости заняли от 13% до 40% ленты. Увеличение в 3 раза. Раньше это происходило за один вечер, когда пользователь просматривал всего три новостные статьи. Спорт (тема, которую этот человек читает годами) мог бы опуститься с доминирующей категории на второе место. Алгоритм не стал задумываться: «Подождите, у этого человека в истории 25 статей о спорте, и один вечер, посвященный политике, его не определяет».
Оно не думает, а просто пересчитывает матрицы сходства с учетом временного фактора, находит новый набор соседей и показывает то, что может понравиться другим пользователям, кликнувшим на эту ссылку.
Сразу бросаются в глаза две вещи:
- Скорость. На полную перестройку ленты пользователя может уйти один вечер. На реальных платформах пересчет происходит быстрее, чем в этой демонстрации, поскольку обновление происходит в режиме реального времени. Вы, вероятно, замечали это в своей ленте с рекламой, связанной с товарами, которые вы искали в последнее время.
- Что исчезает. Речь идёт не только о том, что добавляет алгоритм, но и о том, что он удаляет. Информационный рацион пользователя не просто стал более политизированным, он сузился. И именно сужение — это реальная опасность.
Примечание: реальные платформы не публикуют свои константы распада, поэтому это иллюстративный пример, а не измерение, но механизм реален, и направление имеет значение. Мой пример со 100-кратным увеличением, возможно, преувеличен из-за эффекта недавнего повторения.
Что говорят нам исследования
Теперь вы знаете, как клики влияют на то, что алгоритм покажет вам дальше.
Но ситуация усугубляется — контент, вызывающий у нас гнев, страх или шок, приковывает нас к экрану гораздо сильнее, чем контент, который вызывает у нас положительные эмоции или предоставляет полезную информацию. Компании, владеющие социальными сетями, не создавали это сознательно, их алгоритмы просто это обнаружили.
Масштабное исследование 2025 года, анализирующее данные цифровых следов 25 000 пользователей SmartNews, показало, что у людей есть определенная склонность к «негативному мышлению» при выборе новостей. В эволюционном плане мы запрограммированы обращать внимание на угрозы, избегание опасности было критически важным для выживания наших предков. Что происходит, когда этот древний инстинкт встречается с современным машинным обучением? Исследование подтвердило, что персонализированные рекомендательные ленты берут нашу врожденную склонность к негативному мышлению и активно усиливают её.
Кроме того, данные исследователей, проанализировавших сотни миллионов сообщений на таких платформах, как Facebook и X (ранее Twitter), показывают, что пользователи социальных сетей примерно в 1,91 раза чаще делятся негативными новостными ссылками, чем позитивными. Негатив порождает вирусность, и так рождается замкнутый круг возмущения.
Когнитивные издержки: важно не только то, что вы думаете, но и то, как вы думаете.
Влияние этих алгоритмических циклов заключается не только в типе потребляемого нами контента; оно коренным образом меняет наш мозг. Недавний систематический обзор 2025 года, проанализировавший 71 исследование и 98 299 участников, использовавших короткие видеоролики (такие как TikTok, Instagram Reels и YouTube Shorts), выявил серьезные когнитивные последствия.
Повышенное вовлечение в использование этих платформ с бесконечной прокруткой связано с ухудшением когнитивных показателей, в частности, с ухудшением устойчивого внимания и тормозного контроля.
Психологи указывают на двойной процесс привыкания и сенсибилизации для объяснения этого явления. Быстрый, высокоинтенсивный характер коротких видеороликов снижает нашу чувствительность к более медленным и требующим усилий задачам, таким как чтение книги или глубокое решение проблем. В то же время, мгновенная доставка алгоритмом отобранного контента повышает чувствительность системы вознаграждения нашего мозга, укрепляя импульсивные модели поведения и поощряя привычное стремление к мгновенному удовлетворению.
Активные пользователи этих платформ демонстрируют снижение электрофизиологической активности во время выполнения задач, требующих внимания. Некоторые исследователи даже указывают на структурные различия в ключевых областях когнитивного контроля, включая префронтальную кору и стриатальные цепи вознаграждения, связанные с постоянным воздействием высокоэффективных алгоритмических стимулов.
Социальные издержки
Благодаря математическим матрицам, каждый из нас находится в своем собственном, персонализированном информационном пузыре.
В краткосрочной перспективе это раздражает большинство людей. Но если посмотреть на ситуацию шире, картина становится мрачнее. Когда алгоритмы подсовывают нам контент, подтверждающий наши уже существующие убеждения, мы испытываем усиленную предвзятость подтверждения.
Эти информационные пузыри усугубляют существующий сегодня социальный раскол. Мы будем и дальше оставаться крайне разобщенными, и конца этой пропасти не видно.
Дезинформация процветает в замкнутых кругах, потому что ложные истории не подвергаются проверке за пределами этого замкнутого круга. К тому времени, как появляется проверка фактов, первоначальная ложь уже успела обойти всю платформу и собрать небольшую армию сторонников.
А демократия, которая зависит от общего понимания реальности и готовности к публичным дискуссиям, страдает, когда граждане живут в совершенно разных «пузырях» реальности.
Восстановление вашей ленты новостей
Вы здесь не бессильны. Алгоритм реагирует на действия пользователя, но есть пара вещей, которые вы можете сделать, и хотя они могут раздражать, они могут вывести вас из вашей зоны комфорта.
Тот же механизм, который помог вам создать свой пузырь, можно использовать и для его расширения. Вот несколько практических советов:
- Разнообразьте источники информации. Активно следите за несколькими источниками, выходящими за рамки вашей зоны комфорта. Если вы придерживаетесь одних политических взглядов, следите за мнениями авторитетных экспертов с противоположной стороны.
- Периодически сбрасывайте настройки. Очистите историю просмотров. Используйте кнопку «Не интересно» для предложений, которые вас постоянно раздражают. Попробуйте использовать платформу, не авторизовавшись или в режиме инкогнито, и заметьте, насколько по-другому выглядит мир без ваших данных.
- Используйте хронологический порядок отображения публикаций. Большинство платформ по-прежнему позволяют отключить алгоритмический ранжирование и видеть только посты от людей, на которых вы подписаны, в правильном порядке.
- Прежде чем делиться, подумайте. Каждый лайк, комментарий и репост — это голос за «побольше такого, пожалуйста». Если что-то вас взбесило, именно тогда алгоритм, скорее всего, начнет вас использовать в своих целях.
- Ограничьте время. Установите лимиты на время, проведенное за экраном. Запланируйте время, когда вы не в сети. Чем меньше вы зависите от ленты новостей в плане получения информации, тем меньше она влияет на ваши убеждения.
За пределами пузыря
Надеюсь, эта статья в блоге прояснила вам принцип работы этих рекомендательных систем. Мы создали систему рекомендаций на основе реальных новостных данных, и всего три клика позволили спортивному болельщику переключить ленту с 40% спортивных новостей на 53% политических.
Первый шаг к освобождению — это просто осознанность. В следующий раз, когда вы окажетесь в водовороте онлайн-ажиотажа, сделайте глубокий вдох и спросите себя: почему я это вижу? Кому выгодно, что я так реагирую? Ответ обычно сводится к алгоритму, выполняющему свою работу, и эта работа редко заключается в «информировании вас».
Будьте в курсе событий, сохраняйте непредвзятость.
— Иво
Иво Бернардо. Все работы Иво Бернардо.
Источник: towardsdatascience.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.