Не пропустите завтрашние новости индустрии социальных сетей

Опубликовано: 2023-04-01

Как и обещал глава Twitter Илон Маск ранее в этом месяце, сегодня Twitter опубликовал свой код алгоритма рекомендаций на GitHub для всеобщего обозрения, а также опубликовал новый обзор того, как работает его алгоритм рекомендации твитов, дающий новое понимание того, что диктует порядок. в котором отображаются твиты.

Как объяснил Твиттер:

« На GitHub вы найдете два новых репозитория ( main repo , ml repo ), содержащих исходный код многих частей Twitter, включая наш алгоритм рекомендаций, который контролирует твиты, которые вы видите на временной шкале For You. В этом выпуске мы стремились к максимально возможной степени прозрачности, исключая при этом любой код, который может поставить под угрозу безопасность и конфиденциальность пользователей или способность защитить нашу платформу от злоумышленников, в том числе подрывая наши усилия по борьбе с сексуальной эксплуатацией детей и манипулированием ими».

Также важно отметить, что в Твиттере нет информации о взвешивании, связанной с каждым элементом, т. е. о том, какое внимание уделяется каждому фактору при формировании окончательных результатов.

Так что это не все детали, но это дает общее представление о том, как работают алгоритмы Твиттера, в то время как Твиттер также предоставил более непрофессиональное объяснение системы, чтобы помочь людям понять, как она решает, что вы будете видеть на своей временной шкале каждый раз. время, когда вы открываете приложение.

Согласно Твиттеру:

« Основой рекомендаций Twitter является набор основных моделей и функций, которые извлекают скрытую информацию из данных о твитах, пользователях и взаимодействиях. Эти модели призваны ответить на важные вопросы о сети Twitter, например: «Какова вероятность того, что вы будете взаимодействовать с другим пользователем в будущем?» или «Какие есть сообщества в Твиттере и какие в них популярные твиты?»Точные ответы на эти вопросы позволяют Твиттеру предоставлять более релевантные рекомендации.”

Этот последний элемент важен и согласуется с тем, что Райан Бродерик из Garbage Day обнаружил в своих экспериментах по тестированию того, что сейчас набирает обороты благодаря твитам.

Как резюмировал Бродерик:

«Twitter использует невидимые сабреддиты через темы для алгоритмической организации твитов. Поскольку страница «Для вас» больше не является хронологической, вирусные твиты не могут быть такими своевременными, как раньше. Они должны быть вечнозелеными. Это помогает, если они комментируют что-то, что уже становится вирусным. И это действительно помогает, если вы разместите ветку, ответите себе или создадите какое-то обсуждение в ответах. Сейчас также, кажется, больше внимания уделяется видео. ”

Оказывается, Райан был прав — Twitter теперь стремится продвигать больше твитов в ленте «Для вас» на основе тематического взаимодействия, которое Twitter определяет на уровне учетной записи, путем фильтрации определенных учетных записей по категориям тем, а затем используя это в качестве руководства для классификации. вероятная тема каждого из их твитов.

Согласно Твиттеру:

« Одним из самых полезных пространств для встраивания в Twitter является SimClusters . SimClusters обнаруживает сообщества, привязанные к кластеру влиятельных пользователей, используя специальный алгоритм матричной факторизации . Есть 145 тысяч сообществ, которые обновляются каждые три недели. Размер сообществ варьируется от нескольких тысяч пользователей для отдельных групп друзей до сотен миллионов пользователей для новостей или поп-культуры. Чем больше пользователям из сообщества нравится твит, тем больше этот твит будет связан с этим сообществом».

На изображении выше показаны некоторые из крупнейших «сообществ» Твиттера или тематических коллекций, основанных на алгоритмической фильтрации Твиттера.

Твиттер говорит, что этот подход стал ключевым фактором при принятии решения о том, какие твиты «вне сети» вставлять в ленту «Для вас» или какие твиты показывать вам из учетных записей, на которые вы не подписаны. И по мере того, как все больше и больше этих рекомендаций вставляются в пользовательские каналы, это становится более важным фактором воздействия твитов — хотя это скоро снова изменится, когда Твиттер еще больше ограничит рекомендации «Для вас» только твитами от платных аккаунтов подписчиков.

На данный момент можно только догадываться, как это повлияет на работу с Twitter, но это коренным образом изменит ленту «Для вас», по крайней мере, за счет ограничения пула исходных твитов, из которых Twitter может извлечь.

И если знаменитости, в частности, не заплатят или перестанут твитить в результате, это влияние может быть значительным.

Это наиболее важное открытие алгоритмического обзора Twitter, хотя в документацию включено несколько других интересных заметок и моментов:

Для каждого пользовательского сеанса Twitter извлекает около 1500 твитов, которые, по его мнению, потенциально могут представлять интерес для каждого человека, прежде чем ранжировать их в ленте «Для вас».
Хронология For You в настоящее время состоит из 50 % твитов в сети (люди, за которыми вы следите) и 50 % твитов вне сети в среднем.
Twitter также прогнозирует вероятность взаимодействия между двумя пользователями. «Чем выше показатель Real Graph между вами и автором твита, тем больше их твитов мы включим»
Другим фактором являются твиты, с которыми люди, на которых вы подписаны, взаимодействуют — это не откровение, а просто замечание.
Ранжирование твитов проводится с помощью «нейронной сети с параметрами ~ 48 млн, которая постоянно обучается взаимодействию с твитами, чтобы оптимизировать положительное взаимодействие (например, лайки, ретвиты и ответы)». Однако нет примечаний о том, как Twitter определяет положительное или отрицательное взаимодействие в этом контексте.

Это дает некоторый интересный контекст относительно того, как Твиттер будет ранжировать твиты и максимизировать показ в основной ленте «Для вас» — хотя, опять же, это изменится 15 апреля, когда Твиттер собирается переключиться на показ твитов только от платящих пользователей в его рекомендации «Для вас».

Что, в некотором смысле, делает большую часть этого понимания излишним — хотя я думаю, если рабочая теория состоит в том, что в конечном итоге большинство пользователей будут платить, то это может оставаться показательным еще какое-то время.

За исключением того, что они не будут.

Менее 1% пользователей Twitter в настоящее время платят за Twitter Blue, и хотя решение удалить «устаревшие» синие галочки и вернуть процесс ранжирования «Для вас» приведет к некоторому дополнительному поглощению, маловероятно, что Twitter станет синим. важное соображение для подавляющего большинства пользователей Twitter.

Я предполагаю, что еще один фактор, который следует учитывать в этом отношении, заключается в том, что подавляющее большинство твитов исходит от очень небольшого числа пользователей, при этом большинство профилей Twitter редко твитят сами себя. Возможно, тогда Твиттеру нужно лишь небольшое количество пользователей, подписавшихся на Blue, чтобы сделать его более значимым элементом рейтинга твитов. Но по-прежнему маловероятно, что это даст лучшие результаты при выделении наиболее релевантного контента во всем приложении.

Несмотря на это, похоже, что Twitter продвигается вперед, и теперь сторонние разработчики лучше понимают, как работает алгоритм Twitter, что приведет к новому потоку идей и указаний о том, как обыграть систему.

Twitter надеется, что это также поможет ему быстро улучшить свои алгоритмы. Может быть и такое бывает. Нам придется подождать и посмотреть.