极端实验:推荐算法如何探寻我们的兴趣边界?

  • 时间:
  • 浏览:23
  • 来源:3分彩-3分快3平台_5分11选5网投平台

声明:本文来自于微信公众号 另另有几个多胖子的世界(ID:we_the_people),作者:柳胖胖,授权站长之家转载发布。

算法到底让他们的信息环境更闭塞,还是更多元?机器让推荐和送达更容易了,但他们比以前懂了更多吗?你是什么 世界有某种否是是就像是一套算法,只提供我就都要的东西,这套算法有某种否是是也在进化?

新闻实验室的方可成老师在系统性地阅读了近年来发表在国外一流学术期刊上的研究后发现:使用社交媒体和算法推荐App的人,并没得明显出先视野变窄的问题图片,大多数人阅读的内容依然有相当的多样性。

“研究者们挑选了 21 个月的数据。他们将用户分为两组,一组是根据算法推荐挑选电影观看的,叫做“跟随组”;另一组是不理会算法推荐的电影,叫做“不理会组”。他们发现:算法向“跟随组”推荐的电影,老要要比向“不理会组”推荐的电影更加多元化。也全都说,根据算法的推荐挑选电影,何如会让进行打分,人太好会让算法更好地学习到你的喜好,何如会让我就推荐更多样的片子;而不可能 不根据算法的推荐来看电影和打分,反而会让算法我就推荐更窄的片子。也全都说,在不使用算法推荐的清况 下,用户的视野反而变窄得快一点 。”

学术的研究结果当然值得参考,不过,不可能 是针对另另有几个多非常极端的内容消费用户,推荐算法又会带给他那此呢?基于另另有几个多严谨的产品工作者的好奇心和动手欲,以及对那此问题图片的困惑,我买了另另有几个多新手机号,找了一台没得装过今日头条的廉价安卓测试机,现在结束我的“反人类”探索之旅。

我的思路合适是那我的:在今日头条上只关注另另有几个多从体量上来说极其小众的内容领域,逐步成为它的资深内容消费者,何如会让观察在你是什么 过程中,头条会何如投喂我在你是什么 兴趣领域的偏好,以及最重要的,最终头条否是是会用你是什么 领域的内容详细淹没我,我就不到就看你是什么 领域的内容。

在第一次打开头条的以前,我是另另有几个多空白未登录的清况 ,还没得任何操作行为或关注任何账号,头条推荐页给我的内容也是比较随机的,相对以社会新闻和热点内容为主,你是什么 类内容随机分布各根小。

全都,我先注册登录了一下,何如会让在推荐内容的“更多”里,我忽略了头条置顶给我推荐的娱乐,健康,科技,体育和历史五大分类,全都直接把列表拉到了最下方,关注了最小众的“收藏”领域。

共同,我还一次性关注了头条推荐的 20 个收藏类的内容创作账号。收藏你是什么 品类,主要蕴藏的全都文物和古玩类的内容,包括诸如字画、钱币和邮票等等类似的都算,而我各人 所有对你是什么 领域基本属于一无所知的清况 。

关注完 20 人后,我还做了一件事,全都把收藏标签移到了最靠近推荐标签的位置,那我内容阅读起来最方便,理论上,这也应该增强了系统判断给我推荐收藏类内容的权重。

今日头条App里默认进入的推荐页,前三位一般被国家重要新闻给发生了, 2 条是默认置顶, 1 条是人民网那我的官媒发布的热点新闻,从位置上来说,从第四条现在结束才否是经过算法推荐展现我就看的内容。

在第一次的刷新中,头条似乎还没得给我打上很强的"收藏爱好者“的标签,整个前 10 条就根小和收藏相关的,剩下 9 条里,除了两条社会新闻两条娱乐新闻,其它五类内容各根小。

在我第二次的刷新中,结果依然差不不 ,收藏不到根小,社会娱乐两条,其它随机的五类内容(与第一次的不同)各根小。

第三遍还是没得。

我判断头条并不一定不可能 我全都关注了一堆收藏类账号,就判断我只对收藏类的内容感兴趣了,不可能 我每次全都在推荐流里刷下来看标题,还没得跟任何的收藏文章之间产生互动(转评赞),也没得和你是什么 类的内容有过互动,全都我的推荐流里老要保持了那我的比例:10%的收藏类内容+不断更换的其它类内容。

不过人太好内容流里收藏内容不不 ,何如会让在“他们也在用头条的”横向推人的流里,出先了没得另另有几个多清况 ,左右滑动的区域内一共都要显示 10 个账号,其蕴藏 9 个是收藏类账号。

从这里也都要看出,对于荐人和荐内容,头条不可能 是采用分开的两套策略我猜测,账号推荐上,头条希望快速收拢以获取你的关注关系,增强它App内部管理的连接,全都直接我就推不可能 关注过的类似账号,但内容推荐上,头条都要你进一步有更多反馈数据后,才会逐步让某一类内容更多发生你的推荐流。

于是从新的一次下拉刷新现在结束,我做了没得一件事:对头条在推荐流里给我的根小小收藏类内容,都点击进入文章,慢慢再慢慢地下拉到底部(当然我另另有几个多字也没看进去),何如会让点赞,点收藏,评论(一般就有几个字:真棒,好喜欢,不错,类似的)。

合适从第五次刷新现在结束,收藏类内容的比例终于现在结束变多(我为那此要说终于),共同,推荐流里出先我未关注的收藏类账号发的内容,我会在内容互动后共同关注作者。

合适从第 8 次现在结束,收藏类内容达到了60 %的比例,而共同推荐流里还现在结束出先人文和历史类的内容。

我判断这两类内容会出先,是基于算法的“协同过滤”,不可能 想精通收藏的领域头上都要非常了解文化和历史类的知识,那我才促进判断各种文物和古玩的价值,全都另另有几个多“收藏爱好者”必然也得看文化和历史的内容。

(解释一下:常见的协同过滤算法有有某种,有某种是基于用户的(user-based),也即计算用户之间的类似性,不可能 A和B的兴趣相近,没得A喜欢的电影,B也很有不可能 喜欢。另有某种是基于物品的(item-based),也即计算物品之间的类似性,不可能 电影C和电影D很类似,没得喜欢电影C的人,不可能 也会喜欢电影D。)

这里都要看出,尽管收藏类内容没得小众,但头条的算法依然找到了一批和我类似的“收藏爱好者”,并把他们同样爱看的“人文和历史”内容推到了我的头上(尽管比例还很小,各根小)。

(不过人太好关注了收藏的人,很合适率会关注文化和历史类的内容,但反之貌似合适率并不一定,文化和历史爱好者并不一定对古玩钱币那此的有兴趣。何如会让对于头条的机器算法来说,更好的推荐策略肯定是,给另另有几个多对文化和历史有兴趣标签的用户在推荐流里偶尔夹杂根小收藏类内容,视乎其反馈来决定否是是推荐更多。头条算法架构师曹欢欢曾表示:“他们会留一每种比例流量,探索用户的兴趣,比如每几刷,或有一刷的位置全都探索用户的兴趣,推荐你是什么 模型不确认用户是之前 感兴趣,何如会让模型想探索一下,会有你是什么 那我的流量。”)

说回我的实验,我在刷新后“对每条收藏类内容给予重度反馈何如会让忽略其它一切内容”的行为快一点 获得了算法的高度重视,收藏类内容从比例来看快速升高,最多的以前达到了每 10 条里有 6 条收藏强相关的内容,合适1- 2 条人文不可能 历史的内容,剩下 2 条还是社会热点和娱乐新闻。

何如会让一般在前三条里,必有根小是直接关注账号发的收藏内容,剩下两条不可能 是相关人文历史领域的内容不可能 还未关注的账号发的收藏类内容。

最后,我把你是什么 “极端收藏爱好者”的身份坚持了两周左右,每天重复十有几个到数十次不等的刷新,何如会让只对收藏类内容进行点击阅读、评论、点赞、收藏和关注。

不过,最终头条给我的推荐比例却没得继续增加,前 10 条里,除了广告比例提高(不可能 是人太好老用户更能忍?),最多的以前还是5- 6 条收藏类相关内容,少的以前2- 4 条。其中,必有 2 条以上是收藏类强相关的内容(直接探讨收藏物有某种),1- 2 两条收藏弱相关的文章(或我关注的收藏领域账号发布的其它领域内容),以及1- 2 条文化和历史强相关内容,而剩下还有4- 6 条则之前 非收藏相关的内容。

看起来,推荐算法并不一定会出先 10 条里 9 条之前 收藏类内容的清况 。经过你是什么 十分极端(真实用户不不可能 只在新闻资讯App里盯着收藏内容不放)但人太好并不一定麻烦的实验以前,我整体的感受有以下几点:

1、推荐算法在做的并之前 以某根小内容去压中你的兴趣,全都以“组”为单位(10- 20 条)来测试你(身份标签)、你不可能 会喜欢的内容(兴趣标签)和你当下的清况 (环境标签),命不命中是另另有几个多概率游戏;不可能 要条条命中、甚至单条命中人太好很困难,但以组为单位去看压中过(1- 2 条)的概率,很有不可能 在90%以上。

2、全都纯以兴趣推荐为基础的产品,最难的是用户前三次使用的以前,不可能 流失率很高、印象很差,上面基于用户在内容消费上的需求和行为为基础,使用合适率会没得顺。

3、资讯推荐类平台没不可能 最终只提供特定某一类内容我就看,不可能 这本质并不一定促进它各人 所有的日活和时长,当你的今日头条详细变成“收藏头条”后,也是另另有几个多用户拖累的以前。

4、比如头条架构师曹欢欢曾提到:“聪明算法工程师之前 希望各人 所有的用户兴趣窄化,就像没另另有几个多多商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。商场经理都希望顾客关注尽不可能 多的产品品类,算法工程师也希望用户尽不可能 的拓展各人 所有的兴趣。”

“另另有几个多喜欢鞋子的用户,随后我每次来商场都能快速买到各人 所有喜欢的鞋子,用户的单次消费就很开心,但最终用户会减少来你是什么 商场的消费次数(包括每次来商场逛的“用户时长),除非他又产生了买鞋子的需求。要把用户长期留存下来,就要穿透他的兴趣,拓展他的视野,我就衣服、饮食、看电影那此消费,之前 商场里完成。”

5、要注意的是,传统上他们老要提到的“信息茧房”并之前 有某种理论(theory),全都有某种假设(hypothesis),至今仍未得到数据量化和案例的证明。学术上更常见的是概念是“信息回音室(echo chamber)”和“过滤气泡(filter bubble)”:他们在你是什么 社交和新闻类产品里更容易听到回声和信息被过滤,但这之前 类似茧房的详细束缚,全都代表“另另有几个多人的信息获取不再多元”“意见被单一来源的信息左右”

6、相对算法推荐,过去报纸、杂志和门户网站更有不可能 造成“信息茧房”你是什么 ,不可能 他们的内容本质上是由一群天天泡在共同相互影响的编辑们推荐我就的。而他们圈的信息不可能 是最容易造成“信息茧房”的,前提是你只通过他们来获得资讯和看法,但你是什么 问题图片本质上这随后我到否是“社交偏食”而已,自古以来人总倾向于和各人 所有喜欢的人多打交道和聊天;

7、从认知心理学的高度来说,人类大众老要难以防止的是“确认偏见”(confirmation bias),也即更你要相信各人 所有不可能 认同的内容。

不可能 你只和各人 所有聊得来的人交他们和聊天,且只看各人 所有认同的内容,坚持相当长一段时间后(封闭环境不被打破),没得他还真有不可能 无限接近信息茧房清况 ,只不过你是什么 茧房是有某种作茧自缚。

但你是什么 以前,推荐算法反全都都要帮你进行茧房穿透的武器之一,并对抗不可能 年岁增长而因为的好奇心的衰减。

比如在我作为另另有几个多“极致的收藏爱好者”的数据反馈之下,头条并未给我推的之前 收藏类内容,还是保持了社会热点新闻的比例,何如会让渐渐为我找到了文化和历史内容,并在后期持续测试我的兴趣边界,不断找到了不可能 和我作为另另有几个多“收藏重度爱好者的用户画像”相匹配的内容(对埋点有历史价值的物品、及其相关交易极度感兴趣、合适率是男性、注重传统文化、年龄在估计在 40 岁以上),给我推荐了财经、科学、钓鱼和养生类相关的内容。

8、文初提到的方可成的学术研究里,还说到那我因为解释了他们为那此会对“信息茧房”信以为真,那是不可能 他们的“心口不一”:他们会向研究人员过度报告各人 所有常看的你是什么 媒体(通常是和各人 所有的态度相近的媒体),而没得报告另你是什么 各人 所有也人太好就看的媒体(和各人 所有的意见相反的媒体)。比如你是另另有几个多美国政治自由派,你平常不可能 既看自由派的媒体,也接触到了保守派的媒体,何如会让在向研究人员报告各人 所有的媒体消费清况 时,你只报告了自由派媒体,而隐藏了各人 所有消费的保守派媒体。

他们喜欢宣称和坚持各人 所有的人设,何如会让有时先要正确回忆各人 所有的行为,造成了类似“幸存者偏差“的效应。但整个世界人太好老要在滚滚向着多元化的一面发展,用户和内容在多元化,算法人太好也在多元化。