推荐算法的“前世今生”

  • 时间:
  • 浏览:0

声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),授权站长之家转载发布。

算法派发是未来之物,它是信息过载时代智能派发的产物;算法派发或也终将成为过去之物,机会下一代技术的发展永远不能突破当代人的想象,就像宋朝人无法想象移动互联网。

作者| 童淑婷  字节跳动平台责任研究中心研究员

算法派发、编辑派发、社交派发……在信息时代,朋友常常讨论信息派发大大问题,相关概念也成为大热名词。

但事实上,信息资源总爱在人类的进化和发展中地处着重要位置。社交派发是最古老的派发最好的法律法律依据,编辑派发也比朋友想象得更早。

而当朋友把算法派发置于人类社会信息派发的历史长河中,便能清楚地看完它的“前”与“后”——从这俩深度图来看,新鲜的算法推荐,觉得这俩我新鲜。

亘古的信息派发大大问题

信息派发,是还有一个 多多多亘古大大问题。

不妨从还有一个 多多多有趣的联想始于:在人类文明早期,群居的祖先们依靠派发和狩猎生存。机会狩猎是还有一个 多多多非常危险的技术活,朋友都要交流狩猎作战的信息和经验,来提高成功率。

比如,猎物出显时用哪些信号召集同伴?从哪些位置伏击猛兽效果更好?朋友通过手势和发声,把哪些重要信息派发给同伴——这便是“社交派发”,人类社会最原始的信息派发最好的法律法律依据。

“知”(甲骨文):

 甲骨文的“知”就表示谈论和传授行猎、作战的经验。

社交派发的意思是基于社交关系的直接和自然的派发。《人类简史》用“八卦”来描述这俩信息交流,指出八卦对人类进化的重要作用。

另一种自古全是的信息派发形式,则是编辑派发。觉得英文“edit”一词的出显和报纸相关,可这俩派发形式早已有之。

在口传时代,由古希腊盲诗人荷马搜集、派发而成的“荷马史诗”(《伊利亚特》和《奥德赛》)这俩我典型例子。汉语将“编辑”解释为“派发资料,派发成书”。去其形,取其义,这俩信息派发的根本结构是:信息经过派发后派发至接受者,有加工和把关的意涵。

无论社交派发,还是编辑派发,它们都机会历史悠久。这俩我承载哪些派发最好的法律法律依据的具体媒介在不断更新和变化,也给哪些派发最好的法律法律依据带来了新的机会。

比如,互联网通过对社交关系的限制(地域、血缘等)突破,在一种程度上实现了跨区域的社交联结,也让社交派发的范围从家庭、线下社区,转向更广的兴趣群体。

进入互联网时代,科学家和工程师全是努力处置信息过载环境下的派发大大问题,早期一种代表性的处置方案是分类目录和搜索引擎——前者,通过人工编辑把知名网站分门别类,让用户根据类别来查找网站,典型如雅虎、Hao123 等;后者,让用户通过搜索关键词找到所需信息,处置了分类目录的有限覆盖大大问题,典型如谷歌、百度等。

实际上,这俩种处置方案的思路从不新鲜,很大程度上不能分别对应图书馆的分类馆藏和百科全书的条目索引。

纵观整个历史长河,朋友太难发现:信息环境是变化的,处置方案是具体的,但信息派发的需求和最好的法律法律依据却是相通的。它们全是回答还有一个 多多多大大问题——怎么才能 才能 有效地连接人和信息。

推荐算法:熟悉的新朋友 

算法派发的出显和普遍应用,是因为人类始于运用机器大规模地处置信息派发大大问题,人类社会信息派发的动力从人力转向了要素自动化——从“人找信息”,到“信息找人”。

站在人类社会信息派发的长河中看,算法派发觉得是还有一个 多多多新鲜事物,但它的使命和根基却是熟悉的。从这俩切口去思考,太难回答为哪些这俩时代诞生了推荐算法:

第一,新的信息环境和人类的信息需求动力,呼唤一种新的信息派发处置方案。

面对信息过载的环境和碎片化的信息消费场景,怎么才能 才能 从大量信息中找到被委托人感兴趣的信息,是一件非常困难的事情。作为重要工具的搜索引擎,不能要素满足朋友的需求,但最适用于需求明确的场景。机会用户无法准确描述被委托人的信息搜索需求,甚至对被委托人的需求全是充分了解呢?

这是因为,朋友都要还有一个 多多多不能主动根据朋友的兴趣和需求来派发信息的方案。早在 1995 年出版的《数字化生存》(Being Digital)中,尼古拉·尼葛洛庞帝便提出“我的日报”(The Daily Me),认为在线新闻将使受众主动挑选被委托人感兴趣的内容,预言未来信息的被委托人化。

在当时,这俩设想机会被认为是“白日做梦”。机会个体之间自然有差异,而为了社会的总体深度图,朋友总爱尽机会寻找信息的“公约数”。

随着技术的发展,推荐系统的出显给人类的信息派发带来了一种机会:朋友不想每次都提供明确的需求,这俩我通过为不同个体的信息需求建模,从而主动推荐不能满足朋友兴趣和需求的信息。

第二,信息技术的发展,为个性化推荐系统的出显提供了物质条件。

一方面,移动互联网发展,每被委托人全是还有一个 多多多终端,这使得信息的派发不能低成本定位到不同的个体用户。

被委托人面,AI技术的成熟是什么是什么是什么期期是什么是什么 和硬件资源的进化,为个性化推荐提供了技术实现路径:机器学习模型的应用,深度图学习的快速发展等,提供了有力的算法工具;而大规模分布式机器学习框架的出显、GPU对深度图学习的加速能力得到普遍验证、专用深度图学习芯片的出显(TPU、寒武纪),又提供了另一层保障。

1994 年美国明尼苏达大学GroupLens研究组推出第还有一个 多多多自动化推荐系统 GroupLens(1),提出了将协同过滤作为推荐系统的重要技术,也是最早的自动化协同过滤推荐系统之一。

1998 年亚马逊(Amazon.com)上线了基于物品的协同过滤算法,将推荐系统推向服务千万级用户和处置百万级商品的规模,不能产生质量良好的推荐。

806 年 10 月,北美在线视频服务提供商 Netflix 始于举办著名的Netflix Prize推荐系统比赛。参赛者如能将其推荐算法的预测准确度提升10%,可获得 80 万美元奖金。参赛的研究人员提出了若干推荐算法,大大提高推荐准确度,极大地推动了推荐系统的发展。

2016 年,YouTube发表论文(2),将深度图神经网络应用推荐系统中,实现了从大规模可选的推荐内容中找到最有机会的推荐结果。

自第还有一个 多多多推荐系统诞生,至今已有二十多年。现在,算法推荐的思路和应用,机会深入到这俩互联网应用中。

比如,内容派发平台的个性化阅读(今日头条、抖音等)、搜索引擎的结果排序(谷歌、百度等)、电商的个性化推荐(亚马逊、淘宝等)、音视频网站的内容推荐(如Netflix、YouTube等)、社交网站的(Facebook、微博、豆瓣等),等等。

根据第三方监测机构“易观”发布的《 2016 中国移动资讯信息派发市场研究专题报告》: 2016 年,在资讯信息派发市场上,算法推送的内容将超过80%。到今年,这俩比重想必更大。

如今,朋友探讨算法派发的价值,最常提到的是提高了信息派发的深度图,它表现在:解放了要素人力,同去突破了人力对信息派发造成的限制,实现长尾内容的有效派发,从而更高效地完成人和信息的匹配。

然而,还有一层意义较大量多人触及:通过算法实现的个性化推荐,真正关注和理解个体。每还有一个 多多多个体全是还有一个 多多多意义不同的“终端”,而全是永远将个体置于群体中去总体理解。也即尼葛洛庞帝所言的“在数字化生存的情形下,我这俩我‘我’,不再是人口统计学中的还有一个 多多多‘子集’。”——这也是“personal”(个性化)中“person”的意涵所在。

人性转过身,算法有更多机会 

算法为人智能地匹配信息,但它推荐的最好的法律法律依据还是在于人。

即便推荐算法发展得更加成熟是什么是什么是什么期期是什么是什么 ,朋友在和算法的日常相处中,也难免会有这俩困惑:有时,希望算法再“聪明”、更理解被委托人这俩;有时,从你会老关注被委托人感兴趣的内容,也看完看公共热点;还有时,会猜想被委托人除了哪些需求之外,会不想全是这俩的潜在兴趣?……

今天,对内容推荐的批评声音中,包括让视野窄化、信息低俗化、人的边缘化等——哪些声音从根本上折射出人类永恒关注的大大问题:信息的深度图和深度图,以及人的主体性。面对哪些追问,他说转而用一种整体的和发展的视角,更不不利于朋友去理解大大问题。

首先,算法推荐是重要的,但它从不完正。人类有多种信息需求场景,不同的信息派发最好的法律法律依据和工具在互相配合来满足用户的需求。哪些派发最好的法律法律依据的具体工具,或许在不同阶段此消彼长,但本质上并没有完正取代对方。

举个简单的例子:假设还有一个 多多多初级电影爱好者想在周末看一部电影,会有几种机会?机会他今天看完库布里克的作品,他机会直接打开搜索框,搜索“库布里克”导演,看看他导演的作品还哪些被委托人没看完;机会他被委托人没有特定的想法,便机会打开个性化推荐的APP,在熟悉被委托人喜好的信息流中,刷一刷看有没有感兴趣的电影;当然,机会他运气好,微信加了还有一个 多多多电影发烧友,就是能直接请对方推荐几部。

从这俩例子中,不能看完:搜索引擎满足了用户有明确目的时的主动查找需求;而推荐系统不能在用户没有明确目的的之后,帮助朋友发现感兴趣的新内容——从这俩意义上看,“推荐”和“搜索”实际上是满足朋友不同需求的还有一个 多多多互补的工具。

当个性化推荐应用发展越快的之后,朋友机会会不由自主地假设它地处被委托人的完正信息场景;然而,在现实情形里,还有一个 多多多人在日常生活中接触信息的渠道,远比朋友想象得要更加丰沛 —— 2016 年Seth Flaxman等学者进行的一项实验,也证明了这俩结论(3)。

该研究请 5 万名参与者,自主报告被委托人最近获取信息的新闻媒体来源,同去通过电子手段直接监测和记录朋友的实际新闻消费行为,包括网页浏览历史等。两项数据的对比后,研究最终发现朋友实际的媒体消费比朋友所想象的更具有多样性。

再者,从根本上来说,算法是运用智能来处置信息派发大大问题的思路,而非还有一个 多多多绝对的和定型的操作手段,它一种也在不断发展。算法与编辑、社交从不对立,将三者有机结合不能帮助实现更有效的信息匹配。

《内容算法》一书中,作者把算法虚实结合 为“是个筐,哪些都能往装在”:算法是基于朋友对现实世界的理解进行的抽象和建模,所有朋友关心的因素(编辑派发、社交派发)都不能转化为算法推荐的参考因素。

实际应用的推荐系统通常全是使用多种推荐算法,来提高推荐系统的个性化、多样性、健壮性(即鲁棒性)。比如:运用基于内容的推荐算法,处置用户和内容的冷启动大大问题;在拥有了一定的用户行为数据后,根据业务场景的都要综合使用基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、矩阵分解或这俩推荐算法进行离线计算和模型训练,并综合考虑用户的社交网络数据、时间相关和地理数据等进行推荐。

与此同去,人工编辑也在关键的之后发挥作用。比如在今日头条平台,由人工审核和机器算法同去对内容进行把关。还有一个 多多多拥有良好推荐机制和规则的平台,不不利于力高质量内容的传播,从而不利于内容生态的发展。新技术环境中,专业内容生产和编辑团队的价值不仅不想褪色,全是没有重要。

最后,从朋友围绕算法派发的探讨中,不能看完朋友面对信息时的两对永恒需求——被委托人向和公共向、已知的和未知的。人类永远希望二者不能达到动态的平衡,而这俩平衡点又往往因人而异。这给算法的发展和完善提供了动力,也带来了大大问题。

对于个体来说,还有一个 多多多趋于理想态的信息生态,机会都要具备社会性、群体性、个体性,兼顾信息的深度图和深度图——这俩大大问题,算法不能处置,也正在尝试处置;但这俩大大问题,机会人类被委托人也无法很好地解题,最终还是要不断回归到人性一种。信息派发技术发展和完善的转过身动力,还是在于人,在于人对信息派发理想模式的永恒追寻。在这过程中,人始终具有其独特的价值和能动性,坚守“技术为人”。

结尾

算法派发是未来之物,它是信息过载时代智能派发的产物;算法派发或也终将成为过去之物,机会下一代技术的发展永远不能突破当代人的想象,就像宋朝人无法想象移动互联网。但无论怎么才能 才能 ,人类追寻信息的脚步是不想停止的,这俩追寻这俩我信息派发长河奔流的动力。

追问了推荐算法的“前世”与“今生”,没有在技术发展的未来,算法的“来世”会是怎么才能 才能 ?