您的位置 首页 ADAS

人工智能事例剖析:Quora 选用的机器学习使用与技能

Quora 比较注重使用最新的算法,并对现有方法做出重大改进。并且这些改进都是首先在线下运用多种不同的离线测试法进行优化和测试后,最终都通过在线 A

【第一类机器学习技能:排名算法】

排名能够说是网上最重要的机器学习运用之一了。大大小小的公司都围绕着排名树立起事务模型,例如,查询字符串回来的成果。Quora 在不同的环境、为了不同的意图,运用了不同的排名算法。一个风趣的比方便是答案排名。假定一个问题有好几个答案,咱们感兴趣的是,怎么对它们降序摆放,使得“最佳”答案在最前,而最差答案在终究。确认一个问题答案的正确排序触及到多种特征。要确认次序,首要咱们要确认Quora怎么界说“好答案”。要得出这个界说,有个好办法是研究一下《Quora以为什么样的答案是有用的》这篇帖子,里面会说到答案要“实在”、“可重用”、“给出解说”、“格局杰出”等等规范。咱们的机器学习算法完成了一种特别的机器学习排名办法,运用了多种特征,企图将与上述抽象概念相关联的多个维度进行编码。例如,咱们运用了描绘写作质量信息的特征,也运用了描绘该答案收到的互动状况的特征(如赞、踩以及打开数量)。咱们还运用了与答案作者相关的特征,比方,他在问题范畴的专业性。在Quora,还有许多其他的排名运用,有些乃至不为人发觉。例如,关于一个答案点赞的用户名也是排序后显现的,意图是要将咱们以为关于该问题/答案最有才智的用户排在最前。相同,关于特定问题显现或许的答复者时,那些引荐的用户也是排过序的。让咱们来细心看看机器学习排名算法的两个特例:查找以及个性化排名。【机器学习排名算法特例一:查找算法】关于Quora这样的运用,查找算法能够被视为排名的另一个运用。实际上,查找能够分化为两个过程:文字匹配和排名。第一步,以某种办法回来与查找框输入的查询字符串匹配的文档(问题)。然后,这些文档作为第二步的候选问题,进行排名,以使点击概率等方面得到优化。第二步中许多的特征能够运用,它确实是另一个机器学习排名算法的比方。包含已在开始文字匹配阶段运用过的简略文字特征,以及其它与用户行为相关的特征,或是如盛行度等方针特点。【机器学习排名算法特例一:个性化排名】在如上文描绘的一些场景中,或许一个对一切用户的大局最优排名就够用了。换句话说,咱们能够假定,关于给定问题,最“有协助”答案的排序关于阅览答案的用户来说是独立的。但是,这一假定在许多重要场合并不树立。场合之一便是Quora Feed,从根本上说它是恣意登入这一产品的用户都可见的主页。在这个主页上,咱们企图为特定的用户在特定的时刻选择最“风趣”的故事,并进行排名(见下例)。这便是一个典型的机器学习个性化排名,与Netflix主页对电影和电视剧进行排名类似。而Quora的用例比Netflix电影电视剧排名更具挑战性。事实上,咱们的用例能够看作是Netflix、Facebook以及Google News优化个性化排名的结合体。一方面,咱们要确保排名靠前的故事在主题上与用户相关。另一方面,Quora与用户之间也有清晰的联系。你在“交际网络”上的行为也应当对排名有所影响。再次,Quora上的故事有时或许与正在进行的潮流工作相关联。及时性是另一个应当影响模型决议方案的要素,来决议一个故事的排名应当提高仍是下降。正因如此,Quora的个性化排名触及到各种不同的特征。下面列出若干:1、问题/答案的质量;2、用户感兴趣的主题;3、该用户重视的其他用户;4、抢手工作 … 其实,请有必要记住,在Quora咱们不只对怎么招引用户来阅览风趣的内容感兴趣,也对将问题提交给能写出风趣内容的用户感兴趣。因而,咱们有必要将触及答案趣味性的特征以及针对问题的特征都归入。为了得到这些特征,咱们运用从用户、作者以及方针(如答案/问题)行为推导出的信息。这些行为都被考虑在内并累计在不同的时刻窗口内,并提供应排名算法。实际上,能够得到许多不同的特征来参加咱们的个性化推送模型,而且咱们一向测验参加更多的特征。关于咱们的 Feed 排名运用,另一个重要的考虑是咱们需求能对用户的行为、观感,乃至是抢手工作做出咱们数以百万的问题和答案还在不断增加,因而咱们不能企图为每一个用户进行实时排名。为了优化体会,咱们完成了一个多段式排名解决方案,其间提早就对候选者进行选择和排序,之后真实履行终究的排名。

【第二类机器学习技能:引荐算法】

上述的个性化排名现已是引荐的一种方法了。类似的办法用在不同的事例中。例如,广受欢迎的 Quora 邮件精选包含了一系列为你选择并引荐的故事。这是一个不同的机器学习排名模型,根据不同的方针函数进行优化。除了排名算法,咱们在产品的各个不同部分有其它的个性化引荐算法。例如,在好几处当地,你都能够看到人物或主题的引荐。【引荐的根据:相关问题】另一个引荐的源由是为了给用户展现与当时问题有某种联系的其他问题。相关问题由另一个机器学习模型来确认的,它考虑多种不同特征,例如,文字类似性、同享数据(co-visit data),或是如主题等相同的特征。与盛行度、或是问题质量相关的特征也要考虑。有必要指出,一个好的“类似问题”引荐,不只是一个条目与源问题有多类似,还包含方针问题的“趣味性”。实际上,关于任何一个“相关条目”机器学习模型,最费事的问题是在类似性和其它关联性要素间进行权衡。相关问题这个模型关于招引登出用户从外部查找中拜访问题页面特别有用。这也是为何至今这一引荐模型并未个性化的原因之一。【引荐的极点状况:重复问题】重复问题是上述相关问题的极点状况。关于Quora而言,这是一个难题,由于咱们要确保用户答复一个特定问题的精力会被共享,而且被会集到正确的当地。相同,有必要为想要在网站上发问的用户指出已有的答案。所以,咱们花费了许多精力来检测重复问题,特别是在建议问题的阶段。咱们现有的解决方案是根据运用重复/非重复标签练习的二元分类器。咱们运用多种信号量,包含从文本向量空间模型到根据运用量的特征。

【第三类机器学习技能:用户可信度/专业性揣度】

在Quora这样的运用里,把握用户的可信度是十分重要的工作。实际上,咱们并不只是完大局限于答复问题自身,还对其与相关主题的关联性感兴趣。某一用户或许关于某些主题常识广博,但关于其它范畴就不必定了。Quora运用机器学习技能来揣度用户的专业性。咱们不只了解用户关于给定主题写了什么答案,也知道这些答案得到了多少赞、多少踩,以及什么样的谈论。咱们还知道这个用户在这个范畴得到了多少“引荐”。引荐(Endorsements)是从其他用户视点关于或人专业性十分清晰的认可。别的还有件要事要记住,可信度/专业性经过网络传达,这也需求被算法考虑。例如,假如一位机器学习专家对我在机器学习范畴的答复给出一个赞,它的重量应该超越该范畴非专家的随机用户给出的赞。这也相同适用于引荐以及其它用户间特征。

【第四类机器学习技能:废物信息检测与控制(Moderation)】

像Quora这样以坚持内容高质量为傲的网站,有必要对运用废物、歹意或十分低质量的内容捉弄体系的行为十分警觉。朴实的人工审理形式无法扩展。而问题的解决之道,正如你猜想的那样,是运用机器学习模型来检测这些问题。Quora有好些个模型来检测内容质量相关的问题。这些分类器的输出大部分状况下不会直接用作决议方案,而是将这些问题/答案提供应控制行列,然后进行人工审理。

【第五类机器学习技能:内容创立的猜测】

对 Quora 来说,有一点十分重要,要记住:咱们对体系许多部分进行优化,不只是为了招引读者,也是为了产出最好的质量、最受欢迎的内容。因而,咱们有一个机器学习模型来猜测某一用户编撰某一问题答案的或许性。这使得咱们的体系能用多种办法给予这些问题优先权。其间之一便是体系的主动 A2A(Ask to Answer)问题经过提示发送给潜在的答复者。上述其它的排名体系也运用这个模型来猜测概率。

【核心技能方案:树立有用灵敏的模型】

Quora关于前文所述不同的事例测验过许多不同的模型。有时,咱们运用开源完成,但更多时分咱们终究完成了更有用、更灵敏的内部版别。我不会评论模型的细节,但会列出咱们体系运用的模型:1、逻辑回归;2、弹性网络;3、梯度增强决议方案树;4、随机森林;5、神经网络;6、LambdaMART;7、矩阵分化;8、向量模型以及其它自然语言处理技能投入

综上所述,Quora运用机器学习的办法多种多样。咱们运用这些机器学习办法现已取得了十分严重的收益,咱们深信未来还会有更多收益,而且咱们关于新技能还会继续投入。别的,在不久的将来还有激动人心的机器学习新运用,咱们现已有所考虑了。这些新运用包含广告排名、机器翻译以及其它自然语言处理范畴,这些都将直接成为咱们方案立刻增加的产品新特征。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/qiche/adas/147243.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部