时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{数据分析实战|网站(下篇):作者视角}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的数据分析实战|网站(下篇):作者视角内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
一、最后一个问题本篇将解决《数据分析实战|网站》系列的最后一个问题,将从作者关心的角度来分析,一篇文章发表后是否能够变成爆款。 这是由之前的读者变成作者后获得的一些新体会。以前是读者的时候只有看客心态,网络上的文章繁多,随便看看就好。只有那些特别好的可能会转发,可能会收藏,但看完后网页一关就还是与我无关了。 现在作为一名业余的内容创作者,每篇文章从构思准备到下笔完成可能要花半个月以上时间,期间会想象准备什么样的内容能够得到用户喜欢,反复的思考和推敲总结,酝酿写下来的文字否能将思想得到准确传递。 最后当稿子提交审核的时候,将会有更多的牵挂。每天都会上客户端看一看,今天新增了多少阅读和收藏,是不是有读者给我留言了,有没有上热门文章等等。 虽然会有一些困扰,但这种乐趣是和平时做产品、发布产品的心情是一样的。如何让自己的心血能够得到多一点点的回报将是每个作者的心愿,而其中最直接和最具体的表现则是文章的阅读量。 本篇为了能够更快的得出结论,这里再把本篇的问题和目标确定一下: 作为一名作者,投稿的文章是否会在网站(以下简称人人网)上成为爆款? 二、观察和分析1. 从阅读量到爆款其实作者关心的问题最初是有如下几个选择的:
第一种,讨论提高文章的阅读量。你需要将一篇文章用两种不同的写法、在同一个平台、同一个时间分别投稿,也就是AB Test才能得到的结果。做产品可以这样测试,但写文章度不现实。而且讨论起来将会是个相当复杂的过程,甚至可以开一个辅导班。 第二种,讨论文章的阅读是多少是一个回归问题,但对比于第三种来说意义略小,比如预测了一篇文章的阅读量为10000,请问它在人人网上是多还是少?看过上篇的同学可以回答,10000阅读量的文章在人人网上连文章的均值都不到。 第三种,有了以上简单分析,根据前篇的数据分析,将阅读量最多的10%文章定义为爆款即可。这也建立了从阅读量到爆款之间的联系,即设定阅读量在足够多的情况下会成为爆款。 2. 影响阅读量的主要因素这里根据我多年的互联网经验,在各种内容平台上,有以下几个因素会直接影响到一篇文章(内容)的阅读量,当前排名不分先后:
3. 在人人网上的实际情况刚刚讨论的是普遍情况,这里我们需要结合目标网站自身的实际情况做进一步分析。在人人上投稿几次之后,综合长时间在人人网的学习和观察,大约一篇文章的阅读量走势会如下图所示(其中色块的划分代表各因素在不同阶段的影响力大小): 4. 心智模型的建立现实世界非常复杂,影响一篇的文章阅读量的因素,我们还可以有很多的猜想。但我们不是全知全能的神,对任何事物的认知总是有限的。 心智模型则是将这些认知串联起来,以便我们在做判断的时候可以的时候得出结论。越是经验、学识丰富,就会离真相越近,相对的,则会显得愚昧无知。而鬼这样一个凭空出现的事物,则是几千年以来,人类对未知事物感到恐惧所产生的一个集合。 本章节花大篇幅描写的就是这样一个心智模型的构建过程。 回到本文梳理之前的经验与思路,可以建立一篇文章到是否能够爆款的脉络:
这是我目前能够想到的有关因素。也许还不是很精准,甚至有可能错误,但数据分析就是一个不断的假设、验证、得出结论,再修正、再重复的过程。 这样,我们的心智模型和对这个世界的认知才会越来越完善,得出结论和应对新事物时会更得心应手。 但如果大家要是觉得还有什么关键影响因素的也可以在评论中留下自己的看法。 三、机器学习机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。 机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。 当你遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。 回到本文的讨论,文章是否会成为爆款,这是一个比较典型的,分类监督学习,而最近正好也在研究XGBoost算法,可以拿来练手。所以本章节将会按照应用机器学习的开发步骤展开: 第1步,数据收集。获取对建立算法和数据模型有关的数据; 第2步,特征选择。一般原始数据都会有大量的无关项,而筛选的标准则是有助于构建之前建立的心智模型; 第3步,特征工程。指的是将原始数据转换为特征矢量,比如字符串转成数值、残缺数据的补全等; 第4步,训练算法。选择一部分数据,使用合适的机器学习算法推导出特征之间的权重; 第5步,测试算法。之前没有用于训练的数据当做测试数据,代入到推导出来的算法中,计算也推导结果,由推导结果和实际结果进行对比,可以得到我们关系式预测的正确率。当正确率满足要求可以进入到第6步,如果不满足要求则需要进入到第7步; 第6步,修正算法。一般初次结果的正确率都不会太好,可以经过各种优化,包括我们对前面心智模型的都可能会要做修改,修正后需要重新从第1步开始; 第7步,使用算法。如果验证的结果可以满足要求,则可以对新发表的文章进行预测。 1. 数据收集虽然我们有4万多条原始数据,但不是所有的数据都有效的。而且为了能够促进我们得到最后的算法模型,也要做一些适当的取舍。这里我做了两个处理:
文章发表30天以上,是为了保证数据选择的公平性。我们的目标是将人人网上所有文章的阅读量前10%设定为爆款,那么对发表时间较短的文章肯定是不公平的,而且新发表的文章阅读量会在短时间之内急剧增长。这一点我们之前也讨论过了,具体的变化就如下图所示: 不难发现文章的平均阅读量大约在发布20天之后的才开始趋于平稳,随后还会房车营销推广方式有小幅度的上升。我们这里录入的数据都是所有的时间段的文章,所以为了公平和保险起见,只选择文章发表30天以上的文章。 而下图标识出了按以千为单位的阅读量分布,为了展示方便已将大于3万阅读量的做了归并处理。可以发现从最低的几千阅读量到最高的几万阅读量之间并没有一条比较明显界限。特别是从 而我们将要处理的问题则是一个分类问题,需要分类的结果有比较明显的特征,或者说要区分的对象差别越大越好。比如做图像识别时,识别照片是猫是狗的难度,就要比区分是飞机是狗的难度大很多。所以我们这里为了减轻训练难度,只取阅读最高的10%和最低的10%,即保留了文章数量,也保证了两者之间有足够的区分度。 2. 特征选择再把前文中的原始数据属性搬出来,用于与前文分析的影响点击的认知模型关联起来,如下表所示: 需要注意原始数据中是有图片链接的,出于两个理由没有入选分析:
所以原始数据中,可以使用的有以下几个属性:
3. 特征工程有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 即使我们上面经过筛选,我们发现无论是日期,类型,身份,还是标题都是字符串数据,而阅读量量本身还需要转化成是否是爆款。所以本文做了如下处理: Y值(预测结果):
X值(预测变量):
经过几天的数据调整和解析,终于将所有的特征数据化了。接下来则是准备开始训练啦~ 4. 训练算法&测试算法XGBoost训练算法 XGBoost的全称是eXtreme Gradient Boosting。作为一个非常有效的机器学习方法,Boosting Tree是数据挖掘和机器学习中最常用的算法之一。 因为它效果好,对于输入要求不敏感,自动进行特征选择,模型可解释性较好。往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。 在我们前面做了大量的准备工作后,真正调用算法来训练的代码其实是很少的。作为产品经理,我觉得大家还是应该都懂一些技术或者会一门编程语言,很多问题在网上搜索一下相关的教程都可以自己解决,而不用在遇到问题的时候等开发来解决。这里推荐学习Python3,上手难度低,适用于任何平台,编译速度也足够快等优点。 所以在文章本身这一块儿就不详细展开写了,如果需要查看本次整个数据分析的代码,点击查看,部分内容已经添加注释。 测试算法 训练好的模型在使用之前需要测试,来决定接下来的步骤是修正算法还是使用算法。根据配置xgboost参数,对一篇文章进行分析时会返回两个概率,爆款的概率P1,不会成为爆款的概率P2。 所以在验证的时候分别做了两种验证: 第一种, 当P1(爆款)& P2(非爆款)的概率时,预测这篇文章为爆款。但这里会有个问题是当P(会火)=0.51,P(不火)=0.49时,是一个很模糊的结果; 第二种, 当P1(爆款) & 0.8时,预测这篇文章为爆款。 以上两种同样对1771条测试数据进行测试时,分别有97.91%和9武汉效果好的微信朋友圈广4.64%的正确率,对于我来说,这个结果已经足够满足本文的分析目的。所以就不再进一步的优化了。 本文如此之高的预测正确率也是经过多次的模型修正和数据修整之后所得,记得第一次训练的结果正确率为5%,第二次修正后结果为1%。这个过程也不算是本文的重点就不再赘述。 5. 使用算法如果是继续使用算法,我们可以拿新写的文章标题来做预测。而如果是写文章做分析,我们则可以分析相应的特征重要性,给出的投稿建议。 返回的数据模型中,有128个有效特征,不好做可视化展示,所以当前分析只截取前20的重要特征,如下图所示: 排名前20中,大量的特征都是跟标题直接相关的词性特征和语义依存特征。 词性特征好好查看,我们根据之前的的分类结果,把爆款文章的标题按词频统计,这样在未来取标题的时候可以做个参考,适当的添加一些点缀,比如:需求、报告、总结、管理等。 本次分析结果中的语义依存特征相当的朴实,排名靠前的都是用来丰富标题内容,增加标题阅读性的特征。 对比于常见的营销号标题党则是两个方向,标题党会有更丰富的主观情感特征,比如:果然,果真,横竖,究竟,势必,早晚,终归,终究,终于;有表示反常的:反,偏,倒,岂,竟,不料,倒是,反倒,反而,竟然,居然,难道等。 不难发现,前二十中,仅有 从上图中可以做出如下分析:
四、投稿建议作为产品经理,每个同学都可以尝试着写篇文章投稿,这也算是你的一个个人独立的小产品了。
虽然本篇最后应该没有给出一个让人惊喜和意外的答案,但我想怎么通过数据分析来寻找一个答案的过程应该是说清楚了。 五、全篇总结《数据分析实战|网站》三篇就到止为止了。简单回顾一下:
优化最后这里再补充几个本篇中没有处理好的点,避免误人子弟。希望大家能在工作中更加严谨一些。
相关阅读 |
上一篇:在做用户研究时,大数据+小数据=?
下一篇:数据产品经理:6大数据分析平台的“世界观”
小提示:您应该对本页介绍的“数据分析实战|网站(下篇):作者视角”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通数据分析实战|网站(下篇):作者视角的相关事宜。
关键词:3年, 中级, 人人都是产品经