以今日头条为例，详述数据思维驱动产品设计的方法论,人人都是产品经理微信公众号文章

—— BEGIN ——

今日头条用了短短5年时间，成为移动端新闻媒体的独角兽，2016年末，完成10亿美金D轮融资，估值近110亿美元，成功挤入互联网第二梯队。

如一句老话所说，世上没有平白无故的成功，当了解了今日头条如何打磨产品功能和交互设计后，笔者发现其成功是必然的，也是有迹可循的，这一切都源于自上而下的数据化思维。

本文源于今日头条算法工程师曹欢欢的分享，笔者结合自身理解和思考加以总结梳理，力求整理出每个产品经理都可以在实操中运用的科学设计产品方法论。

本文共分六个模块：

今日头条前世今生–介绍今日头条近期数据，今日头条的源起
数据思维做产品–CEO张一鸣如何解读数据思维，详述三个方法论
数据思维指导算法演化–头条推荐算法概述
今日头条的A/B测试系统–超级强大的科学实验系统
需求从何而来？数据收集到何种程度？–科学严谨的实验态度处理需求，收集全量用户行为
如何低成本完成有效A/B测试–A/B测试的原则，注意事项、实践方法和案例分析

一、今日头条前世今生

介绍方法论之前，我们来看看今日头条究竟有何成功之处。

今日头条是一个个性化信息推荐平台，基于大数据和人工智能，做到信息推荐的千人千面。

2017年6月数据显示，今日头条日活用户超7700万，月活用户近1.8亿，日均使用时长超76分钟，日均启动次数超13次。

如此活跃的数据，出现在一个新闻信息类应用实属罕见。

接下来，笔者带着大家来一起探秘今日头条的成功之道——数据思维打磨产品。

今日头条从起名字开始就运用了数据思维，创始团队没有头脑风暴，没有投票，没有老大拍板儿，而是采用科学实验的方式，通过数据观测确定了头条的名称。

实验方法如下所属：

首先，将App store上各类免费榜单的前10名整理出来，然后根据名字归类（朗朗上口白话类，内涵情怀类，模拟特殊声音类，公司名+用途类等），分析那各类数量占比。分析结论是朗朗上口的大白话效果最好。
其次，分渠道A/B测试，确定先验效果类似的发布渠道，分别投放，界面功能logo完全一样，统计各个渠道的用户下载和活跃等核心数据指标，《今日头条》效果最好。

二、数据思维做产品

今日头条CEO张一鸣所定义的数据思维包含三个维度：

收集数据：无偏，全面，客观。
做出决策：根据数据做决策，抛弃主观经验，情感因素，做到客观解释。
高效执行：3个方法论（归纳总结，A/B测试，双盲交叉验证）+高效A/B测试系统

1. 归纳总结–最朴素的数据思维工具

按照特定维度对目标排序，分析top对象在特定属性上的共同点。

2. A/B测试——科学产品观的关键

01 A/B测试定义

A/B测试是一种把实验对象随机分组，把一个或多个测试组的表现与对照组相比较，进行测试的方式。

02 A/B测试目的

通过科学实验设计，在保证采样样本无偏，有代表性的前提下，流量分割与小流量测试等方式，获得具有代表性的实验结论，并确信该结论在推广到全部流量可信。

* 注意事项：测试组和对照组不要设计多个变量同时测，一次实验只设置唯一变量，同时实验组内分小组，尽量保证组间数据随机分布，便于分析数据波动影响。测试前需要定义核心观测指标，通过指标数值变化，确定实验结果的好坏。

3. 双盲交叉验证——确保信息审核高效快捷

交叉验证用得最多的场景是涉及到人工运营的场景，在评估时需要人工介入为文章分类，以保证推荐的准确；那么评估和审核都需要依赖人，人员能力的差异和流动性导致评估和审核标准会变来变去，这就需要机器可以监控人的行为。

每个评估的运营人员有自己一个任务队列，把一个要评估的样本至少放到两个以上的评估队列里面去，就意味着一个样本最少有两个人看过，如果他们意见不一致，我们有一个资深的仲裁小组进行仲裁。

三、数据思维指导算法演化

推荐算法是今日头条产品的灵魂。头条推荐算法是一系列算法的策略的组合，每一个子系统的改进都会对系统整体造成影响。

推荐排序模型：数百亿特征，涵盖你能想到的一切可以帮助做判断的信息。
推荐召回模型：若干策略独立的负责判断，哪些内容有资格进入排序算法。

一个排序模型，搭配多个召回模型，通过召回模型做初筛，然后反馈给排序模型，节省99%的处理资源，推荐更快捷。

对推荐效果可能产生影响的因素：候选内容集合的变化、召回模块的改进和增加、推荐特征的增加、推荐系统架构的改进、规则策略的改变。

四、今日头条的A/B测试系统

今日头条同时在线测试的实验有很多，每月多达有上百个之多，如何科学的分配实验流量，减少沟通，降低实验成本，做到实验结果可视化展示是必须思考的，于是出现了今日头条的A/B测试系统。

系统实验创建属性：实验名称，实验时间，实验类型（共享or独占），过滤流量条件，实验组ID
实验动作概述：动作收集，日志处理，分布式统计，写入数据库，数据可视化。

独占实验：

是指实验模型比较复杂，任何其他因素改变可能影响到实验结果准确性，所以用户不可以与其他实验共享，申请完成后，系统自动随机从流量桶中分配出流量用于实验，留出一半未调整用户，作为对照数据组，将实验数据桶分开，观察数据波动性，防止测试结果有偏。

共享实验：

是指实验模型只测试某类特定属性用户，可以与其他非相关属性的实验共用实验对象，流量桶分配逻辑与独占实验类似，但是当其用户可以分配到其他实验中，复用部分用户。

如下图所示：

基于这套系统，基于数据分析协助产品功能迭代（经历几十个版本迭代），数百个有效改进上线，人均有效点击提升40%，人均停留时长提升50%。

五、需求从何而来？数据收集到何种程度？

1. 需求从何而来

互联网产品的需求一般来源于用户反馈或焦点小组需求收集，是一种信息的归纳总结。

但是这部分数据是有偏信息，不可以简单粗暴的将用户反馈的需求作为直接需求——所谓会哭的小孩有奶吃，很多时候，用得很好的用户不反馈，用得不好的才反馈。

如果你改变了，是不是伤害了那些不反馈的用户呢？

其实你是不知道的，所以这些需求我们并不一定要做，只是先做一个候选实验的需求池。

如果一个需求两三周持续在反馈，这个需求可能是一个强需求，那么做好了小渠道测试，用数据说话。

2. WAP页面VS原生功能

01 原生功能

优势：响应速度，复杂交互流畅，异常状态显示，缓存效果等。

劣势：更新需要发版，出现问题无法快速调整。

发布方式：先在小渠道发版测试，与老版本对比，如果一上来留存率降低5%，那这个改动肯定有问题。如果说波动在正负1之间，这个东西可能有用，可以大渠道发版A/B测试。

今日头条可以做到从应用市场提交同一个版本，但是用户下载之后，通过服务端的远程控制，让每个人看到的界面是不一样的，确认没有问题后，将改进合并到主开发分支。

02 WAP页面

优势：随改随上，反应迅速

劣势：一些交互和问题场景没有原生体验好

发布方式：利用A/B测试系统，随测随发，出现问题随时调整下架。

3. “全量”用户行为数据收集

根据人的特征：职业，年龄，性别，兴趣爱好，机型，短期点击行为，搜索行为，收藏行为
根据环境特征：场景，时间-饭后或周末，网络环境-wifi或移动流量
根据文章特征：文章时效性，文章热度，相似文章，点击和不点击是有偏的，停留时间，阅读的细节行为收集

阅读细节行为收集，今日头条已经做到了近乎于眼动测试的程度：通过数据可以分析用户阅读文章的滑屏速度，阅读习惯，阅读速度，什么地方快速滑过，什么地方仔细阅读，最终，以量化的形式反馈给内容创作者，帮助其持续优化内容编辑。

4. 创业初期产品的核心竞争力模型

产品核心竞争力=拉新能力*留存能力*变现能力

每项能力比对手强20%，整体差距超过70%，数据思维可以帮助团队把每一项能力发挥到极致。

六、如何低成本完成有效A/B测试

初创团队可能没有太多资源开发多个版本进行多渠道测试，一些大公司也不会如同今日头条专门设计一个A/B测试系统，那么，如何在没有很多预算的情况下完成简易有效的A/B测试呢？

首先，要理解A/B测试的原则；其次，一定要躲过一些坑；最后，就是根据实际情况确定测试方案（开发参与实现方案讨论）。

1. A/B测试原则

多方案同时段并行测试；
测试方案只有一个唯一变量；
用户行为数据收集；
定义核心指标。

2. A/B测试注意事项

一定要是单变量。如果两个版本，每个版本有2处不同，最终分析的时候很难确定是哪个优化导致的指标变化。
统计置信度。受到样本量影响（样本太少，样本代表性）；置信水平（A方案49%，B方案51%，可能数据分流导致的偏差所致，分流有偏造成的影响）
设置对比观察数据组，即没有任何调整的情况各项数据指标如何，用于实验效果对比分析。

3. 实践方法

（1）从测试页面类型分类

原生功能A/B测试。选择渠道流量类似的小渠道进行小渠道发版测试，确定方案后，在主流渠道发版A/B测试。
WAP/H5页面A/B测试。通过后端或前端控制，进行A/B测试。
营销活动的A/B测试。通过短信、站内消息或公众号唤醒用户，可以进行用户分桶后批量通知，观察后续用户行为操作。或是通过活动banner引导入活动详情页，通过活动页引导的A/B测试与WAP页面类似。

（2）从测试时间点分类

实时分流测试。实时分流测试需要开发参与，进行服务器分流或数据库分流测试，并且进行数据埋点，用于用户行为分析。
定性后向分流测试。从历史数据中筛选出测试用户组和对比观测用户组，数据选择需要足够样本量，否则测试结果的置信度会很低，这种后向通知模式比较容易执行，但是并不适用所有场景，常用语召回用户，活动通知使用，通过短信和微信服务号/订阅好通知消息进行唤醒。

样本量足够的情况下，可以考虑实验组数据内部再做分组，如同今日头条系统实现的部分，观察用户行为波动性，保证测试结果置信度更高。