❶ 大数据系统的数据如何获取
1、从数据库导入
在大数据技术风靡起来前,关系型数据库(RDMS)是主要的数据分析与处理的途径。发展至今数据库技术已经相当完善,当大数据出现的时候,行业就在考虑能否把数据库数据处理的方法应用到大数据中,于是 Hive、Spark SQL 等大数据 SQL 产品就这样诞生。
2、日志导入
日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来,这些信息我们可以理解为业务或是设备在虚拟世界的行为的痕迹,通过日志对业务关键指标以及设备运行状态等信息进行分析。
3、前端埋点
为什么需要埋点?现在的互联网公司越来越关注转化、新增、留存,而不是简单的统计 PV、UV。这些分析数据来源通过埋点获取,前端埋点分为三种:手工埋点、可视化埋点、自动化埋点。
4、爬虫
时至至今, 爬虫的数据成为公司重要战略资源,通过获取同行的数据跟自己的数据进行支撑对比,管理者可以更好的做出决策。而且越难爬虫获取竞争对手的数据,对于公司来说是越有价值。
❷ 前端埋点上报
本文所说的埋点上报,只包含两种:点击上报(click)、曝光上报(show)。
点击上报: 使用 window.addEventListener('click') 做全局点击的代理。
曝光上报:
bury.js
无论vue还是react,一定要在入口文件优先注册这个类的实例。
react 的 index.js
Vue 的 main.js
现在给一个按钮添加点击和曝光的埋点,
点击的时候上报 {a:1,b:2}
曝光的时候上报 {c:3,d:4}
写法如下:
在入口文件中吐出数据。
❸ 关于大数据分析的四个关键环节
关于大数据分析的四个关键环节
随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值 这是不是只是一个虚的概念 大家怎么考虑数据驱动问题 为什么掌握更多的数据就会更有效 这些问题很难回答,但是,大数据绝不是大而空洞的。
信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。“大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;“全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。“细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。“时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,网络搜索的搜索引擎优化,都是数据驱动产品智能的体现。
数据分析四个关键环节 桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。 一、数据采集 想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。 搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。 常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。
第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。二、数据建模很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。数据建模有两大标准:易理解和性能好。数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。三、数据分析数据分析支持产品改进产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。桑文锋在 2007 年加入网络时,也发现了一个现象,他打开邮箱会收到几十封报表,将网络知道的访问量、提问量、回答量等一一介绍。当网络的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好 有什么数据支撑 这个功能上线时如何评估 有什么预期数据 这也是一种数据驱动产品的体现。数据驱动运营监控运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。数据分析方法互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。四、指标如何定义指标 对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。
❹ 埋点,数据产品经理必备的技能
数据是数据产品的根基,而埋点是数据的起点;如果没有埋点,那数据产品则是无源之水。
可以说埋点是互联网行业里遇到的关键且无法绕过的问题。
以下是企业不同位置的同学内心OS:
业务同学对于埋点是什么都不知道,也不清楚要埋什么;所以往往会做了功能但是没有做埋点,在需要进行数据分析的时候去找数据团队要数据,数据团队会反问:“你们埋点了吗?”
数据产品,因为他们对于业务的认知并不深刻,所以经常会出现漏埋、错埋的情况,导致最后无数可取的结果。
业务开发,本质上他们是解决业务相关问题,数据开发对他们来说一个比较额外的工作,所以他们的开发成本会随着埋点需求而增加,也有可能伴随项目延期的风险;其次过得的埋点开发需求也会导致代码的冗余。
数据分析,他们更多地是用数据,数据埋点的规则找不到,以至于无法很好的通过数据驱动进行分析。
外部数据的交互: 比如API数据的传输、 数据文件的传输等;目前某平台的大数据标签系统就是通过这种方式传输补齐企业的人群标签等。
而数据产品在整个数据链路上来说,基本可以划分为以下流程:
首先数据采集我们要从不同的端采集不同的数据,然后进行数据清洗加工处理(ETL),然后汇总到数据仓库中,供用户分析、用户画像、精准营销等使用;
我们知道数据采集、数据埋点的重要性后,在实际的业务功能需求提出的时候,一定是要提相关埋点需求的,那在做数据采集我们需要遵循怎么样的流程呢?
以上环节缺一不可,只有规范的流程,才可以在最后的分析中发现正确的现状问题。
现在互联网行业主流的埋点方案主要分为四种:
1. 第一种:代码埋点,代码埋点又分为前端埋点和后端埋点;前端埋点是通过前端的代码埋点来监控用户触发某个页面的数据采集
前端埋点的优点很明显,但是缺点也很明显,由于前端埋点的数据是通过延迟上报的机制,比如用户点击某个页面按钮它不会立刻上报,而是累计到一定的值以后才会按批上班,受限于当前网络情况,如果遇到网络堵塞等问题就会数据丢包,因此前端埋点丢失率比较高,一般在5%~10%。
而且前端埋点如果有漏埋和错埋的情况,那就要通过app发版进行优化,而客户端发版就要很久的时间。
优点是在每次用户触发这次请求,都会触发埋点代码进行数据统计,所以无需发版,及时触发及时更新。
缺点是服务端埋点需要依赖服务请求,无法覆盖所有前端交互,以及对于用户路径采集也比较弱。
3. 第三种:全埋点;是目前互联网做用户增资的企业提出的一种埋点思路,通过埋点SDK接入,针对页面所有的采集页面元素的浏览和点击行为做统一的收集,不是按次和需求采集,而是提前全部采集
优点是开发成本高,SDK接入后后期维护成本也低,且埋点流程也很简单;先采集后定义,在一定程度上能避免漏埋错埋。
缺点是数据的冗余,导致很多数据并无用处,且数据采集范围仅仅是页面可见元素,比如像曝光这种就无法采集到;数据准确性也有问题。
4. 第四种:可视化埋点;也是接入埋点SDK,但是并不是随时随地采集,而是按需采集,通过可视化圈选触发埋点采集
优点是操作简单,且按需埋点不会采集无效数据,开发成本比较低;并且数据埋点是可支持撤销操作的,总体来说比全埋点数据量会小很多。
缺点: 历史 数据是无法恢复的,因为在我们圈选动作之前的数据是无法进行采集的;统计范围仅支持页面前端的动作,比如曝光也是无法采集到的。
选择埋点方案的参考主要基于三点:
比如我们可以根据业务发展阶段来定,比如说现在业务发展较快,版本迭代速度快、开发投入成本高,那我们做客户端埋点和服务端埋点是不太适合的,因为可能没过多久版本就更新了,所以全埋点和可视化埋点比较适合;
那对于比较强的业务数据分析场景来说,需加上前端客户端埋点;以及需要考虑分析深度,如果仅仅是想看用户前端行为路径的,那全埋点和可视化埋点就能满足需求,但是如果分析业务全流程那一定是需要配合上代码埋点。
我是比较推荐全埋点+代码埋点组合,如何服务端能做,优先服务端做,这样数据准确度会更高。
事件是埋点里最核心的要素,如果我们要清晰的定位埋点,就要从6个维度进行定义,我们可以总结为who、when、where、what、why、How;这几个元素就构建了事件的基本要素。
那对于埋点事件主要可分为三类:
通过以上我们基本就可以判断出我们需要记录用户什么行为,采集什么数据,for后续的什么分析了。
写在最后,在工作生涯中,过往的坑告诉我,一个好的埋点管理平台是多么的重要。
首先流程线上化,我们往往在一封封埋点的邮件中迷失自我,但是如果是线上申请,那需求申请、处理、接入、验证、测试就非常方便和快捷,规避信息沟通中的缺失;
其次可以管理规范,埋点都统一管理,信息集中管理,方便后期的分析和使用;
最重要的是监控实时化,减少漏埋、错埋的问题。
当然如果没有埋点管理平台,确定下规范的埋点流程,选择适合当下业务的埋点方案,我相信你也一定也可以做好埋点以及通过数据完成丰富的场景分析!
作者:Goodnight;专注用户、产品等运营领域。
题图来自 Unsplash ,基于 CC0 协议
❺ 前端埋点和后端埋点,哪个更科学
ios埋点主要是为了采集数据,ab测试也需要在ios上埋点采集重点业务数据,这样测试才能有的放矢,吆喝科技提供的AppAdhoc AB Testing可实现快速简单的ios埋点。