首页 > 数据采集器 > 浏览文章

如何高效进行数据采集,这里有一套完整方案


假设一个场景:我们想要采集一个广告投放页的数据。

首先,我们与技术同学描述用户进入 App 开屏页所面临的场景:浏览—点击—跳转到广告页;接着,我们提出埋点需求。

点击数据分为有效点击和无效点击两类,但是由于技术侧同学并不会纠结此问题。他便随便从网上下载了一个闪屏页框架,集成到项目中。

在该框架下,点击动作被拆解为:按下,抬起。而我们平时认为的点击动作应该是:短时间内按下和抬起两个动作同时出发。

由于框架的目标是增加点击率,即让看到广告详情页的人变多。所以,当用户按下的时候,就已经触发了跳转到详情页的操作。

大部分非目标客户都会很急躁的退出广告详情页,而真正看到广告并感兴趣的人员则会主动进入广告详情页。

由此带来的洞察结果是:点击率高,转化效果差。市场侧的同学误认为是广告设计的失败,这会影响下次广告投放的视觉效果或投放策略。

通过上述例子,我们得出结论:数据采集的时机和技术侧的实现方式会大大影响业务侧的决策。

“九层之台,起于累土。”在形成一套可被洞察的数据之前,数据采集是最基础也是最关键的步骤。只有数据采得准,这个洞察结果才能在你做商业决策时提供帮助。否则将适得其反,再漂亮的数据分析也带不来实际的效果。

但是在埋点方案的实际实施过程中,我们可能会遇到以下困惑:

  • 如何和技术端沟通你的埋点需求?
  • 技术同学是否很快理解并落地?
  • 最终数据生产结果是否符合你的预期?

GrowingIO 在与上百家客户落地埋点方案的经验中,发现“数据采集带来的数据质量问题”也许已经成为了企业的共性问题,而导致这一问题发生的原因主要有以下 4 点:

  • 前期沟通业务不明确。例如程序员不清楚有效点击和无效点击的区别,只是单纯地从技术层面完成埋点;
  • 采集时机口径对不齐。你希望采集数据的那个时机,技术同学并不明确;
  • 采集点没有统一管理。如果没有统一的渠道去管理点击、浏览等数据,你的埋点方案将因繁琐的程序而无法落地;
  • 版本更新。比如你在新旧版本之间进行比对时,无法发现数据的变化。

数据采集关乎数据质量,它需要产品及业务侧同事做出让技术同学“看得懂、埋的对、实施快”的技术落地方案。

2. GrowingIO 为数据高效采集保驾护航

针对这些棘手问题,GrowingIO 的无埋点技术可以快捷定义页面、按钮、文本框等常见用户行为操作,从而减少在某些重复性高的用户共性行为的埋点代码操作量,为数据快速可视化提供便利。

1.无埋点的定义

什么是无埋点?我们先来看看你是否遇到过以下这些场景:

  • 做了一场运营活动,需要在用户的每一次点击行为上都埋点,却缺乏产研资源;
  • 想衡量交互细节以推测用户行为之间的关联,却苦恼于繁琐的工序;
  • 想查看用户在访问时的一切行为轨迹,探索用户使用产品场景;
  • 想要快速地对比新旧版本,衡量发版效果;
  • 想要分析的事件,没有事先埋点;
  • 新功能上线时,发现有一个重要的元素没有埋点。

针对以上问题,无埋点都可以很好的解决。其实无埋点就是人物、时间、地点、内容、方式的数据采集方式,通过 GrowingIO 的圈选(可视化定义工具)功能,我们可以所见即所得地定义指标。

如何高效进行数据采集,这里有一套完整方案


无埋点(圈选)的核心思想基于以下 5 个元数据:

  • 人物:人的属性,包括 ID、性别、所在区域等;
  • 时间:触发行为的时间;
  • 地点:行为发生的城市、地区浏览器等;
  • 内容:行为的对象,如按钮等;
  • 行为:行为的操作方式,如浏览、点击、输入等。

无埋点能够定义常见事件类型,尽可能地减少代码的使用,减少开发工作量。通过 GrowingIO 的圈选功能,我们能快速采集数据、定义指标、查看实时数据。

2.埋点和无埋点如何选择?

新的无埋点虽然简单便捷,但也有它自身的局限性。同时,我们离不开业务数据维度,所以传统埋点也不能放弃。

埋点和无埋点各有优势,面对不同的场景,我们需要明确目的、结合具体情况综合判断,选择数据采集的最优方式。

(1)埋点

  • 优势
    • 数据定义清晰,稳定性高,用户一旦触发事件,数据就能上报;
    • 可以多次添加业务属性,以支持维度拆解和下钻分析。
  • 劣势
    • 需要提前规划,和开发团队沟通业务需求,跨团队协作确定埋点方案;
    • 历史数据无法回溯,在下一个版本中才能看到。
  • 适用于「监控与分析式」数据场景:
    • 核心 KPI 数据
    • 需要长期监控和存储
    • 业务属性丰富

(2)无埋点