Please enable JavaScript.

Coggle requires JavaScript to display documents.

神策数据分析模块 - Coggle Diagram

- - - - 汇总数据：分层展示格式，不含日期
      - 明细数据：原始数据，一维数据
      - 明细报表：横向有日期，二维数据
      - 透视表：未开启时间对比、查询条件至少有一个分组、查询条件至少有一个可用于统计的指标；
        有分组，且指标中有非去重的计数型指标的查询结果导出的文件才有
    - - 分层展示：需要两个及以上分组，支持列占比开关，每层有子合计
      - 平铺展示：展开 / 收起日期->按日期展开 / 按指标展开；支持环比增长率展示
- - - - 通过“事件分析”进入，锚点是满足筛选和分组条件下，分析目标的那个事件
      - 通过“漏斗分析”进入，转化用户锚点是完成转化的那一系列关键事件；流失用户锚点是上一步转化的那一系列关键事件
      - 通过“留存分析”进入，锚点是留存分析中满足筛选和分组的后续行为
      - 通过“分布分析”进入，锚点是选定的时间区间内，满足筛选和分组的事件
    - - 按明细加载、按小时加载
        
        其他操作
        1、单击事件可查看详细信息，
        2、可设置最多3个外显属性，
        3、过滤相同属性，可隐藏该类事件的展示
- - - - 目标转化事件
        
        一般为与收益相关的事件；支持全部元事件；
        
        高级设置：（提升精度）
        前向关键事件：一般选择与目标事件有强关联的事件，类似商品曝光；
        关联属性：将目标转化事件和前向关键事件进行关联的属性
      - 待归因事件：一般为与广告曝光、推荐曝光等运营相关事件；支持全部元事件
      - 归因模型
        
        首次触点模型：多个「待归因事件」对同一个「目标转化事件」作出贡献时，认为第一个「待归因事件」功劳为 100%
        
        末次触点归因：多个「待归因事件」对同一个「目标转化事件」作出贡献时，认为最后一个「待归因事件」功劳为 100%
        
        线性归因：多个「待归因事件」对同一个「目标转化事件」作出贡献时，认为每个「待归因事件」平均分配此次功劳
        
        位置归因：多个「待归因事件」对同一个「目标转化事件」作出贡献时，认为第一个和最后一个「待归因事件」各占 40% 功劳，其余「待归因事件」平分剩余的 20% 功劳
        
        时间衰减归因：多个「待归因事件」对同一个「目标转化事件」作出贡献时，认为越靠近「目标转化事件」做出的贡献越大
    - - 支持「目标转化事件」的指标切换
      - 指标解释
        
        总点击数：在选择的时间范围内（额外增加上窗口期），该广告位的总点击数量
        
        有效转化点击率：在选择的时间范围内（额外增加上窗口期），与本次的目标转化有关联的广告点击。
        比如：设置目标为支付订单，回溯时长为 1 天，若 3 日前点击了广告，则不会被判定为有效转化。
- - - - 不同事件
        
        示例：
        互金产品：注册成功->投资成功
        电商产品：添加购物车->提交订单
        
        功能：用于分析业务流程中用户转化花费的时长，侧面反应转化意愿，从而针对性的优化产品体验及运营策略
      - 相同事件
        
        功能：分析用户两个时间间隔时长，作为运营策略指定的参考
        
        示例：
        在线教育类产品：用户 2 次上课之间的时间间隔->对学习的积极性
        电商类产品：用户重复购买日用品的时间间隔->预测下一次购买的时间点，精准推荐
    - - 按初始行为属性分组
      - 按后续行为属性分组
      - 按用户属性分组
    - - 不同事件关联的属性可以是相同属性，也可以是不同属性，但是要求属性的类型必须一致
      - 示例：某电商开展了一个营销活动，除了监测用户从商品详情页到完成商品购买的行为流向，还需要精确定位该用户的行为是和本次营销活动相关。因此需要在浏览商品详情页和支付完成事件中添加营销活动 ID 的属性，此时就可以将该属性作为关联 ID ，以保证用户严格按照该模式配对
    - - 箱型图
        
        最小值：间隔转化时长的最小值
        
        中位数：将间隔转化时长按从大到小排期，取中间值
        
        上四分位：将间隔转化时长按从大到小排期，取 1/4 处的值
        
        下四分位：将间隔转化时长按从大到小排期，取 3/4 处的值
        
        平均值：间隔转化时长的总和 / 转化用户数，
        不同于人均转化时间，一人可能有多次间隔转化，平均值把这些都加总，所以稍大
        
        最大值：间隔转化时长的最大值
      - 人均转化时间：每个人的平均间隔时长总和 / 转化用户数。
      - 间隔数：选定时间范围内，完成间隔转化的配对数（下载数据中的字段）
      - 转化用户数：在选定的时间内完成了间隔转化人数，一个人可能会完成多次间隔转化
      - 人均间隔数：间隔数 / 转化用户数（下载数据中的字段）。
      - 间隔转化时长：选定时间范围内，完成间隔转化的每个配对的时间差
    - - 不考虑时间
        
        分析用户做了 A 事件和 B 事件的时间间隔，
        间隔配对结果是：A → C → A → B → B → A → B → B → A → A → D → B
      - 考虑聚合时间
        
        按天聚合，
        用户发生A 事件的时间是 23:50 ，发生 B 事件的时间是次日 00:10 。这两个事件无法完成配对
- - - - 优先分流计算策略
        
        若虚拟事件和其包含的元事件都在参与事件中，则该元事件按照（起止事件、虚拟事件、元事件）优先级进行归属。
        
        若多个虚拟事件包含相同的元事件，则该元事件按照事件筛选列表顺序归属于第一个虚拟事件。
        
        若参与事件选择了虚拟事件，则会直接展示为虚拟事件。
      - 支持多事件分组
- - - - 原始页面：用来分析单个页面的点击情况
      - 页面组
        
        功能：用来分析一系列界面结构相似的网页整体的浏览和点击情况
        
        新建步骤：新建页面组>定义页面组名称>背景页面>添加背景页面中嵌套的页面url>保存
    - - 事件筛选：注意点击分析的筛选条件是事件 Web元素点击和 Web浏览的公共属性
      - 用户符合
    - - 浏览量PV，即事件 Web浏览页面的总次数
      - 用户数，页面的上各个交互元素的点击 UV，即事件Web元素点击的触发用户数。
      - 点击次数，页面上各个交互元素的被点击次数，即事件 Web元素点击的总次数。
      - 点击率：点击次数 / PV
      - 点击占比：点击次数／页面内所有可见元素的总点击次数
  - - - 用途：用于分析如详情页、着陆页等类型页面中用户的浏览深度，帮助优化页面的内容、结构的设计
      - 概念：在当前筛选条件下，最终到达网页中某个位置的用户的比例
- - - - 显示时间：日常看到的时间，是根据所处时区，通过某个规则进行定义，方便日常生活使用的时间
      - 客户端（显示）时间：以用户当时客户端的时区作为依据，将物理时间转化成显示时间
      - 服务端（显示）时间：以服务端人工配置一个固定的时区为依据，将物理时间转化成显示时间（将各时区收集到的数据转化为服务端所在时区的时间，统一管理）
      - 物理时间：unix 时间戳，从1970年1月1日（UTC/GMT的午夜）开始所经过的秒数，不考虑闰秒
    - - 总设置：基本设置>分析模型设置>时区设置
      - 分析模型中，时间设置处多出时区设置按钮，直接切换
    - - 非默认时区时，运算速度都会变慢
      - 查询条件中涉及到日期类型的用户属性计算结果可能会不准确
  - - - 1、工具——除了按照用户（人）的角度去分析业务数据，也想要按照设备的维度，去看产品的使用与留存
      - 2、证券——同一用户名下有多个资金账号，只能通过上报公共属性的方式进行账号筛选，但在神策系统中无法按照资金账号进行计数与分析；如果能够切换分析主体，就能实现想要的分析效果
      - 3、电商/电视购物——同一个用户，在集团视角和业务视角身份不同，意味着同一个人在环境中具备不同的身份
      - 4、游戏——这个与证券用户相近，同一个游戏用户的账号下，存在创建多个游戏角色的场景
    - - 总设置：基本设置>分析主体设置>新建，把事件属性设置为可分析的主体，支持 string 和 number 类型的属性
      - 配置思路：通过实名认证id作为分析主体，把账号id当做事件属性在埋点的时候上报即可
      - 分析模型中：模型右上角会出现分析主体选择，选择经过 ID-mapping 之后的用户 ID（默认）
    - - 分布分析
        
        金融行业：根据开户的账户维度查看同一个自然人的不同账户的交易金额分布
        
        游戏行业：根据设备/角色维度查看角色的等级、充值金额的属性分布
      - 留存分析
        
        游戏行业：同一用户，可能会创建多个角色，每个角色的留存情况是怎么样的？是否有的留存了，有的不玩了
      - 漏斗分析
        
        电商行业：分析一个商品的流转情况，把商品作为主体，看商品从进库存、展示、销售、然后物流再到最后的售后的漏斗情况
    - - 当选择自定义的分析主体，并且按照用户属性/用户分群/用户标签查看分布数据时，可能会导致计算不准确的情况
      - 使用默认的分析主体时，支持查看用户画像，添加用户分群；
        使用自定义的分析主体时，无法查看用户画像，也不支持添加用户分群
  - - - 事件表
        
        包含了所有事件的详细信息（不包括虚拟事件），该表的每一行代表一个 track 的 Event
        
        字段分为特殊字段和 Event 本身的 Property 两大类
        
        特殊字段
        
        event，事件的名称
        
        user_id，神策分析为该用户分配的内部 ID，与 user 表的 id 字段相关联
        
        distinct_id，用户的原始 ID，track 时传入，可能是一个匿名 ID 或登录 ID
        
        date，事件发生的日期，属于特殊字段，上传数据时无需上传 date字段
        
        time，事件发生的具体时间，时分秒
        
        $receive_time，服务器接收到事件时的具体时间戳。该字段可以在自定义查询中显示，
        在前端的分析模块中，所有事件都无法使用该字段分析数据，因为 $receive_time 默认不会与任何事件绑定。
      - 用户表
        
        每一行代表一个 User，类似于事件表
        
        字段分为特殊字段和 User 的其它 Profile 两大类
        
        特殊字段
        
        id，神策分析为该用户分配的内部 ID，与 events 表的 user_id 相关联
        
        first_id，该用户的匿名 ID，与 events 表登录前行为的 distinct_id 相关联。
        特别注意，用户 first_id 等于 second_id，说明该用户没有成功关联到匿名 ID，相当于未知
        
        second_id，该用户的登录 ID，与 events 表登录后行为的 distinct_id 相关联
        
        $update_time，该用户最近一次更新用户表信息的时间戳
        
        $device_id_list，开启多对一关联机制时，会记录与登录 ID 关联的匿名 ID 列表，以及关联时的时间戳
      - Session表
        
        每张 Session 表都对应一个 Session 的配置，
        命名规则为：sessions_${session_name}
        
        除了包含 events 表包含的字段，还包含 session 属性和 session 相关的特殊字段
        
        命名规则是原始的属性名加上后缀 $session
        
        特殊字段
        
        $session_id，标示一个 session 的唯一 id
        
        $session_position，标示一个 session 中事件的索引，从 0 开始，依次递增。
        
        $session_event_duration，session内事件时长，表示session相邻两个事件发生的时间间隔，单位是秒，最后一个事件的事件时长是 null
        
        $session_duration，session内最后一个事件触发的时间减去 session 内第一个事件触发的时间，单位是秒
        
        $session_depth session 深度，表示 session 内触发事件的次数 4
        
        $event_id$session，Session 内第一次触发的事件
        
        局限性
        
        计算量较大，使用时必须加上时间注解
        SELECT event, user_id, distinct_id, date FROM sessions_default /SESSION_TABLE_DATE_RANGE=[2018-01-01,2018-01-05]/
        
        暂不支持使用 select * 查询 SESSION 表，查询需加具体的字段名
      - 用户分群/标签表
        
        命名规则（≥1.14版）
        
        分群：usergroup${user_group_name}
        标签：usertag${user_tag_name}
        
        具体字段
        
        user_id，用户 id
        
        distinct_id，与事件表中的 distinct_id 相关联
        
        values，用户分群/标签值
        
        base_time，用户分群/标签计算的基准时间，以毫秒形式进行的存储，1.14 版本之后新增
        可以使用以下语法将日期转化成毫秒数Timestamp进行查询
        SELECT * FROM user_group_fenqun9 WHERE base_time=unix_timestamp_ms('2019-01-17 00:00:00')
      - Items表
        
        $item_type，item 表的类型
        
        $item_id，表示 item 的 id
        
        $is_valid，该 item 是否有效，不传入默认为 true
        
        $receive_time，该item到达时间
        
        $update_time，该item的更新时间，不传入默认为写入时间
    - - 数值Number
        
        不区分浮点数与整数，输出时根据是否有小数位自动转换输出格式
      - 字符串String
      - 日期Date
        
        注意：time 字段特殊，不需要经过转换即可直接使用
        
        在自定义查询中表现为毫秒级的 Timestamp，可使用EPOCH_TO_TIMESTAMP($signup_time / 1000)转换为为 Timestamp 类型
        条件过滤：SELECT COUNT(*) AS cnt FROM users WHERE EPOCH_TO_TIMESTAMP($signup_time / 1000) > '2017-01-01';
      - 日期时间Datetime
        
        也可使用EPOCH_TO_TIMESTAMP转换
      - 布尔Bool
        
        使用0/1表示False/True
      - 列表List
        
        支持在 Where 条件里使用 CONTAINS 函数或者 LIKE 函数来进行过滤操作
        SELECT FavoriteFruits from users where CONTAINS('橘子', FavoriteFruits);
        
        可以使用 /EXPLODE_LIST_COLUMN=${table.columnName}/ 注解来将 List 类型数据打散成多行 string 类型数据
        SELECT list_property FROM events /EXPLODE_LIST_COLUMN=events.list_property/
    - - 基本功能
        
        查询每天的事件总数
        SELECT date, COUNT(*) from events GROUP BY 1 ORDER BY 1
        
        前端展示的结果最大只有 1k 条，而 CSV 下载的结果最大是 100w 条
      - 日期过滤
        
        注意，任何时候应当尽量使用date字段进行过滤，而不是time字段
        
        CURRENT_DATE() 函数，返回当天
        
        CURRENT_WEEK() 函数，返回当周的周一
        
        CURRENT_MONTH() 函数，返回当月的1号
        
        INTERVAL 表达式，
        CURRENT_DATE() - INTERVAL '1' DAY 表示昨天
        CURRENT_MONTH() - INTERVAL '1' MONTH 表示上月1号
        CURRENT_MONTH() - INTERVAL '1' DAY 表示上个月最后一天
      - 常用函数
        
        Impala函数
        https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_functions.html
        
        时间日期函数
        
        adddate()
        
        adddate(timestamp startdate, int days)
        adddate(timestamp startdate, bigint days)
        
        用途：在一个TIMESTAMP（时间戳）值上加一个给定的天数
        
        参数：
        startdate：timestamp类型的开始时间戳
        days：需要加上的天数，正数表示几天之后，负数表示几天之前
        
        返回值：加上天数之后的时间戳，timestamp类型
        
        datediff()
        
        datediff(timestamp enddate, timestamp startdate)
        
        用途：返回两个时间戳间隔天数
        
        参数：
        enddate：结束时间
        startdate：开始时间
        
        返回值：结束时间减去开始时间的天数，int类型。
        开始时间>结束时间->负数；
        开始时间<结束时间->正数
        
        extract()
        
        extract(unit FROM timestamp)
        extract(timestamp, string unit)
        
        用途：从TIMESTAMP值中截取数值型的时间域，例如年度，月份，日期，小时，分钟，秒/微秒
        
        参数：
        unit：时间单位unit字符串可取的值有：year，month，day，hour，minute，second，millisecond。
        
        返回值：时间域的整型值
        
        trunc()
        
        trunc(timestamp, string unit)
        
        用途：从给定的timestamp时间戳截取时间域
        
        参数：unit：时间单位
        年度：SYYYY, YYYY, YEAR, SYEAR, YYY, YY, Y
        季度：Q
        月份：MONTH, MON, MM, RM
        周一：WW, W
        日期：DDD, DD, J
        周一：DAY, DY, D
        小时：HH, HH12, HH24
        分钟：MI
        
        返回值：截取时间域之后的日期
        
        字符串函数
        
        concat()
        
        concat(string a, string b…)
        
        用途：把所有string类型的参数连接成一个string类型
        
        参数：
        string(不限个数)：要连接的字符串
        
        返回值：一个整体的字符串
        
        regexp_like()
        
        regexp_like(string source, string pattern[, string options])
        
        用途：判断source字符串中是否包含以pattern为正则表达式的内容
        
        参数：
        source：要检查的字符串
        pattern：正则表达式
        option（选填）：选项
        
        c：区分大小写
        
        i：不区分大小写
        
        m：匹配多行，^和$操作符对于每一行都会匹配，而不是对多行为整体的开头和结束
        
        n：新行匹配，点（.）操作符会匹配新行。
        
        返回值：匹配与否，boolean类型
        
        parse_url()
        
        parse_url(string urlString, string partToExtract [, string keyToExtract])
        
        用途：通过指定URL中的特定部分返回截取值
        
        参数：
        urlString：URL
        partToExtract：要截取的部分。可指定的值为'PROTOCOL', 'HOST', 'PATH', 'REF', 'AUTHORITY', 'FILE', ‘USERINFO', ‘QUERY'
        
        PROTOCOL：协议，如HTTP，HTTPS，FTP等
        
        HOST：主机名
        
        PATH：路径
        
        REF：锚点（“又称引用”），即URL中#后面的字符串
        
        AUTHORITY：授权
        
        FILE：文件名
        
        USERINFO：用户信息
        
        QUERY：查询参数，即URL中？后面的字符串
        
        keyToExtract（选填）：当partToExtract为’QUERY’时，可以指定query键值对中的key，获取指定参数值
        
        返回值：URL中指定部分的截取值
        
        数学函数
        
        pow()、power()、dpow()、fpow()
        
        参数：a：底数 b：指数
        
        用途：取幂
        
        pow(double a, double p)
        power(double a, double p)
        dpow(double a, double p)
        fpow(double a, double p)
        
        返回值：a的b次幂
        
        round()、dround()
        
        参数：
        a：要四舍五入的数值
        d（可选）：小数保留位数，若无此参数，保留到整数部分
        
        用途：返回四舍五入值
        
        round(double a)
        round(double a, int d)
        round(decimal a, int_type d)
        dround(double a)
        dround(double a, int d)
        
        返回值：四舍五入值
        
        truncate()、dtrunc()
        
        truncate(double_or_decimal a[, digits_to_leave])
        dtrunc(double_or_decimal a[, digits_to_leave])
        
        用途：去除小数部分的数值
        
        参数：
        a：被截取的数值
        digits_to_leave（可选）：小数点保留位数，若无此参数，保留到整数部分
        
        返回值：被截取的值
      - 高级选项
        
        开启快速 Distinct 算法
        SELECT COUNT(DISTINCT user_id) FROM events
        WHERE date = CURRENT_DATE() /ENABLE_APPROX_DISTINCT/
        
        开启维度字典映射和维度表关联，默认关闭
        SELECT $model FROM events
        WHERE date = CURRENT_DATE() /ENABLE_DIMENSION_DICT_MAPPING/
        
        查询某个指定 Distinct Id
        SELECT event, time FROM events
        WHERE date = CURRENT_DATE() AND distinct_id='abcdef' /DISTINCT_ID_FILTER=abcdef/
        
        SQL 默认在执行 10 分钟之后会被系统强制杀死，修改时间
        SELECT FROM events WHERE date = CURRENT_DATE() LIMIT 1000 /MAX_QUERY_EXECUTION_TIME=1800*/
        
        使用Join Hint指定Join的执行方式：SHUFFLE或BROADCAST
        SELECT COUNT() AS cnt FROM events
        JOIN / +SHUFFLE */ users ON events.user_id = users.id
        WHERE date = CURRENT_DATE()
    - - https://manual.sensorsdata.cn/sa/latest/guide_analytics_query-7543929.html#id-.自定义查询v1.17-常见案例