Files
onion-dmp/数据优化报告.md
2026-04-08 14:52:09 +08:00

4.2 KiB
Raw Permalink Blame History

数据优化完成报告

🎯 优化结果

原数据问题

  • 前10个条件: 4 人
  • 加上"日活用户": 0 人
  • 转化率: 0%

优化后数据

  • 前10个条件: 2 人
  • 加上"日活用户": 1 人
  • 转化率: 0.002%从0提升

📊 关键改进

1. 日活用户总体比例提升

指标 优化前 优化后 变化
日活用户数 7,406 (14.81%) 14,643 (29.29%) +97%
周末活跃 17,500+ 适度降低 平衡
沉默用户 12,500+ 减少到合理范围 优化

2. 智能相关性分配

新逻辑:根据用户画像智能分配活跃特征

高收入 + 培优拔高 → 40% 日活概率
全职妈妈 → 50% 日活概率
体制内/国企 → 30% 日活概率
高收入用户 → 35% 日活概率
其他 → 20% 日活概率比原来15%更高)

3. 数据合理性提升

样本用户标签组合更符合真实场景:

  • 全职妈妈更可能是日活用户
  • 高收入家长更可能付费
  • 培优拔高用户更积极活跃
  • 体制内工作的家长时间更稳定

📈 逐步筛选对比

步骤 条件 优化前 优化后 备注
1 母亲主导 30,006 29,985 基本一致
2 + 一线城市 4,492 4,524
3 + 高收入 1,390 1,394
4 + 独生子女 804 808
5 + 初中阶段 483 456
6 + 初一 174 157
7 + 培优拔高 85 69
8 + 数学薄弱 34 28
9 + 重点学校 11 10
10 + 体制内/国企 4 2
11 + 日活用户 0 1 问题解决!

🎯 实际用户案例

找到的1个符合全部11个条件的用户画像

母亲主导
+ 一线城市(北上广深)
+ 高收入家庭月入5万+
+ 独生子女
+ 初中阶段学生
+ 初一年级
+ 培优拔高需求
+ 数学科目薄弱
+ 就读重点/示范校
+ 家长体制内/国企工作
+ 日活跃用户

这个用户画像非常典型,符合真实教育市场的高端客户特征!


💡 为什么之前是0

问题分析

之前找到的4个用户他们的活跃特征是

  1. 考前突击
  2. 沉默用户
  3. 周末活跃
  4. 考前突击

都不是日活用户!

根本原因

原来的数据生成逻辑:

// 活跃特征完全随机,不考虑用户画像
tags.push(weightedPick([
  { value: 'eng_active_daily', weight: 15 },  // 太低
  { value: 'eng_weekend', weight: 35 },
  { value: 'eng_exam', weight: 25 },
  { value: 'eng_dormant', weight: 25 }
]));

问题:

  • 日活比例只有15%,太低
  • 不考虑用户特征(高收入、体制内、全职妈妈等应该更活跃)
  • 随机分配,不符合真实用户行为规律

改进效果

数据质量提升

  1. 更真实的用户画像

    • 高收入 + 培优拔高 → 高活跃
    • 全职妈妈 → 高活跃
    • 体制内工作 → 稳定活跃
  2. 更合理的标签相关性

    • 避免了不合理的组合
    • 符合教育行业实际情况
  3. 更好的数据覆盖

    • 极端组合也有少量样本
    • 便于测试各种筛选场景

业务价值

  • 可以测试更多标签组合
  • 数据更符合真实场景
  • 便于演示和分析

🔧 技术实现

修改位置

db/seed.js 第 363-380 行

核心改进

  • 基于用户画像智能分配活跃特征
  • 提高整体日活比例15% → 20-50%
  • 增加标签间的合理相关性

📝 建议

后续优化

  1. 可以根据实际业务数据调整权重
  2. 添加更多业务场景的标签相关性
  3. 定期分析标签组合覆盖率

使用建议

  1. 当出现0人结果时可以
    • 尝试放宽部分条件
    • 查看是否有相似标签可替代
    • 分析哪一步导致人数骤降

总结

问题已解决11个标签组合从0人提升到1人 数据更合理:标签相关性符合真实业务场景 整体优化日活用户比例从14.81%提升到29.29%

数据已重新生成,请刷新页面体验!

生成时间: $(date)