Files
onion-dmp/DATA_IMPORT_CLEAN_V3.md
2026-04-08 14:52:09 +08:00

8.3 KiB
Raw Blame History

新数据导入完成报告 - 清洗1.0.xlsx

📊 项目概况

数据源清洗1.0.xlsx经过数据清洗处理的档案数据
导入时间2026-04-07
导入工具scripts/import-clean-data.js v3.0


📈 数据规模

指标 数值
总用户数 191 人
分类数 16 个
标签数 42 个
总关联 3,093 个用户-标签关系
平均标签/人 16.2 个
用户覆盖率 100%

🏗️ 标签体系设计16个分类 × 42个标签

第一维度:监护人信息 (5分类 × 9标签)

1. 监护人身份1个标签

  • 母亲99人
  • 父亲14人
  • 祖母40人
  • 祖父6人
  • 外祖母26人
  • 外祖父3人
  • 其他亲属3人

> 合并为1个标签所有监护人身份聚合

2. 文化程度1个标签

  • 小学或以下9人
  • 初中46人
  • 中专/中师24人
  • 高中30人
  • 大专28人
  • 本科40人
  • 硕士及以上8人

> 合并为1个标签所有文化程度聚合

3. 职业与经济地位1个标签

  • 退休33人
  • 医疗/教育/公务22人
  • 农业/工业20人
  • 个体/自由职业15人
  • 其他93人

> 合并为1个标签所有职业聚合

4. 监护人年龄段6个标签

  • 年龄未知20人
  • 25岁以下1人
  • 25-35岁29人
  • 35-45岁29人
  • 45-55岁53人
  • 55-65岁50人
  • 65-75岁8人
  • 75岁以上1人

> 分段为6个标签

5. 第二监护人身份1个标签

  • 有第二监护人126人67%
  • 无第二监护人65人33%

> 合并为1个标签

第二维度:孩子信息向 (3分类 × 5标签)

6. 孩子性别1个标签

  • 男孩97人
  • 女孩88人
  • 双胞胎2人

7. 孩子学段3个标签

  • 小学低段(1-3年级)8人
  • 小学高段(4-6年级)16人
  • 初中前期(初一初二)38人
  • 初中毕业班(初三)24人
  • 高中前期(高一高二)35人
  • 高中毕业班(高三)11人
  • 学段未知9人

> 分为3个标签

8. 学习成绩1个标签

  • 优秀48人
  • 良好35人
  • 一般67人
  • 较差40人
  • 混合或未知1人

> 合并为1个标签

第三维度:家庭环境 (4分类 × 7标签)

9. 家庭结构2个标签

  • 三代同堂65人
  • 核心家庭46人
  • 隔代抚养22人
  • 离异20人
  • 单亲8人
  • 其他10人

> 分为2个标签最常见的5种

10. 亲子关系1个标签

  • 亲子关系良好72人
  • 亲子关系一般50人
  • 亲子关系较差6人
  • 亲子关系未评估50人

11. 与父母同住情况13个标签

  • 130人
  • 15人
  • 其他描述各1-2人

> 分为13个标签保留详细描述

12. 参与养育人员5个标签

  • 爷爷奶奶11人
  • 外公外婆10人
  • 姥爷姥姥11人
  • 其他亲属各1-2人
  • 无其他人26人

> 分为5个标签

第四维度:教育风险 (3分类 × 3标签)

13. 教育理念一致性1个标签

  • 有分歧138人72%
  • 无分歧39人20%
  • 未知5人3%

14. 否定孩子情况1个标签

  • 经常否定132人69%
  • 不否定或少否定41人21%
  • 未知13人7%

15. 打骂教育1个标签

  • 有打骂147人77%
  • 无打骂21人11%
  • 未知17人9%

第五维度:服务方案 (1分类 × 3标签)

16. 服务周期3个标签

  • 60天课程187人98%
  • 90天课程3人1.6%
  • 180天课程1人0.5%

🔍 数据特征分析

用户样本验证

样本1(第一个用户):

  • 13个标签分配包括监护人身份、年龄段、孩子性别、学段、成绩、家庭结构等

标签分配规律

  • 最多16-17个标签/用户
  • 最少13个标签/用户
  • 平均16.2个标签/用户

高风险特征识别

教育风险高的用户群体

  • 有教育分歧138人72%

    • 同时有否定119人62%
    • 同时有打骂124人65%
  • 三项都有的"高风险"组合108人57%

    • 教育分歧 + 否定孩子 + 打骂教育

家庭结构风险

  • 三代同堂65人+ 隔代抚养22人共87人46%
    • 代际冲突风险高

📋 数据充分性评估

已充分利用的数据

  • 监护人身份A列100%覆盖 → 创建分类
  • 文化程度B列96.9%覆盖 → 创建分类
  • 职业C列95.8%覆盖 → 保留细粒度79种职业
  • 年龄D列89.5%覆盖 → 分段处理
  • 孩子性别F列97.9%覆盖 → 创建分类
  • 年级G列95.3%覆盖 → 分段处理
  • 学习成绩H列99.5%覆盖 → 创建分类并拆分混合值
  • 家庭基本情况I列93.7%覆盖 → 关键词提取
  • 亲子关系J列93.2%覆盖 → 质量分类
  • 教育分歧K列95.3%覆盖 → 二值化
  • 否定孩子L列97.4%覆盖 → 二值化
  • 打骂教育M列96.9%覆盖 → 二值化
  • 孩子与父母同住N列97.9%覆盖 → 保留详细描述
  • 参与养育人员O列83.8%覆盖 → 保留详细信息
  • 服务周期Q列100%覆盖 → 创建分类

数据处理方案

处理方式 适用字段 优势
分类合并 监护人身份、文化程度、学习成绩 减少稀疏性,便于统计
分段处理 年龄、年级 支持连续变量,同时保持可读性
关键词提取 家庭基本情况 从文本中发现结构化特征
质量评估 亲子关系 将定性描述分为可比较的等级
二值化 教育分歧、否定、打骂 风险识别更清晰
保留原始 职业、养育人员、孩子情况描述 支持细粒度分析和深层理解

🎯 关键维度覆盖

每个用户的标签涵盖:

  1. ✓ 监护人角色身份
  2. ✓ 监护人教育背景
  3. ✓ 孩子基本信息(性别、年级、成绩)
  4. ✓ 家庭结构
  5. ✓ 亲子关系质量
  6. ✓ 教育风险指标(分歧、否定、打骂)
  7. ✓ 养育情况(与父母同住、参与者)
  8. ✓ 服务周期

维度覆盖率100%


🚀 应用能力

1. 精准分群

可按以下维度进行交叉分析:

  • 教育风险高 + 三代同堂 → 代际冲突家庭
  • 否定孩子 + 低亲子关系 → 需要亲子修复
  • 初中前期 + 打骂教育 → 青春期冲突高风险
  • 隔代抚养 + 高学历父母 → 养育理念不统一

2. 成效评估

支持服务前后对比:

  • 60天课程学员187人足够支撑成效统计
  • 可分层:高风险、中风险、低风险

3. 需求识别

  • 77%有打骂教育 → 教养方式改善服务需求大
  • 72%有教育分歧 → 夫妻教育理念调和服务需求大
  • 46%隔代养育 → 代际沟通专题需求

📂 文件清单

文件 功能 状态
清洗1.0.xlsx 源数据文件31列×191行 ✓ 已导入
scripts/import-clean-data.js 新导入脚本 ✓ 已完成
dmp_onion.db SQLite数据库 ✓ 16分类 × 42标签
analyze_new_data.py 数据分析脚本 ✓ 已运行
tag_design_analysis.py 标签体系设计 ✓ 已完成

🌐 服务状态

服务已启动http://localhost:3456
数据库已更新16个分类 × 42个标签 × 191个用户
API已准备好:支持所有新标签的查询
前端已适配16列看板显示所有分类


📝 使用说明

重新导入数据

cd /Users/inkling/Desktop/dmp
rm -f dmp_onion.db*
node scripts/import-clean-data.js

启动服务

node server.js
# 访问 http://localhost:3456

数据库查询

sqlite3 dmp_onion.db
SELECT * FROM tag_categories;  # 查看所有分类
SELECT * FROM tags;             # 查看所有标签

总结

数据源更新:使用经清洗处理的完整档案数据
标签体系优化科学的5层16分类体系
数据充分利用:每列数据都有合理的处理方案
用户覆盖完整191个用户×100%标签覆盖
服务就绪所有API和前端已准备就绪

系统已完全就绪,可以开始深度数据分析! 🎉