Skip to content

Latest commit

 

History

History
58 lines (42 loc) · 3.83 KB

File metadata and controls

58 lines (42 loc) · 3.83 KB

示例项目说明

TextFlow 的官方样例项目由 scripts/build-bundled-sample-workspace.ps1 在打包前预构建。首次打开空工作区时,应用会复制这份样例工作区模板,而不是在用户机器上重新导入 raw seed。

更完整的样例矩阵、seed 授权和构建参数见 内置场景样例

注入规则

  • 触发条件:第一次加载空工作区。
  • 注入方式:复制打包时预构建的样例工作区模板;首次空工作区找不到可用模板时会显式报错,不再静默标记初始化完成。
  • 生成位置:用户工作区的 projects/
  • 默认当前项目:示例 01 - WoS论文关键词与主题流程
  • 运行状态:创建时不预跑分析,用户需要手动运行 workflow。
  • 模板来源:WoS/IncoPat seed 通过 source profile 导入后写入 project.db
  • 原始 seed:打包样例中不保留 raw import 文件,只保留 source_files 审计元数据。

三个官方样例

样例 主要用途 建议先看
示例 01 - WoS论文关键词与主题流程 以“研究热点、主题结构与趋势报告”为目标,演示字段映射、主文本构造、元数据标准化、n-gram 切词、词表、关键词、主题、年份趋势和筛选后的共现网络 聚焦词项节点、工作流节点产物、HTML 报告
示例 02 - IncoPat专利技术识别与图分析 以“关键技术词和新兴/核心技术判断”为目标,演示专利元数据、claims 文本、关键词收窄、图指标、社区、主路径、链接预测和技术分类 聚焦词项摘要、图指标、技术指标和导出节点产物
示例 03 - 论文专利融合分析流程 以“研究热点与专利技术方向是否汇合”为目标,演示 WoS + IncoPat 多来源融合、机构关键词/主题、跨来源统计、聚焦图谱与技术输出 多来源链路、机构分析、聚焦共现图谱和导出节点产物

样例流程原则

  • 样例先说明分析目标和目标产物,再展示节点能力。
  • 样例项目的 description 会直接写明“目标 / 处理流程 / 预期结果”,因此项目列表和项目概览里就能看出这个样例想回答什么问题。
  • 图计算不直接吃全量词项;默认链路是 过滤词项 -> 关键词提取 -> 聚焦词项 -> 共现分析 -> 构建网络 -> 图指标/社区/主路径/链接预测
  • 聚焦词项 会把项目级关键词作为白名单写入 focus_term_summary,用户可以审计候选词数量、保留词项数和前后 token 数。
  • 样例仍覆盖主要节点,但复杂度高的图分析默认只在加权骨干网络上运行,避免给用户传达“把所有词都丢进图算法”的错误操作范式。

示例项目有什么价值

  • 帮助新用户理解 .tfproj 项目里会保存什么。
  • 让用户在没有自有数据时跑通导入、词表、workflow、分析和导出链路。
  • 帮助开发者用真实 source profile 验证节点执行、缓存、运行历史、artifact preview 和导出行为。
  • 让停用词、同义词、标准词和排除词等规则在真实结构化导出上暴露问题。

开发与测试时降低规模

$env:TEXTFLOW_SAMPLE_PROJECT_ROW_LIMIT = "120"

测试结束后可执行:

Remove-Item Env:TEXTFLOW_SAMPLE_PROJECT_ROW_LIMIT

当前边界

  • WoS/IncoPat seed 的再分发权限必须显式确认;未确认时只能用于本地或私有构建。
  • Scopus 样例暂未启用,原因是当前没有可分发或可稳定复现的 Scopus seed。
  • 样例创建时不自动生成结果,第一次结果需要用户手动运行 workflow。
  • 已有用户项目的工作区不会重复注入官方样例。
  • 如果修改了官方样例定义,需要重新构建 sidecar 或安装包,新的预构建样例模板才会随产物更新。