Skip to content

sample projects

github-actions[bot] edited this page May 26, 2026 · 1 revision

示例项目说明

TextFlow 的官方样例项目由 scripts/build-bundled-sample-workspace.ps1 在打包前预构建。首次打开空工作区时,应用会复制这份样例工作区模板,而不是在用户机器上重新导入 raw seed。

更完整的样例矩阵、seed 授权和构建参数见 内置场景样例

注入规则

  • 触发条件:第一次加载空工作区。
  • 注入方式:复制打包时预构建的样例工作区模板;首次空工作区找不到可用模板时会显式报错,不再静默标记初始化完成。
  • 生成位置:用户工作区的 projects/
  • 默认当前项目:示例 01 - WoS论文关键词与主题流程
  • 运行状态:创建时不预跑分析,用户需要手动运行 workflow。
  • 模板来源:WoS/IncoPat seed 通过 source profile 导入后写入 project.db
  • 原始 seed:打包样例中不保留 raw import 文件,只保留 source_files 审计元数据。

三个官方样例

样例 主要用途 建议先看
示例 01 - WoS论文关键词与主题流程 以“研究热点、主题结构与趋势报告”为目标,演示字段映射、主文本构造、元数据标准化、n-gram 切词、词表、关键词、主题、年份趋势和筛选后的共现网络 聚焦词项节点、工作流节点产物、HTML 报告
示例 02 - IncoPat专利技术识别与图分析 以“关键技术词和新兴/核心技术判断”为目标,演示专利元数据、claims 文本、关键词收窄、图指标、社区、主路径、链接预测和技术分类 聚焦词项摘要、图指标、技术指标和导出节点产物
示例 03 - 论文专利融合分析流程 以“研究热点与专利技术方向是否汇合”为目标,演示 WoS + IncoPat 多来源融合、机构关键词/主题、跨来源统计、聚焦图谱与技术输出 多来源链路、机构分析、聚焦共现图谱和导出节点产物

样例流程原则

  • 样例先说明分析目标和目标产物,再展示节点能力。
  • 样例项目的 description 会直接写明“目标 / 处理流程 / 预期结果”,因此项目列表和项目概览里就能看出这个样例想回答什么问题。
  • 图计算不直接吃全量词项;默认链路是 过滤词项 -> 关键词提取 -> 聚焦词项 -> 共现分析 -> 构建网络 -> 图指标/社区/主路径/链接预测
  • 聚焦词项 会把项目级关键词作为白名单写入 focus_term_summary,用户可以审计候选词数量、保留词项数和前后 token 数。
  • 样例仍覆盖主要节点,但复杂度高的图分析默认只在加权骨干网络上运行,避免给用户传达“把所有词都丢进图算法”的错误操作范式。

示例项目有什么价值

  • 帮助新用户理解 .tfproj 项目里会保存什么。
  • 让用户在没有自有数据时跑通导入、词表、workflow、分析和导出链路。
  • 帮助开发者用真实 source profile 验证节点执行、缓存、运行历史、artifact preview 和导出行为。
  • 让停用词、同义词、标准词和排除词等规则在真实结构化导出上暴露问题。

开发与测试时降低规模

$env:TEXTFLOW_SAMPLE_PROJECT_ROW_LIMIT = "120"

测试结束后可执行:

Remove-Item Env:TEXTFLOW_SAMPLE_PROJECT_ROW_LIMIT

当前边界

  • WoS/IncoPat seed 的再分发权限必须显式确认;未确认时只能用于本地或私有构建。
  • Scopus 样例暂未启用,原因是当前没有可分发或可稳定复现的 Scopus seed。
  • 样例创建时不自动生成结果,第一次结果需要用户手动运行 workflow。
  • 已有用户项目的工作区不会重复注入官方样例。
  • 如果修改了官方样例定义,需要重新构建 sidecar 或安装包,新的预构建样例模板才会随产物更新。

文档索引

这套文档只描述当前仓库已经实现或已经被代码验证的能力,不再把历史方案、迁移草图和未来目标混写成“当前规格”。

当前有效文档

  • 当前现状 当前仓库能跑到什么程度、哪些部分稳定、哪些部分还在打磨。
  • 产品范围与完成度 以 V1 目标为基线,逐项对照当前完成情况。
  • 架构说明 说明桌面端、Python sidecar、项目存储、词表、运行记录和打包结构。
  • 工作流与运行时 说明 workflow-only 持久化、native DAG、缓存和插件节点的当前关系。
  • 开发与构建说明 开发环境、脚本、测试、打包、压测入口。
  • 示例项目说明 首次启动从安装包内置模板恢复的 3 个官方 revised-flow 样例及用途。
  • 内置场景样例 官方样例矩阵、seed 授权、存储形态和使用提醒。
  • 大规模压测记录 当前仓库保留的万条级工作流压测数据与性能边界。
  • 技术全景与架构设计 当前技术栈、前后端边界、节点 catalog、测试覆盖和已知差距的全景说明。
  • 节点 Catalog Schema 后端驱动节点 definition、UI schema、slot 白名单和插件示例。
  • ADR 架构决策记录,说明重要迁移和边界选择的背景。
  • 插件节点说明 本地纯 Python 节点插件的加载方式、注册接口和当前运行边界。

目录约定

  • docs/ 根目录放当前有效文档。
  • docs/archive/ 放历史方案、旧规格和旧计划,仅供追溯,不再作为当前实现依据。
  • plugins/nodes/README.md 放插件节点接口说明,因为它直接对应插件目录本身。

不再作为当前依据的文档

旧版 PRD、线性流程规格、V2 迁移规格、画布布局草图和实施计划已移入归档区:

Clone this wiki locally