-
Notifications
You must be signed in to change notification settings - Fork 0
examples
github-actions[bot] edited this page May 26, 2026
·
1 revision
TextFlow 首次打开空工作区时,会优先从安装包里的预构建样例工作区恢复 3 个官方样例项目。样例不是前端 demo,而是由 Python sidecar 预先导入 seed、写入 .tfproj/project.db、保存 workflow 和词表后的真实项目。
| 样例 | Source profile | 主要覆盖 | 预期先看 |
|---|---|---|---|
| 示例 01 - WoS论文关键词与主题流程 | wos |
WoS 字段映射、主文本拼接、元数据标准化、去重、清洗、切词、词表、特征词、关键词、主题、年份趋势、关键词白名单后的共现网络、导出 | 聚焦词项、工作流节点上的产物按钮 |
| 示例 02 - IncoPat专利技术识别与图分析 | incopat |
专利元数据标准化、claims 文本、关键词收窄、共现网络、图指标、社区、主路径、链接预测、技术指标和技术分类 | 聚焦词项摘要、技术指标、图分析和 HTML 报告产物 |
| 示例 03 - 论文专利融合分析流程 | wos + incopat |
多来源合并、source profile 保留、机构关键词/主题、跨来源统计、关键词白名单后的融合图谱与技术输出 | 多来源节点、机构分析、聚焦图谱和导出节点产物 |
这些样例的工作流目标不是“把所有节点串起来演示一遍”,而是先回答一个具体分析问题,再把相关节点放进可审计链路。每个样例的项目描述都会直接写清楚目标、处理流程和预期结果。复杂图计算默认不吃全量词项,而是经过语料范围控制、去重、词表规则、词频过滤、项目级关键词抽取和 聚焦词项 白名单后,再进入共现、构图和图算法节点。
Scopus 已有 import profile 和测试夹具,但当前没有内置 Scopus 样例。等拿到可再分发的 Scopus seed 后再加入新的官方样例。
WoS、Scopus 和 IncoPat 导出通常受订阅协议限制,默认只能作为本地开发 seed。构建样例时使用这些环境变量:
$env:TEXTFLOW_SAMPLE_WOS_SOURCE = "C:\path\to\wos.xls"
$env:TEXTFLOW_SAMPLE_INCOPAT_SOURCE = "C:\path\to\incopat.xlsx"
$env:TEXTFLOW_ALLOW_RESTRICTED_SAMPLE_DATA = "1"也可以通过脚本参数传入:
powershell -ExecutionPolicy Bypass -File .\scripts\build-bundled-sample-workspace.ps1 `
-WosSeed "C:\path\to\wos.xls" `
-IncopatSeed "C:\path\to\incopat.xlsx" `
-AllowRestrictedSampleData `
-RowLimit 120sample_seed_sources/private/ 已被 git 忽略,适合放本地 seed。公开发布构建不应使用 -AllowRestrictedSampleData,除非 seed 元数据已经明确标记为可再分发。
- 样例
.tfproj内包含project.json和project.db。 - 语料行写入
project.db的corpus_documents表。 - 运行产物写入
project.db的artifacts表,并通过artifact_records暴露懒加载索引。 - 打包样例不保留
corpus/imported/*或metadata/sample_seed/*原始 seed 文件。 -
source_files只保留审计元数据;relative_path为空,retained_in_project=false。
- 样例创建时不预跑分析;用户需要手动运行 workflow。
- 运行完成后,在工作流页面已完成且有产物的节点上点击“产物”按钮查看预览。
- 开发测试可通过
TEXTFLOW_SAMPLE_PROJECT_ROW_LIMIT或脚本-RowLimit缩小样例规模;当前不再要求偶数或英中配比。
这套文档只描述当前仓库已经实现或已经被代码验证的能力,不再把历史方案、迁移草图和未来目标混写成“当前规格”。
- 当前现状 当前仓库能跑到什么程度、哪些部分稳定、哪些部分还在打磨。
- 产品范围与完成度 以 V1 目标为基线,逐项对照当前完成情况。
- 架构说明 说明桌面端、Python sidecar、项目存储、词表、运行记录和打包结构。
- 工作流与运行时 说明 workflow-only 持久化、native DAG、缓存和插件节点的当前关系。
- 开发与构建说明 开发环境、脚本、测试、打包、压测入口。
- 示例项目说明 首次启动从安装包内置模板恢复的 3 个官方 revised-flow 样例及用途。
- 内置场景样例 官方样例矩阵、seed 授权、存储形态和使用提醒。
- 大规模压测记录 当前仓库保留的万条级工作流压测数据与性能边界。
- 技术全景与架构设计 当前技术栈、前后端边界、节点 catalog、测试覆盖和已知差距的全景说明。
- 节点 Catalog Schema 后端驱动节点 definition、UI schema、slot 白名单和插件示例。
- ADR 架构决策记录,说明重要迁移和边界选择的背景。
- 插件节点说明 本地纯 Python 节点插件的加载方式、注册接口和当前运行边界。
-
docs/根目录放当前有效文档。 -
docs/archive/放历史方案、旧规格和旧计划,仅供追溯,不再作为当前实现依据。 -
plugins/nodes/README.md放插件节点接口说明,因为它直接对应插件目录本身。
旧版 PRD、线性流程规格、V2 迁移规格、画布布局草图和实施计划已移入归档区: