2019 年 9 月 4 日, 群友 fuzeyu 提出一个问题: 自动化抽取 PPT 内容的逻辑结构是否有价值? 从而引出了后面一系列 "结构化" 讨论.
付则宇:
我有一个问题想请教大家哈,我想知道各位认为自动化抽取ppt内容的逻辑结构有没有价值?比如你去外面听一场讲座,讲座结束后你会得到一份这个讲座的内容思维导图。
simoncos:
感觉PPT已经是精简版了(除非是有些课程堆一本书内容的PPT),这相当于再精简一遍
simoncos:
价值肯定也有
simoncos:
毕竟现在许多人看本书都想十分钟看完
pimgeek:
我也说一点不成熟的想法,我去听别人讲座,一般都是慕名而去或者是被演讲者的分享过程吸引,先获得了大概印象,进入了问题场景之后,再去找PPT里的细节确认理解或研究。
到了确认细节的这个心理过程以后,外在表现就是找演讲者或其它渠道确认,有一个思维导图,能够降低短期记忆的认知压力
付则宇:
我是回想起我听了那么多讲座,却没什么好方式能存档记录下来供日后回忆或者进行知识管理
pimgeek:
所谓“引人入胜”,应该就是在说这个心理进入过程。一些高质量的讲座,能够让人在短时间内进入一个重要的能够带来高秩序的问题场景…… 而手机上的很多热门内容都是让人进入一些短期的趋于无序的问题场景。而且还要加入广告的干扰。
付则宇:
如果有一个更结构化的东西能够把它们归纳起来,比如记录下同一领域的不同演讲者,也许就可以进行知识串联或者知识融合
pimgeek:
嗯,有一个结构化的东西很重要,另外最好是能促成二次分享
hehe:
其实我觉得结构化是一个比较私人的东西。而且是需要训练的。
hehe:
好像现在就在走群主之前的路,我在不断二次和多次整理自己之前收集和整理的东西。
willing:
@付则宇?我觉得有个很大原因是本身就存在鸿沟的。当我们觉得收获特别大的时候,一般是我们与分享者有差距的时候,而演讲本身就是他压缩了的成果,所以感觉理解了,只是暂时的,这些东西根本就不可能大量地被吸收掉。所以,他的演讲只是一个引子,我们事后需要下大量功夫。
hehe:
是信息量的问题。
willing:
当然,结构化是战术上很棒的方式
hehe:
这个就是涉及到背景了。所以有时候在想结构化需要非常牛逼的能高纬度俯瞰的人做,然后大家都做自己的部分的填充。
hehe:
然后找风格相近,关注点相近的人(或者相反),再做内容讨论和分享。
pimgeek:
嗯,我也觉得结构化很重要,事实上长期以来我都假定:虽然不同人在习惯、思维方式、对外交流以及自己脑内的语言习惯上面都有很大差别,但是仍然有一些东西(和人们的主观感受相关的东西)是稳固不变的,可以通过某种外在的形式描绘。
pimgeek:
大家可能很多都玩过即时战略游戏,早期许多游戏地图是黑的,游戏的过程中,带着小兵四处探路的体验,就是不同的人在主观感受上非常相近的地方。
不系舟:
我也觉得结构化是有价值的,不过以现在的技术水平,我觉得不能要求自动结构化做太多事情
不系舟:
看文因互联的一些 slides,里面鲍捷老师说过一句话「知识=结构」,我觉得还是有一点道理的
pimgeek:
我相信人们在学习新知识的时候,思维也有点像在及时战略中,把“认知图”从隐藏变为显现的过程。
不系舟:
结构化可以把事实、事件、观点、术语这些东西提取出来,更高层次的关联还是得人来做
pimgeek:
结构化就像是在一个杂草(distraction)丛生的认知领域里,打上很多木桩(anchor),进而帮助自己去锚定思路,防止思维发散的工具。
ZoomQuiet 大妈:
「 不系舟: 看文因互联的一些 slides,里面鲍捷老师说过一句话「知识=结构」,我觉得还是有一点道理的 」
是也乎,( ̄▽ ̄)
问题在, 这个结构是机械可识的, 还是人类可用的....
知识的结构, 在大脑生理/心理/意识中, 当然是有结构的,
可惜, 这结构难以通用化...
只能通过知识图谱, 先通用化绘 AI ,
然后,才可能自动生成针对每个具体人的结构化匹配
hehe:
现在有人在做自动结构化的东西吗?
pimgeek:
我觉得与其建立完全脱离人的结构化内容图谱,不如建立一个既有人也有结构的内容图谱。
不系舟:
很难,大部分都需要人工进行校验,所以我觉得从知识管理角度来讲,可以做轻度的结构化
pimgeek:
前几天发的 Ta在(前身貌似是曲别针App),很像是在做这种努力
willing:
@pimgeek-知识管理工具研究者?比如trilium?
pimgeek:
大妈说的很多观点,可能都是基于具体实施上的技术困难,可以帮助我在脑洞之余有一个边界感。如果没有这个边界感,可能会变成完全空对空的概念游戏
不系舟:
我理解Ta在那个还是一个推荐系统类似的东西,对于知识的提取、管理不会有什么本质性的改善
willing:
Palantir之类的就是人机结合的吧
simoncos:
"付则宇: 如果有一个更结构化的东西能够把它们归纳起来,比如记录下同一领域的不同演讲者,也许就可以进行知识串联或者知识融合"
如果只是结构化PPT的话,可以先试试 PPT -> PDF-> Marginnote or other software
hehe:
我现在在尝试自己整理我找到的资料,然后看看自己用的什么规则。目前就是给自己一个时间限定,按照一个时间点来整理收集的资料。之后一个时间点再过滤一遍。看有没有不同,是否有规律。
hehe:
如果可行再考虑用机器辅助。
pimgeek:
@不系舟?我理解,Ta在也好,或者是其他类似的应用也好,如果能把一群人长期绑在一个相对稳定的结构上,并容许人与结构互相配合地发挥作用,那应该会有突破口
simoncos:
自动结构化难度完全不一样了
不系舟:
维基百科不就是这种东西么
hehe:
我觉得机器的作用不是形成一个完善的东西,而是节省尝试的时间和精力。
simoncos:
相关NLP领域:information extraction,auto summary
不系舟:
从知识的角度来看,我觉得维基百科的意义远大于那个 Ta 在
pimgeek:
但我感觉任何一个封闭数据的私营公司,做这种事情都会带来一个问题,就是因为缺乏公共属性。会变成用数据捆绑人,而不是用数据服务人
hehe:
嗯,维基百科的确牛逼。
simoncos:
"simoncos-NLP|ML: 相关NLP领域:information extraction,auto summary"
然后就是KG相关的各种,entity extraction, relation extraction, inference...
不系舟:
之前粗略地看了一遍Ta在,感觉它解决的问题是还是推荐系统的问题:如何推荐更优质的内容给你。
不系舟:
它本身不产生知识,产生的结构也更多的是一个社交网络相关的结构,连接的人和内容还是一个消费者和商品的关系
hehe:
其实我觉得和推荐商品一样,用户自己都不知道他想要什么,但推荐的东西如果靠谱他会消费,但不见得他真的想要和有用。可商家得利了。但知识不一样。
pimgeek:
我希望以后能够建立发现更多像集智知识管理群这样的群组,人与数据不分离且时常更新,不定期的在群里面或群之间碰撞出一些新鲜的内容,不再依赖于头条之类的大路货。
不系舟:
其实可以采纳大妈的建议,确定一些主题后深入探索讨论,比如刚才聊到的一个:利用信息抽取技术从非结构化文档中抽取结构化数据辅助提炼、管理知识的技术、方案和服务
不系舟:
我们这些做 NLP 的可以提供技术方案方面的信息(可行性、技术边界),而怎么结合知识管理则需要群里对知识管理方面更有了解的人来帮忙确定(确定需求)
pimgeek:
@不系舟?可以,目前群里确实没有选定一个深入钻研的方向,理论上可以钻下去看看
付则宇:
我这些天在想ppt的内容结构也许可以自动化提取出来
pimgeek:
实际上也可以
不系舟:
内容充实的话甚至可以搞次线下聚会
不系舟:
ppt 的问题主要还涉及到文档解析
hehe:
嗯,再积累积累?有人有小成果吗?
不系舟:
我做过 PDF/DOCX 解析,知识图谱构建、知识图谱问答,如果要就这个主题深入讨论的话我可以加入
付则宇:
是的,大概要结合两个点来做。一是ppt本身的xml文档解析,获取文字、标签、元素位置及大小等,二是结合图像。
pimgeek:
是啊,已经有两三次这个聚会的提议了,今天有多少人愿意参加或组织“结构化”主题的线下活动?
付则宇:
愿意
pimgeek:
我个人愿意加入
willing:
愿意
pimgeek:
大家可以直接在群里发言报名,然后我把今天上午的聊天记录统一发到各位邮箱里。
ZoomQuiet 大妈:
线下直播困难的话, 俺有商用版本 zoom 可以支持长时间网络会议
hehe:
zoom一把吧?
hehe:
线下见各地不方便。
hehe:
用不用开个石墨发写想聊的主题上去?
pimgeek:
这一次的线下聚会无论如何必须开起来,我负责推进和跟进
hehe:
另外能否翻个牌儿,大家投一两个希望可以发言的?
pimgeek:
@阎赫-网络计算-北京?可以啊,就石墨文档吧
hehe:
谁开?我也是有石墨付费的人。
pimgeek:
我可以讲一点,知识结构化过程路上的几次入坑经历
pimgeek:
@大妈??Zoom.Quiet?@阎赫-网络计算-北京?多谢大佬们的赞助
李娟:
愿意参加
pimgeek:
@阎赫-网络计算-北京?你昨晚说的那几种项目管理工具的对比使用经验,可以做一个主题讲解
hehe:
开一个表格还是文档?
hehe:
@pimgeek-知识管理工具研究者
pimgeek:
石墨,worktile,Trello,bugzila,bugfree,禅道等的利弊对比分析和实践经验,这个与团队知识结构化关联很大
不系舟:
我觉得文档好一点,表格感觉交互不太方便
pimgeek:
文档吧,必要时嵌入简单表格或表格链接
hehe:
大佬们给互动起个名字吧。
hehe:
我好赶紧录入上去。
pimgeek:
目的就是先促成第一次关于知识结构化的多人线上Zoom聚会
ZoomQuiet 大妈:
集智结构化知识论.v0
hehe:
https://shimo.im/docs/qCwXxxdRQRTY6pkG/ 《集智结构化知识论.v0》,可复制链接后用石墨文档 App 或小程序打开
ZoomQuiet 大妈:
之后系列嗯哼就 --> v1/v2/v3....
下去
2019 年 9 月 4 日, 群友 fuzeyu 提出一个问题: 自动化抽取 PPT 内容的逻辑结构是否有价值? 从而引出了后面一系列 "结构化" 讨论.
能否结合个人体会, 说说你怎样理解结构化这个词?