47 lines (31 loc) · 2.87 KB

layoutocr_magic_llava_data

一、 LaytoutLM

表单理解：FUNSD数据集（199 个带注释的表单的集合，包含超过 30,000 个单词）
收据理解：SROIE数据集（包含 626 个用于训练的收据和 347 个用于测试的收据的集合）
文档图像分类：RVL-CDIP数据集（属于 16 个类别之一的 400,000 张图像的集合）

二、 LayoutxLM

XFUND 是一个多语言表单理解基准数据集，其中包含 7 种语言（中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语）的带有键值对的人工标记表单。

Statistics

lang	split	header	question	answer	other	total
ZH	training	441	3,266	2,808	896	7,411
	testing	122	1,077	821	312	2,332
JA	training	229	3,692	4,641	1,666	10,228
	testing	58	1,253	1,732	586	3,629
ES	training	253	3,013	4,254	3,929	11,449
	testing	90	909	1,218	1,196	3,413
FR	training	183	2,497	3,427	2,709	8,816
	testing	66	1,023	1,281	1,131	3,501
IT	training	166	3,762	4,932	3,355	12,215
	testing	65	1,230	1,599	1,135	4,029
DE	training	155	2,609	3,992	1,876	8,632
	testing	59	858	1,322	650	2,889
PT	training	185	3,510	5,428	2,531	11,654
	testing	59	1,288	1,940	882	4,169

三、 CogVLM

CogVLM-SFT-311K：CogVLM SFT中的双语视觉指令数据集

THUDM/CogVLM-SFT-311K中含有数据集的信息、数量和格式

CogVLM-SFT-311K 是 CogVLM v1.0 初始训练中使用的主要对齐语料库。该数据集的构建过程如下：

从开源MiniGPT-4中选取了大约 3500 个高质量数据样本，称为 minigpt4-3500。
Minigpt4-3500与Llava-Instruct-150K集成，并通过语言模型翻译成中文。
我们在 minigpt4-3500 和 Llava-instruct 的详细描述部分发现了明显的噪音。因此，我们对这些中文语料库进行了修正，并将其重新翻译成英文。