Skip to content

Releases: DuanYan007/markitdown

test-files

23 Mar 03:39

Choose a tag to compare

markitdown4j.jar - 主程序文件(推荐下载)

test-files.zip - 测试文件包(可选,包含103个测试文件)

  • 用于验证转换功能的各类测试文档
  • 涵盖所有支持格式的测试场景
  • 包含加密PDF、大文件、多语言等边界测试

🚀 快速开始

1. 下载 markitdown4j.jar

2. 下载并解压 test-files.zip(可选)

3. 基础使用

java -jar markitdown4j.jar document.pdf -o output.md

4. 使用测试文件验证

java -jar markitdown4j.jar test/plain-text.pdf -o output.md
java -jar markitdown4j.jar test/basic.docx -o output.md
java -jar markitdown4j.jar test/encrypted.pdf --pdf-password test123 -o output.md

5. 查看帮助

java -jar markitdown4j.jar --help

📋 支持格式

  • PDF: .pdf - 文本提取 + 加密支持
  • Word: .docx, .doc - 表格、图片、样式
  • Excel: .xlsx, .xls - 公式、多工作表
  • PowerPoint: .pptx, .ppt - 幻灯片提取
  • HTML: .html, .htm - 网页解析
  • 图片: .png, .jpg, .gif, .bmp - OCR识别
  • 音频: .mp3, .wav - 元数据提取
  • 文本: .txt, .csv, .json, .xml
  • 压缩包: .zip - 批量处理

详细测试文件清单:https://github.com/DuanYan007/markitdown/blob/main/java/TEST_FILES.md

markitdown4j

23 Mar 03:31

Choose a tag to compare


📦 markitdown4j v0.0.2 - 文档转换工具
✨ 版本亮点
✅ 100% 测试通过率 - 103个测试用例全部验证通过
📁 9+ 格式支持 - PDF、Word、Excel、PowerPoint、HTML、图片、音频等 ⚡ 高性能 - 支持并行处理、大文件优化
🔒 加密PDF支持 - 支持密码保护的PDF文件转换
🖼️ 图片提取 - 自动提取文档中的嵌入图片
🌏 多语言OCR - 支持中英文等多种语言文字识别

🚀 快速开始

下载 markitdown4j.jar 后直接使用

java -jar markitdown4j.jar document.pdf -o output.md

查看帮助

java -jar markitdown4j.jar --help

📋 支持格式

  • PDF: .pdf - 文本提取 + 加密支持
  • Word: .docx, .doc - 表格、图片、样式
  • Excel: .xlsx, .xls - 公式、多工作表
  • PowerPoint: .pptx, .ppt - 幻灯片提取
  • HTML: .html, .htm - 网页解析
  • 图片: .png, .jpg, .gif, .bmp - OCR识别
  • 音频: .mp3, .wav - 元数据提取
  • 文本: .txt, .csv, .json, .xml
  • 压缩包: .zip - 批量处理

📚 完整文档

🎯 系统要求

  • Java: JDK 17+
  • 操作系统: Windows / Linux / macOS
  • 可选: Tesseract OCR (用于图片文字识别)

markitdown-java

03 Nov 02:43

Choose a tag to compare

修复编译优化而缺失的库