Releases: DuanYan007/markitdown
test-files
markitdown4j.jar - 主程序文件(推荐下载)
test-files.zip - 测试文件包(可选,包含103个测试文件)
- 用于验证转换功能的各类测试文档
- 涵盖所有支持格式的测试场景
- 包含加密PDF、大文件、多语言等边界测试
🚀 快速开始
1. 下载 markitdown4j.jar
2. 下载并解压 test-files.zip(可选)
3. 基础使用
java -jar markitdown4j.jar document.pdf -o output.md
4. 使用测试文件验证
java -jar markitdown4j.jar test/plain-text.pdf -o output.md
java -jar markitdown4j.jar test/basic.docx -o output.md
java -jar markitdown4j.jar test/encrypted.pdf --pdf-password test123 -o output.md
5. 查看帮助
java -jar markitdown4j.jar --help
📋 支持格式
- PDF: .pdf - 文本提取 + 加密支持
- Word: .docx, .doc - 表格、图片、样式
- Excel: .xlsx, .xls - 公式、多工作表
- PowerPoint: .pptx, .ppt - 幻灯片提取
- HTML: .html, .htm - 网页解析
- 图片: .png, .jpg, .gif, .bmp - OCR识别
- 音频: .mp3, .wav - 元数据提取
- 文本: .txt, .csv, .json, .xml
- 压缩包: .zip - 批量处理
详细测试文件清单:https://github.com/DuanYan007/markitdown/blob/main/java/TEST_FILES.md
markitdown4j
📦 markitdown4j v0.0.2 - 文档转换工具
✨ 版本亮点
✅ 100% 测试通过率 - 103个测试用例全部验证通过
📁 9+ 格式支持 - PDF、Word、Excel、PowerPoint、HTML、图片、音频等 ⚡ 高性能 - 支持并行处理、大文件优化
🔒 加密PDF支持 - 支持密码保护的PDF文件转换
🖼️ 图片提取 - 自动提取文档中的嵌入图片
🌏 多语言OCR - 支持中英文等多种语言文字识别
🚀 快速开始
下载 markitdown4j.jar 后直接使用
java -jar markitdown4j.jar document.pdf -o output.md
查看帮助
java -jar markitdown4j.jar --help
📋 支持格式
- PDF: .pdf - 文本提取 + 加密支持
- Word: .docx, .doc - 表格、图片、样式
- Excel: .xlsx, .xls - 公式、多工作表
- PowerPoint: .pptx, .ppt - 幻灯片提取
- HTML: .html, .htm - 网页解析
- 图片: .png, .jpg, .gif, .bmp - OCR识别
- 音频: .mp3, .wav - 元数据提取
- 文本: .txt, .csv, .json, .xml
- 压缩包: .zip - 批量处理
📚 完整文档
- 安装配置: https://github.com/DuanYan007/markitdown/blob/main/java/INSTALLATION.md
- 命令参考: https://github.com/DuanYan007/markitdown/blob/main/java/COMMAND_REFERENCE.md
- 使用指南: https://github.com/DuanYan007/markitdown/blob/main/java/README.md
🎯 系统要求
- Java: JDK 17+
- 操作系统: Windows / Linux / macOS
- 可选: Tesseract OCR (用于图片文字识别)
markitdown-java
修复编译优化而缺失的库