P4-1 办公自动化简介以及PDF文件分析
办公自动化简介以及PDF文件分析
什么是办公自动化
- 非IT专业人员打交道最多的三种文件:Word、Excel、PDF
- Excel中的VBA脚本,用的是Basic的语言,非常小众了现在
办公自动化就是把人工手动的操作方法通过编程自动化去完成
这个阶段讲:Word、Excel、PDF文件的读写,图表,简化日常工作
- Excel中的VBA脚本,用的是Basic的语言,非常小众了现在
使用YZK-Docs
- 1、Maven中引入yzk18-docs
- 2、看文档研究PDFHelpers的用法。
- 就是对PDFbox的简单封装,没有封装的方法直接参考PDFbox的文档即可
- 3、案例:把一个PDF文件中的文字提取到一个文本文档中,图片保存到同级目录下,文件名用递增序号
思路
- 1.PDF文档的不同:
- 扫描版
- 加密版
- 文字版(开源一般都只对文字版管用)
- 限制
- 1、有的是纯扫描版文件,全都是图片,无法简单的提取文字,需要调用OCR等功能。OCR精度较高,所以都是收费的
- 2、一些被加密等PDF文件需要特殊处理
- 3、PDF的不可替代性的格式。所以用代码去实现提取PDF中的文字,无法达到完美的还原出来里面所有的内容
1 |
|
P4-1 办公自动化简介以及PDF文件分析
http://example.com/2024/08/12/SE101-零基础玩Java/Part4-笔记/P4-1 办公自动化简介以及PDF文件分析/