java 解析 PDF OFD 发票 部分文字缺失

avatar
作者
筋斗云
阅读量:0

1、pdfbox

https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox 到这里用最新的版本

最近碰到发票各式各样,千奇百怪:记录其中一个

解析出来是:缺少一个通字

发票好几处都缺少文字,解析出来的是 一个 圆点 

原因:

为了兼容其他代码,我用的不是最新版本:我用的是这个版本:  <dependency>       <groupId>org.apache.pdfbox</groupId>       <artifactId>pdfbox</artifactId>       <version>3.0.0-RC1</version>     </dependency>  改成了最新版 :  <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox --> <dependency>     <groupId>org.apache.pdfbox</groupId>     <artifactId>pdfbox</artifactId>     <version>3.0.2</version> </dependency>  解析的就没问题了

2、spire 解析是没问题的,但是免费用户有10页限制

3、tabula 

我用的最新版,解析不出来

<dependency>     <groupId>technology.tabula</groupId>     <artifactId>tabula</artifactId>     <version>1.0.5</version>     <exclusions>         <exclusion>             <artifactId>slf4j-simple</artifactId>             <groupId>org.slf4j</groupId>         </exclusion>     </exclusions> </dependency>
解析出来是这样的   名    称:内蒙古交\r集团

    广告一刻

    为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!