龙飞电脑工作室 发表于 2024-4-13 15:53:04

PDF电子发票数据提取至Excel





采用python正则表达提取
支持电子发票和数电发票,不支持图片和图片形式的PDF,不支持OFD


目前可能会有以下问题:
1、在win10环境上打包的,win7系统可能不支持。
2、增加了一些非公司后缀的正则式,但是还是会存有一定误差,楼主的100多张发票已经能够正确识别了。
3、非数电发票的备注识别可能会识别不出。
4、没有测试过带清单的发票。

使用场景:
1、避免电子发票重复报销入账(筛选发票号码或者校验码重复值)
2、检查收到的发票纳税人名称和纳税人识别号是否正确
3、根据路径筛选统计报销人电子发票金额(前提:依据报销人将发票分别存入文件夹)
4、OFD文件可以用数科OFD阅读器批量转换成pdf再统一提取


软件下载:
页: [1]
查看完整版本: PDF电子发票数据提取至Excel