智能文档处理和电子发票概览 | 上海软件外包公司-知力科技

在“过去的时代”，发票传统上以纸质格式发送，并煞费苦心地转录成收件人的ERP系统方便后续数据处理。正如 Brendan Foley 等人所指出的，发票和电子邮件等文档中的很大一部分数据（约 80% 到 90%）仍然是手动提取的（2019 年）。然而，近年来，商业发票等文档的完全数字化传输以及自动化数据提取流程发生了显着的转变。

为什么公司（或其管理者）应该接受这种转变？理由很明确：节省资源（例如减少纸张使用）并简化工作流程< /a>（例如，消除手动数据输入）。

此外，了解该行业的发展对于从事公共部门合同的公司至关重要。在欧盟内部，长期以来一直致力于标准化发票和增强机器可读性（欧盟指令 2014/15/EU）。该举措旨在促进商业发票的自动化处理。同样，在德国，公共部门正在明显转向数字采集和自动化处理，远离传统的纸质文档处理。

由于这一转变，例如德国的立法机构已强制规定，到 2025 年左右，只有符合特定机器可读格式的商业发票才能以数字方式提交。因此，未来几年，参与公共部门合同的公司面临的压力将会加大，这标志着电子发票逐渐升级进入关键阶段。

回到焦点，业务发票的智能处理在端到端发票处理工作流程中至关重要，可能构成该过程中最关键的方面。例如，错误识别 IBAN（国际银行帐号）可能会导致无意中向错误的供应商付款，从而给公司带来大量后续成本。

探索商业发票数据字段识别的两种方法：人工智能集成和标准化格式

接下来的部分将描述两种用于识别业务发票中的数据字段的前瞻性方法。

在最初的场景中，通过利用人工智能来促进数据识别（人工智能）。目前，各种提供商 – 例如 Microsoft（利用 LayoutLM 模型）、ABBYY 、SAP 和 EagleDoc — 提供采用 AI 技术的数据提取综合解决方案。例如，SAP 使用文档阅读器来解析提取的发票文档，从而识别相关数据并对其进行分类。人工智能驱动的 OCR（光学字符识别）软件能够熟练地识别和捕获发票数据，并将其与供应商主记录进行交叉引用。利用预先存在的主数据，可以将发票快速分配给适当的供应商和指定员工。此外，分类软件可以熟练地解释发票行项目和相关值，从而有助于立即与相应的订单数据保持一致。然而，所有提供商的共同点是发票处理的迭代性质——一个永久的改进过程。

在替代方法中，使用欧洲或国家发票标准提取和描述发票中的数据字段。在欧洲层面，一项值得注意的举措是 PEPPOL（泛欧在线公共采购）举措。该倡议建立了普遍接受的发票标准（PEPPOL 格式），以简化成员国之间的贸易。这种格式得到了许多成员国当局的广泛认可和认可。

此外，为了促进国内贸易并在国家层面遵守欧盟指令，各个国家/地区都制定了自己的国家发票标准以及 PEPPOL 格式等公认的欧洲标准。例如，奥地利实施了“ebInterface”标准，而德国则采用“ZUGFeRD”（Zentraler User Guide des Forums elektronische Rechnung Deutschland）作为其国家发票标准。

接下来，我们将深入研究这些发票标准的技术复杂性，探索可用的格式及其在从商业发票中提取和识别数据时的用途。

传统的欧洲电子发票方法以 XML 格式为中心。这需要以 XML 格式创建每张发票，然后将其传输给收件人进行无缝自动化处理。国家发票标准规定了此类发票所需的特定 XML 格式。

这种结构化数据格式有利于发票的自动处理。 RNorm 16931 标准化了电子发票的两种 XML 格式：

UN/CEFACT XML CII（跨行业发票）
UBL ISO/IEC 19845（也称为 UBL 2.1 发票、通用商业语言）

利用“ZUGFeRD”解锁商业发票中的数据提取：来自 Mustang Initiative 的见解

将“ZUGFeRD”视为从商业发票中提取数据字段的主要示例。根据开源计划“Mustang”的调查结果，目前大约 43% 的德国公司传输电子发票，其中 45% 使用 ZUGFeRD/Factur-X 格式。

“Mustang”项目包括开源 Java（Jar 或 Maven）和.NET 库，提供一套包括读取、编辑和验证 ZUGFeRD 发票的工具。

假设我们拥有符合“ZUGFeRD”标准的 PDF 格式的发票。下面是 Java 代码的摘录，说明了如何从发票中提取各个数据字段：

爪哇

公共类 ZUGFeRDReader {

    公共静态无效主（字符串[] args）{
         
        ZUGFeRDImporter zi = new ZUGFeRDImporter("./MustangGnuaccountingBeispielRE-20201121_508.pdf");
   
        //“ZUGFeRD”验证
        if (zi.canParse()) {
            System.out.println("总金额：" + zi.getAmount());
            System.out.println("BIC：" + zi.getBIC());
            System.out.println("国际银行账号：" + zi.getIBAN());
            System.out.println("持有者名称：" + zi.getHolder());
            System.out.println("发票号码：" + zi.getForeignReference());
            System.out.println("发票日期：" + zi.getInvoiceDate());
            System.out.println("发票到期日：" + zi.getDueDate());
            System.out.println("货币：" + zi.getCurrency());
            System.out.println("税号：" + zi.getTaxID());
            System.out.println("客户参考：" + zi.getCustomerReference());
       
        } 别的 {
            System.out.println("发票不是 ZUGFeRD 格式");
        }
    }
}

结论

总而言之，随着智能文档处理在日常业务运营中的不断采用，有关电子发票的讨论变得越来越不可避免。我们发现，发票中数据字段的准确识别对于电子处理至关重要，有两种不同的方法在发挥作用：人工智能和电子发票。

事实证明，基于人工智能的方法对于处理 TIF、TIF 等非结构化数据格式非常有效。 JPEG、Word 文档或电子邮件文本，而电子发票策略擅长管理混合发票格式（例如“ZUGFeRD”）和 XML 文件中的结构化数据。

据观察，接受标准化电子发票的公众压力越来越大。此外，基于人工智能的数据收集过程是迭代的，最初充满了明显的误差范围，需要大量的时间和资源通过培训进行细化。相反，电子发票方法可以直接且几乎无错误地提取数据，这可能会转化为更低的处理成本。

为了保持面向未来，为自动化业务发票处理提供数字解决方案的公司必须使其产品多样化，以涵盖人工智能和电子发票方法。