税務通達、文書AIによるエンティティ抽出と文書分類

産業

技術情報

DLP & ML/ NLP – Term-Frequency Document AI GCPS – OCR Hashing Trick Jaccard Similarity Naive Bayes Algorithm

はじめに

私たちのチームはまず、さまざまな通知の種類を分析し、さまざまな通知からどのような関連情報を抽出できるかを考えました。

UKGについて

アルティメット・クロノス・グループ（UKG）は、マサチューセッツ州ローウェルとフロリダ州ウェストンに二重本社を置くアメリカの多国籍テクノロジー企業である。労働力管理および人事管理サービスを提供している。 HCM、給与計算、人事サービス提供、ワークフォース管理ソリューションのリーディング・グローバル・プロバイダとして、UKGの受賞歴のあるPro、Dimensions、Readyソリューションは、地域や業種を問わず、何万もの組織がより良いビジネス成果を上げ、人事の有効性を向上させ、給与計算プロセスを合理化し、すべての人にとってより良い、よりつながりのある仕事を実現できるよう支援しています。

課題

直面した最も重要な課題は、提供されたデータに関してだった。納税通知書データはPDFファイルの形で提供されたが、ページが回転していたり、スキャン不良のページや向きが正しくないページがあったり、PDF文書のどのページにもランダムに空白ページがあったりといった問題があった。

もうひとつの課題は、納税通知書の種類とその差別化についてだった。通知の種類は200～400種類と多く、文書中のテキスト／コンテキストはほとんど類似しているため、これらの文書を分類することは困難であり、文書を正確に区別する用語を見つけることは困難であった。 Jaccard類似度、Naive Bayesなどの異なるアプローチを実装する必要があった。

文書からの情報やエンティティの抽出には、Google Cloud PlatformサービスとDocument AIを使用した。 Document AI Forms Parserは、非構造化データを処理し、構造化フォーマットに変換するために使用された。必要なデータは高い精度で抽出されたが、パーサーはいくつかの重要なエンティティを低い信頼性で抽出した。この抽出されたデータを保存する際、ゴミの値も一緒に抽出される。我々はそれを注意深く分析し、ゴミ値の使用を避ける必要があった。

「テクノロジーは、私たちの顧客が世界の大手銀行と競争することを可能にする、偉大なイコライザーです。Knoldusの専門知識ソリューションが提供する重要な技術的利点の1つは、当社の商品ポートフォリオ全体で共有できることです。口座開設から、住宅ローンや中小企業ローンの開始、大学進学や老後のための貯蓄まで、エンドユーザーの金融の旅を通して発生する重要なイベントです」と、ホスティング・アーキテクチャ担当副社長は述べています。

解決策

私たちのチームは、さまざまな通知の種類を分析し、さまざまな通知からどのような関連情報を抽出できるかを検討することから始めた。最初のタスクは、Form Parserを使って文書からデータを抽出するDocument AIサービスを活用することだった。 Doc AIフォーム・パーサーは、キーと値のペアの形式でデータを解析します。こうして抽出された全文書のデータはBigQueryのテーブルに保存され、後の工程で使用される。文書AIフォーム・パーサーがどのように文書からデータを抽出するかのサンプルです。

しかし、このサービス／プロセッサーを使うことで、我々のチームはキーと値のペアしか持たないデータを抽出することができた。日付、会社名、識別番号など、いくつかのデータには関連するキーがなかったが、抽出が必要なエンティティが段落内容にいくつか存在した。 Google Cloud Data Loss Prevention（DLP）は非常に優れたソリューションであることが証明された。データ損失防止（DLP）は、内蔵のインフォタイプ検出器を使って文書から情報を抽出する。 150種類近い情報がある。インフォタイプは、電子メールアドレス、ID 番号、クレジットカード番号、DOB などの機密 PII データの一種です。私たちのチームは、組み込みのインフォタイプを使用し、エンティティを抽出するためのカスタムインフォタイプも作成しました。 Google Document AIとDLP（Data Loss Prevention）という2つのサービスによって、我々のチームは必要なデータをすべて抽出することができた。データおよび/またはエンティティの抽出精度は85%～95%であった。

次のステップでは、この抽出されたデータを使用して、各通知タイプから必要とされる期待されるデータフィールドと手作業でマッピングした。これは、通知文書内の特定のエンティティを表す関連ラベルを分析するために手作業で行われた。期待されるﬁeld “NAME “の例を考えてみよう。[Name, Tax-Payer Name, etc.]のように、文書によってラベルが異なることがある。

この後、納税通知書の文書分類が実施され、まず分類にJaccard Similarity MinHash Approachが用いられた。 MinHashはJaccard距離のLSHファミリーで、入力特徴は自然数の集合である。 2つの集合のジャカード距離は、それらの交点と和点のカーディナリティによって定義される。 MinHashは、セットの各要素にランダムなハッシュ関数を適用し、すべてのハッシュ値の最小値を取ります。しかし、このアプローチで得られる精度はかなり低く、満足のいくものではなかった。

分類に使用された次のアプローチは、ナイーブ・ベイズ分類器とOOV用語を処理するためのハッシング・トリックを使用したマルチクラス分類の実装であった。ハッシュ・トリックの使用は、大きな語彙のメモリ消費の問題に対処するのに役立ち、また、フィルター回避の問題を軽減する。このアプローチにより、精度は75～85％に向上し、モデルは納税通知書をより正確に分類できるようになった。