AIRead RuleEditor は、ルール指定でフォーム(帳票定義)を作成するGUIツールです。

1. AIRead RuleEditor の起動

Windows の「スタート」から「AIRead RuleEditor」を選択します。

AIRead FormEditor が起動されます。

2. ルールとフォームの作成

2-1. ルールの確認

AIRead のフォームを作成するには、まずフォームのルールを指定します。

AIRead 初期インストール時のルール名は、AIRead_conf(%AIREAD_HOME%AIRead_conf_kw フォルダ)が指定されています。
%AIREAD_HOME%:AIRead をインストールしたフォルダパス。デフォルトは C:AIRead

ルール名とフォルダは、AIRead RuleEditor の下方に表示されているステータスバーで確認できます。

2-2. ルールの作成

ルールを新たに作成する場合、左のメニューから「ルールを作成」を選択します。

以下のダイアログが表示されます。

「保管場所」は、ルールのフォルダが作成される場所を指定します。

「ルール名」は、任意のルール名を指定します。
保管場所の配下にルール名で指定したフォルダが作成されます。

2-3. ルールの選択

既に作成されたルールを選択する場合、左のメニューから「ルールを開く」を選択します。

フォルダ選択のダイアログが表示されますので、開きたいルール名のフォルダを選択します。

選択したルールが表示されます。

2-4. 文書種別(フォーム)の作成

読み取りたい帳票の定義を作成するには、まず仕分けのキーワードとなる帳票の条件を指定します。

左のメニューから「条件追加」を選択します。

中央に「文書種別」「識別キーワード」入力する画面が表示されます。

「文章種別」の[+]を押下し、任意の文書種別名(フォーム名)を指定します。


ルール名で指定したフォルダの配下に、文書種別名で指定したフォルダが作成されます。

2-5. 識別キーワードの指定

「識別キーワード」に、帳票を識別するためのキーワードとなる文字列を入力します。

別のキーワードを指定したい場合、「識別キーワード」の下の[+]ボタンを押下し入力します。

「識別キーワード」はカンマ (,) 区切りで複数指定することができます。

2-6. 画像の追加

左のメニューから登録した文書種別を選択すると、中央に個別設定画面が表示されます。

上のメニューから「画像を追加」ボタンを押下すると、ファイル選択のダイアログが表示されます。

参照したい画像ファイルを選択します。

指定できる画像ファイル形式は、PDF、PNG、TIF(TIFF)、JPG(JPEG)です。

選択された帳票の画像データが中央に表示されます。

画像は複数登録することができます。

2-7. 画像の削除

上のメニューから「画像を削除」ボタンを押下すると、画像表示されている画像を削除できます。

2-8. 文書種別(フォーム)の複製

文書種別の複製(コピー)は、左のメニューから複製したい文書種別上でマウスを右クリックし「コピー」を選択します。

文書種別のコピーのウインドウが表示されるので、複製後の「文書種別名」と「識別キーワード」を入力し「コピー」ボタンを押下します。

なお、「識別キーワード」にすでに設定したキーワードと同一の値を指定することはできません。

2-9. 文書種別(フォーム)の削除

文書種別の削除は、左のメニューから削除したい文書種別上でマウスを右クリックし「削除」を選択します。

削除を確認するダイアログが表示されるので、「OK」ボタンを押下します。

3. メタデータ(読取項目)の設定

メタデータの設定を行います。
「メタデータ設定ファイル」は固定で、%AIREAD_HOME%\ルール名\文書種別名\IDE_metadata_setting.ini です。

3-1. メタデータの作成

AIRead RuleEditor 右側のリストの下から[+]ボタンを選択します。

メタデータの詳細を設定する以下のダイアログが開きます。

3-2. メタデータの詳細設定

3-2-1. 項目名

メタデータの名称を設定します。CSVの出力項目名になります。
必須指定項目です。

3-2-2. 値の抽出方法

項目の抽出方法を以下から選択します。
必須指定項目です。

抽出方法内容
キーワードキーワード(文字列)を条件に値を抽出します。
キーワードの座標指定キーワード(文字列)が指定した座標に存在するとみなして値を抽出します。
座標指定指定した座標にある値を抽出します。
型指定指定した型に合致する値を抽出します。
固定値任意の固定値を出力します。

3-2-3. 固定値

「抽出方法」に”固定値”を指定した時、項目に出力させたい任意の固定値を設定します。

3-2-4. 抽出キーワード

「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワードとして使用する任意の文字列を設定します。

3-2-5. 値の探索方向

「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワードから値を検索しにいく方向を指定します。
方向は、”右”、”左”、”上”、”下”、”右 and 下”から選択します。”右 and 下”は、右方向を検索し次に下方向を検索します。

3-2-6. 後処理

読み取り後の文字を補正する設定情報を指定します。
後処理の指定方法は 3-3. 後処理設定 を参照して下さい。

3-2-7. サブキーワードを指定する

「抽出方法」に”キーワード”を指定した時、「サブキーワードを指定する」にチェックをすることで、抽出する値を絞り込むことができます。

「方向」は、”右”、”左”、”上”、”下”から選択します。

「キーワード」には、キーワードとして使用する任意の文字列を設定します。

主となるキーワードが既に指定されている場合、ベースメタデータに”キーワード”を指定したメタデータを選択します。

3-2-8. 2行目のデータを取得する

「抽出方法」に”キーワード”を指定した時、「2行目のデータを取得する」にチェックをすることで、値を2行分抽出することができます。

(1). チェックしたとき

(2). チェックしないとき

3-2-9. 座標

「抽出方法」に”座標”または”キーワードの座標指定”を指定した時、読み取り位置またはキーワードを座標で指定します。

座標指定の方法は以下の手順で行います。

(1). 「座標」は空欄のまま[決定]を押下します。

(2). 中央の画像から、座標指定したい個所の始点から終点を、マウスでドラッグ&ドロップします。

(3). 「座標」に値がセットされます。

3-2-10. 型指定

型を指定して値を抽出します。
「抽出方法」に”キーワード”、”キーワードの座標指定”、”固定値”を指定した時、指定した型に該当する値のみを抽出します。
「抽出方法」に”型指定”を指定した時、画像全体から該当する値を抽出します。

「データタイプ」は、予め決められた以下の型から選択して指定することができます。

データタイプ説明出力フォーマット
DATE_YMD日付(年、月、日)と合致した値を抽出するyyyy-mm-dd
DATE_MDY日付(月、日、年)と合致した値を抽出するmm-dd-yyyy
DATE_DMY日付(日、月、年)と合致した値を抽出するdd-mm-yyyy
YEN日本円の表示形式と合致した値を抽出する-{0,1}[0-9]+
DOLLRドルの表示形式と合致した値を抽出する-{0,1}[0-9]+\.[0-9]{2}
PAGEページの表現と合致した値を抽出するページ番号 / ページ総数
NUMBER整数と小数点に合致した値を抽出する-{0,1}[0-9]+(\.[0-9]+)*
STRING文字列をそのまま抽出する なし

「正規表現」は、任意の正規表現で抽出したい型を指定することができます。

3-2-11. マージン拡張

「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワード文字列の領域を拡張させて値を抽出します。
左右に拡張させたいマージンをピクセル単位で指定します。

(1). マージンを指定しないとき

キーワード文字列”製品名”の”下”方向を探索しても、1-2行目はキーワード文字列の下に存在しないので抽出されません。

(2). マージンを指定したとき

キーワード文字列”製品名”を左方向に拡張したことで、1-2行目がキーワード文字列の下にかかり抽出されます。

3-2-12. レコード区切り

罫線で区切られていないレコード(行)に対して、レコード単位で区切りるかを指定します。

(1). チェックしないとき
該当メタデータを1つの項目として抽出します。

(2). チェックしたとき
該当メタデータを行単位で区切って抽出します。

3-2-13. 値取得個数の制限

抽出したい値の上限を 0以上の整数で指定します。
空白の場合、存在する値を全て抽出します。

3-2-14. 値を必須列とする

該当する列のメタデータを必須とします。

(1). チェックしたとき
値が抽出されなかった行は、他のメタデータを出力しません。

3-2-15. デリミタを無視

デリミタを無視するかを指定します。

(1). チェックしたとき
該当メタデータは、キーワード文字列と値文字列の間にデリミタは無いものとして扱います。

3-2-16. 文字列中の部分一致

文字列の部分一致を許容するかを指定します。

(1). チェックしたとき
文字列中にキーワード文字列が部分一致した時、そこから文字列を分割して値の抽出を行います。

3-2-17. 明細名

読み取り項目の明細名を設定します。表形式で出力する場合の識別名になります。

3-3. 後処理設定

読み取り後の文字を補正する設定情報を指定します。

3-3-1. 後処理の設定

「設定」ボタンを押下すると、以下の後処理設定画面が開きます。

後処理設定画面

3-3-2. 設定名の指定

新規に設定を作成したい場合、「設定名」に任意の名称を入力し「+」ボタンを押下します。

既存の設定を変更したい場合、設定名の下の一覧から任意の設定を選択します。

設定を削除したい場合、「設定名」に任意の名称を入力し「-」ボタンを押下します。

3-3-3. 設定情報の登録

「設定情報」には後処理条件を設定します。
後処理条件は、左側に正規表現で合致する表記を、右側には置換後の文字列を記述します。

以下の例では、文字列中の任意の “S”, “s”, “B”“8” へ、“g”, “q”“9” へ置換します。

後処理条件を設定後、「保存」ボタンを押下し後処理情報を保存します。

3-3-4. 後処理の指定

保存した後処理条件を使用する場合、後処理名を選択します。

4. 抽出パラメータ設定

作成中

詳しくは AIRead RuleEditor マニュアル 4.4.6. 抽出パラメータ設定 を参照ください

5. 設定ファイル

設定ファイルは、グループ全体で指定する「共通設定ファイル」と、フォームごとに指定する「個別設定ファイル」の二種類があります。

5-1. 共通設定ファイル

「共通設定ファイル」は AIRead ControlPanel で指定します。
AIRead ControlPanel の起動は、Windows の「スタート」から「AIRead ControlPanel」を選択します。
※AIRead ControlPanel は AIRead ControlPanel の使い方 を参照してください

AIRead 初期インストール時の「共通設定ファイル」は、%AIREAD_HOME%\AIRead_Setting_kw.ini です。

「共通設定ファイル」の変更は、AIRead RuleEditor の左のメニューから「共通設定ファイル」を選択します。

「共通設定ファイル」を指定するダイアログが表示されます。
使用したい「共通設定ファイル」を選択します。

5-2. 個別設定ファイル

「個別設定ファイル」は AIRead RuleEditor の上のメニューから「歯車のアイコン」を選択します。

「個別設定ファイル」を設定するための AIRead ControlPanel ウインドウが表示されます。

AIRead ControlPanel 個別設定ファイル 設定画面

個別に変更したい項目に対して、以下の「個別設定に使う」にチェックを行い設定を変更します。

「個別設定ファイル」は固定で、%AIREAD_HOME%\ルール名\文書種別名\AIRead_setting.ini です。

6. 読み取りの実行

帳票データの読み取り(OCR)を行います。

6-1.読み取り画像ファイルの指定

AIRead FormEditor の左のメニューから「AIRead」を選択します。

読み取り実行のダイアログが表示されます。
読み取りたい画像ファイルを選択します。

6-2. 読み取りの完了

読み取りが完了すると、AIRead Viewer が起動します。

AIRead Viewer 読み取り結果一覧画面

一覧からデータを選択し、結果を確認します。

AIRead Viewer 読み取り結果詳細画面