AIRead RuleEditor は、ルール指定でフォーム(帳票定義)を作成するGUIツールです。
1. AIRead RuleEditor の起動
Windows の「スタート」から「AIRead RuleEditor」を選択します。
AIRead FormEditor が起動されます。
2. ルールとフォームの作成
2-1. ルールの確認
AIRead のフォームを作成するには、まずフォームのルールを指定します。
AIRead 初期インストール時のルール名は、AIRead_conf(%AIREAD_HOME%AIRead_conf_kw フォルダ)が指定されています。
※%AIREAD_HOME%:AIRead をインストールしたフォルダパス。デフォルトは C:AIRead
ルール名とフォルダは、AIRead RuleEditor の下方に表示されているステータスバーで確認できます。
2-2. ルールの作成
ルールを新たに作成する場合、左のメニューから「ルールを作成」を選択します。
以下のダイアログが表示されます。
「保管場所」は、ルールのフォルダが作成される場所を指定します。
「ルール名」は、任意のルール名を指定します。
保管場所の配下にルール名で指定したフォルダが作成されます。
2-3. ルールの選択
既に作成されたルールを選択する場合、左のメニューから「ルールを開く」を選択します。
フォルダ選択のダイアログが表示されますので、開きたいルール名のフォルダを選択します。
選択したルールが表示されます。
2-4. 文書種別(フォーム)の作成
読み取りたい帳票の定義を作成するには、まず仕分けのキーワードとなる帳票の条件を指定します。
左のメニューから「条件追加」を選択します。
中央に「文書種別」「識別キーワード」入力する画面が表示されます。
「文章種別」の[+]を押下し、任意の文書種別名(フォーム名)を指定します。
ルール名で指定したフォルダの配下に、文書種別名で指定したフォルダが作成されます。
2-5. 識別キーワードの指定
「識別キーワード」に、帳票を識別するためのキーワードとなる文字列を入力します。
別のキーワードを指定したい場合、「識別キーワード」の下の[+]ボタンを押下し入力します。
「識別キーワード」はカンマ (,) 区切りで複数指定することができます。
2-6. 画像の追加
左のメニューから登録した文書種別を選択すると、中央に個別設定画面が表示されます。
上のメニューから「画像を追加」ボタンを押下すると、ファイル選択のダイアログが表示されます。
参照したい画像ファイルを選択します。
指定できる画像ファイル形式は、PDF、PNG、TIF(TIFF)、JPG(JPEG)です。
選択された帳票の画像データが中央に表示されます。
画像は複数登録することができます。
2-7. 画像の削除
上のメニューから「画像を削除」ボタンを押下すると、画像表示されている画像を削除できます。
2-8. 文書種別(フォーム)の複製
文書種別の複製(コピー)は、左のメニューから複製したい文書種別上でマウスを右クリックし「コピー」を選択します。
文書種別のコピーのウインドウが表示されるので、複製後の「文書種別名」と「識別キーワード」を入力し「コピー」ボタンを押下します。
なお、「識別キーワード」にすでに設定したキーワードと同一の値を指定することはできません。
2-9. 文書種別(フォーム)の削除
文書種別の削除は、左のメニューから削除したい文書種別上でマウスを右クリックし「削除」を選択します。
削除を確認するダイアログが表示されるので、「OK」ボタンを押下します。
3. メタデータ(読取項目)の設定
メタデータの設定を行います。
「メタデータ設定ファイル」は固定で、%AIREAD_HOME%\ルール名\文書種別名\IDE_metadata_setting.ini です。
3-1. メタデータの作成
AIRead RuleEditor 右側のリストの下から[+]ボタンを選択します。
メタデータの詳細を設定する以下のダイアログが開きます。
3-2. メタデータの詳細設定
3-2-1. 項目名
メタデータの名称を設定します。CSVの出力項目名になります。
必須指定項目です。
3-2-2. 値の抽出方法
項目の抽出方法を以下から選択します。
必須指定項目です。
抽出方法 | 内容 |
---|---|
キーワード | キーワード(文字列)を条件に値を抽出します。 |
キーワードの座標指定 | キーワード(文字列)が指定した座標に存在するとみなして値を抽出します。 |
座標指定 | 指定した座標にある値を抽出します。 |
型指定 | 指定した型に合致する値を抽出します。 |
固定値 | 任意の固定値を出力します。 |
3-2-3. 固定値
「抽出方法」に”固定値”を指定した時、項目に出力させたい任意の固定値を設定します。
3-2-4. 抽出キーワード
「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワードとして使用する任意の文字列を設定します。
3-2-5. 値の探索方向
「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワードから値を検索しにいく方向を指定します。
方向は、”右”、”左”、”上”、”下”、”右 and 下”から選択します。”右 and 下”は、右方向を検索し次に下方向を検索します。
3-2-6. 後処理
読み取り後の文字を補正する設定情報を指定します。
後処理の指定方法は 3-3. 後処理設定 を参照して下さい。
3-2-7. サブキーワードを指定する
「抽出方法」に”キーワード”を指定した時、「サブキーワードを指定する」にチェックをすることで、抽出する値を絞り込むことができます。
「方向」は、”右”、”左”、”上”、”下”から選択します。
「キーワード」には、キーワードとして使用する任意の文字列を設定します。
主となるキーワードが既に指定されている場合、ベースメタデータに”キーワード”を指定したメタデータを選択します。
3-2-8. 2行目のデータを取得する
「抽出方法」に”キーワード”を指定した時、「2行目のデータを取得する」にチェックをすることで、値を2行分抽出することができます。
(1). チェックしたとき
(2). チェックしないとき
3-2-9. 座標
「抽出方法」に”座標”または”キーワードの座標指定”を指定した時、読み取り位置またはキーワードを座標で指定します。
座標指定の方法は以下の手順で行います。
(1). 「座標」は空欄のまま[決定]を押下します。
(2). 中央の画像から、座標指定したい個所の始点から終点を、マウスでドラッグ&ドロップします。
(3). 「座標」に値がセットされます。
3-2-10. 型指定
型を指定して値を抽出します。
「抽出方法」に”キーワード”、”キーワードの座標指定”、”固定値”を指定した時、指定した型に該当する値のみを抽出します。
「抽出方法」に”型指定”を指定した時、画像全体から該当する値を抽出します。
「データタイプ」は、予め決められた以下の型から選択して指定することができます。
データタイプ | 説明 | 出力フォーマット |
---|---|---|
DATE_YMD | 日付(年、月、日)と合致した値を抽出する | yyyy-mm-dd |
DATE_MDY | 日付(月、日、年)と合致した値を抽出する | mm-dd-yyyy |
DATE_DMY | 日付(日、月、年)と合致した値を抽出する | dd-mm-yyyy |
YEN | 日本円の表示形式と合致した値を抽出する | -{0,1}[0-9]+ |
DOLLR | ドルの表示形式と合致した値を抽出する | -{0,1}[0-9]+\.[0-9]{2} |
PAGE | ページの表現と合致した値を抽出する | ページ番号 / ページ総数 |
NUMBER | 整数と小数点に合致した値を抽出する | -{0,1}[0-9]+(\.[0-9]+)* |
STRING | 文字列をそのまま抽出する | なし |
「正規表現」は、任意の正規表現で抽出したい型を指定することができます。
3-2-11. マージン拡張
「抽出方法」に”キーワード”または”キーワードの座標指定”を指定した時、キーワード文字列の領域を拡張させて値を抽出します。
左右に拡張させたいマージンをピクセル単位で指定します。
(1). マージンを指定しないとき
キーワード文字列”製品名”の”下”方向を探索しても、1-2行目はキーワード文字列の下に存在しないので抽出されません。
(2). マージンを指定したとき
キーワード文字列”製品名”を左方向に拡張したことで、1-2行目がキーワード文字列の下にかかり抽出されます。
3-2-12. レコード区切り
罫線で区切られていないレコード(行)に対して、レコード単位で区切りるかを指定します。
(1). チェックしないとき
該当メタデータを1つの項目として抽出します。
(2). チェックしたとき
該当メタデータを行単位で区切って抽出します。
3-2-13. 値取得個数の制限
抽出したい値の上限を 0以上の整数で指定します。
空白の場合、存在する値を全て抽出します。
3-2-14. 値を必須列とする
該当する列のメタデータを必須とします。
(1). チェックしたとき
値が抽出されなかった行は、他のメタデータを出力しません。
3-2-15. デリミタを無視
デリミタを無視するかを指定します。
(1). チェックしたとき
該当メタデータは、キーワード文字列と値文字列の間にデリミタは無いものとして扱います。
3-2-16. 文字列中の部分一致
文字列の部分一致を許容するかを指定します。
(1). チェックしたとき
文字列中にキーワード文字列が部分一致した時、そこから文字列を分割して値の抽出を行います。
3-2-17. 明細名
読み取り項目の明細名を設定します。表形式で出力する場合の識別名になります。
3-3. 後処理設定
読み取り後の文字を補正する設定情報を指定します。
3-3-1. 後処理の設定
「設定」ボタンを押下すると、以下の後処理設定画面が開きます。
3-3-2. 設定名の指定
新規に設定を作成したい場合、「設定名」に任意の名称を入力し「+」ボタンを押下します。
既存の設定を変更したい場合、設定名の下の一覧から任意の設定を選択します。
設定を削除したい場合、「設定名」に任意の名称を入力し「-」ボタンを押下します。
3-3-3. 設定情報の登録
「設定情報」には後処理条件を設定します。
後処理条件は、左側に正規表現で合致する表記を、右側には置換後の文字列を記述します。
以下の例では、文字列中の任意の “S”, “s”, “B” は “8” へ、“g”, “q” は “9” へ置換します。
後処理条件を設定後、「保存」ボタンを押下し後処理情報を保存します。
3-3-4. 後処理の指定
保存した後処理条件を使用する場合、後処理名を選択します。
4. 抽出パラメータ設定
作成中
詳しくは AIRead RuleEditor マニュアル 4.4.6. 抽出パラメータ設定 を参照ください
5. 設定ファイル
設定ファイルは、グループ全体で指定する「共通設定ファイル」と、フォームごとに指定する「個別設定ファイル」の二種類があります。
5-1. 共通設定ファイル
「共通設定ファイル」は AIRead ControlPanel で指定します。
AIRead ControlPanel の起動は、Windows の「スタート」から「AIRead ControlPanel」を選択します。
※AIRead ControlPanel は AIRead ControlPanel の使い方 を参照してください
AIRead 初期インストール時の「共通設定ファイル」は、%AIREAD_HOME%\AIRead_Setting_kw.ini です。
「共通設定ファイル」の変更は、AIRead RuleEditor の左のメニューから「共通設定ファイル」を選択します。
「共通設定ファイル」を指定するダイアログが表示されます。
使用したい「共通設定ファイル」を選択します。
5-2. 個別設定ファイル
「個別設定ファイル」は AIRead RuleEditor の上のメニューから「歯車のアイコン」を選択します。
「個別設定ファイル」を設定するための AIRead ControlPanel ウインドウが表示されます。
個別に変更したい項目に対して、以下の「個別設定に使う」にチェックを行い設定を変更します。
「個別設定ファイル」は固定で、%AIREAD_HOME%\ルール名\文書種別名\AIRead_setting.ini です。
6. 読み取りの実行
帳票データの読み取り(OCR)を行います。
6-1.読み取り画像ファイルの指定
AIRead FormEditor の左のメニューから「AIRead」を選択します。
読み取り実行のダイアログが表示されます。
読み取りたい画像ファイルを選択します。
6-2. 読み取りの完了
読み取りが完了すると、AIRead Viewer が起動します。
一覧からデータを選択し、結果を確認します。