まず学習辞書であるが、これはよくある文字読み取りの間違いをパターン化して一括検索・置換するもので、リストのかたちで保存できるから、再利用が可能である。この辞書の中身を充実させていけばいいのである。まず「検索」メニューから「検索・置換」を選択すると「検索・置換」ダイアログが表示されるので、検索したい文字列と置換したい文字列をそれぞれ入力する。ダイアログの右下にある「リスト置換」をクリックすると「置換リスト」が表示され、「追加」ボタンをクリックするとリストに登録される。必要な追加があれば、この作業を繰り返し、最大100組までの登録が可能である。右下の「リスト変更」ボタンをクリックして「名前を付けて保存」を選び、適当なファイル名をつければ、デフォルトでは「マイドキュメント」フォルダの「medeadrive」内の「e.Typist User Data」フォルダに「*.lst」の形式で保存され、呼び出すことができるようになる。このファイルは実体はタブ区切りのテキストデータなので、簡単に作成することもできる。
ちなみにわたしがかつて紀伊國屋NetLibrary用に『宮本常一著作集』をOCRで読み取りしたときに作った「miyamoto.lst」という学習辞書(一括処理ファイル)が見つかったので、ご参考までに提示しておこう。これは古い活字を読み取るときによく起こる読み違いを拾い出したもので、あまり一般性がないので、あくまでも一例にすぎないことをくれぐれもお断りしておく。
=一 一二
劇軽 剽軽
:: ......
食ぺ 食べ
手ぱな 手ばな
むつかし むづかし
たぺ たべ
.
・:・ ......
ぺき べき
人聞 人間
「 「
、 「 、「
、 一 、一
。 一 。一
。。 。
=ハ 一六
曲豆 豊
、 『 、『
。 ( 。(
。 『 。『
胴子 舸子
仲問 仲間
= 一一
成皿 盛
一っ 一つ
,
』 ( 』(
入月 八月
民聞 民間
祈疇 祈祷
村入 村人
仲聞 仲間
民問 民間
'
『 『
飢謹 飢饉
まア まァ
ゃア ゃァ
はア はァ
なア なァ
一べん 一ぺん
豆殴 豆酘
庖瘡 疱瘡
年聞 年間
) )
左側が検索文字列、右側が置換文字列である。ご覧いただけばすぐわかるように、句読点やカッコ類の問題や単純な読み違え(たとえば「人間」を「人聞」とするなど)、さらにひとつの文字を分解して読んでしまう例(「豊」を「曲豆」と読むなど)があり、なかなかおもしろいが、笑ってもいられない。こういう間違いを集めておいて一括処理すれば、かなり手間が省けるのである。何パターンもリストを作っておいて使い分けるのもひとつの方法だろう。
コメントする