ファイル編集手順マニュアル:1の(4)OCRソフトを使ったテキスト作成

| コメント(0) | トラックバック(0)
 最近の著者の原稿はほとんどデータによるものが多くなったことはこれまでも何度も書いてきたが、とはいえ、書いた時期が古かったり、データ保存ができていなかったり、その他いろいろな事情があって、印刷されたものがあってもデータがない場合もけっこうあるのも事実である。本や雑誌などからデータを復元する必要があることもめずらしくないのである。
 こうした場合、以前だったら原稿をわざわざ入力し直すことが普通だったが、最近は市販されているOCRソフト(Optical Character Recognition:光学文字認識)も性能が良くなってきて、かなりの精度でテキストを取り出すことができるようになってきた。そこで今回は、こうした原稿からテキストデータを作成する方法を紹介しておきたい。この方法を使うことによって効率よくデータを取り出すことができるので、きわめて実用的だからである。
 まず、わたしが使っているOCRソフトはメディアドライブ社のe.Typistという市販ソフトである。ほかにはエプソン社の「読んde!!ココ」とかパナソニックの「読取革命」とかがあるが、最新情報では「読んde!!ココ」は開発終了したようである。以前、いろいろ使い勝手を比較してみたことがあるが、すくなくとも出版編集用にはこのe.Typistがいちばんいいのではないかという結論に達して導入した経緯がある。したがって、ここで紹介するのはこのソフトを使ったものであることをあらかじめことわっておきたい。もっとも、これもいろいろ問題がないわけではないので、不具合を一括処理するような後処理が必要で、言ってみれば、この後処理のテクニックがほんとうに使い物になるかどうかの目安となるのではないかと思う。
 以下に簡単に操作方法を書いておく。
 まずは読み取りたいページをスキャンして「jpeg」形式または「TIFF(Tagged Image File Format)」形式でファイル保存する。通常は「jpeg」形式で十分である。つぎにe.Typistを起動して「ファイル」メニューから「画像ファイルを開く」を選択し、読み込まれた画像ファイルの必要な文字部分をマウスで範囲選択する。つぎに「文字認識」をクリックすると、元の画像が左側に、読み取られた文字データが右側に現われる。さらに「ファイル」メニューから「OCR作業ファイルの保存」を選ぶと適当なファイル名をつけて保存できるし、同じように「テキスト─名前を付けて保存」を選択し適当なファイル名を付けてテキストを保存することができる。通常はこれを加工すればいいのだが、その前にOCR作業ファイルで画面を見ながら修正をすることもできる。作業ファイルの右側(読み取り側)で間違った文字を選択すると、それの変換候補の文字群が出てくるので、そこをクリックすれば変換できる。候補になければ入力すればいいのである。
 OCRソフトは文字を画像データとして判読するので、OCRならではの誤読がたくさん出てしまうのは避けがたい。これをひとつひとつ処理していくのでは、はなはだ非効率なので、一括処理をする方法を鍛えなければならない。それをOCR作業ファイル上で「学習辞書」を作って処理する方法と、テキストデータ上でマクロなどを作って一括処理する方法と、おおきく言って2種類ある。つぎにそれを説明しよう。

トラックバック(0)

トラックバックURL: http://www.miraisha.co.jp/mt/mt-tb.cgi/298

コメントする

このブログ記事について

このページは、未来社が2013年6月18日 20:52に書いたブログ記事です。

ひとつ前のブログ記事は「ファイル編集手順マニュアルの1の「(3)特殊表記のチェック」の(v)時計数字を修正する[手順7]」です。

次のブログ記事は「ファイル編集手順マニュアル」の「1 入稿原稿のチェック」の「(4)OCRソフトを使ったテキスト作成」の「(i)学習辞書での一括処理[手順8]」」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。