スキャナーを使って、書籍を1冊読み込むと、ハードカバータイプの書籍の場合、かなり大きなファイルになります。
画像情報を持っているのですからしかたありませんが、たとえば、ドラッカーの『マネジメント<上>』(ダイヤモンド社)の場合、200MBくらいになります(白黒600dpiの場合)。
そこで、これを扱いやすくするために、テキストファイルやMicrosoft Word標準のDocファイルに変換することを試みてみましょう(今日は、Wordファイル化を試みますが、テキスト・エディター・ソフトを用いれば、テキスト・ファイル化することもできます)。
1文1文丁寧にやっていたら、数ヶ月かかってしまうので、短時間であっという間にできる方法をご紹介いたします。
また、縦書きの書籍をそのままですと、ビジネスで使う場合には何かと不便。この方法を使って一気に横書き化してしまいましょう。
つまり、今日のテーマは、「マグロの解体ショー」により取り込んだマグロ(書籍)をつかった煮付けの作り方のようなお話です。
(以下、ITの専門家ではないので、説明が下手なのはご容赦ください。)
① PDF化し、かつ、OCRをかけた書籍原稿をAcrobatなどで開く
② 開いたPDFの全文をコピーし(Macなら、「command+A」)、今度は、Wordの「新しい文書」を開き、「形式を選んで貼りつけ」の画面を出し(Macなら、「control+command+V」)、「テキスト」を選択し、貼り付ける
③ 次に「詳細検索と置換」を開き、「置換」を選び、「日本語あいまい検索」のチェックをはずし、「検索する文字列」に「^p」(改行記号の意味)を入力し、「置換後の文字列」は空欄のままにする(この工程により、すべての改行記号は一旦消滅する)
④ 次に、再び、「詳細検索と置換」を開き、「置換」を選び、「日本語あいまい検索」にチェックを入れ、「検索する文字列」に「。」を入力し、「置換後の文字列」に「。^p」を入力する(これにより、「1文1段落」の文書ファイルができあがる)
⑤ あとは本文を読みながら、OCRミスとなっているおかしな文字や文を修正する(画像としての情報が残っているPDFファイルを参照すればよい)
②③④は、新書程度であれば各工程とも2〜5分くらいですみますが、500頁超のハードカバーの場合、各工程とも10分以上かかる場合があります。
「Wordがフリーズしたか」
と勘違いせずに待っていてください。
これで、愛書を、
①自由に加工できるWord形式に変更することができます
②ファイルのサイズもぐっと小さくすることができます
③縦書きの書籍を横書き化することができます
『マネジメント<上>』の場合、A4サイズのWordファイルに変換すると、頁こそ、582頁となりますが、ファイルサイズ自体は1.4MBとなりました。100分の1以下になったわけです。