昨日の雑サロでご紹介した「自炊書籍を参照・引用しやすいように、Word文書形式に変換するための方法」。

詳しくは、下記の動画を御覧ください。

/Users/ryogriffon/Desktop/自炊書籍を参照・引用しやすいように、Word文書形式に変換するための方法.mp4

ポイントは、Wordの「特殊文字」を使った「置換」。

① OCRをかけたPDFファイルのテキスト情報をWordに貼り付ける(この時、ただの「ペースト」ではなく、「ペーストしてスタイルを合わせる」を選んだほうがきれいに貼り付けられる)
② OCRのかかったPDFファイル上のいたるところに散在している「段落記号」をいったんすべて消し(Wordの「高度な検索と置換」を用いる)、「1書籍1段落」の状態に変更する
③ 「1書籍1段落」では読みにくいので、同じく、Wordの「高度な検索と置換」を用いて、今度は「。(句点)」を「。+段落記号」(または「段落記号」のみ)の状態に置き換え、「1センテンス1段落」の状態を作り上げる
④ 最期に、箇条書きの行頭記号(「●」等)を付けて、出来上がり(1冊の書籍を、数千段落の箇条書きの文書データベースに変換完了です)

以上のような作業で、1冊の書籍を、極めて引用・参照しやすい状態をものの数分で作り上げることができます。