Garadanikki

日々のことつれづれ Marcoのがらくた日記

古書のテキスト化、OCRはどのくらい

昨日、富貴摟お倉の本の話についてアップした際、

  (id:watto) さんから以下のコメントを頂戴しました。

f:id:garadanikki:20171008144633j:plain

実は私も常々考えていたことです。

 

「富貴摟お倉」が貴重かどうかはさておき、青空文庫にあったら良いのにと思う本は沢山あります。

個人的には、島木健作さんの作品は「籟」とか「赤蛙」とか少量しかなく、もっと初期の本がアップされたら良いのにと思っています。

島木さんは本当に皆に読んで貰って感動を共有したいものばかり。

それから里見惇さん。

里見惇さんの初期の作品も絶版が多く、なかなか手に入らないのです。

但し、里見さん自身亡くなられてまだ50年経たないことから「青空文庫」への掲載はまだ出来ません。

 

そんなこんなで。

私が好きな本の半数近くは、絶版だったりするもので、皆さんと感動を共有出来ません。

仮に興味を持っていただいたとして購入はもとより図書館にも取り扱いがないからです。

短編などであれば、私の別ブログ 「まるさんの資料置き場」 (普段は非公開) などに手打入力してアップしたりするんですが、気に入った書籍を全部、手打ちすることは不可能だしで悩みの多いところ。

ですから何か良い方法はないものかとずっと思っていたんですね。

 

そんな折、わっとさんからいただいたコメントを読んで、ハタと思いました。

私もやってみようかな

わっとさんご自身はOCRソフト「読取革命」を使って画像 (Jpg) に写っている文字をテキスト化されているようです。⤵ 

 

でもね、わっとさん。一抹の不安もあるんです。

古書のテキスト化、どこまでソフトが出来るかしらって。

 

以前、私も「読んでココ」というOCRソフトを使ったことがあります。

もう20年近く前のことです。

当時のソフトは、画像を読み取ろうとしても半分も認識できませんでした。

読み取れなかった部分は結局手入力です。←それは今も同じか

そして「認識した」とソフトが言っている部分も、かなりの割合で誤認が多く、

答え合わせをするのに多くの時間が取られました。

「こんなに間違いが多くて、読み取ることもできないなら役に立たない」

そう思ってソフトの導入をあきらめたのですがそれは本当に昔の話

 

当時の「読んでココ」はその分野の先駆けですから、

今では決してそんなことはないはずです、進化してるでしょうからね。

 

しか~しです、もうひとつ不安要素が

私が読んでいる古書は、本当に汚いのが多いのです。

紙の中に、藁だか何だかが入っていたりしてゴミみたいに見える⤵

f:id:garadanikki:20171008141155j:plain

極端に言えば、肉眼でも読み取れないほどのものもある。

人間なら前後の脈絡や勘で読み解くことも出来るだろうが、

流石にOCRソフトには無理なのでは、、、と思ってしまう箇所が沢山なのです。

 

例えば、今読んでいる古書

f:id:garadanikki:20171008141147j:plain

こんな染みなんかがあると、やっぱり無理ですかね。

 

殆どが旧かなづかいなんですけど、、大丈夫でしょうか。

f:id:garadanikki:20171008141153j:plain

しかも紙質がわら半紙並みで、裏面のゴワゴワは笑ってしまうほど酷い。⤴

 

紙の表面は多少はいいんですが、それでもこんな感じ。

f:id:garadanikki:20171008141152j:plain

 

下は、一旦撮影した画像のいびつを修正し、色とコントラストを整えて読みやすくしたもの。

f:id:garadanikki:20171008141149j:plain

 

1ページ  1ページこの作業を施し、OCRソフトにかけて読み取って貰ったとしても、

間違っているかどうかの答え合わせをしなければならないとしたら、、、、

もしかしたら、、ほんとにもしかしたら、手打ちで書き写した方が早かったりなんて。

・・・まあそれは大げさですけれど (;''∀'')

 

手打ちには手打ちの良さもあります。

一読して気付かなかったのに、書き写すことで頭に入ってきたり印象が変わったりする。

 

一日が1000時間くらいあって、不老不死とはいわないまでも疲れない肉体を持っていたら、

一日中パソコンに向って古書の書き写し作業をしていたい。

目下、私の夢はそんなところかなぁ ❤  なんちて