OCRソフトに『善の研究』の序文を認識させてみる
OCRソフトは昔のものに比べると格段に性能がアップしたと思う。
しかしそれでもやはり誤認識はある。
ためしに西田幾多郎の『善の研究』(岩波文庫)の序文をスキャンして2つのソフトに認識させてみた。
まずはスキャン画像がこれである。
ScanSnapという富士通のスキャナーに付いているOCRソフトのテキスト認識結果がこれである:
この書は余が多年、金沢なる第四高等学校において教鞭を執っていた間に書いたのである。初はこの害の中、特に実在に関する部分を精細に論述して、すぐにも世に出そうという考であったが、病と種々の事情とに妨げられてその志を果す↑)とができなかった。かくして数年を過している中に、いくらか自分の思想も変り来り、従って余が志す所の容易に完成し難きを感ずるようになり、この書はこの書として一先ず世に出して見たいという老になったのである。
この書は第二編第三編が先ず出来て、第一編第四編という順序に後から附加したものである。第一編は余の思想の根抵である純粋経験の性質を明にしたものであるが、初めて読む人はこれを略する方がよい。第二編は余の哲学的思想を述べたものでこの害の骨子という尋へきものである。第三編は前編の考を基礎として善を論じた積であるが、またこれを独立の倫理学と見ても差支ないと思う。第四編は余が、かねて哲学の終結と考えている宗教について余の考を述べたものである。》)の編は余が病中の作で不完全の処も多いが、とにかくこれにて余がいおうと思うているこ
次に,Adobe Acrobat XIのテキスト認識結果がこれである:
この告は余が多年、金沢なる第四高等学校において教鞭を執っていた間に書いたのである。初はこの書の中、特に実在に関する部分を精細に論述して、すぐにも世に出そうという考であったが、病と種々の事情とに妨げられてその志を果すことができなかった。かくして数年を過している中に、いくらか自分の思想も変り来り、従って余が士山す所の容易に完成し難きを感ずるようになり、この替はこの告として一先ず世に出して見たいという考になったのである。
この蓄は第二編第三編が先ず出来て、第一一編第四編という順序に後から附加したものである。第一一編は余の思想の狼紙である純粋経験の性質を明にしたものであるが、初めて読む人はこれを耐附する方がよい。第二編は余の哲学的思想を述べたものでこの笹の骨子というべきものである。第三編は前編の考を基礎として善を論じた積であるが、またこれを独立の倫浬学と見ても差支ないと思う。第四編は余が、かねて哲学の終結と考えている宗教について余の考を述べたものである。この編は余が病中の作で不完全の処も多いが、とにかくこれにて余がいおうと岡山うているこ
Adobe Acrobat XIでは600dpi,日本語での認識を設定したのだが,意外に結果が良くない。
だいたい「この告は」とか「この蓄は」とか,出だしから間違ってどうする。
この分の末尾の言葉にしても,ScanSnapの方が「余がいおうと思うている」と正しく認識しているのに対して,「余がいおうと岡山うている」とはどういうことか? 単純に一文字ずつ認識するのではなく,日本語の辞書に照らさないとダメだな。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- Copilotにあらすじを書いてもらう(2023.10.28)
- Microsoft Copilotとのやり取りの例(2023.10.17)
- 「情動エンジニアリング」について考える本(2022.03.19)
- Elmを学ぶ(2021.12.19)
- Microsoft EdgeでPDFを開こうとするとフリーズする件(2021.07.31)
コメント