PDFファイルからコピー&ペーストした文字が文字化けする|PDFが無用の改行をする点を修正するための正規表現|改行ができる正規表現エンジンを使って〔Onigmoは不可〕
PDFファイルからコピー&ペーストした文字が文字化けする
- PDFファイルからコピー&ペーストした文字は、同じに見えて、異なる文字になることがある。
- PDFファイルは、Windowsの場合、インターネットブラウザーEdgeで開き、[プリンタのアイコン]→[Microsoft Print to PDF]によって[画像のPDF]として印刷したPDFファイルを、GoogleドライブにアップロードしてGoogleドキュメントで開く〔OCR〕。 このようにして、いったん画像にしてから、OCRで読み取り、自分の環境内の文字コードで文字化したほうが安全。
- ■PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった - ログミーTech
- ■PDFに文字化けを起こさせない対策法 もらったファイルは正規化で、作成ツールは対応済みを使え - ログミーTech
半角でも、疑問符でも感嘆符でも句点でもないものが行末にあるとき
([^( -~)(? )(! )。?!])\n
あるいは
([^( -~)(? )(! )。?!])$
その次の行の行末に、疑問符または感嘆符または句点があるとき
(.*?)([。!?])\n
あるいは
(.*?)([。!?])$