2005年3月26日土曜日

日本語とWin32版xpdf&pdftohtml 其の弐

手順

xpdfをフォルダに解凍する
xpdf-japaneseをフォルダに解凍する

xpdfrcに以下を追加する
cidToUnicode Adobe-Japan1 "C:\Program Files\xpdf\xpdf-japanese\Adobe-Japan1.cidToUnicode"
unicodeMap ISO-2022-JP "C:\Program Files\xpdf\xpdf-japanese\ISO-2022-JP.unicodeMap"
unicodeMap EUC-JP "C:\Program Files\xpdf\xpdf-japanese\EUC-JP.unicodeMap"
unicodeMap Shift-JIS "C:\Program Files\xpdf\xpdf-japanese\Shift-JIS.unicodeMap"
cMapDir Adobe-Japan1 "C:\Program Files\xpdf\xpdf-japanese\CMap"
toUnicodeDir "C:\Program Files\xpdf\xpdf-japanese\CMap"
#displayCIDFontT1 Adobe-Japan1 "C:\Program Files\Common Files\Adobe\Acrobat\CIDFont\HeiseiMin-W3-Acro"


pdftotextコース
UTF-8なら英数字が半角に、Shift-JIS/EUC-JP/ISO-2022-JPでは英数字が全角になる。
pdftotext.exe -enc UTF-8 pdffile.pdf
pdftotext.exe -layout -enc UTF-8 pdffile.pdf
pdftotext.exe -layout -htmlmeta -enc UTF-8 pdffile.pdf

pdftohtmlコース
pdftohtmlのアーカイブから、pdftohtml.exeとpdf2xml.dtdをxpdfフォルダにコピー
pdftohtml -c -enc UTF-8 pdffile.pdf
## gs32cが無いと出る。

ghostscriptをインストール
path C:\gs\bin;c:\gs\lib;%PATH%
pdftohtml -c -enc UTF-8 pdffile.pdf
## 文字以外が画像として背景に表示される。

pdftopsコース
xpdfrcに以下を追加する??
# for pdftops
psNamedFont16 MS-Gothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-PGothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-UIGothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-Gothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 MS-PGothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 MS-UIGothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 GothicBBB H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 GothicBBB V GothicBBB-Medium-EUC-V EUC-JP
psFont16 Adobe-Japan1 H Ryumin-Light-EUC-H EUC-JP
psFont16 Adobe-Japan1 V Ryumin-Light-EUC-V EUC-JP


pdftops pdffile.pdf

0 件のコメント :