2005年3月26日土曜日

Unicode4.0

参照
http://www.unicode.org/
JIS X 0221(ISO 10646)

日本語名称
JIS X 0221-1 図3 基本多言語面の概観(P.22) 図4 基本多言語面区00~33の概観(P.23)
附属書A A.2 BMPのブロック(P.29-)

基本面(BMP)
General Scripts Area
U0000- Basic Latin
U0080- Latin-1 Supplement
U0100- Latin Extended-A
U0180- Latin Extended-B
U0250- IPA Extensions
U02B0- Spacing Modifier Letters
U0300- Combining Diacritical Marks
U0370- Greek and Coptic
U0400- Cyrillic
U0500- Cyrillic Supplement
U0530- Armenian
U0590- Hebrew
U0600- Arabic
U0700- Syriac
U0780- Thaana
U0900- Devanagari
U0980- Bengali
U0A00- Gurmukhi
U0A80- Gujarati
U0B00- Oriya
U0B80- Tamil
U0C00- Telugu
U0C80- Kannada
U0D00- Malayalam
U0D80- Sinhala
U0E00- Thai
U0E80- Lao
U0F00- Tibetan
U1000- Myanmar
U10A0- Georgian
U1100- Hangul Jamo
U1200- Ethiopic
U13A0- Cherokee
U1400- Unified Canadian Aboriginal Syllabic
U1680- Ogham
U16A0- Runic
U1700- Tagalog
U1720- Hanunoo
U1740- Buhid
U1760- Tagbanwa
U1780- Khmer
U1800- Mongolian
U1900- Limbu
U1950- Tai Le
U19E0- Khmer Symbols
U1D00- Phonetic Extensions
U1E00- Latin Extended Additional
U1F00- Greek Extended

Symbols Area
U2000- General Punctuation
U2070- Superscripts and Subscripts
U20A0- Currency Symbols
U20D0- Combining Marks for Symbols
U2100- Letterlike Symbols
U2150- Number Forms
U2190- Arrows
U2200- Mathematical Operators
U2300- Miscellaneous Technical
U2400- Control Pictures
U2440- Optical Character Recognition
U2460- Enclosed Alphanumerics
U2500- Box Drawing
U2580- Block Elements
U25A0- Geometric Shapes
U2600- Miscellaneous Symbols
U2700- Dingbats
U27D0- Miscellaneous Mathematical Symbols-A
U27F0- Supplemental Arrows-A
U2800- Braille Patterns
U2900- Supplemental Arrows-B
U2980- Miscellaneous Mathematical Symbols-B
U2A00- Supplemental Mathematical Operators
U2B00- Miscellaneous Symbols and Arrows
U2E80- CJK Radicals Supplement
U2F00- Kangxi Radicals
U2FF0- Ideographic Description Characters

CJK Phonetics and Symbols Area
U3000- CJK Symbols and Punctuation
U3040- Hiragana
U30A0- Katakana
U3100- Bopomofo
U3130- Hangul Compatibility Jamo
U3190- Kanbun
U31A0- Bopomofo Extended
U31F0- Katakana Phonetic Extensions
U3200- Enclosed CJK Letters and Months
U3300- CJK Compatibility

(CJK Ideographs Area)
U3400- CJK Unified Ideographs Extension A
U4DC0- Yijing Hexagram Symbols
U4E00- CJK Unified Ideographs
UA000- Yi Syllables
UA490- Yi Radicals

Hangul Syllables Area
UAC00- Hangul Syllables

Surrogates and Private Area
UD800- High Surrogates
UDC00- Low Surrogates
UE000- Private Use Area

Compatbility Area and Specials
UF900- CJK Compatibility Ideographs
UFB00- Alphabetic Presentation Forms
UFB50- Arabic Presentation Forms-A
UFE00- Variation Selectors
UFE20- Combining Half Marks
UFE30- CJK Compatibility Forms
UFE50- Small Form Variants
UFE70- Arabic Presentation Forms-B
UFF00- Halfwidth and Fullwidth Forms
UFFF0- Specials

第一面 Supplementary Multilingual Plane (SMP)
U10000- Linear B Syllabary
U10080- Linear B Ideograms
U10100- Aegean Numbers
U10300- Old Italic
U10330- Gothic
U10380- Ugaritic
U10400- Deseret
U10450- Shavian
U10480- Osmanya
U10800- Cypriot Syllabary

U1D000- Byzantine Musical Symbols
U1D100- Musical Symbols
U1D300- Tai Xuan Jing Symbols
U1D400- Mathematical Alphanumeric Symbols

第二面 Supplementary Ideographic Plane (SIP)
U20000- CJK Unified Ideographs Extension B
U2F800- CJK Compatibility Ideographs Supplement

第十四面 Supplementary Special-purpose Plane (SSP)
UE0000- Tags
UE0100- Variation Selectors Supplement

第十五面
UF0000- Supplementary Private Use Area-A

第十六面
U100000- Supplementary Private Use Area-B


言語の種類
ISO639-2
http://www.loc.gov/standards/iso639-2/langcodes.html
ISO639-3
http://www.sil.org/iso639-3/
JIS X 0412(ISO639-2)

Windows上で使われるフォントのUnicode実装状況
http://www.alanwood.net/unicode/fonts_windows.html
その他
http://www.babelstone.co.uk/

日本語とWin32版xpdf&pdftohtml 其の弐

手順

xpdfをフォルダに解凍する
xpdf-japaneseをフォルダに解凍する

xpdfrcに以下を追加する
cidToUnicode Adobe-Japan1 "C:\Program Files\xpdf\xpdf-japanese\Adobe-Japan1.cidToUnicode"
unicodeMap ISO-2022-JP "C:\Program Files\xpdf\xpdf-japanese\ISO-2022-JP.unicodeMap"
unicodeMap EUC-JP "C:\Program Files\xpdf\xpdf-japanese\EUC-JP.unicodeMap"
unicodeMap Shift-JIS "C:\Program Files\xpdf\xpdf-japanese\Shift-JIS.unicodeMap"
cMapDir Adobe-Japan1 "C:\Program Files\xpdf\xpdf-japanese\CMap"
toUnicodeDir "C:\Program Files\xpdf\xpdf-japanese\CMap"
#displayCIDFontT1 Adobe-Japan1 "C:\Program Files\Common Files\Adobe\Acrobat\CIDFont\HeiseiMin-W3-Acro"


pdftotextコース
UTF-8なら英数字が半角に、Shift-JIS/EUC-JP/ISO-2022-JPでは英数字が全角になる。
pdftotext.exe -enc UTF-8 pdffile.pdf
pdftotext.exe -layout -enc UTF-8 pdffile.pdf
pdftotext.exe -layout -htmlmeta -enc UTF-8 pdffile.pdf

pdftohtmlコース
pdftohtmlのアーカイブから、pdftohtml.exeとpdf2xml.dtdをxpdfフォルダにコピー
pdftohtml -c -enc UTF-8 pdffile.pdf
## gs32cが無いと出る。

ghostscriptをインストール
path C:\gs\bin;c:\gs\lib;%PATH%
pdftohtml -c -enc UTF-8 pdffile.pdf
## 文字以外が画像として背景に表示される。

pdftopsコース
xpdfrcに以下を追加する??
# for pdftops
psNamedFont16 MS-Gothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-PGothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-UIGothic H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 MS-Gothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 MS-PGothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 MS-UIGothic V GothicBBB-Medium-EUC-V EUC-JP
psNamedFont16 GothicBBB H GothicBBB-Medium-EUC-H EUC-JP
psNamedFont16 GothicBBB V GothicBBB-Medium-EUC-V EUC-JP
psFont16 Adobe-Japan1 H Ryumin-Light-EUC-H EUC-JP
psFont16 Adobe-Japan1 V Ryumin-Light-EUC-V EUC-JP


pdftops pdffile.pdf

日本語とWin32版xpdf&pdftohtml 其の壱

http://www.foolabs.com/xpdf/ xpdfオフィシャルサイト
必須なもの
  • xpdf-japanese ー xpdf-****-win32.zip, xpdf-japanese.tar.gz

  • pdftohtml ー 上のものと、pdftohtml-****-win32.zip

条件によって必要なもの
  • pdftohtml ー 文字以外を再現するにはghostscriptも必要


xpdf
win32版は、pdftops, pdftotext, pdfimages, pdfinfo, and pdffonts のみ動作
オフィシャルのDownloadページのPrecompiled binariesにある
xpdf-japanese
オフィシャルのDownloadページのLanguage Support Packagesにある
pdftohtml http://pdftohtml.sourceforge.net/
オフィシャルのPorts&Toolsにリンクがある
ghostscript
http://www.cs.wisc.edu/~ghost/index.htm
http://auemath.aichi-edu.ac.jp/~khotta/ghost/ - 日本語版