Просмотр полной версии : HTML коды для пали и санскрита
Для всех тех энтузиастов, которые размещают палийские тексты в инете, привожу НТМL-коды букв с диакритическими знаками:
AA - Ā - & # 256;
aa - ā - & # 257;
II - Ī - & # 298;
ii - ī - & # 299;
UU - Ū - & # 362;
uu - ū- & # 363;
.M - Ṃ - & # 803;
.m - ṃ - & # 803;
'N - Ń - & # 323;
'n - ń - & # 324;
~N - Ñ - & Ntilde;
~n - ñ - & ntilde;
.T - Ṭ - T & # 803;
.t - tฺ - t & # 3642;
.D - Ḍ - D & # 803;
.d - ḍ - d & # 803;
.N - Ṇ - N & # 803;
.n - ṇ - n & # 803;
.L - Ḷ - L & # 803;
.l - lฺ - l & # 3642;
И дополнение для любителей санскрита:
.R - Ṛ - R & # 803;
.r - rฺ - r & # 3642;
.C - Ç - & Ccedil;
.c - ç - & ccedil;
'S - Ś - & # 346;
's - ś - & # 347;
.S - Ṣ - & # 803;
.s - ṣ - & # 803;
Есть программка узкого назначения. Один архив Типитаки на пали в сети (он, кажется, есть среди ссылок на "Колесе дхармы") содержит zip-архивы doc-файлов со шрифтом Times-Norman (однобайтовым). Файлы большие, медленно открываются. Мне было удобно сохранять куски из них (например - сутру или несколько) в формате html с одновременной перекодировкой в unicode (под шрифт CN-Times). Если кого заинтересует программка, которая это делает, можете сообщить здесь, я могу разместить ее в сети и дать ссылку.
И еще, подскажите, кто знает, пожалуйста. В Unicode номер символа однозначно определяет символ?
При однобайтовой кодировке есть много наборов символов (charset) и кодовые страницы, так что одному номеру в них могут соответствовать разные буковки, а в уникоде - при любом шрифте все одинаково? Какой-нибудь & #8888; всегда будет одним и тем же?
уникоде - при любом шрифте все одинаково? Какой-нибудь & #8888; всегда будет одним и тем же?
Юникодов вообще-то несколько. UTF-8, UTF-16 и UTF-32. Обычно сейчас используют UTF-8, в ней используется столько байтов, сколько определяется кодом символа (но не больше 6). UTF-16 использует полные два байта или 4 в суррогатной паре. UTF-32 всегда имеет 4 байта.
Спасибо.
Если говорить про UTF-16, вот я определил коды палийских букв для шрифта CN-Times. В другом уникодовском шрифте будет ли все выглядеть так же? Или вообще вопрос поставлен некорректно?
Если говорить конкретно о шрифте CN-Times, то в "больших" Уникод-шрифтах типа Cyberbit его ретрофлексивные буквы не отображаются. Там вообще нет ретрофлексивных букв.
Ещё один вопрос по поводу упомянутого архива Типитаки. В Word 97 поиск в нём не работает, хотя в Word 95 работал. Можно ли предпринять какие-то меры, чтобы поиск заработал?
Всех благ
Алексею:
У меня (на Word 2000) эти файлы при открытии почему-то фонт себе определяли courier. Если не менять на Norman, то по тем буквам, которые выглядят нормально, поиск идет, после установки шрифта в Times Norman - поиска нет. Так что, похоже, что это связано со шрифтом. Я ничего сделать не смог.
Ещё один вопрос по поводу упомянутого архива Типитаки. В Word 97 поиск в нём не работает, хотя в Word 95 работал. Можно ли предпринять какие-то меры, чтобы поиск заработал?
Можно с помощью макросов (см. соответствующий тред) или других методов заменить шрифт на CN-Times или на безшрифтовое отображение с помощью расширенного набора символов и точек снизу, по аналогии с HTML-кодами.
Powered by vBulletin™ Version 4.1.12 Copyright © 2012 vBulletin Solutions, Inc. All rights reserved.