понедельник, 2 февраля 2009 г.

Глобализация, стандарты и поддержка марсианского языка

Не хочу повторяться и писать, в общем-то, самоочевидные для профессионала вещи, однако меня попросили высказаться на заданную тему.

Что ж, приступим.

Есть одна давняя задача.

Необходимо решить вопрос создания полной (желательно во всех смыслах) поддержки языка одного небольшого (численно, а не территориально) государства, расположенного на Марсе - с целью более полной интеграции данного государства - с одной стороны - в мировое сообщество планеты Земля, с другой стороны - для сохранения марсианского языка как государственного атрибута данного марсианского государства.

Давайте рассмотрим, из чего вообще состоит произвольный язык и его поддержка.

Если говорить об информационных системах и их производных - делопроизводства итп. , то язык складывается из следующих частей:

  • Реалии языка. Например, в марсианском языке, о котором мы говорим, отсутствует целый класс реалий, например - индустриализация (на Марсе не было индустриального общества к моменту прилета туда ракет с Земли), спутник - марсиане не запускали ракет, более того, до прилета землян они понятия не имели, что подобный способ передвижения возможен, карандаш - поскольку письменность практически отсутствовала, да и откуда она возьмется у кочевого народа, который в мизерном количестве каких-то 15 миллионов особей кочевал по целой планете размером почти с Землю? А также - беспроводная связь - ибо марсиане не знали не только проводной связи, но даже понятия не имели об электричестве.
  • Словари - как следствие предыдущего пункта. Для того, чтобы иметь словари - надо иметь те самые пресловутые реалии. При наличии только разговорного языка словари без надобности, так как словарный запас всего-то в 800 слов достаточен для того, чтобы выразить практически любую повседневную потребность.
  • Диалекты. Наше марсианское племя, будучи кочевым, имеет без счета диалектов, и марсиане - северяне почти не понимают марсиан-южан. В силу ярко выраженного трайбализма наличие диалектов разграничивает цвет штанов и это положение вещей не может быть исправлено иначе, чем волевым решение главы Марсианского Государства.
Все вышеперечисленное касается обыденного, бытового применения языка.

Оставим пока в покое тот факт, что из 15 миллионов марсианского населения большая часть говорит на американском английском, который выучило при общении с земными колонизаторами и лишь около 5 миллионов являются исчезающими носителями того самого пресловутого марсианского языка - то есть так или иначе его используют в повседневном обиходе. Просто примем этот факт к сведению, когда будем упоминать поддержку китайского упрощенного - на котором говорит и пишет приблизительно 1 миллиард человек.

Теперь перечислим, что же необходимо для полноценной IT-поддержки марсианского языка, кроме вышеперечисленных пунктов - в свете опыта языка русского, а также других языков планеты Земля.

  • Кодировка. Главная, но не последняя составляющая языковой поддержки. Является составной частью лингвистического понятия территория. Кодировка в принципе определяет объем данных, занимаемых строками - и это совершенно не безразлично при компьютерной обработке данных. Потому что, например, иероглифия на Земле кодируется минимум двумя байтами, а не одним - и китайские базы данных минимум вдвое больше европейских. А вот это уже может быть проблемой при работе с данными в масштабе достаточно крупного государства. Но разве это волнует Марсианского Главу? Пусть специалисты думают - они за то деньги получают. Пусть и небольшие.
  • Стандарт отображения даты и времени. Например, можно писать даты в формате DD-MM-YYYY. Можно - в формате MM/DD/YY. Можно месяцы писать римскими цифрами. И так далее.
  • Временные зоны и правила смены "зимнее время - летнее время". Опять-таки, оставим в покое ту фагготрию, которую развели вокруг глобального потепления и которая, вне всякого сомнения, имеет скорей политическую, нежели экологическую подоплеку. Также оставим в покое факт двукратного ежегодного издевательства правительств якобы продвинутых государств Запада над суточными ритмами собственных граждан и вытеающие из этого проблемы. Хвала богам системного администрирования, марсианское государство хоть в этом заняло разумную и бескомпромиссную позицию.
  • Стандартный символ валюты. У марсиан своя собственная валюта, для которой они не изобрели собственного символа - в силу того, что валюта принята совершенно недавно, а 15 лет им и так было чем заняться. Ну а земляне вообще не представляют, как же этот символ должен выглядеть-то. Они ж на Марсе не жили и с реалиями марсианского общества знакомы лишь по фильмам Боразона, который и из космопорта-то не вылез, так и пропьянствовал в тамошнем баре. Да по фильму DOOM, который привиделся режиссеру под действием марсианских грибов.
  • Правила лексикографии и сортировки. Отдельная задача - хрен его знает, как принято у этих марсиан сортировать словари, потому что у них и словарей-то никогда не было. Может быть бинарная сортировка слов - а может быть очень особая - как в португальском языке, например. А вообще это сильно зависит от алфавита. И от кодировки как таковой (см. выше).
  • Экранные, клавиатурные и принтеровские шрифты. Кодировку мало иметь - надо символы отображать и печатать. Как-то господа марсиане не подумали об этом. В силу чего те торгаши, которые поспешили локализовать свои поделки, увидели квадратики вместо буковок марсианского. Все б ничего - шрифты и выдумать можно, и нарисовать - да вот беда: правообладателем стандарта True Type Font (TTF) является земная компания Adobe, у которой, вообще говоря, надо лицензировать все шрифты, которые создаются. Можно, конечно, сделать вид, что такого патента никогда не существовало, либо изобрести свой собственный стандарт - только вот беда, на планете Земля повсеместно применяется TTF - и все тут. Как бы не пришлось изобретать собственную полную IT-инфраструктуру, хм... Слабо, однако.
Все? Как бы не так!

Как насчет контекстного поиска? Да-да, того самого - используемого в разведке всех видов, выборных и прочих политтехнологиях, да и просто в анализе и исследованиях - например, о чем там писали газеты планеты Земля десятилетней давности, при поиске по содержанию и тематике в документах, накопленных в базах данных?

Ах, да - это все происки мирового империализьма. Нету у марсиан словарей - и контекстного поиска тоже нет и в обозримом будущем не будет. Ишь ты, нужно же еще тезаурус* составлять. А если нет обычных словарей - о каком тезаурусе, скажите на милость, речь вообще идет?

Все вышеперечисленное на планете Земля образует стандартную (выработанную и одобренную комитетом по стандартизации ISO) поддержку любого языка, который желает фигурировать на международной арене.

Причем - самое интересное - это цена вопроса.

Комитет стандартизации, хоть и является организацией по-сути своей некоммерческой, тем не менее тратит время и ресурсы на разработку достаточно упорядоченной совокупности вышеперечисленных компонентов. Которая, мало того, что должна вписываться в существующие схемы - но и сама по себе должна быть непротиворечивой.

Соответственно, комитету стандартизации нужно заплатить энную - по нынешним меркам и государственным масштабам - сумму денег, дабы, за достаточно короткий промежуток времени, и появился на свет означенный стандарт поддержки марсианского языка.

Без траты суммы денег и появления на свет стандарта разрабатывать и, главное, поддерживать язык крошечного (меньше населения всего лишь одного мегаполиса планеты Земля!), но гордого народа может лишь сам крошечный, но гордый народ - взяв на себя все проблемы, проистекающие из несовместимости, отсутствия поддержки программными продуктами планеты Земля итп.

А как же поддержка китайских диалектов?

Не стоит забывать, что, во-первых, китайское население плюс все говорящие и пищущие на нем особи составляют, по скромным оценкам, около 2 миллиардов половозрелого и экономически активного населения планеты Земля. Следовательно - ничего личного - это всего лишь бизнес.

А бизнес с 15 миллионами маленького, но гордого марсианского народа? Фи, о каких порядках сумм идет речь? Маленький, но гордый марсианский народ может сам оплатить разработку стандарта своего языка - раз уж он для него настолько важен. И как только будет этот самый стандарт - производители планеты Земля будут обязаны его поддерживать.

А вот самоделки маленького, но гордого марсианского народа - типа конкурса на лучший символ валюты для ISO - выглядят по меньшей мере забавно.

Так, политические игрища.

Почему, спросите вы?

Потому что начинать-то надо с принципиального. А не с занятных, но малозначимых составляющих частностей стандарта - которого все еще нет.

С чего же?

Например, с ответа на вопрос - будет ли использоваться латиница или кириллица. И будет ли кодировка однобайтной или юникодом.

Для информации - я считаю, что латиница - это решение массы проблем. Начиная от отсутствия необходимости творить расширенный алфавит и изобретать самопальные символы для зело специфицеских звуков марсианского языка (транскрипции и транслитерации никто, в общем, на планете Земля не отменял). И заканчивая однобайтными кодировками - коих несть числа - и размерами баз данных, в точности соответствующих объемам хранимых данных.

Те, кто болтает об использовании юникода - видимо, никогда не работали с действительно крупными базами данных. Не по 1 гигабайту - а хотя бы в терабайт размером. Есть разница - обращаться к одному терабайту или к ДВУМ ТЕРАБАЙТАМ.

Представили?

Поясняю. Вывести отчет данных переписи марсианского населения за 2009 год - весь. Для марсианского правительства. Либо надо запросить и обработать терабайт данных - в однобайтной кодировке, либо ДВА ТЕРАБАЙТА - для юникода.

Опачки? Законы физики на планете Земля - действуют. И вычислительные мощности бесконечно не растут (не надо читать перед обедом журнал "Байт". Спросите профессионалов - они знают. Не "Марсианское Агентство по Информатизации и Связи". А профессионалов планеты Земля).

Что в сухом остатке?

У марсиан есть три выхода.

Первый. Продолжать трепать языками в печати и на кухнях о необходимости бла-бла-бла, государственном языке и его поддержке. В надежде, что все само собой образуется. И пытаться законодательными актами добиться того, что требует реальных усилий и затрат энных сумм денег.

Второй. Заплатить несчастные несколько миллионов денег из фонда продажи природных ресурсов на Запад. Через полгода будет стандарт, через год - его полноценная поддержка всеми ведущими производителями планеты Земля.

Третий. Пойти по пути русского языка. А именно - лепить самодельные решения - типа пресловутого CL8KZ1048 - и получить в финале полдюжины несовместимых кодировок и необходимость перелопачивания терабайт баз в одну, стандартную кодировку - как ее получили русские. И "Только бледнолицый способен дважды наступить на одни и те же грабли".

Лично для меня правильное решение было очевидным еще 12 лет назад.

А для вас?

Деньги, деньги, дребеденьги

Господа марсианское правительство - ах, бедняжки! - на что угодно готовы, лишь бы проблема как-то рассосалась сама собой.

Тут и подзаконные акты с неприкрытым давлением - авось, айтишники разродятся как фокусники из шляпы - готовым решением, и попытки - по примеру некоей лепесиновой страны родить на коленке марсианский Линукс (ага, щаз! Для этого требуется квалификация как минимум превосходящая уровень выпускников занюханных марсианских ВУЗов, да еще и люди, и государственная поддержка - реальная, а не трескотня в марсианских СМИ и - верно, деньги! Потому что команды профессионалов за идею не работают).

Тут тебе и выкручивание рук производителям - "Ну-ка, почему китайский поддерживается а марсианский - нет?".

А все просто, господа марсиане. Вы считать умеете? Китайцев в аккурат в 100 раз больше, чем вас (это если считать вас всех, а не только говорящих на марсианском). И они приносят производителям гораздо большие деньги, чем вы себе способны представить. Кроме того, они и сами работать умеют. Так что копеечная прибыль на вас просто не оправдает затраченных на разработку и принятие любого стандарта не за ваш счет.

Те несколько миллионов денег - они находятся не в карманах айтишников, от которых вы ждете чуда.

Они - в ваших карманах, господа марсиане.

И это, в общем, совершенно копеечная затрата на фоне более, чем десятилетней болтовни - а воз ведь и ныне там!

Те, кто пережил кошмар стандартизации и поддержки русского языка - они на что угодно пойдут, лишь бы не проходить его снова.

Некоторых те грабли ничему не научили. Во-первых, учиться большинству людей - особенно тем, которые заняты восхождением к власти - трудно. Во-вторых, правительство тех проблем и не видело. Другим было занято. В-третьих, марсианским айтишникам совершенно фиолетово, что они говорят и пишут на британском английском, а не на марсианском. Их чувства - включая религиозные - это ну совершенно не задевает.

Учтите, марсианским айтишникам проблемы марсианского языка по большй части вообще глубоко пофигу. То, что в Канаде два языка завоевателей-колонизаторов - французов и британцев - наравне являются государственными** - их совершенно не волнует, как не волнует то, что на Марсе две трети - если не три четверти - говорят на языке колонизаторов-британцев. А остальная треть имеет на руках язык, не имевший письменности - даже в виде наскальной.

А ларец-то, в общем, открывается не просто - а примитивно.

Стандарт, будучи принятым, автоматически будет поддерживаться производителями.

Совершите чудо.

Перестаньте трепаться - и выньте из кармана те самые несколько миллионов денег.

Отдайте их комитету ISO.

Через полгода вы будете иметь полноценный языковый стандарт марсианского языка, а через год он будет повсеместно поддержан торгашами и производителями всего мира.

Как это сделала одна азиатская республика. Которая еще в далеком 1996 году получила - всего в течение одного года - полную поддержку своего языка. И стоило это всего-ничего на фоне тех популистских и государственных выгод, которые они в результате поимели.

И все!

Ну, стоило более 10 лет морочить всем голову и метаться как шлюпка в шторм - от одной завиральной идеи к другой - и не принять в итоге ни одну?

"Мыши плакали, кололись - но продолжали есть кактус".

PS. Те полтора недоношенных решения, которые с помпой преподносятся как решния проблемы марсианского языка - они никуда не годятся. Запомните это, пожалуйста. Они неполны, они нестандартны, они непрофессиональны. И производители чхать на них хотели. За исключением, может быть, торговцев потребительскими товарами. Им, знаете ли, кушать хочется и ваши деньги - вне зависимости от того, на каком вы там языке желаете читать инструкции к пене для бритья. Кстати, о торгашах. По большому счету, бизнес на Марсе - копеечный в сравнении с бизнесом в тех же Америках. Так что радужных ожиданий - что торговцы принесут стандарты де-факто - строить-то не нужно. Не будет этого. Торгаши умеют считать получше нас с вами.

PPS. Имейте в виду, господа марсиане - CL8KZ1048 стандартом ISO не является. Не ждите, что одну лишь кодировку производители побегут с радостными воплями принимать к исполнению. Внимательно читать выше - кодировка, равно как и прочие части NLS - должны быть совместимыми с существующими схемами. и быть непротиворечивыми Глобализация, знаете ли. Марс-то не в вакууме находится, а в Солнечной системе.

PPS. Практик скажет вам, что применение псевдостандартной CL8KZ1048 в реальных системах чревато такими ураганными проблемами, перед которыми китайский классический кажется просто детской азбукой. Спросите практика. Не маркетолога - которому позарез нужно вам впарить очередное супер-пупер решение. Не сэйлза - которого интересует подписанный контракт. Не представителя вендора, который будет говорить то, что вы хотите услышать. А практика-профессионала. Которому со всем этим потом противоестественно веселиться - устанавливая, настраивая и поддерживая. Кстати, и обновления не ставятся на базы данных в этой кодировке - вы в курсе? Потому что нет такой кодировки в списке стандартных - хотите вы этого или нет. Ничего, что обновлений безопасности - и вообще никаких обновлений - не будет? Ах, вам же тоже пофигу. Вы не знаете, что такое обновления. Это проблемы ДИТ.

PPPS. И - напоследок - главный вопрос. Может то, что до сих пор нет полного стандарта марсианского языка, означает лишь одно - не больно-то и хотелось? Ведь те, кто реально хочет - имеет. А кто не хочет - лишь турусы на колесах разводит. Может, и правда, лучше оставить британский английский?
_________________________
* В контексте данной статьи: тезаурус - это, вопреки устоявшемуся мнению дилетантов и MS Word, вовсе не словарь синонимов. А максимально полный список существующих реалий существующего языка, объединенных в иерархическую структуру, описывающую, что является частью чего или относится к чему. А также - что с чем связано и какими синонимами еще описывается.
** Заметьте, самим канадцам в большей части и в голову не придет не только возмущаться тем, что два языка являются совершенно равноправно государственными (чувствуете разницу, да?), но и - тем более! - настаивать на исторической справедливости и требовать сделать государственным какой-нибудь язык союза пяти племен (если вы понимаете, о чем я), тех самых, коренных, потомками которых многие из них являются. Ага, тот самый, у которого не было письменности, кроме идеографической и была использована латиница. Не просматривается аналогия, нет?