Итоги (истории синтеза разумноорганизованных языков) 6

Вид материалаРеферат
Какими должны быть символы в письменности?
Р_ в букве. Сейчас в шрифтах широко используются Р_
Р_ частоты является смещение по вертикали, длительности цвет (точки, штили), одновременности - линии и т.д. Но в принятой реализ
Р_ - Г│Г +йГ │ и С│ глухие ТПHРФ+КСШ*Ь│ │Гй+йГй│ │и звонкие ДБМЛВ+ГЗЖХW│.Р_
Р_. При этом нечетность Р_
Р_ - наклон - самый ИМ Р_
Р_ - 2(слева или справа) * 2(сверху или снизу) + 1(нет штриха). Матрица пикселов неопределена (зависит от линии). 4Р_
Р_ выберем штрихи разного наклона /-\ и отсутствие штриха. Этот вариант позволяет использовать этот 4Р_
Р_. Если знак содержит более одного Р_
Р_ нажат за буквой, то он принимает одну графическую форму, если за спец.символом (цифры, предлога, ...) – другую. С.ОУ
Потеhциальhые краткость и объем языка. (сколько можно и нужно?)
Сколько можно.
Сколько нужно обычному языку?
Подобный материал:
1   2   3   4   5   6   7   8   9   10

3.2.2.2 КАКИМИ ДОЛЖНЫ БЫТЬ СИМВОЛЫ В ПИСЬМЕННОСТИ?

И здесь лучше сделать четыре шага: вступление, анализ, синтез, итоги.

3.2.2.2.1 ВСТУПЛЕНИЕ

Несовпадающими с национальными символами (чтобы помогать родному языку, а не воевать с ним), маленькими и четкими (ИМ, чтобы больше входило на лист и легче читалось), быть частью системы символов (чтобы частей символов было мало, а их сочетаний – собственно символов - много). Большинство идей диктующих начертание символов уже реализованы в: стенографии (различные наклоны гласных и согласных), китайском (двухмерность, содержательность), корейском (подобие и симметрия), азбуке Брайля (мало элементов - много сочетаний, особенно спец.знак для цифр), математике, информатике и еще более десятка уже упоминавшихся идей;

3.2.2.2.2 АНАЛИЗ

С.ОУ, все системы спонтанносформировавшихся символов имеют два недостатка: они - избыточно различны и Р_ расположены в разных местах символа (кроме азбуки Брайля). (Подробнее о Р_ м3.4.) Часть букв почти иероглифы: их различение в мелком шрифте (слабом свете, на дальнем расстоянии или скорочтении) требует большого напряжения зрения (и даже портит глаза детям и иностранцам, прочих выручает эффект контекстного предвосхищения).

Отсюда три пожелания. Символ должен:
  1. При равных цвете, размере и ширине линий - читаться (угадываться) с большего расстояния.
  2. При равном расстоянии - занимать меньше места в матрице пикселов (так буквы М,Ш,Ж,Ф,Ы (кириллица) требуют 5 пикселов в ширину, а Ж,Ф,Б, Я,Е,К - 5 в высоту, буквы ц,щ,р,ф,д еще одного пиксела снизу, а Й сверху).
  3. При равной матрице пикселов - плохо напечатанный символ должен легче различаться автоматическими средствами сканирования и распознавания (так мало различимы плохо напечатанные ОС, ПН, ИН и т.д.).

Это достижимо если Р_ будут иметь резкие отличия и располагаться в минимально необходимом числе постоянных мест.

Кроме того, строчные и прописные буквы часто имеют разные формы. С.ОУ, прописные буквы лучше убрать, так как из устной речи их невозможно определить. Сомнительна ценность их функции в письменности - указать на начало (предложения, имени, существительного в немецком языке, строки стихотворения и даже оттенка смысла слова (родина, вы и т.п.)). Правила их использования в русском языке многочисленны, но ...

А если эта чисто письменная функция действительно нужна, передать ее или спецзнаку (предшествующей точке), или Р_ в букве.

Сейчас в шрифтах широко используются Р_ - размер, жирность, наклон, стиль. Реже над и подстрочность, разрядка, подчеркивание. Возможны и Р_ охватывающие не всю букву, а лишь ее часть. Внутри шрифта просматриваются Р_ положения ПНU, симметрии (NИ, 69), и даже их присутствие или отсутствие в букве ("немецкие" умляуты ЕЁ, "русские" ИЙ или ИЦ, ШЩ).

Интересна система идей для записи музыки - промежуточная между буквой и иероглифом. Здесь Р_ частоты является смещение по вертикали, длительности цвет (точки, штили), одновременности - линии и т.д. Но в принятой реализации С.ОУ-письменности - эта система недостаточно организована - требует много дополнительных: места и графики (линии нотного стана), знаков (из-за разделения 12 реальных звуков на две группы 7 тонов (нот) и 5 полутонов) и т.д. Спорна необходимость текстовых вкраплений.

Интересны возможные цветовые буквы. Их ИМ просто потрясает: так использование уже двух цветов при семицветной палитре позволяет реализовать 6*6=36 букв (цвет фона - не учтен). Матрица пикселов от 1*2 - минимальна, до 1*3 - идеальна. Плотность текста в 10-30 раз выше, а значит и меньше расходы на его носители. Но пока нет удобного средства для письма рукой, пока цветная печать (при старой письменности) дороже одноцветной и пока часть людей дальтоники.


3.2.2.2.3 СИНТЕЗ

Синтезируем три варианта письменности. 1-й и 2-й из соображений максимальной скорости письма рукой, 3-й - чтения.


Итак, число главных гласных – 5 (если бы их было 6, можно было бы представить их как Р_ * 3Р_), число букв - 40, желательно чтобы буква содержала три Р_:

- Р_ - гласные и согласные (Г/С);

- 5Р_ - главные (Г-ЫЭАОУ и С-ТПHРФ) и остальные (15);

- 4 Р_ - Г│Г +йГ │ и С│ глухие ТПHРФ+КСШ*Ь│

│Гй+йГй│ │и звонкие ДБМЛВ+ГЗЖХW│.


Р_ буквы - линия сложной формы. С.ОУ желательна логика и симметрия в форме Р_. При этом нечетность Р_ образуется за счет отсутствия Р_ или его совпадения с осью симметрии. Желательно, чтобы графическая форма Р_ позволяла использовать их и вне символа буквы (а именно: до, после, между буквами).


Целесообразно использовать для различения:
  • гласных и согласных Р_ - наклон - самый ИМ Р_ (как в стенографии). Разные наклоны позволяют ускорить ручное письмо, так как отражают обычное чередование гласных и согласных в слове. Пусть гласные пишутся сверху вниз (\), так как их легче петь. А согласные - (/), вертикально симметрично. Отсутствие наклона может стать Р_ спец.символов и дать 20 спец.символов. Или используя горизонтальную симметрию - 40 спец.символов, или их комбинацию – 120 (т.к. если у букв один из Р_ находится внизу, то у спец.символов - вверху. Да еще безнаклонные вертикаль и горизонталь). Однако, с точки зрения ИМ графики, плодотворнее считать одни из них левыми, а другие правыми.
  • грамматических времен 4Р_ - желательно чтобы и зрительно он был левым (прошлое), средним (настоящее), правым (будущее) и общим или пустым.


(Примечание для любителей кроссвордов, палиндромов и прочих лингвистических развлечений. Здесь интересно проявление системного эффекта принципиально не возможного в существующих системах письменности (в том числе и в азбуке Морзе, где есть эффекты и похлеще!) - чтение со сменой наклона, когда Г и С переходят друг в друга. Возможно (но вряд ли нужно, при выборе для графики спец.символов горизонтальной симметрии) даже появление спец.символьных слов! Для этого достаточно смещения 4Р_ относительно вертикального центра).


Какими по форме могут быть линии 5Р_ и 4Р_? С учетом пик- │ 789 │

сельной реализации экранов ТВ и компьютеров, рассмотрим матри- │ 456 │

цу пикселов 3*3. Кстати, при сдвиге каждого ряда на пол пиксе- │ 123 │

ла можно выиграть в четкости наклонов (проиграв в четкости вертикалей).

Можно, но мне кажется - не нужно.


Вариант 1: форма линии - угол, дуга, прямая.

5Р_ = 179 + 1489 + 159 + 1269 + 139. Все вместе - квадрат с тремя диагоналями:
  • восходящими ( левыми) для С QWERT и см прил 1.1
  • нисходящими (правыми) для Г ASDFG . см прил 1.2

4Р_ диагональный в матрице пикселов 2*2 = 145 + 15 + 125 + 1245

4Р_ вертикальный в матрице пикселов 2*2 = 14 + 154 + 124 + 1254


Примечание: для 6Р_ и 7Р_ дугу 1489 можно заменить двумя углами 149 и 189 - hjkl.


Вариант 2: горизонтальный штрих на линии. (как в корейском письме)

5 Р_ - 2(слева или справа) * 2(сверху или снизу) + 1(нет штриха).

Матрица пикселов неопределена (зависит от линии).

4Р_ - слева + справа + слева и справа + нет штриха. см прил 1.3

Матрица пикселов неопределена (зависит от линии).


Вариант 3: длина и наклон штриха на линии.

5Р_ - 2(длинный или короткий) * 2(вверх или вниз) + 1(нет штриха).

Матрица пикселов неопределена (зависит от линии).


Для ускорения чтения выгоднее сократить длину строки за счет увеличения ее высоты, т.е. выгоднее размещать Р_ по вертикали. В случае использования штрихов оба различителя расположены в одном месте, друг на друге. Это сокращает место, но замедляет ручное письмо (прерывания, возвраты).

Тем не менее, в качестве основного варианта 4 Р_ выберем штрихи разного наклона /-\ и отсутствие штриха. Этот вариант позволяет использовать этот 4Р_ отдельно от символа буквы с приданием ему нового смысла. При размещении:
  • за словом - для окончаний: множественности /, пассивности \ и производности - - (производность превращает существительное в прилагательное, а глагол в причастие),
  • перед словом - для различения частей речи (нет – существительное, есть – глагол в одном из трех времен.

Вне символа буквы возможно одновременное употребление всех трех штрихов.


Внутренние или относительные Р_.

Если знак содержит более одного Р_ одинакового типа, то в нем возможно появление относительных Р_ (размер, жирность, взаиморасположение, и т.д.). Возможен специальный разрыв одного Р_ для получения однотипных частей. Более того, сам разрыв может стать Р_.


Возможные варианты знаков цифр:

- 5Р_ * Р_ наклона

- произношение конфликтует с формой


- “двоичный обход” нулевой вертикали 0123456789

- явная незавершенность 16-ричности 0123456789 см прил 1.4

легко подделывать или нужны дополнительные линии,


- “троичное соединение” параллельных линий: 0123456789 вариант 1 см прил 1.5

- “троичное соединение” параллельных линий: 0123456789 вариант 2 см прил 1.6


Возможные наборы видов Р_

║ форма:диагонали + штрихи ║ форма:дуги/линии (Д/Л) ║

╟───────────────────────────╫───────────────────────────╢

║ наклоны \ / QWERT ASDFG ║ наклоны \ / ║ см прил 1.7

║ qwert asdfg ║ 2 разновысотные части ║

║ ZXCVB YUIOP ║ ┌─левый─┬─правый┐ ║

║ zxcvb yuiop ║ низВЕРХ │ (/)(/ │ (/))/ │ ║

║ и штрихи в ║ и │ ( / │ ) / │ ║

║ центре диагонали ║ НИЗверх └─12345─┴─67890─┘ ║


А так могли бы выглядеть (конечно по вертикали, как светофоры) цветовые буквы алфавита в палитре БЧК ЖЗС = Белый (фон), Черный, Красный, Желтый, Зеленый, Синий. При матрице 1*3 и различителях БЧ + КЖЗСЧ + БЧКС. Причем возможное число спец.знаков в этой палитре 4*6*6 = 144 также достаточно. При использовании большей палитры можно было бы использовать как Р_ темные и светлые тона.


ТЫК ПЭС HАШ РО* ФУЬ │ БКД,ЧКД,БКК БЖД,ЧЖД,БЖК БЗД,ЧЗД,БЗК ...

ДИГ БЕЗ МЯЖ ЛЕХ ВЮЙ │ БКЧ,ЧКЧ,БКС БЖЧ,ЧЖЧ,БЖС БЗЧ,ЧЗЧ,БЗС ...

заднейотированные Г │ ЧКК ЧЖК ЧЗК ...

3.2.2.2.4 ИТОГИ

QWERT qwert ZXCVB zxcvb

ASDFG asdfg YUIOP yuiop

Итак 40 букв, но это большая нагрузка на клавиатуру. Уже сейчас на типовой клавиатуре 102 символа, а сколько будет на новой? Я думаю нужно 10 – 20 клавиш, а то и вообще, клавиатура не нужна! Вместо неё сенсорные перчатки, точнее псевдоперчатки. А может, золотая истина как всегда посередине - и то, и то. Но подробнее о клавиатуре.

Фактически у нас 40 не уникальных, а “сборных” букв. А точнее, три Р_: 5Р_, 3Р_ и Р_. Следовательно минимальное число клавиш для них – 10 или даже меньше. Возможность установления режимов печати (спец.символ цифр в азбуке Брайля или типовые “Caps Lock” в комбинации с “Shift”, “Ctrl” и “Alt”) - проверенное решение проблемы. В нашей клавиатуре будет как минимум два режима симметрии и/или поворота.

Итак:
  • “сборность” в начертании букв и спец.символов позволяет иначе взглянуть на их количество,
  • возможна “интеллектуальная” клавиатура: если Р_ нажат за буквой, то он принимает одну графическую форму, если за спец.символом (цифры, предлога, ...) – другую.

С.ОУ существующая клавиатура тоже частично следствие исторических случайностей. Её можно сделать под пальцы с раздвижкой клавиш под индивидуальные кисти рук (в том числе и с отсутствующими фалангами пальцев). Если же часть режимов устанавливать другими частями тела (не только ногами как в автомобиле), то понятно, что проблемы с клавиатурой нет. Кроме того, сегодня уже существуют и другие устройства ввода информации, например с голоса.


3.3 ПОТЕHЦИАЛЬHЫЕ КРАТКОСТЬ И ОБЪЕМ ЯЗЫКА. (СКОЛЬКО МОЖНО И НУЖНО?)

С.ОУ, одной из сильных сторон английского языка является краткость: 70% английских слов в тексте - односложны (в китайском - почти все). Общее число слов оценивается в 300 - 500 тысяч, что совпадает с подобными объемами других языков. Сразу возникает первый вопрос, а сколько можно? Ответ чуть позже.

Вместе с тем, практика показывает, что, зная только 1000 самых распространенных слов иностранного языка, можно понять 70% информации, зная 3000 слов, можно понять до 95%. Дальнейшее расширение знаний практически не увеличивает понимания. В романе "12 стульев" авторы, сославшись на исследователей, сообщили, что словарь Шекспира насчитывал 12 тысяч слов. В материалах к частотному словарю языка Пушкина М.1963 говорится о 24224 словах. Сразу возникает второй вопрос, а сколько нужно? И вот тут следует задать третий вопрос: Почему словарь Пушкина в двое больше? А получив ответ - это влияние структуры языка (что-то типа: у нас - жил и жила два слова, у англичан - одно), задать эти вопросы иначе:
  1. сколько можно?
  2. сколько нужно обычному языку?
  3. сколько нужно ОУ языку?


3.3.1 СКОЛЬКО МОЖНО.

Посмотрим, сколько и каких слов ориентировочно можно построить, комбинируя сочетания из пяти букв (считая пока сочетания Аа и аА разными).




С

Г

СГ

ГС

СГС

ГСГ

ССГ

ГСС




Вариант 10 - 18 согласных [С] и 10 гласных [Г]




324

180

3240

3240

58320

32400

58320

58320







100

1800

1800

32400

18000

32400

32400










32400

32400

583200

324000

583200

583200













32400

583200

324000

583200

583200




Вариант 15 - 18 согласных [С] и 15 гласных [Г] ( включая ГЙ )

С

324

270

4860

4860

87480

72900

87480

87480

Г




225

4050

4050

72900

60750

72900

72900

СГ







72900

72900

1312200

1093500

1312200

1312200

ГС










72900

1312200

1093500

1312200

1312200


Число возможных слов по числу букв. Без учета ГГГ и ССС.

Букв (схема)

1 (С+Г)

2 (СС+ГС+СГ+ГГ)

3 (ССГ+СГС+ГСС+ГГС+ГСГ+СГГ)

Вариант 10Г

28

784

15120

Вариант 15Г

33

1089

26730


Число односложных ( не более чем трехбуквенных ) слов по варианту 10 = 28+2*180+3*3240=10'108, а по варианту 15 = 33+2*270+3*4860=15'153

При этом еще не учтены комбинаторные возможности тона и Р_знака (мягкость и долгота). Вспомним, в нашем варианте - 20 письменных и еще больше устных Г.

Следовательно, потенциал односложного языка избыточен, т.к. уже число 3х-буквенных слов (10'108) втрое превосходит 95% рубеж понимания. Но "можно", конечно, не значит "нужно"! Да и бумага "всё стерпит". Часть буквосочетаний трудно произносимы, а потому не нужны. Кроме того, часть слов должно пропасть в пустую (неполные классы!).

Однако, вряд ли язык должен быть односложным...


3.3.2 СКОЛЬКО НУЖНО ОБЫЧНОМУ ЯЗЫКУ?

И все же, а сколько нужно? Для этого рассмотрим исследования по одному из спонтанносформировавшихся - русскому языку. В первом приближении эти данные будут одинаковы и для остальных.


Вот что говорит нам частотный словарь Засориной Л.Н. (М 1977).

Из 1056382 (1 млн) словоупотреблений (около 40тыс слов) следующие 10 слов лидируют:

Номер

Слово

Словоупотреблений

Личный %

Общий %

1

В,во

42854

4.06

4.06

2

И

36266

3.43

7.49

3

Не

19288

1.83

9.32

4

На

17652

1.67

10.99

5

Я

13839

1.31

12.30

6

Быть

13307

1.26

13.56

7

Что

13185

1.25

14.8

8

Он

13143

1.24

16.05

9

С,со

12975

1.23

17.28

10

А

10719

1.01

18.29


Итак, первые 10 слов еще имеют личный % больше 1%, где-то на 103-ем слове переходится рубеж 0.1% (общий % первой сотни - 41,36%)


Вот эти слова:

как по же это весь который вы за бы ты то от,ото к,ко все мочь мы у один этот из,изо для она свой такой они так сказать но о,об,обо тот вот только еще говорить наш да себя знать год его нет большой до когда уже если дело другой чтобы или сам время какой идти ну новый самый человек мой люди первый рука кто стать жизнь видеть под надо ни очень без день два более при даже хотеть раз видать сейчас теперь товарищ здесь ли должен советский там работа думать глаз страна ведь земля ...


Еще несколько цифр характеризующих строй русского языка:

Рубеж 70% перейден на 1225 словах (100% - 39268, 95% - 12885, 50% - 230) (4%-1, 11%-4, 25%-22, 33%-44, 41%-100, 59%-500)


Итак, в первом приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1225 слов. А для разумноорганизованного? Меньше, но об этом чуть позже.


Конечно, для других типов текстов (а тем более языков) эти цифры - другие. (м Частотный словарь русского литературного языка, Э.А.Штейнфельд, Таллин, 1963, 400 тысяч словоупотреблений. Первые 10 слов: и, в, на, не, он, я, что, с, этот, быть). Но характер строя будет таким же! И это главный ориентир к выбору слов для нашего языка.

Я считаю, что эволюция нашей цивилизации увеличивает долю экономических и технических знаний в общем объеме знаний. Т.е. сжатая и действительно структурированная информация патентов, законов, и инструкций все чаще встречается людям.

Поэтому, особо существенен следующий вывод авторов (стр.929): "Следовательно, наибольшей частотностью обладают "грамматические" слова, появление которых обусловлено строем языка, затем идут слова, отражающие тематику текстов." Подчиняясь этому выводу и учитывая предназначение и развитие языка, я думаю, лучше (Критерий "ЛУЧШЕ" - субъективен) отдать самые короткие слова и самые сильные связи самым распространенным, но не отдельным понятиям, а структурам! В том числе алгоритмическим языкам, цифрам, математическим операциям и конечно грамматике.


Так все же, сколько нужно? И опять обратимся к еще более ценному труду под редакцией Засориной Л.Н. (Образование употребительных слов русского языка М 1979). Более ценного, потому что в первом труде рассмотрено "Как", а в этом проанализировано "Почему", что и необходимо нам для синтеза "Зачем". И что же там?


Вот трудный путь анализа: 1056382 словоупотребления разделяются на 39268 слов или лучше не так. Миллион словоупотреблений, 40 тысяч слов, после фильтрации 32 тысячи гнездующихся, 4 - нет, 3.2 - отброшены. Далее 32 тысячи содержат 2600 гнезд. Причем, 1600 - 70% всего словаря, имеют частоту от 3х до 100. 500 гнезд - 42%, 100 гнезд - 26%. Точнее 26.6294% или 266682 словоупотребления, что явно больше тысячи слов.

Среди этих 100 гнезд лидируют следующие десятки:

Номер

Лидеры словоупотреблений




Лидеры продуктивности

Слово

Дериватов

Общее

Личный %

Слово

Дериватов

Общее

Личный %

1

Быть

128

17070

1.62

Стоять

284

8583

0.81

2

Стоять

284

8583

0.81

Водить

256

5747

0.54

3

Иметь

231

8325

0.79

Иметь

231

8325

0.79

4

Идти

36

7443

0.71

Ход

196

7285

0.69

5

Ход

196

7285

0.69

Вертеть

193

3078

0.29

6

Делать

153

6103

0.58

Лежать

179

3662

0.35

7

Знать

133

5963

0.56

Дать

169

4890

0.46

8

Водить

256

5747

0.54

Жить

158

3930

0.37

9

Мочь

133

5702

0.54

Род

157

4121

0.39

10

Стать

120

5540

0.52

Делать

153

6103

0.58

Итого







77761

7.36







55724

5.28


Итак, во втором приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1600 гнезд. Но это больше 1225 слов? Да, но ведь цели исследователей были другими. И они с ними хорошо справились. Еще раз косвенно подтвердив соотношение 1000 слов и 70%.