Ремесло программиста

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Ремесло программиста » Предлагаемые стандарты и рецензии на них » Словарь против знакоряда


Словарь против знакоряда

Сообщений 1 страница 11 из 11

1

Можно обойти знакоряд словарями и хранить слова целиком. Словарь может содержать и выборку из юникода. Тогда слова в нем - наборы из таких точек.
Какие могут возникнуть вопросы? Очевидно, слова всегда должны быть как-то разделены. Иначе "в" + "от" может отобразиться как "вот" и придется маяться дурью.
Т.е. мы не можем просто так записать несколько слов подряд.
В русском языке есть знак "-", который часть сложных слов, но одновременно вычитания и отрицательности чисел, часто вместо тире, начало пунктов, знак переноса и еще м.б. где-то,
его применение придется описывать с некоторой подробностью для исключения путаницы.

2

ключевые слова, названия
функций и т.п.

А речь про использование слов русского языка среди них.

сколько пройдёт до начала

Словари давно есть готовые, Лис заплутал во времени.

3

про спектрум и ямаху сюда

4

МихалНик написал(а):

Лис заплутал во времени.

Лис доказательно продемонстрировал, что в идее нет научной новизны (по критериям Уткина для научных журналов), есть только инженерно-техническая.

МихалНик написал(а):

Словари давно есть готовые,

Мало ли что где есть? Если нет у меня - можно считать, что их нет.

Отредактировано ВежливыйЛис (2019-03-28 13:29:25)

5

в идее

Предлагается сравнить.

нет научной новизны (по критериям Уткина для научных журналов), есть только инженерно-техническая

Могут быть использованы какие-то численные сравнения (плотность кодирования, время обработки, однозначность, перечни решаемых задач и т.д.).
Если нет сравнения, то научно-обоснованным выбор знакоряда (или словаря) тоже нельзя назвать.

Мало ли что где есть? Если нет у меня - можно считать, что их нет.

Обойти этот вопрос не получится, как бы Лис не увиливал от русского языка.

6

Сейчас алфавитная запись основывается на записи звуков.
А вот будут очки от Apple и всё поменяется - будет алфавит на основе движения глаз.
https://www.ixbt.com/img/n1/news/2019/0/1/Apple-Glass.png
А потом нейросети.

Так что как-нибудь сами без меня этой статистикой занимайтесь.

7

Так что как-нибудь сами без меня этой статистикой занимайтесь.

Естественный язык - статистические закономерности.

8

А для включения символа в состав слова используют специальное дикое знакосочетание.

Для словаря нет проблемы включения знаков в состав слова, есть проблема разделения слов на экране, если какие-то записи представимы набором других.

Обычно в качестве разделителя используется какой-то символ

Слова разделяются далеко не одним каким-то знаком.
Возможное решение - добавить словарь разделителей и чередовать с ними слова. Слово можно определить 3 байтами (примерно до 16-ти лям), разделитель - одним (до 256). Итого расклад по 4 байта.
Побочные явления - всплывают сразу две "утки" - пустой разделитель (м.б. в конце ряда слов) и пустое слово (иначе невозможен особый знак вначале строки и сочетание разделителей). Для пустой строки (если мы поддерживаем макаронных летающих монстров) эти утки сово... в паре.
С парой уток можно варащивать целые новые поколения!

Допустим, промежуточную утку можно заменить пробелом - поправки не понадобятся, пока мы выравниваем по левому краю. Тогда и пустой строки нет - есть "пробельная", понятие строки становится целостным - при сложении двух образуется единственная новая и слова остаются всегда разделены, не требуется поправок.
Остается утка словесная. При любой попытки классификации слов возникает вопрос с этой уткой.
Можно попробовать утку забросить на луну отогнать в конец набора. Т.к. он не заполняется целиком, то и проверку значения сверху делать. Тогда утка в ходе своих полетов не сможет попасть в наш словарь, и нам не нужно указывать ей это дважды (можно было бы ни разу не указывать, но тогда перед любым расширением словаря придется проверять уток на вшивость).
Очевидно, даже с одной уткой у нас будут яйца!
Остается вопрос с набором разделителей.

9

Для словаря нет проблемы включения знаков в состав слова, есть проблема разделения слов на экране, если какие-то записи представимы набором других.

Ну я про это и пишу.
Попробуйте это сочетание: &# 39; Напишите без пробела. Вот решение - загоните словарь в HTML и отображайте как Вам нравится. Вариант №2 - используйте метаязык. Пример БНФ. Там же как-то выражаются лексемы. Есть спецзнаки и соглашения. Сделайте в словаре еще столбик для БНФ.
Вариант №3 - Стилистическое оформление (например, Первое слово всегда жирным, второе курсивом, но тут надо чтобы в глазах не рябило как-то).

Слова разделяются далеко не одним каким-то знаком.

Слова разделяются так как Вам это захочется. Просто оформите в соглашение/ГОСТ/стандарт. Как слова разделены в естественном виде? Через пробел - то есть через один знак.

Побочные явления - всплывают сразу две "утки" - пустой разделитель (м.б. в конце ряда слов) и пустое слово (иначе невозможен особый знак вначале строки и сочетание разделителей). Для пустой строки (если мы поддерживаем макаронных летающих монстров) эти утки сово... в паре.
С парой уток можно варащивать целые новые поколения!

Непонятная абстракция - давайте конкретные примеры проблем.

Очевидно, даже с одной уткой у нас будут яйца!

А если это селезни, то их количество к тому же будет четным :). Давайте примеры, на пальцах пока не понятно, какие грабли Вы увидели.

Отредактировано utkin (2019-04-02 10:45:41)

10

Есть спецзнаки и соглашения.

Спец. значение - "утка" - одно: отсутствие слова первого словаря (3-байта). Это позволяет записывать любую грамматику из сочетания записей во втором словаре (256 значений, где нет букв), по 4 байта на каждую.

какие грабли Вы увидели

Не может быть отдельного разделителя "-", иначе "как-то " м.б. и 32 и 64 разряда.
Если убрать "-" из знакоряда слов, то некоторые слова, имеющие соответствующие свойства, становятся непредставимыми,
однако,  с пробелами до и/или после тот же знак среди разделителей уже представим. Чтобы можно было "2-е" должно быть "2-"  в словаре разделителей, а это плохо, либо  можно "2- е " или "2 -е " или "2 - е".

11

Дайте конкретный пример одной записи словаря с утками :).


Вы здесь » Ремесло программиста » Предлагаемые стандарты и рецензии на них » Словарь против знакоряда