Можно обойти знакоряд словарями и хранить слова целиком. Словарь может содержать и выборку из юникода. Тогда слова в нем - наборы из таких точек.
Какие могут возникнуть вопросы? Очевидно, слова всегда должны быть как-то разделены. Иначе "в" + "от" может отобразиться как "вот" и придется маяться дурью.
Т.е. мы не можем просто так записать несколько слов подряд.
В русском языке есть знак "-", который часть сложных слов, но одновременно вычитания и отрицательности чисел, часто вместо тире, начало пунктов, знак переноса и еще м.б. где-то,
его применение придется описывать с некоторой подробностью для исключения путаницы.
Словарь против знакоряда
Сообщений 1 страница 11 из 11
Поделиться12019-03-27 13:50:18
Поделиться22019-03-28 07:09:41
ключевые слова, названия
функций и т.п.
А речь про использование слов русского языка среди них.
сколько пройдёт до начала
Словари давно есть готовые, Лис заплутал во времени.
Поделиться42019-03-28 13:28:46
Лис заплутал во времени.
Лис доказательно продемонстрировал, что в идее нет научной новизны (по критериям Уткина для научных журналов), есть только инженерно-техническая.
Словари давно есть готовые,
Мало ли что где есть? Если нет у меня - можно считать, что их нет.
Отредактировано ВежливыйЛис (2019-03-28 13:29:25)
Поделиться52019-03-28 13:32:33
в идее
Предлагается сравнить.
нет научной новизны (по критериям Уткина для научных журналов), есть только инженерно-техническая
Могут быть использованы какие-то численные сравнения (плотность кодирования, время обработки, однозначность, перечни решаемых задач и т.д.).
Если нет сравнения, то научно-обоснованным выбор знакоряда (или словаря) тоже нельзя назвать.
Мало ли что где есть? Если нет у меня - можно считать, что их нет.
Обойти этот вопрос не получится, как бы Лис не увиливал от русского языка.
Поделиться62019-03-28 13:39:58
Сейчас алфавитная запись основывается на записи звуков.
А вот будут очки от Apple и всё поменяется - будет алфавит на основе движения глаз.
А потом нейросети.
Так что как-нибудь сами без меня этой статистикой занимайтесь.
Поделиться72019-03-28 13:43:28
Так что как-нибудь сами без меня этой статистикой занимайтесь.
Естественный язык - статистические закономерности.
Поделиться82019-04-01 19:35:51
А для включения символа в состав слова используют специальное дикое знакосочетание.
Для словаря нет проблемы включения знаков в состав слова, есть проблема разделения слов на экране, если какие-то записи представимы набором других.
Обычно в качестве разделителя используется какой-то символ
Слова разделяются далеко не одним каким-то знаком.
Возможное решение - добавить словарь разделителей и чередовать с ними слова. Слово можно определить 3 байтами (примерно до 16-ти лям), разделитель - одним (до 256). Итого расклад по 4 байта.
Побочные явления - всплывают сразу две "утки" - пустой разделитель (м.б. в конце ряда слов) и пустое слово (иначе невозможен особый знак вначале строки и сочетание разделителей). Для пустой строки (если мы поддерживаем макаронных летающих монстров) эти утки сово... в паре.
С парой уток можно варащивать целые новые поколения!
Допустим, промежуточную утку можно заменить пробелом - поправки не понадобятся, пока мы выравниваем по левому краю. Тогда и пустой строки нет - есть "пробельная", понятие строки становится целостным - при сложении двух образуется единственная новая и слова остаются всегда разделены, не требуется поправок.
Остается утка словесная. При любой попытки классификации слов возникает вопрос с этой уткой.
Можно попробовать утку забросить на луну отогнать в конец набора. Т.к. он не заполняется целиком, то и проверку значения сверху делать. Тогда утка в ходе своих полетов не сможет попасть в наш словарь, и нам не нужно указывать ей это дважды (можно было бы ни разу не указывать, но тогда перед любым расширением словаря придется проверять уток на вшивость).
Очевидно, даже с одной уткой у нас будут яйца!
Остается вопрос с набором разделителей.
Поделиться92019-04-02 10:38:54
Для словаря нет проблемы включения знаков в состав слова, есть проблема разделения слов на экране, если какие-то записи представимы набором других.
Ну я про это и пишу.
Попробуйте это сочетание: &# 39; Напишите без пробела. Вот решение - загоните словарь в HTML и отображайте как Вам нравится. Вариант №2 - используйте метаязык. Пример БНФ. Там же как-то выражаются лексемы. Есть спецзнаки и соглашения. Сделайте в словаре еще столбик для БНФ.
Вариант №3 - Стилистическое оформление (например, Первое слово всегда жирным, второе курсивом, но тут надо чтобы в глазах не рябило как-то).
Слова разделяются далеко не одним каким-то знаком.
Слова разделяются так как Вам это захочется. Просто оформите в соглашение/ГОСТ/стандарт. Как слова разделены в естественном виде? Через пробел - то есть через один знак.
Побочные явления - всплывают сразу две "утки" - пустой разделитель (м.б. в конце ряда слов) и пустое слово (иначе невозможен особый знак вначале строки и сочетание разделителей). Для пустой строки (если мы поддерживаем макаронных летающих монстров) эти утки сово... в паре.
С парой уток можно варащивать целые новые поколения!
Непонятная абстракция - давайте конкретные примеры проблем.
Очевидно, даже с одной уткой у нас будут яйца!
А если это селезни, то их количество к тому же будет четным . Давайте примеры, на пальцах пока не понятно, какие грабли Вы увидели.
Отредактировано utkin (2019-04-02 10:45:41)
Поделиться102019-04-02 12:26:47
Есть спецзнаки и соглашения.
Спец. значение - "утка" - одно: отсутствие слова первого словаря (3-байта). Это позволяет записывать любую грамматику из сочетания записей во втором словаре (256 значений, где нет букв), по 4 байта на каждую.
какие грабли Вы увидели
Не может быть отдельного разделителя "-", иначе "как-то " м.б. и 32 и 64 разряда.
Если убрать "-" из знакоряда слов, то некоторые слова, имеющие соответствующие свойства, становятся непредставимыми,
однако, с пробелами до и/или после тот же знак среди разделителей уже представим. Чтобы можно было "2-е" должно быть "2-" в словаре разделителей, а это плохо, либо можно "2- е " или "2 -е " или "2 - е".
Поделиться112019-04-03 08:19:20
Дайте конкретный пример одной записи словаря с утками .