Ремесло программиста

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Ремесло программиста » Цели, задачи и правила площадки » Размещение словаря на форуме


Размещение словаря на форуме

Сообщений 1 страница 18 из 18

1

Движение в эту сторону относительно некоторых определений уже наблюдается.
Не надо доп. учеток, доменов и хостингов.

Какие могут быть требования?
Необходимо упорядочение данных, включая существующие:
- раздел "Словарь".
- тема для каждого слова.
- тема перечня слов по каждой букве.
- тема с перечнем переходов на каждую букву.
- возможно даже отдельное сборище на основе этой площадки, чтобы не загромождать "активности" по словарю прочими, но тогда потребуются новые учетки.
- пропись создания тем и сборников ссылок.
- пропись выборки из старого словаря, который был размещен у Юрия.
- пропись включения в темы каждого слова ссылок на викисловарь и, возможно, кусков из последнего.
Необходимы постоянные вспомогательные средства для поддержания порядка.

Первопроблема:
требуется выборка данных с этих площадок, иначе надежность, защита от самоуправства и засорения опять под вопросом.

2

Децентрализованный поисковик https://yacy.net/ умеет выгружать выборку в виде листинга sql.

Я бы словарь держал бы на git'е.  Скачал текстовый документ поправил записал. Хочешь предложить свой вариант в общий тоже не проблема.
И регистрация для git не требуется. 

Или можно на https://ru.m.wiktionary.org/
Можно на i2p поднять сайт.

Отредактировано Павиа (2019-04-16 06:54:04)

3

Скачал текстовый документ поправил записал.

Во-первых, кто этим будет заниматься?
Во-вторых, тут много тем засоряется обсуждением слов.
Ну и активность будет поддерживаться.

4

> требуется выборка данных с этих площадок, иначе надежность, защита от самоуправства и засорения опять под вопросом.
Угу, именно на эти цели мой проект и направлен. Да и способ организации совместной работы взят из гитхаба. И сайт уже есть, ничего делать не нужно.
Вообще, трудоёмкость и стоимость поддержки сайта несопоставима с неудобством работы в неподходящем движке.

Первое, что должно быть в словаре - это поиск с учётом структуры базы. В условиях форумного движка это нормально организовать не удастся.

Впрочем, я никого ни к чему не призываю, т.к. мне это нужно для упражнения, которое я, скорее всего, брошу, как только найду работу.  Есть надежда, что я найду работу раньше,
чем движок будет пригоден для практического использования.

5

Первое, что должно быть в словаре - это поиск с учётом структуры базы. В условиях форумного движка это нормально организовать не удастся.

Это делается взаимными ссылками (на тему слова и обратно на сообщение с колонкой слов). Естественно, их нужно прописать вместе с созданием тем. Мотнуть тему с колонкой слов на соотв. букву не сложно, ну и поиск по странице тоже сработает.

6

Это не поиск, а ссылки. Например, я могу захотеть искать слова в определённом диалекте языка, ограничиваясь либо статьями, либо самим словом. Как PHPbb с этим справится? Никак без допиливания движка. Те же самые теги отсутствуют в PhPBB, тоже нужно допиливать движок.

7

Это не поиск, а ссылки. Например, я могу захотеть искать слова в определённом диалекте языка, ограничиваясь либо статьями, либо самим словом. ККак PHPbb с этим справится? Никак без допиливания движка. Те же самые теги отсутствуют в PhPBB, тоже нужно допиливать движок.

JS-ом можно же прямо на форум. Только этот функционал слабо востребован. Ключевых слов в ЯП счет на десятки. Ну и не ясно в чем проблема сделать обработку форума на любом ЯВУ.

8

Так у вас вопрос как минимальными усилиями без программирования развернуть словарь на базе чего-то примерно подходящего, или как с помощью программирования сделать нормальный движок словаря? Я вижу, что задание меняется по ходу дела.

9

БудДен написал(а):

как минимальными усилиями без программирования развернуть словарь на базе чего-то примерно подходящего, или как с помощью программирования сделать нормальный движок словаря?

- Не, - зачем "или"... (?) Лучше "и"... )))
На форумах есть создание отдельных страниц в виде html-кода, а если вписать туда ещё и скрипты - это "ваще-та неплохая форточка" для решения многих проблем...

10

вопрос как минимальными усилиями без программирования развернуть словарь на базе чего-то примерно подходящего, или как с помощью программирования сделать нормальный движок словаря?

Нужен словарь на основе обработки кучи существующих данных, а не голый движок.

11

МихалНик
Все успешные проекты машинного обучения были основаны на коллективном творчестве. В том смысле что датасеты составляли люди. Но, проекты взлетали лишь только тогда когда сбор данных был автоматизирован. Человек может выполнить только одну простую операцию. А не кучу разных. Если операций больше двух то ему это становится неинтересно.

Так что движок Буддена это то что нужно. Как получить данные я сказал.  Yacy умеет разбирать страничке на предложения.  А предложения на слова. Из сходя из окружающих слов можно определить в каком смысле используется то или иное слово.

12

МихалНик написал(а):

Нужен словарь на основе обработки кучи существующих данных, а не голый движок.

Обработка кучи существующих данных упирается даже не столько в трудоёмкость, сколько в вопрос правомочности использования данных из чужих словарей. Когда я делал "Яр", термины возникали сами по ходу процесса разработки, процесс был органичным и сейчас там порядка 50-100 терминов. В этом контексте движок был нужен. Какие были мотивы остальных участников - я не знаю. В любом случае, было 3 человека в гугл докс, значит, смысл в движке есть. Т.е. обсуждать в качестве альтернативы движок на базе форума нет большого смысла. Если считаете его целесообразным - делайте. Мне для резюме совершенно не нужен костыльный движок словаря на базе PHPbb.

13

Мне для резюме совершенно не нужен костыльный движок словаря на базе PHPbb.

Никто никого ни к чему не принуждает.

Все успешные проекты машинного обучения были основаны на коллективном творчестве.

Речь не шла про машинное обучение.

14

МихалНик написал(а):

Речь не шла про машинное обучение.

И, чё? Вы считаете что опыт не следует перенимать?

Возьмём викисловарь 1 миллион страничек. Только вот 870 тысяч из них пустые (Они были созданы что-бы стимулировать заполняемость). Вот только эффекта это не дало, всё потому что людям сложно их набирать, да ещё и регистрация нужна.
Из оставшихся 130 тысяч  страничек 115-120 тысяч сделаны во время создания первой версии словаря.Когда за основу был взять расширенный словарь Зализника 100 тысяч плюс те 15-20 тысяч которые вписали его продолжатели Сергея Старостина и Дмитрию Самойлов.
И 5-15 тысяч которые вписали уже пользователи словаря, но качество такое что их проще выкинуть.  4 из 5 слов имеют только название склонения не заполнены, грамматическая основа не выписана.
Т.е. 1 000 пользователей вписало по одной страничке.   И это из 500 миллионного Русско говорящего сообщества.

А был бы у них движок каждый бы заполнил по 10 страничек, а то и по 10 000.  Ведь можно автоматизировать определения склонения. Можно сделать выборку с корпуса для составления примеров использования. Пользователю разве что останется брать и писать определения слов. 
Снятие синтаксической омонимы с кулинарная книга и то набрало популярность в разы больше. Там у первой сотни по 1000 строк разобранных текстов.  А всё потому что есть интерактивный интерфейс.

Так что движок БудДен это единственный выход.

Отредактировано Павиа (2019-04-17 13:34:56)

15

У нас задачи намного проще - нужны связки что чем заменять (по сути это должны быть ссылки и/или цитаты).

Вы считаете что опыт не следует перенимать?

Конечно следует - нужно автоматизировать выдачу с уже обученных нейросетей гуглопереводчика.
Потому что Utkin делать перебор подстановок вручную отказался даже для одного случая.

И это из 500 миллионного Русско говорящего сообщества.

Оно вдвое меньше.

16

>Никто никого ни к чему не принуждает.
Да, но вы пытаетесь непонятно зачем оттянуть и без того скудные ресурсы от моего варианта в альтернативный. Никого не волновала тема словаря, наверно, последнюю пару лет и тут вдруг, как только я начал делать свой движок, сразу начали рассматриваться и защищаться альтернативы. Очевидно, что костылить на базе форума - это хуже, чем делать специализированный движок. А двухходовка с тем, что сначала мы обходимся без программирования, а потом всё же используем JS - это вообще какая-то примитивная попытка манипуляции сознанием. В общем-то, это ваш, МихалНик, стиль, который я узнаЮ. У Лиса вот рук нет и лапки, как только до дела доходит, а у вас такие вот двухходовочки регулярно проскакивают. Может быть, у меня плохое зрение, но никакого побудительного мотива для таких обсуждений, кроме как по возможности воспрепятствовать получению мной любой поддержки даже от этого скудного сообщества, я тут увидеть не могу. В общем-то я всё равно изначально рассчитывал только на свои силы и даже не собирался принимать PRы, но обсудить ТЗ было бы интересно. А такая вот мышиная возня вокруг этой темы выглядит довольно некрасиво.

На всякий случай я сообщаю, что предусмотрены следующие степени защиты от самоуправства:

- выкладывание дампа базы, за исключением контактных данных пользователей. База Postgresql, логика на хранимых процедурах
- open source движок, который можно установить локально на любом debian stretch (да я думаю, что и не только на нём) и получить локальную копию базы

При том в рамках ваших форумов даже выкачать сообщения и консолидировать их никто не осилил, хотя обсуждается не первый год. Куда уж вам замахиваться на словарь? Давайте будем реалистами. Дальше, пожалуй, обсуждать эту тему будет только пустой тратой времени.

Отредактировано БудДен (2019-04-17 16:07:17)

17

Никого не волновала тема словаря, наверно, последнюю пару лет и тут вдруг, как только я начал делать свой движок, сразу начали рассматриваться и защищаться альтернативы.

Это не правда. Напоминаю про словарь уже не первый раз.

Да, но вы пытаетесь непонятно зачем оттянуть и без того скудные ресурсы от моего варианта в альтернативный.

Народ просто обсуждает конкретные слова в отдельных или попутных темах. Поэтому темы в знач. степени состоят из словарного материала. Но обычно это оффтоп и сами все этим возмущаются.
Поэтому нужно наводить порядок.
Альтернативный вариант - это Ваш. Когда он будет готов.

Очевидно, что костылить на базе форума - это хуже, чем делать специализированный движок

Никто вообще ничего не костылит. Это раз. Во-вторых, переноса существующих сообщений с этого форума в Ваш движок, скорее всего, не предвидется.
От Вас этого никто и не просит.

кроме как по возможности воспрепятствовать получению мной любой поддержки даже от этого скудного сообщества, я тут увидеть не могу.

Если смотреть объективно - второй раз напоминаю про существующий словарь с сайта Юрия на викидвижке. Там лежат данные, которые надо вынуть и сделать доступными.
Искать  место для викидвижка и разворачивать его снова - это слабое решение.
Опять же, это не Ваша проблема.

обсудить ТЗ было бы интересно

Я писал ранее какие-то требования именно к функционалу. Когда его сделали в гуглотаблицах.

При том в рамках ваших форумов даже выкачать сообщения и консолидировать их никто не осилил, хотя обсуждается не первый год.

Потому что публично этого никто никому не должен. А еще это не будет зачтено Лисом, если не на кириллице :D
А это значит, что лисоодобрение плохо совместимо с примерным англокодингом для резюме.

Дальше, пожалуй, обсуждать эту тему будет только пустой тратой времени.

Не говоря даже про заявления, что движок м.б. в любой момент брошен как только Вы найдете работу.

В общем-то я всё равно изначально рассчитывал только на свои силы и даже не собирался принимать PRы

Вот с этого и надо начинать или продолжать.

В общем-то, это ваш, МихалНик, стиль, который я узнаЮ

Точно, ранее МихалНик уже наложил запрет на мечтание Лиса про ассемблер :rofl:

двухходовка с тем, что сначала мы обходимся без программирования, а потом всё же используем JS - это вообще какая-то примитивная попытка манипуляции сознанием.

Если посмотреть внимательно на #1, то вначале предполагается применить программирование, а потом соответствующий программный код выбрасывается.
JS на площадке - это отдельная тема.

18

Использовать готовый это 1 час на посмотреть инструкцию и 5 минут на развёртывание.

Обсудить создание раздела для словаря на этой площадке - это месяц-два. :rofl: А есть еще главный администратор, которого бы надо спросить.
Далее это добавит работы по переносу тем и сообщений, либо простановки ссылок на них/цитат.


Вы здесь » Ремесло программиста » Цели, задачи и правила площадки » Размещение словаря на форуме