Автор: Guljaca
Предыдущий релиз был не очень играбелен. Так что обновляю.
Перешел на Gemma-4-e4b - скорость генерации повысилась в 20 раз. Но с цензурой. А то QWEN отожрался до 1300 секунд на все этапы (на RTX3060 12Gb), чисто за счет мышления, что явный перебор. Можете что-то свое использовать. Gemma-4-26b тратит на это 1400 секунд. Т.е она по скорости обработки равна QWEN3.5 9b.
https://github.com/Guljaca/RPG-AI-Assistant/releases/tag/0.15.0_fix1 - тут можно забрать
https://github.com/Guljaca/RPG-AI-Assistant/discussions/8 - тут можно обсудить
https://github.com/Guljaca/RPG-AI-Assistant - тут описан каждый шаг
Добавил шаг 11, на котором Модель пытается отсеивать сообщения истории, которые не особо влияют на происходящее. Пока с переменным успехом. В меню можно вручную включать и выключать каждое сообщение, а шаг этот вовсе отключить. Потенциально можно чтобы эти сообщения пропускались и при обычной загрузке в историю, но может потом...
Это сделано для того чтобы шаг 8.1 проверял не всю историю чата, а только ту ее часть, которая влияет на сюжет. С переменным успехом - нужно в промте прописать конкретно, что следует считать "важным"
Но вообще завсегда можно по старинке отправить в модель тупо больше контекста истории, отключив все остальные шаги.
В целом успех зависит именно от настройки промтов, и того, как провернет их конкретная модель. В скрипте остается только инструменты добавлять, для специфических ситуаций.
По сути, для правки промтов, нужно лог ответа, сами промты и список вопросов, через нейронку прокинуть, и получить исправления. И так по кругу пишешь, проверяешь, пишешь, проверяешь - рано или поздно оно заработает.
Не обязательно прям все шаги включать - каждый из них делает свою магию и не зависит от других.
Комментировать
Подробнее https://reactor...
