Мы используем нейросети не по назначению?
Разработчики LLM чаще всего подчёркивают их успехи в программировании, математике и логике и демонстрируют это успехами на соответствующих бенчмарках и даже олимпиадах. А бытовое использование моделей, важное большинству пользователей, отходит на второй план. Но почему их позиционируют именно так?
Нейросеть проще обучить задачам, у которых есть однозначный ответ
На этом основан метод обучения с подкреплением (RL) и его подвид RLVR, который даёт большой прирост в производительности моделей. При этом методе нейросеть получает от автоматической обучающей среды награду за правильные ответы.
Но чтобы метод работал и его можно было масштабировать, нужно, чтобы у задачи был объективно верный ответ: в математике это результат вычислений, в программировании — работающий код. Оценить качество обучения в этом случае легко — по количеству багов и неверных решений.
С гуманитарными, креативными и бытовыми задачами нейросети тоже справляются. Но в этом случае оценивать результат сложнее — объективно правильного ответа просто не существует. А значит, обучать их этим задачам автоматически гораздо труднее.
Подписывайтесь на наш Telegram-канал: https://t.me/GinTONincbot?start=M2L2M8



