Чи існують такі моделі, які використовують краудсорсингові дані замість вилучених даних з Інтернету?
Мені невідомо про будь-які мовні моделі, попередньо навчені на краудсорсингових даних (тобто текст, який група людей написала з метою навчання LLM). Однак деякі мовні моделі є інструкціями, налаштованими на основі краудсорсингових даних, таких як Розмови OpenAssistant:
Розмови OpenAssistant, створений людьми корпус бесід у стилі помічника, який складається з 161 443 повідомлень 35 різними мовами, анотованих 461 292 оцінки якості, результатом яких є понад 10 000 повних і повністю анотованих дерев розмов. Корпус є продуктом всесвітньої краудсорсингової роботи за участю понад 13 500 волонтерів.
І деякі магістратури проходять попередню підготовку виключно на загальнодоступних або ліцензованих текстах CC, як-от Загальний корпус.
Для перетворення тексту в зображення див. CommonCanvas: відкрита модель дифузії, навчена за допомогою зображень Creative-Commons.