Чи існують такі моделі, які використовують краудсорсингові дані замість вилучених даних з Інтернету?

Мені невідомо про будь-які мовні моделі, попередньо навчені на краудсорсингових даних (тобто текст, який група людей написала з метою навчання LLM). Однак деякі мовні моделі є інструкціями, налаштованими на основі краудсорсингових даних, таких як Розмови OpenAssistant:

Розмови OpenAssistant, створений людьми корпус бесід у стилі помічника, який складається з 161 443 повідомлень 35 різними мовами, анотованих 461 292 оцінки якості, результатом яких є понад 10 000 повних і повністю анотованих дерев розмов. Корпус є продуктом всесвітньої краудсорсингової роботи за участю понад 13 500 волонтерів.

І деякі магістратури проходять попередню підготовку виключно на загальнодоступних або ліцензованих текстах CC, як-от Загальний корпус.

Для перетворення тексту в зображення див. CommonCanvas: відкрита модель дифузії, навчена за допомогою зображень Creative-Commons.

Previous Article

Чому акції фармацевтичного сектору падають?Наразі сектор охорони здоровʼя перебу...

Next Article

Чому деякі інвестори зараз активно купують Ethereum?1. Перспективи зростання.Від...

Write a Comment

Leave a Comment

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *