Чи потрібно навчати мою власну модель вбудовування, чи я можу використовувати такі моделі, як word2vec пакета gensim або попередньо навчену модель, як-от BERT, і приймати прихований стан?
Можна використовувати попередньо навчені моделі. sentence-transformers має новіші моделі.
Чи можу я використовувати будь-яку модель вбудовування?
Попередньо навчена модель має підтримувати мову вашого документа, наприклад https://www.sbert.net/docs/pretrained_models.html?highlight=german
якщо моїх слів немає в навчальному корпусі, я отримаю поганий результат або що ви робите думаєш?
Якщо проблеми зі словами поза словниковим запасом, можна налаштувати попередньо підготовлені моделі.