У мене є німецький набір даних фінансових/річних звітів компаній. Наприклад, я використовую пакет gensim, щоб вставити свій набір даних у word2vec, або використовую пакет huggingface, щоб вставити.
Як я можу дізнатися, що я не маю словникового запасу? Я хочу перевірити це, оскільки, по-перше, це німецький набір даних, а по-друге, у певному домені.
Чи є в пакетах якісь функції чи методи, щоб це перевірити, чи мені потрібно написати обхідний шлях?