Це залежатиме від бібліотеки. Для gensim vocab є атрибутом моделі word2vec (див. цю відповідь: https://datascience.stackexchange.com/a/56106/151809).
Для моделей, які використовують byte-pair токенізація, ви не матимете маркерів поза словником, оскільки окремі байти є частиною словника, і будь-який вхід можна закодувати як байти.
Моделі, як-от BERT, які використовують токенізацію підслова, можуть мати маркери OOV, оскільки словниковий запас все ще складається з кінцевої кількості рядків. У huggingface ви можете шукати атрибут unk_token
в об’єктах токенізера. Якщо ваше слово буде закодовано як unk_token
, це означає, що воно вийшло зі словникового запасу.