Форум

Це залежатиме від бібліотеки. Для gensim vocab є атрибутом моделі word2vec (див. цю відповідь: https://datascience.stackexchange.com/a/56106/151809).

Для моделей, які використовують byte-pair токенізація, ви не матимете маркерів поза словником, оскільки окремі байти є частиною словника, і будь-який вхід можна закодувати як байти.

Моделі, як-от BERT, які використовують токенізацію підслова, можуть мати маркери OOV, оскільки словниковий запас все ще складається з кінцевої кількості рядків. У huggingface ви можете шукати атрибут unk_token в об’єктах токенізера. Якщо ваше слово буде закодовано як unk_token, це означає, що воно вийшло зі словникового запасу.

What are You Looking For?

Душа поліцейського переселилась у собаку. Полкан усі серії | УКРАЇНСЬКА КОМЕДІЯ | СЕРІАЛИ 2023

Розплавлена прокладка на горщику мока. Як його очистити?

Leave a Comment

Read Next

Розплавлена прокладка на горщику мока. Як його очистити?

Душа поліцейського переселилась у собаку. Полкан усі серії | УКРАЇНСЬКА КОМЕДІЯ | СЕРІАЛИ 2023

Розплавлена ​​прокладка на горщику мока. Як його очистити?

Leave a Comment

Read Next

Розплавлена ​​прокладка на горщику мока. Як його очистити?

Розплавлена прокладка на горщику мока. Як його очистити?

Розплавлена прокладка на горщику мока. Як його очистити?