Який ефективний спосіб токенізації довгого рядка?

У мене дуже довгий рядок. Як я можу ефективно ідентифікувати межі фіксованої довжини маркера в тексті? Наприклад: текст = "Швидка сріблясто-коричнева лисиця перестрибнула через живопліт" токен_вікно = 4 маркери Припустимо, що 1 маркер = 2 символи текст із межею вікна маркера = "Швидкий|k si|lver| bro|wn f|ox j|umpe|d ov|er t|he h|edge|"

Оскільки не існує фіксованого припущення про відношення токена та довжини символу, як ми можемо це зробити ефективно?

Отокенізування довгого рядка за один раз надто повільне. Будь-яке альтернативне рішення?

Previous Article

Досвід використання Dyson Airwrap

Next Article

Write a Comment

Leave a Comment

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *