У мене дуже довгий рядок. Як я можу ефективно ідентифікувати межі фіксованої довжини маркера в тексті? Наприклад: текст = "Швидка сріблясто-коричнева лисиця перестрибнула через живопліт" токен_вікно = 4 маркери Припустимо, що 1 маркер = 2 символи текст із межею вікна маркера = "Швидкий|k si|lver| bro|wn f|ox j|umpe|d ov|er t|he h|edge|"
Оскільки не існує фіксованого припущення про відношення токена та довжини символу, як ми можемо це зробити ефективно?
Отокенізування довгого рядка за один раз надто повільне. Будь-яке альтернативне рішення?