tokenizer.py

#

1from typing import Callable
2
3from labml.configs import BaseConfigs, option

#

分词器配置

6class TokenizerConfigs(BaseConfigs):

#

13    tokenizer: Callable = 'character'

#

15    def __init__(self):
16        super().__init__(_primary='tokenizer')

#

我们在这个实验中使用角色等级分词器。你可以通过设置进行切换，

'tokenizer': 'basic_english'

开始实验时在配置字典中。

19@option(TokenizerConfigs.tokenizer)
20def basic_english():

#

34    from torchtext.data import get_tokenizer
35    return get_tokenizer('basic_english')

#

38def character_tokenizer(x: str):

#

42    return list(x)

#

角色级别分词器配置

45@option(TokenizerConfigs.tokenizer)
46def character():

#

50    return character_tokenizer