1from typing import Callable
2
3from labml.configs import BaseConfigs, option

ටෝකනයිසර්වින්යාසයන්

6class TokenizerConfigs(BaseConfigs):
13    tokenizer: Callable = 'character'
15    def __init__(self):
16        super().__init__(_primary='tokenizer')

මූලිකඉංග්රීසි ටෝකනයිසර්

මෙමඅත්හදා බැලීමේදී අපි චරිත මට්ටමේ ටෝකනයිසර් භාවිතා කරමු. සැකසීමෙන් ඔබට මාරු විය හැකිය,

'tokenizer': 'basic_english'

අත්හදාබැලීම ආරම්භ කිරීමේදී වින්යාස කිරීමේ ශබ්දකෝෂයේ.

19@option(TokenizerConfigs.tokenizer)
20def basic_english():
34    from torchtext.data import get_tokenizer
35    return get_tokenizer('basic_english')

අක්ෂරමට්ටමේ ටෝකනයිසර්

38def character_tokenizer(x: str):
42    return list(x)

අක්ෂරමට්ටමේ ටෝකනයිසර් වින්යාසය

45@option(TokenizerConfigs.tokenizer)
46def character():
50    return character_tokenizer