tokenizer1 [TensorFlow] Tokenizer 텐서플로우(TensorFlow)의 Tokenizer 클래스는 자연어 처리(Natural Language Processing, NLP) 작업을 수행할 때 텍스트 데이터를 토큰(token)으로 분리하고 관리하기 위한 도구 중 하나입니다. 토큰은 텍스트를 작은 단위로 나눈 것으로, 예를 들면 단어, 문장 부호, 혹은 문자 등이 될 수 있습니다. Tokenizer 클래스는 주로 다음과 같은 목적으로 사용됩니다: 목적 텍스트 토큰화(Tokenization): 주어진 텍스트를 토큰으로 나누는 작업을 수행합니다. 이를 통해 문장을 단어, 문장 부호, 혹은 하위 단위로 분해할 수 있으며, 이러한 토큰은 머신러닝 모델의 입력으로 사용됩니다. 어휘(Vocabulary) 구축: Tokenizer는 데이터로부터 추출한 토큰들.. 2023. 9. 13. 이전 1 다음