keras.preprocessing.text.text_to_word_sequence(text,
filters='!"#$%&()*+,-./:;<=>?@[\\\\]^_`{|}~\\t\\n',
lower=True,
split=" ")
문장을 단어의 리스트로 나눕니다.
반환값
단어의 리스트(문자열)를 반환합니다.
인수
keras.preprocessing.text.one_hot(text,
n,
filters='!"#$%&()*+,-./:;<=>?@[\\\\]^_`{|}~\\t\\n',
lower=True,
split=" ")
텍스트를 크기가 n인 단어장(vocabulary) 내의 단어 인덱스의 리스트로 인코딩합니다.
hash
를 해쉬 함수로 쓰는 hashing_trick
함수에 대한 wrapper입니다.
반환값
[1, n] 안의 정수 리스트를 반환합니다. 각 정수는 단어를 인코딩합니다(독자성은 보장되지 않습니다).
인수
keras.preprocessing.text.hashing_trick(text,
n,
hash_function=None,
filters='!"#$%&()*+,-./:;<=>?@[\\\\]^_`{|}~\\t\\n',
lower=True,
split=' ')
텍스트를 고정된 크기의 해쉬 공간 내의 인덱스의 시퀀스로 변환합니다.
반환값
정수의 리스트이며 단어의 인덱스를 반환합니다(독자성은 보장되지 않습니다).
인수
hash
함수의 기본값이며 'md5'나 문자열을 입력받아 정수를 출력하는 다른 함수일 수 있습니다. 'md5'는 안정적인 해쉬 함수임에 반하여, 'hash'는 안정적인 해쉬 함수가 아니라서 각기 다른 시행에서 일관되지 않을 수 있음에 주의하세요.keras.preprocessing.text.Tokenizer(num_words=None,
filters='!"#$%&()*+,-./:;<=>?@[\\\\]^_`{|}~\\t\\n',
lower=True,
split=" ",
char_level=False)
텍스트를 벡터화하거나 시퀀스화(단어 인덱스의 리스트이며 데이터셋(1로 시작함) 내의 랭크가 i인 단어가 인덱스 i를 갖습니다)하는 클래스입니다.
인수
위의 text_to_word_sequence
와 동일합니다.
메소드
(len(texts), num_words)
.(len(sequences), num_words)
.속성