keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32',
padding='pre', truncating='pre', value=0.)
num_samples
시퀀스(스칼라의 리스트)의 리스트를 (num_samples, num_timesteps)
형태의 2차원 Numpy 배열로 변환하여 줍니다. num_timesteps
은 maxlen
인자가 주어진다면 maxlen
이며 주어지지 않는다면 가장 긴 시퀀스의 길이입니다. num_timesteps
보다 짧은 시퀀스는 끝부분을 value
값으로 padding 합니다. num_timesteps
보다 긴 시퀀스는 요구 길이에 맞도록 줄입니다. Padding이나 줄임을 할 위치는 각각padding
, truncating
인자에 의해 결정됩니다.
반환값
다음과 같은 형태의 2차원 Numpy 배열을 반환합니다: (num_samples, num_timesteps)
.
인수
keras.preprocessing.sequence.skipgrams(sequence, vocabulary_size,
window_size=4, negative_samples=1., shuffle=True,
categorical=False, sampling_table=None)
단어 인덱스(정수의 리스트) 시퀀스를 다음 형태의 쌍으로 변환합니다:
Skipgram 에 대해서는 Mikolov et al.의 다음 논문을 읽어보세요: Efficient Estimation of Word Representations in Vector Space
반환값
다음과 같은 형태의 튜플을 반환합니다: (couples, labels)
.
couples
은 다음과 같은 형태의 정수 두 개로 된 리스트의 리스트 입니다: [word_index, other_word_index]
.labels
0과 1의 리스트이며 1은 other_word_index
가 word_index
와 같은 window에서 찾아졌음을, 0은 other_word_index
가 무작위임을 의미합니다.categorical
이 True로 설정되어 있다면 레이블은 범주에 속함을 의미합니다, 즉 1은 [0,1], 0은 [1, 0]이 됩니다.인수:
sampling_table
을 사용하면, 단어 인덱스는 데이터셋(1로 시작함)의 랭크가 됩니다.(vocabulary_size,)
. sampling_table[i]
는 인덱스가 i인 단어가 골라질 확률입니다(데이터셋에서 i번 째 흔한 단어라고 가정합니다).keras.preprocessing.sequence.make_sampling_table(size, sampling_factor=1e-5)
skipgrams
의 sampling_table
인수를 생성하는 데에 쓰입니다. sampling_table[i]
는 데이터셋에서 i번 째 흔한 단어가 골라질 확률입니다(균형을 위하여 흔한 단어일수록 덜 골라지도록 합니다).
반환값
다음과 같은 형태의 Numpy 배열을 반환합니다: (size,)
.
인수
이 문서는 Keras의 Sequence Preprocessing을 번역한 것입니다.