[전처리] 시퀀스 전처리

pad_sequences

keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32',
    padding='pre', truncating='pre', value=0.)

num_samples시퀀스(스칼라의 리스트)의 리스트를 (num_samples, num_timesteps) 형태의 2차원 Numpy 배열로 변환하여 줍니다. num_timesteps은 maxlen 인자가 주어진다면 maxlen이며 주어지지 않는다면 가장 긴 시퀀스의 길이입니다. num_timesteps보다 짧은 시퀀스는 끝부분을 value 값으로 padding 합니다. num_timesteps보다 긴 시퀀스는 요구 길이에 맞도록 줄입니다. Padding이나 줄임을 할 위치는 각각padding, truncating 인자에 의해 결정됩니다.

반환값

다음과 같은 형태의 2차원 Numpy 배열을 반환합니다: (num_samples, num_timesteps).

인수

sequences: 정수나 실수의 리스트의 리스트 입니다.
maxlen: None 혹은 정수이며 시퀀스의 최대 길이입니다. 이 보다 긴 시퀀스는 끝부분이 줄여지고 짧은 시퀀스는 끝부분이 0 으로 padding 됩니다.
dtype: 반환되는 Numpy 배열의 데이터 형태입니다.
padding: 'pre'나 'post'이며 각 시퀀스의 첫부분과 끝부분 중 어디를 padding 할 지를 지정합니다.
truncating: 'pre'나 'post'이며 maxlen 보다 긴 시퀀스에 대해 각 시퀀스의 첫부분과 끝부분 중 어디를 제거할 지를 지정합니다.
value: 실수이며 padding 값을 지정합니다.

skipgrams

keras.preprocessing.sequence.skipgrams(sequence, vocabulary_size,
    window_size=4, negative_samples=1., shuffle=True,
    categorical=False, sampling_table=None)

단어 인덱스(정수의 리스트) 시퀀스를 다음 형태의 쌍으로 변환합니다:

(단어, 같은 window의 단어), 레이블 1 (긍정 샘플).
(단어, 단어장(vocabulary)으로부터의 임의의 단어), 레이블 0 (부정 샘플).

Skipgram 에 대해서는 Mikolov et al.의 다음 논문을 읽어보세요: Efficient Estimation of Word Representations in Vector Space

반환값

다음과 같은 형태의 튜플을 반환합니다: (couples, labels).

couples은 다음과 같은 형태의 정수 두 개로 된 리스트의 리스트 입니다: [word_index, other_word_index].
labels 0과 1의 리스트이며 1은 other_word_index가 word_index와 같은 window에서 찾아졌음을, 0은 other_word_index가 무작위임을 의미합니다.
categorical이 True로 설정되어 있다면 레이블은 범주에 속함을 의미합니다, 즉 1은 [0,1], 0은 [1, 0]이 됩니다.

인수:

sequence: 정수 인덱스의 리스트이며 sampling_table을 사용하면, 단어 인덱스는 데이터셋(1로 시작함)의 랭크가 됩니다.
vocabulary_size: 정수입니다.
window_size: 정수이며 긍정 쌍 내의 두 단어의 최대 거리입니다.
negative_samples: 0 이상의 실수이며 0일 때는 부정(무작위) 샘플이 없음을 의미합니다. 1은 긍정 샘플이 없음을 의미합니다.
shuffle: 부울이며 샘플을 섞을지 여부 입니다.
categorical: 부울이며 반환된 레이블을 범주화할 지 여부 입니다.
sampling_table: 다음과 같은 형태의 Numpy 배열입니다: (vocabulary_size,). sampling_table[i] 는 인덱스가 i인 단어가 골라질 확률입니다(데이터셋에서 i번 째 흔한 단어라고 가정합니다).

make_sampling_table

keras.preprocessing.sequence.make_sampling_table(size, sampling_factor=1e-5)

skipgrams의 sampling_table 인수를 생성하는 데에 쓰입니다. sampling_table[i] 는 데이터셋에서 i번 째 흔한 단어가 골라질 확률입니다(균형을 위하여 흔한 단어일수록 덜 골라지도록 합니다).

반환값

다음과 같은 형태의 Numpy 배열을 반환합니다: (size,).

인수

size: 단어장의 크기입니다.
sampling_factor: 낮은 값은 더 긴 확률 감소를 초래합니다(흔한 단어일수록 덜 골라지도록 합니다). 1인 경우 서브샘플링은 일어나지 않습니다(모든 샘플링 확률이 1이 됩니다).

이 문서는 Keras의 Sequence Preprocessing을 번역한 것입니다.