CIFAR100 소형 이미지 분류

100개 이상의 범주로 레이블된 32x32 컬러 훈련 이미지 50,000개와 시험 이미지 10,000개로 구성된 데이터셋입니다.

사용법:

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

반환값

다음과 같은 두 개의 튜플을 반환합니다:
- x_train, x_test: RGB 이미지 데이터의 uint8 배열이며 다음과 같은 형태입니다: (num_samples, 3, 32, 32).
- y_train, y_test: 범주 레이블의 uint8 배열이며 다음과 같은 형태입니다: (num_samples,).

인수

label_mode: "fine" 혹은 "coarse" 입니다.

IMDB 영화 평가 정서 분류

정서(긍정/부정)로 레이블된 IMDB의 영화 평가 25,000개의 데이터셋입니다. 평가는 전처리되어 있으며 개별 평가 단위로 단어 인덱스(정수) sequence로 인코딩되어 있습니다. 편의를 위해 단어는 데이터셋 전체에서의 사용 빈도에 따라 인덱싱되어, 예를 들어 정수 '3'은 데이터셋에서 세번 째로 자주 쓰인 단어가 인코딩되어 있습니다. 이를 통해 다음과 같은 신속한 필터링 작업이 가능합니다: "10,000개의 자주 쓰인 단어만 다루되, 가장 많이 쓰인 20개 단어를 제외합니다".

편의를 위해, "0"은 특정 단어 대신에 미지의 단어를 인코딩하는 데에 쓰입니다.

사용법:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

반환값

다음과 같은 두 개의 튜플입니다:
- x_train, x_test: 정수 인덱스의 리스트인 시퀀스의 리스트입니다. num_words 인수가 지정되어 있다면 가능한 최대의 인덱스 값은 num_words-1입니다. maxlen 인수가 지정되어 있다면 가능한 최대의 시퀀스 길이는 maxlen입니다.
- y_train, y_test: 정수 레이블의 리스트입니다(1 혹은 0).

인수

path: '~/.keras/datasets/' + path 경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.
num_words: 정수 혹은 None 이며 가장 자주 사용할 단어입니다. 시퀀스 데이터의 다른 단어는 oov_char값으로 나타날 것입니다.
skip_top: 정수이며 무시할 단어 중 가장 자주 나타나는 단어입니다. 시퀀스 데이터 상 oov_char 값으로 나타날 것입니다.
maxlen: 정수이며 최대 시퀀스 길이 입니다.더 긴 시퀀스는 줄여질 것입니다.
seed: 정수이며 데이터를 재사용하기 위해 섞을 때 시드가 됩니다.
start_char: 정수이며 시퀀스의 시작은 이 문자로 표시됩니다. 0은 보통 padding에 사용되므로 1을 설정하세요.
oov_char: 정수이며 num_words 혹은 skip_top의 제한 때문에 잘린 단어는 이 문자로 대체됩니다.
index_from: 정수이며 실제 사용되는 단어의 인덱스로 이 이상의 숫자를 사용합니다.

Reuters 뉴스 서비스 주제 분류

46개 주제로 레이블된 11,228 개의 Reuters 뉴스 서비스 데이터셋입니다. IMDB 데이터셋과 같이 각 뉴스는 같은 양식의 단어 인덱스의 시퀀스로 인코딩되어 있습니다.

사용법:

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

다음과 같은 추가된 부분을 제외하면 상세 부분이 IMDB 데이터셋과 동일합니다:

test_split: 실수이며 데이터셋 중 시험 데이터로 사용될 비율입니다.

이 데이터셋은 다음과 같이 시퀀스를 인코딩하여 단어 인덱스로 사용하는 것도 가능합니다:

반환값

단어(문자열)가 열쇠이고 인덱스(정수)가 값인 덕셔너리 입니다. 예를 들어 word_index["giraffe"]는 1234를 반환합니다.

인수

path: '~/.keras/datasets/' + path 경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.

MNIST 숫자 손글씨 데이터베이스

0부터 9까지의 정수 10개의 28x28 그레이스케일 이미지 60,000개와 시험 이미지 10,000개로 구성된 데이터셋입니다.

사용법:

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

반환값

다음과 같은 두 개의 튜플을 반환합니다:

인수

path: '~/.keras/datasets/' + path 경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.

Boston 주택 가격 회귀 데이터셋

Carnegie Mellon University이 유지하고 있는 StatLib 라이브러리로부터 얻은 데이터셋입니다.