100개 이상의 범주로 레이블된 32x32 컬러 훈련 이미지 50,000개와 시험 이미지 10,000개로 구성된 데이터셋입니다.
from keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
반환값
인수
정서(긍정/부정)로 레이블된 IMDB의 영화 평가 25,000개의 데이터셋입니다. 평가는 전처리되어 있으며 개별 평가 단위로 단어 인덱스(정수) sequence로 인코딩되어 있습니다. 편의를 위해 단어는 데이터셋 전체에서의 사용 빈도에 따라 인덱싱되어, 예를 들어 정수 '3'은 데이터셋에서 세번 째로 자주 쓰인 단어가 인코딩되어 있습니다. 이를 통해 다음과 같은 신속한 필터링 작업이 가능합니다: "10,000개의 자주 쓰인 단어만 다루되, 가장 많이 쓰인 20개 단어를 제외합니다".
편의를 위해, "0"은 특정 단어 대신에 미지의 단어를 인코딩하는 데에 쓰입니다.
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
반환값
num_words
인수가 지정되어 있다면 가능한 최대의 인덱스 값은 num_words-1
입니다. maxlen
인수가 지정되어 있다면 가능한 최대의 시퀀스 길이는 maxlen
입니다.인수
'~/.keras/datasets/' + path
경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.oov_char
값으로 나타날 것입니다.oov_char
값으로 나타날 것입니다.num_words
혹은 skip_top
의 제한 때문에 잘린 단어는 이 문자로 대체됩니다.46개 주제로 레이블된 11,228 개의 Reuters 뉴스 서비스 데이터셋입니다. IMDB 데이터셋과 같이 각 뉴스는 같은 양식의 단어 인덱스의 시퀀스로 인코딩되어 있습니다.
from keras.datasets import reuters
(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
다음과 같은 추가된 부분을 제외하면 상세 부분이 IMDB 데이터셋과 동일합니다:
이 데이터셋은 다음과 같이 시퀀스를 인코딩하여 단어 인덱스로 사용하는 것도 가능합니다:
반환값
단어(문자열)가 열쇠이고 인덱스(정수)가 값인 덕셔너리 입니다. 예를 들어 word_index["giraffe"]
는 1234
를 반환합니다.
인수
'~/.keras/datasets/' + path
경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.0부터 9까지의 정수 10개의 28x28 그레이스케일 이미지 60,000개와 시험 이미지 10,000개로 구성된 데이터셋입니다.
from keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
반환값
인수
'~/.keras/datasets/' + path
경로에 데이터를 가지고 있지 않다면 이 경로로 데이터가 다운로드 될 것입니다.Carnegie Mellon University이 유지하고 있는 StatLib 라이브러리로부터 얻은 데이터셋입니다.
1970년대 후반 Boston 근교의 각기 다른 지역의 주택의 13가지 속성을 포함하고 있습니다. 목표는 특정 지역의 주택의 중간값(1,000달러 단위) 입니다.
from keras.datasets import boston_housing
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
인수
반환값
다음과 같은 형태의 Numpy 배열을 반환합니다: (x_train, y_train), (x_test, y_test)
.
이 문서는 Keras의 Datasets을 번역한 것입니다.