Мы только что импортировали необходимые нам библиотеки. Каждой библиотеке мы дали собственные названия –
Затем импортируем данные из файла. CSV (comma-separated values), который также можно найти в интернете. В частности, нужный нам. CSV-файл находится на сервере Web Services (AWS), принадлежащем Amazon. Нам это известно потому, что ссылка файла (которая начинается с http://) выглядит как s3.amazonaws.com. Файл. CSV представляет собой структурированные данные, где каждая колонка отделена запятой. Мы скачаем с AWS два файла с данными о «Титанике» – обучающий и тестовый, и они оба будут в формате. CSV. Импортируем их:
train_url =
«http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/train.csv»
train = pd.read_csv (train_url)
test_url = «http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/test.csv»
test = pd.read_csv (test_url)
Посмотрим, что в
print (train.head ())
Итак, перед нами данные в 12 колонках: PassengerId, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, и Embarked. Что же это все означает?
Чтобы ответить на этот вопрос, нам понадобится словарь данных, который обычно имеется в каждом пакете данных. Заглянув в него, мы выясняем:
Pclass = пассажирский класс (1 = 1-й; 2 = 2-й; 3 = 3-й)
Survived = выжил (0 = нет; 1 = да)
Name = имя
Sex = пол
Age = возраст (в годах жизни; выражен дробью, если возраст меньше единицы (1), если данные приблизительны, они выражены в виде хх.5)
SibSp = количество родственников / супругов на борту
Parch = количество родителей / детей на борту
Ticket = номер билета
Fare = пассажирский тариф (до 1970-го считались в британских фунтах)
Cabin = номер каюты
Embarked = в каком порту сел (а) на борт корабля (C = Чербург; Q = Квинстаун; S = Саутгемптон)
В большинстве колонок есть информация, в иных – нет. Так, например, у пассажира с идентификатором 1, мистера Оуэна Харриса Брода, в графе «Номер каюты» зафиксировано значение NaN, что означает «нечисленное выражение». NaN также не равняется нулю, поскольку 0 – это число. Таким образом, NaN подразумевает, что для этой переменной отсутствует значение. В обычной жизни разница может быть несущественной, однако она принципиально важна для компьютерных вычислений. Вспомните, насколько точность важна для языка математики. Например, значение NULL – пустое множество, оно не синонимично NaN или нулю.
Посмотрим на первые строки тестового пакета данных:
print (test.head ())
Как мы видим, в пакете
Итак, теперь нам предстоит запустить на обучающем наборе сводную статистическую обработку – это позволит лучше понять имеющуюся информацию.