Xin chào đều người bây giờ mình sẽ thường xuyên viết chủ đề mình xuất xắc viết: phân tích dữ liệu và trực quan lại hóa dữ liệu, tuy nhiên, thay bởi vì mình sử dụng ngôn ngữ python thì bản thân sử dụng ngôn ngữ lập trình R. Trong bài viết này bọn họ sẽ với mọi người trong nhà học phương pháp phân tích dữ liệu dễ dàng nhất bên trên tập dữ liệu mà bọn họ có bằng ngôn ngữ R.

Bạn đang xem: Phân tích và trực quan hóa dữ liệu sử dụng ngôn ngữ r

Cùng ban đầu với R

Download và Install R | RStudio

Ngôn ngữ xây dựng R cung ứng một bộ thư viện có sẵn giúp chúng ta có thể dễ dàng kiến tạo hình hình ảnh trực quan với lượng code tối thiểu và linh hoạt. Những người hoàn toàn có thể tiến hành download tại trên đây theo hdh nhưng mình đang sử dụng và tiếp theo họ cài đặt theo quá trình được phía dẫn. Ở sau đây mình đã hướng dẫn download trên Ubuntu nhé

*

# update indicessudo apt update -qq# install two helper packages we needapt install --no-install-recommends software-properties-common dirmngr# import the signing key (by Michael Rutter) for these repoapt-key adv --keyserver keyserver.ubuntu.com --recv-keys E298A3A825C0D65DFD57CBB651716619E084DAB9Sau đó:

apt install --no-install-recommends r-baseVậy là họ đã cài hoàn thành r-base rồi cùng chạy thử thử nào

*
Hình: r-base

Để có thể sử dụng cũng giống như code một cách dễ dàng và nhanh chóng hơn thì bọn họ nên tải thêm RStudio nữa.Download RStudio tại phía trên

sudo apt install gdebi-corecd Downloads/wget https://download1.rstudio.org/rstudio-1.0.143-amd64.debsudo apt-get install ./rstudio-1.0.143-amd64.debSau khi cài xong bọn họ thử mở ra xem ok chưa nhé.

*
Hình: RStudio

Install R packages

Giống như vào python thì để hoàn toàn có thể install một packages vào R khi chúng ta cần thiết thì thực hiện lệnh như sau:Ví dụ tại đây mình install "gplots" :

install.packages("gplots")

Một số hàm có ích trong R

DataFrame, Matrices, Vectors

Tương trường đoản cú như vào Python, Dataframe lưu trữ những giá trị với những kiểu tài liệu khác nhau. Ma trận lưu trưc các giá trị và một kiểu dữ liệu. Vector là mảng 1-d chiều.

Toán tử Assignment

Ở trong R bạn cũng có thể dùng myarray

Hàm paste()

Hàm paste() sử dụng để nối các chuỗi, rất hữu ích lúc in ra kết quả:

paste(“The dimensions of the data frame are “, paste (dim(data.frame), collapse = ‘, ‘))

Truy cập vào rows với columns

Chúng ta rất có thể truy nhập vào cột của dataframe sử dụng $. Ví dụ:

data.frame$Nameđể có được một tập con của hàng với cột, bọn họ làm như sau: ví dụ để lấy hàng 10 đến 12 và cột 4 mang đến cột 5:

data.frame<10:12,4:5>Để truy cập vào những hàng và cột không tiếp tục thì sử dụng hàm c() như trên nhé những bạn. Ví dụ để đưa các hàng từ là một đến 5, 7 và 11 và các cột 3 mang đến 4 cùng 7

data.frame

Số hàng

Khi muốn kiểm tra số sản phẩm trong dataframe

number.of.rows = nrow(data.frame)

Đếm cực hiếm NA

sum(is.na(data.frame))

Xóa hàng và cột

để xóa cột:

data.frame$ColumnName Để xóa mặt hàng 1, 3 với 4 sử dụng:

data.frame

Phân tích và trực quan tiền hóa tài liệu Titanic

Ở trên đây mình sử dụng tập training của titanic có tác dụng dataset, hầu hết người hoàn toàn có thể tải về trên đây

Read & view data

titanic = read.csv("~/Downloads/train.csv", na.strings = "")Sau lúc đọc xong xuôi thì demo view xem như thế nào nè.

View(titanic)

*
Hình: data titanic

head(titanic, n)| tail(titanic, n)

Để xem cấp tốc về tài liệu thì bọn họ thường áp dụng 2 hàm head() cùng tail()head(titanic, 10)

*
Hình: 10 số 1 trong data settail(titanic)
*
Hình: 5 hàng cuối trong datasetỞ hàm head chúng ta sẽ thấy show ra 10 sản phẩm của dữ liệu, còn hàm tail mình không thêm đề xuất mặc định là 5, khá là giống như với khoác định vào python.

names(titanic)

Tiếp theo để mang ra toàn bộ các biến đổi trong Dataframe này:

*
Hình: tất cả tên columns

str(titanic)

Việc này giúp bọn họ hiểu kết cấu dữ liệu, kiểu dữ liệu của từng ở trong tính, với số mặt hàng số cột tất cả trong dữ liệu

*
Hình: str

Ở hình trên chúng ta thấy cột "Embarked có giá trị " " " bởi vì vậy bọn họ sẽ gửi giá trị " " thành "C" nhé

titanic$Embarked="C"str(titanic)kết quả bọn họ sẽ được như sau:

*

summary(titanic)

*
summary là trong những hàm quan trọng nhất giúp tóm tắt từng trực thuộc tính vào tập dữ liệu bọn họ có. Mình thấy tương đối là giống với hàm describe() trong python.

Kiểm tra tài liệu null

Như sống trên mình có nhắc đến hàm sum nhằm đếm quý giá NA thì bọn họ cùng soát sổ xem data này có nhiều giá trị NA không nhé.

sum(is.na(titanic))Kết qủa của họ sẽ được như sau:

*
Hình: quý giá na

Tuy nhiên giả dụ chỉ dựa vaò hình bên trên thì làm sao biết được cột như thế nào đang đựng giá trị na nhỉ, vị vậy mình đã tìm được hàm sau đây

colSums(is.na(titanic))Hàm này để chất vấn cột nào đang đựng giá trị NA.

Xem thêm: Lịch Chiếu Phim Lotte Cinema Keangnam Hanoi, Lotte Cinema Landmark Tower

*

Hình: columns bị na

Ở hình trên bọn họ thấy cột Age hiện giờ đang bị NA

Tiếp theo họ sẽ chuyển những columns: "Survived","Pclass","Sex","Embarked" thành factor nhé:

cols

*

Visualize

Một số tủ sách mình cần sử dụng trong này:

library(ggplot2)library(dplyr)library(GGally)library(rpart)library(rpart.plot)Đầu tiên câu hỏi mà bọn họ sẽ luôn quan tâm là: gồm bao nhiêu người sống sót trên chuyến tàu này đúng không?

ggplot(titanic, aes(x=Survived)) + geom_bar()

*
Hình: số người tồn tại trên vùng tàu

Ở hình trên trục X: 0 để biểu lộ người ko sống sót, 1 để biểu thị người sống sót. Trục Y: đại diện cho số lượng hành khách, sống đây bọn họ thấy rằng có hơn 550 quý khách đã không sinh tồn và 340 hành khách sống sót. Thử đo lường và thống kê ra tỉ lệ thành phần phần trăm thế nào nhé.

prop.table(table(titanic$Survived))

*
Hình: tỉ lệ bạn sống sót

Vậy thì tỉ trọng người tồn tại theo nam nữ thì ra làm sao nhỉ? nam hay con gái có tỉ lệ thành phần cao hơn?

ggplot(data=titanic,aes(x=Sex,fill=Survived))+geom_bar()

*
Hình : tỉ lệ người sống sót theo giới tính

Ở đây chúng ta có thể thấy rằng tỉ lệ sinh tồn ở nữ giới cao rộng nam giới.Tỷ lệ sống sót ở thiếu phụ khoảng 75%, trong khi nam giới ít hơn 20%.

Mọi người tiêu dùng vé thường biết có những khoang riêng dành cho từng phân khúc quý khách vậy thì bên trên chuyến tàu titanic này tỉ trọng người sống sót giữa 3 hạng vé này có không giống nhau như giá thành mà mỗi người sử dụng ở mỗi phân khúc thị trường phải trả không nhờ?

*
Hình : tỉ lệ tồn tại theo hạng vé

WOw nhìn vào hình trên thì và đúng là có sự khác biệt này trái thật quý khách hạng nhất tất cả tỉ lệ tồn tại là 60%, hạng 2 khoảng tầm 45-50% với thấp nhất là hạng 3 thấp hơn 25 %.

Tiếp theo chúng ta thử xem xem tỉ lệ sống sót theo nam nữ trên mỗi hạng vé nha.

ggplot(data = titanic,aes(x=Sex,fill=Survived))+geom_bar(position="fill")+facet_wrap(~Pclass)

*
Hình: tỉ lệ sinh tồn theo nam nữ trên mỗi hạng vé.

Như ở trên bọn họ cũng thấy rằng phái nữ có tỉ lệ sống sót cao hơn nam giới thì tựa như ở đây cũng vậy. Bên cạnh đó, ngơi nghỉ hình trên bạn cũng có thể thấy rẳng tỉ lệ sống sót của phái nữ ở khoang hạng nhất và 2 tất cả tỉ lệ sinh tồn cực cao (trên 90%), còn của phái nam ở hạng 1 khoảng tầm 37% với hạng 2 khoảng tầm 16%. Còn ngơi nghỉ hạng 3 thì tỉ lệ sống sót của phái đẹp khoảng một nửa nam giới nhỏ tuổi hơn 15%.

Còn tỉ lệ sống sót theo tuổi thì thế nào nhỉ?

ggplot(data = titanic,aes(x=Age,fill=Survived))+geom_histogram(binwidth =3)

*
Hình: tỉ lệ sống sót theo tuổi

Nhìn vào biểu vật dụng thì bạn có thể nhận thấy rằng trẻ con Kết Luận

Ở bên trên mình đã phân tích với visualize các chiếc cơ bản để làm cho quen cùng với R. Mình thấy R cũng tương đối là thú vị cùng hơi tương đương python tuy vậy vẫn chưa quen với giải pháp viết lắm buộc phải còn lúng túng. Hy vọng mình vẫn viết được không ít thứ tốt ho rộng về R nghỉ ngơi những bài viết tiếp theo. Cảm ơn mọi bạn đã đọc nội dung bài viết của mình, nếu có lợi nhớ Upvoted cho doanh nghiệp nhé.

Reference

https://www.kaggle.com/c/titanic/data

https://towardsdatascience.com/data-analysis-and-visualisations-using-r-955a7e90f7dd

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *