Microsoft R PreProcessing

Uploaded by

This document provides an overview of data pre-processing techniques for machine learning models. It discusses handling missing values, discretization, standardization, dummy variables, and splitting data into training and test sets. An exercise is provided to demonstrate these techniques on a dataset using R code, including reading in data, handling missing values, splitting numeric and categorical features, standardization, discretization, dummy encoding, and splitting the data into train and test sets.

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Microsoft R PreProcessing

Uploaded by

Manisha Panda

0% found this document useful (0 votes)

16 views1 page

Original Description:

R Pre processing document

Original Title

20171023 Microsoft R PreProcessing

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Download as docx, pdf, or txt

0% found this document useful (0 votes)

16 views1 page

Microsoft R PreProcessing

Uploaded by

Manisha Panda

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Download as docx, pdf, or txt

Jump to Page

You are on page 1of 1

Search inside document

20171023_Microsoft_PreProcessing

Objective:

In this session, you will learn data pre-processing steps, and data aggregation and manipulation
techniques used before moving onto data modeling.

Key takeaways:

 Handling missing values

 Discretization and standardization
 Dummy variables
 Splitting data into train and test

Exercise: Please write R code to do the following tasks:

1) Clear the environment and set working directory

2) Read data from url https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data
in R environment. Name this data frame “adult”.
3) Change attribute names to “age”, “workclass”, “fnlwgt”, “education”, “education-num”, “marital-
status”, “occupation”, “relationship”, “race”, “gender”, “capital-gain”,”capital-loss”, “hours-per-
week”, “native-country”,”profits”
4) Find out which rows contain " ?" in "workclass", "occupation" and “native-country” attributes
and replace with NA. Check data summary to observe whether all " ?" has been replaced by NAs
5) Using central Imputation, impute NA values in the data frame. Check whether all NA values have
been imputed.
6) Split the data frame into two data frames. One containing only numeric data vectors and other
one containing only categorical vector.
7) Perform standardization and discretization of attributes in numeric vector using “equalwidth”
and “equalfreq”. Observe the tables to know difference between two methods.
8) Create dummy variables for “race attribute” in categorical data
9) Create a new data frame by adding standardized numeric data, categorical data (eliminate “race”
from this) and dummy variables created for “race”
10) Split the data into 60% train and 40% test set

Inspire…Educate…Transform. Page 1

E-Tivity 2.2 Tharcisse 217010849
Document7 pages
E-Tivity 2.2 Tharcisse 217010849
Tharcisse Tossen Tharry
No ratings yet
How To Build Deep Learning Models With SAS - Subconscious Musings PDF
Document13 pages
How To Build Deep Learning Models With SAS - Subconscious Musings PDF
Armando Salas Iparrazar
No ratings yet
Confusion Matrix
Document2 pages
Confusion Matrix
api-666994553
No ratings yet
Roll NO 2020
Document8 pages
Roll NO 2020
Ali Mohsin
No ratings yet
Dsbdal Lab Manual
Document107 pages
Dsbdal Lab Manual
rasaj16681
No ratings yet
Data Analysis Lab - Final - 23-24
Document11 pages
Data Analysis Lab - Final - 23-24
forallofus435
No ratings yet
Dev Answer Key
Document17 pages
Dev Answer Key
jayapriya kce
100% (1)
PRACTICAL QUESTIONS For DSBDA
Document9 pages
PRACTICAL QUESTIONS For DSBDA
ngak1214
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
Document38 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
Ravi Kotharu
No ratings yet
WEKA Manual
Document25 pages
WEKA Manual
sagar
No ratings yet
User Manual (Mental Health Issue Among University Student
Document19 pages
User Manual (Mental Health Issue Among University Student
ANIS NABIHAH BINTI MOHD JAIS
No ratings yet
Data Mining With Weka Heart Disease Dataset: 1 Problem Description
Document4 pages
Data Mining With Weka Heart Disease Dataset: 1 Problem Description
Sindhuja Vigneshwaran
No ratings yet
Kavin
Document13 pages
Kavin
vikashtamila
No ratings yet
EN3150 Homework 01
Document2 pages
EN3150 Homework 01
mahamalagephysics
No ratings yet
Demo Class 15 and 16102022 (Pandas in Python)
Document45 pages
Demo Class 15 and 16102022 (Pandas in Python)
Oskar Nguyen
No ratings yet
Dav Exps - Merged - Merged
Document99 pages
Dav Exps - Merged - Merged
Sahil Surve
No ratings yet
Lab 03
Document10 pages
Lab 03
MuhdHusaini
No ratings yet
Prac 7
Document5 pages
Prac 7
Eklavya Sudan
No ratings yet
2 Machine Learning
Document21 pages
2 Machine Learning
anna.na16567
No ratings yet
Data Mining Problem 2 Report
Document13 pages
Data Mining Problem 2 Report
Babu Shaikh
No ratings yet
Database Design Schema
Document13 pages
Database Design Schema
Charlee Sanchez
No ratings yet
Data Science & Big Data - Practical
Document7 pages
Data Science & Big Data - Practical
RAKESH G
No ratings yet
1 (A) Explain Supervised Learning and Unsupervised Learning
Document52 pages
1 (A) Explain Supervised Learning and Unsupervised Learning
abhishakemeupbaby
No ratings yet
It 4004 2019
Document6 pages
It 4004 2019
Malith Jayasinghe
No ratings yet
Confusion Matrix
Document6 pages
Confusion Matrix
amir
No ratings yet
Binary Classification Tutorial With The Keras Deep Learning Library
Document33 pages
Binary Classification Tutorial With The Keras Deep Learning Library
Shudu Tang
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
Document52 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
mrsanthoosh.edu
No ratings yet
Datamining 2
Document54 pages
Datamining 2
ananomous.email
No ratings yet
UNIT-1 Introduction To Data Mining
Document29 pages
UNIT-1 Introduction To Data Mining
VedhaVyas Mahasiva
No ratings yet
Assignment 2
Document3 pages
Assignment 2
Erick Menjivar
No ratings yet
MODEL EXAM II Answer Key - For Merge
Document20 pages
MODEL EXAM II Answer Key - For Merge
devi
No ratings yet
RANDOM FOREST (Binary Classification)
Document5 pages
RANDOM FOREST (Binary Classification)
Noor Ul Haq
No ratings yet
Fundamentals of Data Science Students
Document52 pages
Fundamentals of Data Science Students
123sanjaypurohit
No ratings yet
DSBDAL Lab Manual
Document26 pages
DSBDAL Lab Manual
rasaj16681
No ratings yet
Data Analytics 2marks PDF
Document13 pages
Data Analytics 2marks PDF
shobana
100% (1)
Underwater Mine & Rock Prediction by Evaluation of Machine Learning Algorithms
Document13 pages
Underwater Mine & Rock Prediction by Evaluation of Machine Learning Algorithms
Omkar Patil
No ratings yet
Q1) Solve Any Five A) What Is The Difference Between Inferential and Descriptive Statistics? Sample
Document6 pages
Q1) Solve Any Five A) What Is The Difference Between Inferential and Descriptive Statistics? Sample
Amar Nath Babar
No ratings yet
Final Project Implementation
Document3 pages
Final Project Implementation
mail.information0101
No ratings yet
BMW M-4
Document108 pages
BMW M-4
Tarun K
No ratings yet
Data Cleansing Using R
Document10 pages
Data Cleansing Using R
Daniel N Sherine Foo
0% (1)
Statistical Modeling Using R - Lab Manual
Document23 pages
Statistical Modeling Using R - Lab Manual
Gagana Reddy
No ratings yet
Data Analytics
Document31 pages
Data Analytics
Sandeep Tanwar
No ratings yet
Module 2
Document30 pages
Module 2
prashanthkapu491
No ratings yet
DSR 2879
Document25 pages
DSR 2879
radha gulati
No ratings yet
DA0101EN-2-Review-Data-Wrangling - Jupyter Notebook
Document14 pages
DA0101EN-2-Review-Data-Wrangling - Jupyter Notebook
Sohail Doulah
No ratings yet
Final Practical
Document53 pages
Final Practical
ananomous.email
No ratings yet
Group A Assignment No2 Writeup
Document9 pages
Group A Assignment No2 Writeup
403 Chaudhari Sanika Sagar
No ratings yet
Dsbda Lab Manual
Document167 pages
Dsbda Lab Manual
sm3815749
No ratings yet
Complete
Document12 pages
Complete
spagty desginer
No ratings yet
AI Project-1 - 21L-7744 21L-5433
Document5 pages
AI Project-1 - 21L-7744 21L-5433
Ali Ahmed123
No ratings yet
4c Sklearn-Classification-Regression-Bkhw-Spring 2019
Document20 pages
4c Sklearn-Classification-Regression-Bkhw-Spring 2019
Radhika Khandelwal
No ratings yet
Machine Learning-1
Document24 pages
Machine Learning-1
factpolice007
No ratings yet
Power Bi Quiz
Document4 pages
Power Bi Quiz
Gutsy Innovation
No ratings yet
DM Mod4
Document108 pages
DM Mod4
Srushti PS
No ratings yet
Linear Discriminant Analysis LDA PDF
Document2 pages
Linear Discriminant Analysis LDA PDF
workoutsofficial0
No ratings yet
DWM Solution May 2019
Document9 pages
DWM Solution May 2019
new acc jeet
No ratings yet
Mao Research Paper 2
Document12 pages
Mao Research Paper 2
api-666994553
No ratings yet
Introduction To Machine Learning and Data Mining: Arturo J. Patungan, Jr. University of Sto. Tomas Strandasia
Document103 pages
Introduction To Machine Learning and Data Mining: Arturo J. Patungan, Jr. University of Sto. Tomas Strandasia
Tim
No ratings yet
Data Analytics For Accounting - Exercise Chapter 3 Performing The Test Plan and Analyzing The Results
Document3 pages
Data Analytics For Accounting - Exercise Chapter 3 Performing The Test Plan and Analyzing The Results
ukandi rukmana
No ratings yet
Data Science Revealed: With Feature Engineering, Data Visualization, Pipeline Development, and Hyperparameter Tuning
From Everand
Data Science Revealed: With Feature Engineering, Data Visualization, Pipeline Development, and Hyperparameter Tuning
Tshepo Chris Nokeri
No ratings yet