Πώς να δημιουργήσετε τη μυϊκή σας μνήμη για την Data Science με την Python

Επάνω πρώτα: προεπεξεργασία δεδομένων

Αισθάνεστε απογοητευμένοι από το σπάσιμο της ροής αναλυτικών δεδομένων σας κατά την αναζήτηση σύνταξης; Γιατί δεν το θυμάσαι ακόμα αφού το έβλεπες για τρίτη φορά; Είναι επειδή δεν το έχετε ασκήσει αρκετά για να χτίσετε τη μυϊκή μνήμη ακόμα.

Τώρα, φανταστείτε ότι όταν κωδικοποιείτε, η σύνταξη και οι λειτουργίες της Python απλώς πετούν έξω από τα δάχτυλά σας ακολουθώντας τις αναλυτικές σκέψεις σας. Πόσο μεγάλο είναι αυτό! Αυτό το σεμινάριο είναι να σας βοηθήσει να φτάσετε εκεί.

Συνιστώ να εξασκείτε αυτή τη γραφή κάθε πρωί για 10 λεπτά και να την επαναλάβετε για μια εβδομάδα. Είναι σαν να κάνεις λίγες μικρές κρίσιμες στιγμές την ημέρα - όχι για τους κοιλιακούς σου, αλλά για τους μυς των επιστημών δεδομένων. Σταδιακά, θα παρατηρήσετε τη βελτίωση της αποτελεσματικότητας προγραμματισμού των δεδομένων ανάλυσης μετά από αυτή την επαναλαμβανόμενη εκπαίδευση.

Για να αρχίσω με την «προπόνηση επιστήμης δεδομένων», σε αυτό το σεμινάριο θα ασκήσουμε την πιο κοινή συντακτική για την προεπεξεργασία δεδομένων ως προθέρμανση.

Περιεχόμενα:
0. Διαβάστε, Προβολή και Αποθήκευση δεδομένων
1. Διαστάσεις πίνακα και τύποι δεδομένων
2. Βασική χειραγώγηση της στήλης
3. Μηδενικές τιμές: Προβολή, διαγραφή και καταμέτρηση
4. Απεξάρτηση δεδομένων

0. Διαβάστε, Προβολή και Αποθήκευση δεδομένων

Αρχικά, φορτώστε τις βιβλιοθήκες για την άσκηση μας:

Τώρα θα διαβάσουμε τα δεδομένα από το αποθετήριο GitHub μου. Έχω κατεβάσει τα δεδομένα από την Zillow.

Και τα αποτελέσματα μοιάζουν με αυτά:

Η αποθήκευση ενός αρχείου είναι το frame.frame.to_csv (). Εάν δεν θέλετε να αποθηκευτεί ο αριθμός ευρετηρίου, χρησιμοποιήστε το dataframe.to_csv (index = False).

1. Διαστάσεις πίνακα και τύποι δεδομένων

1.1 Διάσταση

Πόσες σειρές και στήλες σε αυτά τα δεδομένα;

1.2 Τύποι δεδομένων

Ποιοι είναι οι τύποι δεδομένων των δεδομένων σας και πόσες στήλες είναι αριθμητικές;

Εξαγωγή των τύπων δεδομένων των πρώτων μερικών στηλών:

Αν θέλετε να είστε πιο συγκεκριμένοι σχετικά με τα δεδομένα σας, χρησιμοποιήστε select_dtypes () για να συμπεριλάβετε ή να αποκλείσετε έναν τύπο δεδομένων. Ερώτηση: αν θέλω μόνο να δω τα δεδομένα του 2018, πώς μπορώ να τα πάρω;

2. Βασική χειραγώγηση της στήλης

2.1 Στοιχεία υποομάδων ανά στήλες

Επιλέξτε στήλες ανά τύπο δεδομένων:

Για παράδειγμα, αν θέλετε μόνο στήλες float και ακέραιοι:

Επιλέξτε και ρίξτε στήλες με ονόματα:

2.2 Μετονομασία Στήλων

Πώς μπορώ να μετονομάσω τις στήλες αν δεν τους αρέσουν; Για παράδειγμα, αλλάξτε το 'State' στο 'state_'; «Πόλη» σε «πόλη»:

3. Μηδενικές τιμές: Προβολή, διαγραφή και καταλογισμός

3.1 Πόσες σειρές και στήλες έχουν μηδενικές τιμές;

Οι εξόδους του isnull.any () έναντι του isnull.sum ():

isnull.any ()isnull.sum ()

Επιλέξτε δεδομένα που δεν είναι μηδενικά σε μια στήλη, για παράδειγμα, το "Metro" δεν είναι μηδενικό.

Γραμμές με τιμές N / A

3.2 Επιλέξτε γραμμές που δεν είναι μηδενικές για ένα σταθερό σύνολο στηλών

Επιλέξτε ένα υποσύνολο δεδομένων που δεν έχει μηδενική μετά το 2000:

Εάν θέλετε να επιλέξετε τα στοιχεία τον Ιούλιο, θα πρέπει να βρείτε τις στήλες που περιέχουν '-07'. Για να δείτε αν μια συμβολοσειρά περιέχει μια υποζώνη, μπορείτε να χρησιμοποιήσετε το υποσύνολο σε συμβολοσειρά και θα εκδοθεί αληθές ή ψευδές.

3.3 Γραμμές υποδιαιρέσεων με μηδενικές τιμές

Επιλέξτε γραμμές όπου θέλουμε να έχουμε τουλάχιστον 50 μη-ΝΑ τιμές, αλλά δεν χρειάζεται να είναι συγκεκριμένες για τις στήλες:

3.4 Πτώση και καταλογισμός τιμών που λείπουν

Συμπληρώστε NA ή υπολογίστε NA:

Χρησιμοποιήστε τη δική σας κατάσταση για να συμπληρώσετε χρησιμοποιώντας τη λειτουργία όπου:

4. Απεμπιλίωση δεδομένων

Πρέπει να βεβαιωθούμε ότι δεν υπάρχουν διπλές σειρές πριν συγκεντρώσουμε τα δεδομένα ή τα συνδυάσουμε.

Θέλουμε να δούμε αν υπάρχουν διπλότυπες πόλεις / περιοχές. Πρέπει να αποφασίσουμε ποιο μοναδικό αναγνωριστικό (πόλη, περιοχή) θέλουμε να χρησιμοποιήσουμε στην ανάλυση.

Ορισμός keep = False για να δείτε όλες τις διπλές σειρές από το 'RegionName'

Drop Διπλές τιμές.

Ο συνδυασμός "CountyName" και "SizeRank" είναι ήδη μοναδικός. Επομένως, χρησιμοποιούμε τις στήλες για να δείξουμε τη σύνταξη του drop_duplicated.

Αυτό είναι για το πρώτο μέρος της σειράς μου για την οικοδόμηση μυϊκής μνήμης για την επιστήμη των δεδομένων στην Python. Το πλήρες σενάριο μπορεί να βρεθεί εδώ.

Μείνετε συντονισμένοι! Το επόμενο σεμινάριο μου θα σας δείξει πώς να «καρφώσετε τους μυς της επιστήμης των δεδομένων» για τον τεμαχισμό και την κοπή δεδομένων.

Ακολουθήστε με και με δώστε μερικά χτυπήματα αν βρείτε αυτό το χρήσιμο :)

Ενώ εργάζεστε στην Python, ίσως θα σας ενδιαφέρει το προηγούμενο άρθρο μου: