PEMANFAATAN LIBRARY PANDAS UNTUK MENIMPAN DAN MEREKAPITULASI DATA HASIL SCRAPE
Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.
Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas, yuk kita bahas bersama!
1. Menginstall Pandas
Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi python dan kita diharuskan untuk melakukan instalasi terlebih dahulu sebelum menggunakan. Untuk dapat menginstall pandas, kita bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda
pip install pandas
Dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut,
conda install pandas
2. Mencoba Series
Series merupakan struktur data dasar dalam Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut. Perintah dasar untuk membuat sebuah series dengan Pandas adalah
pandas.Series( data, index, dtype, copy)
Parameter data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. Parameter dtype, diisi dengan tipe data dari series, dan parameter copy untuk copy data, secara default akan bernilai false.
3. Mencoba Data Frame
Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series. Contoh berikut menunjukkan pembuatan Data Frame yang sederhana:
import pandas as pd
import numpy as np
dict = {"Negara": ["Indonesia", "Jepang", "India", "China", "Amerika Serikat"],
"Ibu Kota": ["Jakarta", "Tokyo", "New Delhi", "Beijing", "Washington, D.C."],
"Luas": [1905, 377972, 3287, 9597, 9834],
"Populasi": [264, 143, 1252, 1357, 5298] }
df = pd.DataFrame(dict)
print(df)
Output :
Negara Ibu Kota Luas Populasi
0 Indonesia Jakarta 1905 264
1 Jepang Tokyo 377972 143
2 India New Delhi 3287 1252
3 China Beijing 9597 1357
4 Amerika Serikat Washington, D.C. 9834 5298
Komentar
Posting Komentar