PEMANFAATAN LIBRARY PANDAS UNTUK MENIMPAN DAN MEREKAPITULASI DATA HASIL SCRAPE

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.

Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas, yuk kita bahas bersama!

1.    Menginstall Pandas

Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi python dan kita diharuskan untuk melakukan instalasi terlebih dahulu sebelum menggunakan. Untuk dapat menginstall pandas, kita bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda

pip install pandas

Dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut,

conda install pandas

2. Mencoba Series

Series merupakan struktur data dasar dalam Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut.  Perintah dasar untuk membuat sebuah series dengan Pandas adalah

pandas.Series( data, index, dtype, copy)               

Parameter  data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. Parameter dtype, diisi dengan tipe data dari series, dan parameter copy untuk copy data, secara default akan bernilai false.

3.  Mencoba Data Frame

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada Data Frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series. Contoh berikut menunjukkan pembuatan Data Frame yang sederhana:

import pandas as pd

import numpy as np

dict = {"Negara": ["Indonesia", "Jepang", "India", "China", "Amerika Serikat"],

    "Ibu Kota": ["Jakarta", "Tokyo", "New Delhi", "Beijing", "Washington, D.C."],

    "Luas": [1905, 377972, 3287, 9597, 9834],

    "Populasi": [264, 143, 1252, 1357, 5298] }

df = pd.DataFrame(dict)

print(df)

Output :

         Negara      Ibu Kota Luas    Populasi

0    Indonesia   Jakarta 1905      264

1     Jepang     Tokyo  377972     143

2     India      New Delhi 3287    1252

3     China      Beijing 9597      1357

4  Amerika Serikat Washington, D.C. 9834      5298

 

 

Komentar

Postingan populer dari blog ini

Cara Scrape Lazada dengan Python

MENGENAL CARA KERJA KOMPUTER DAN BAHASA PEMROGRAMAN

Analisis Model IT Menggunakan Balanced Scorecard Untuk Pengembangan Sistem Teknologi Informasi