Postingan

Menampilkan postingan dari 2021

PEMANFAATAN LIBRARY PANDAS UNTUK MENIMPAN DAN MEREKAPITULASI DATA HASIL SCRAPE

Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas, yuk kita bahas bersama! 1.     Menginstall Pandas Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi python dan kita diharuskan ...

PEMANFAATAN FUNGSI FIND_ALL

Gambar
Beautiful Soup punya banyak metode untuk mencari DOM tree. Berbagai metode tersebut sangat mirip dan menggunakan jenis filter yang sama sebagai argumen. Oleh karenanya, masuk akal jika sebelumnya harus dipahami dengan benar tentang filter yang berbeda sebelum membaca tentang metode. Saya akan menggunakan metode find_all() yang sama untuk menjelaskan perbedaan antara filter-filter yang berbeda. Filter paling sederhana yang bisa dimasukkan ke metode pencarian apa saja adalah string. Maka Beautiful Soup akan mencari ke dalam dokumen untuk menemukan tag yang secara tepat sesuai dengan stringnya.   Anda juga bisa memasukkan suatu ekspresi regular objek ke metode find_all() . Kali ini, Beautiful Soup akan memfilter tree dengan mencocokkan semua tag terhadap ekspresi regular yang diberikan.   Code ini akan mencari semua tag yang dimulai dengan huruf "h" dan diikuti suatu digit dari 1 sampai 6. Dengan kata lain, akan mencari semua tag heading di dalam dokumen. Daripada menggunaka...

TEKNIK SCRAPING DATA DARI WEBSITE LAIN

Web scraping   merupakan sebuah teknik dalam istilah pemograman yang tugasnya adalah mengambil data-data yang ada pada suatu  website  dan mengumpulkannya dalam 1 wadah atau dalam 1 berkas sehingga mempermudah penggunanya untuk mencari data-data yang mereka inginkan atau memindahkannya dari suatu  website  ke  website  miliknya sendiri. Web scraping bisa membantu Anda untuk mengumpulkan data dengan lebih cepat. Selain itu, kalau memang data yang Anda kumpulkan berjumlah besar, Anda juga bisa melakukan automation dan Anda tidak perlu repot lagi karena yang penting Anda bisa membiarkan server Anda berjalan. Dengan efisiensi web scraping, ini juga membantu proses analisa data Anda karena membantu mengumpulkan semua data tanpa ketinggalan, Anda akan mendapat data lengkap dari proses ini. Teknik-teknik web scraping Dengan semakin banyaknya orang yang melakukan web scraping, ada beberapa teknik automasi yang bisa Anda lakukan untuk melakukannya. 1. Parsing H...

MENGENAL BEAUTIFULSOUP DAN REQUESTS

BeautifulSoup adalah library Web Paser untuk Python. BeautifulSoup memiliki banyak fungsi untuk melakukan navigasi obyek DOM pada HTML. Untuk install BeautifulSoup, gunakan perintah berikut pada command prompt:  pip install beautifulsoup4 Lalu install lxml, library pendukungnya, dengan menggunakan perintah:  pip install lxml soup = BeautifulSoup(file_html, 'parser') Syntax diatas adalah untuk menggunakan beautifulSoup.  file_html  adalah file html yang akan diparsing,  parser  dapat menggunakan  lxml  atau  html.parser . Berikut adalah file html yang akan digunakan untuk contoh penggunaan BeautifulSoup. Perhatian, contoh dibawah dilakukan di REPL. >>> html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; a...