Pengantar
Scraping web adalah teknik untuk memperoleh data yang dapat digunakan untuk tujuan tertentu. Intinya website berisi data yang banyak, jika ingin mendapatkan data tersebut maka salah satu caranya adalah dengan web scraping.
Dalam posting ini, kami akan mencoba scraping url Google dan mempelajari cara mengoptimalkan pencarian menggunakan operator pencarian Google.
Source Image: Automating Social Media Contests with Web Scraping | by Jason Yip | Towards Data Science
Penginstalan
Kloning repositori dengan menjalankan perintah berikut:
$ git clone https://github.com/jagadyudha/google-scraper
Instalasi library yang diperlukan dengan menjalankan perintah berikut:
# Python3
$ pip3 install -r requirements.txt
# or
# Python2
$ pip install -r requirements.txt
Sebelum kita masuk ke cara menjalankan proyek, kita perlu tahu cara kerja proyek ini.
- Identifikasi url pencarian google
- Kumpulkan data dari url
- Temukan tag
div
dengan classg
- TEMUKAN tag
a
di dalam class yang kita temukan di langkah 3
Cara Menjalankan Proyek
Untuk menjalankan kodenya cukup sederhana. Cukup tulis perintah berikut:
# Python3
$ python3 main.py
# or
# Python2
$ python main.py
Halaman input dan data input akan ditampilkan setelah menjalankan perintah di atas.
Halaman input adalah jumlah halaman Google yang ingin Anda kikis, sedangkan data input adalah kata kunci yang ingin Anda cari.
mengoptimalkan pencarian dengan operator pencarian Google
Operator pencarian Google sering digunakan untuk menemukan informasi yang spesifik, memungkinkan hasil pencarian yang akurat bahkan ketika informasi tersebut sulit untuk dilacak.
Kita juga dapat menggunakan operator pencarian Google dalam proyek ini. Sebagai contoh, saya akan mencari file pdf dengan kata kunci learning Python
.
Jadi, saya akan mencari dengan kata kunci filetype:pdf intext:learning Python
Sayangnya, jika Anda terlalu sering menggunakan Operator Penelusuran Google, hal tersebut dapat memunculkan captcha.
Cheat Sheet Operator Penelusuran Google
Sebelumnya saya sudah memberikan contoh penggunaan Google Search Operators. Untuk lebih jelasnya, Anda dapat melihat cheat sheet berikut: Google Search Operators Cheat Sheet (notion.site)
Kesimpulan
Dengan bantuan alat ini, kita dapat melakukan scraping secara otomatis tanpa perlu menyalin URL satu per satu. Namun, ada masalah yang belum terpecahkan dengan captcha saat menggunakannya terlalu sering.