Menguasai Proxy untuk Scraping: Panduan Anda 2026

EVOproxy Team
Menguasai Proxy untuk Scraping: Panduan Anda 2026

Scraper Anda baik-baik saja kemarin. Hari ini, ia mengembalikan dinding login, HTML kosong, CAPTCHA, dan sesekali 403. Parser tidak rusak. Selector masih cocok. Masalahnya biasanya lebih sederhana dan lebih menjengkelkan: target tidak lagi mempercayai dari mana lalu lintas Anda berasal.

Itu adalah titik di mana banyak tim menambahkan proxy untuk scraping seolah-olah itu hanya pipa jaringan. Itu tidak benar. Untuk platform sosial, sistem iklan, target ritel, dan properti apa pun yang memantau kualitas lalu lintas dengan cermat, lapisan proxy menentukan apakah permintaan Anda terlihat seperti aktivitas pengguna normal atau seperti otomatisasi yang dapat dibuang.

Celanya muncul dengan cepat dalam produksi. Sebuah crawler riset pasar sering kali dapat bertahan dengan rotasi dasar. Alur kerja akun media sosial tidak bisa. Sebuah run verifikasi iklan membutuhkan geografi yang tepat dan sesi yang dapat dipercaya. Sebuah tes QA checkout membutuhkan kontinuitas, bukan perubahan identitas acak. Pilihan proxy dan cara Anda merotasinya mengubah hasilnya.

Pengenalan Mengapa Scraper Anda Terus Diblokir

Pola kegagalan umum terlihat seperti ini: batch pertama berhasil, batch kedua melambat, dan batch ketiga mulai mengumpulkan sampah. Anda melihat lebih banyak interstitial, lebih banyak percobaan ulang, dan lebih banyak halaman yang secara teknis dimuat tetapi tidak berisi data yang Anda harapkan. Itu sering kali merupakan blok tanpa halaman blok eksplisit.

Di target bernilai tinggi, deteksi jarang bergantung pada satu sinyal. Situs ini mengevaluasi reputasi IP Anda, tempo permintaan, header, perilaku cookie, dan apakah sesi terlihat koheren dari satu langkah ke langkah berikutnya. Jika satu bagian dari tumpukan itu lemah, seluruh scraping menjadi rapuh.

Aturan praktis: Jika scraper Anda bekerja dalam pengujian lokal tetapi runtuh pada skala, anggap masalahnya adalah kualitas identitas sebelum Anda menganggap parser salah.

Tim yang melakukan scraping katalog produk, memvalidasi iklan, mengelola akun sosial, atau menguji pengalaman geo-spesifik menghadapi pertanyaan yang sama: jenis proxy apa yang cocok untuk tugas ini? IP murah bisa cukup untuk halaman dengan gesekan rendah. Mereka sering kali tidak cocok untuk platform yang peduli tentang pencegahan penyalahgunaan, integritas akun, atau kontrol pengiriman regional.

Tiga pilihan yang paling penting:

  • Jenis proxy: Datacenter, residensial, atau mobile.
  • Desain sesi: Rotasi cepat versus sesi lengket.
  • Realitas lalu lintas: Header, cookie, pacing, dan geografi.

Kombinasi itu menentukan apakah proxy Anda untuk scraping adalah alat throughput atau sumber pekerjaan pembersihan yang konstan.

Bagaimana Proxy Scraping Bekerja

Proxy scraping adalah lapisan tengah antara skrip Anda dan situs target. Scraper Anda mengirim permintaan ke proxy. Proxy meneruskan permintaan itu ke situs menggunakan alamat IP-nya sendiri, kemudian mengembalikan respons ke kode Anda. Target melihat identitas jaringan proxy, bukan mesin Anda.

Inilah model mental yang paling sederhana: ia bekerja seperti layanan penerusan surat. Anda mengirim surat ke alamat penerusan, layanan penerusan mengirimnya lebih lanjut, dan penerima berinteraksi dengan identitas yang diteruskan itu daripada yang asli milik Anda.

Diagram yang menggambarkan bagaimana proxy scraping berada di antara komputer Anda dan situs web target untuk menyembunyikan identitas.

Sinyal yang diubah oleh proxy

Proxy terutama mengubah alamat IP Anda, yang merupakan pengidentifikasi jaringan yang dilihat situs ketika permintaan tiba. Itu mempengaruhi reputasi, pembatasan laju, dan aturan akses tingkat negara.

Ini juga dapat mempengaruhi geo-targeting, yang berarti situs mungkin menyajikan konten yang berbeda berdasarkan lokasi permintaan yang tampak. Itu penting untuk pratinjau iklan, penetapan harga lokal, hasil pencarian regional, dan pemeriksaan kepatuhan.

Proxy tidak secara otomatis memperbaiki segala sesuatu yang lain. User-Agent Anda masih penting. Itu adalah header yang memberi tahu server browser atau klien mana yang tampaknya membuat permintaan. Jika IP mengatakan “operator seluler Prancis” tetapi sisa permintaan terlihat seperti skrip generik dengan header yang tidak konsisten, sesi masih terlihat mencurigakan.

Mengapa saran umum tidak memadai

Banyak panduan scraping berhenti di “gunakan proxy residensial untuk target yang sulit.” Itu terlalu luas untuk alur kerja sosial dan iklan modern. Konten yang ada tentang proxy untuk scraping sering kali melewatkan keputusan antara mobile dan residensial di platform sosial dan iklan, meskipun analisis penggunaan proxy dalam scraping ini menyoroti bahwa lalu lintas asal mobile lebih selaras dengan lingkungan di mana perilaku mobile mendominasi.

Itu penting karena target tidak hanya memeriksa apakah IP berasal dari jaringan konsumen. Itu mengevaluasi apakah seluruh sesi cocok dengan jenis pengguna yang diharapkan platform untuk dilihat.

Pilihan transportasi yang benar-benar akan Anda gunakan

Tim sering bekerja dengan dua protokol proxy:

  • Proxy HTTP/HTTPS: Mudah diintegrasikan untuk permintaan web standar. Pilihan default yang baik untuk banyak pekerjaan scraping.
  • Proxy SOCKS5: Lebih fleksibel di tingkat transportasi dan berguna ketika Anda menginginkan dukungan protokol yang lebih luas atau lebih banyak kontrol atas perilaku koneksi.

Pilihan protokol kurang penting daripada kualitas identitas di belakangnya. Sebuah keluar mobile atau residensial yang bersih dengan penanganan sesi yang wajar biasanya lebih baik daripada rentang IP yang dikonfigurasi dengan sempurna tetapi memiliki kepercayaan rendah.

Memilih Jenis Proxy yang Tepat untuk Tugas Anda

Tidak semua proxy menyelesaikan masalah yang sama. Kesalahan adalah memperlakukannya sebagai dapat dipertukarkan dan kemudian mencoba menyesuaikan di sekitar fondasi yang salah.

Proxy datacenter

Proxy datacenter berasal dari infrastruktur hosting, bukan jaringan konsumen. Mereka cepat, mudah diterapkan, dan biasanya merupakan opsi pertama yang dicoba tim karena mereka sederhana secara operasional.

Mereka bekerja paling baik ketika target memiliki pertahanan ringan dan kontinuitas sesi tidak penting. Pikirkan pengambilan konten yang luas, pemeriksaan SEO dasar, atau halaman publik yang tidak secara agresif menilai kualitas lalu lintas.

Kelemahan mereka adalah reputasi. Rentang datacenter besar dikenal dengan baik, dan platform dengan pencegahan penyalahgunaan aktif cenderung memeriksanya dengan cepat.

Proxy residensial

Proxy residensial mengarahkan lalu lintas melalui koneksi ISP konsumen. Mereka umumnya terlihat lebih seperti lalu lintas pengguna rumah normal daripada keluar datacenter, yang membuatnya berguna ketika target sensitif terhadap asal jaringan.

Mereka adalah jalan tengah yang solid untuk riset pasar, pemeriksaan konten regional, perlindungan merek, dan banyak lingkungan anti-bot di mana lalu lintas datacenter mentah terbakar terlalu cepat. Tetapi residensial tidak otomatis berarti “terbaik.” Di platform sosial dan sistem iklan, Anda masih harus memikirkan apakah target mengharapkan pola lalu lintas yang berat mobile dan apakah sesi Anda membutuhkan kepercayaan yang lebih kuat.

Proxy mobile

Proxy mobile menggunakan IP yang ditugaskan oleh operator seluler, biasanya koneksi 4G atau 5G. Ini mengubah model kepercayaan. Lalu lintas mobile sering kali berada di belakang NAT tingkat operator, atau CGNAT, di mana banyak pengguna nyata mungkin berbagi ruang IP yang menghadap ke luar melalui arsitektur jaringan operator. Itu membuat pemblokiran luas lebih berisiko bagi platform karena IP terkait dengan pola aktivitas mobile yang sah.

Analisis independen yang dirangkum dalam tinjauan perilaku proxy web scraping ini mencatat bahwa IP asal mobile ditandai pada tingkat sekitar sepertiga hingga setengah dari rentang cluster datacenter besar di lingkungan media sosial. Analisis yang sama menjelaskan mengapa proxy mobile, terutama IP berbasis 3G/4G/LTE, sering kali memiliki kepercayaan lebih tinggi daripada datacenter dan banyak opsi residensial untuk alur kerja sosial dan iklan.

Di platform sosial, “sulit untuk diblokir” biasanya berarti “mahal bagi platform untuk memblokir tanpa menangkap pengguna nyata juga.”

Itu tidak membuat mobile menjadi jawaban yang tepat untuk setiap tugas. Namun, itu membuat mobile sangat efektif ketika Anda membutuhkan identitas yang stabil dan dapat dipercaya untuk:

  • Manajemen media sosial multi-akun
  • Verifikasi iklan dan pemeriksaan pengiriman geo
  • Pemanasan akun dan alur QA
  • Validasi perjalanan pengguna yang condong ke mobile
  • Scraping dengan gesekan tinggi di mana kepercayaan lebih penting daripada kecepatan mentah

Apa yang diubah ASN dan geografi

ASN adalah singkatan dari Nomor Sistem Otonom. Dalam praktiknya, ini mengidentifikasi operator jaringan di balik rentang IP. Situs sering menggunakan ASN sebagai petunjuk kepercayaan. Permintaan yang datang dari ASN penyedia seluler yang dikenal dapat terlihat sangat berbeda dari permintaan yang datang dari ASN penyedia cloud.

Geografi juga sangat penting. Jika kampanye Anda seharusnya ditujukan untuk pengguna di Prancis, lalu lintas verifikasi iklan Anda harus berasal dari Prancis. Jika tim sosial Anda mengelola akun spesifik wilayah, geografi IP harus sesuai dengan riwayat akun dan realitas audiens.

Perbandingan Jenis Proxy untuk Scraping

Jenis Proxy Sumber IP Skor Kepercayaan Biaya Kasus Penggunaan Terbaik
Datacenter Jaringan penyedia cloud atau hosting Rendah hingga sedang pada target yang dilindungi Rendah Scraping cepat dari halaman publik dengan gesekan rendah
Residential Koneksi ISP konsumen Sedang hingga tinggi Sedang hingga tinggi Riset pasar, pemeriksaan geo, target anti-bot umum
Mobile Jaringan penyedia seluler, sering melalui 4G atau 5G Tinggi Tinggi Media sosial, platform iklan, sesi mirip seluler, QA sensitif

Aturan pemilihan praktis

Jangan mulai dengan opsi yang paling mahal secara default. Mulailah dengan risiko kegagalan.

Jika permintaan yang diblokir hanya berarti mencoba kembali halaman daftar publik, proxy dengan kepercayaan rendah mungkin sudah cukup. Jika IP yang buruk menyebabkan pemeriksaan akun, pratinjau iklan yang terdistorsi, atau hasil QA yang tidak valid, bayar untuk kepercayaan terlebih dahulu dan optimalkan bandwidth kedua.

Menguasai Rotasi Proxy dan Manajemen Sesi

Kebanyakan kegagalan scraping tidak disebabkan oleh “rotasi yang tidak cukup.” Mereka disebabkan oleh rotasi pada momen yang salah.

Rotasi dan kekakuan adalah alat yang berbeda

Rotasi IP berarti mengubah IP keluar sesuai jadwal. Jadwal itu bisa setiap permintaan, setiap beberapa permintaan, atau setelah interval waktu tertentu. Rotasi menyebarkan beban dan mengurangi kemungkinan satu identitas menanggung semua beban.

Sesi lengket mempertahankan IP yang sama untuk periode tertentu sehingga target melihat kontinuitas. Kontinuitas itu penting kapan pun target mengharapkan satu pengguna untuk mempertahankan keadaan di seluruh permintaan yang berbeda.

Banyak tim membutuhkan keduanya. Mereka berotasi antara sesi, bukan di dalamnya.

Kapan rotasi membantu

Rotasi per permintaan atau interval pendek bekerja ketika permintaan tidak memiliki status. Anda mengambil halaman A, kemudian halaman B, kemudian halaman C, dan tidak ada tindakan tersebut bergantung pada identitas sebelumnya.

Gunakan pola itu untuk:

  • Scraping katalog: Halaman produk, halaman hasil pencarian, dan daftar publik di mana cookie dan status login tidak penting.
  • Riset pasar yang luas: Koleksi besar halaman di mana throughput lebih penting daripada kontinuitas.
  • Monitoring SEO: Pengambilan berulang halaman publik di berbagai domain atau kata kunci.

Kapan kekakuan lebih penting

Sesi lengket sangat penting ketika target mengharapkan perjalanan pengguna tunggal.

Gunakan mereka untuk:

  1. Pekerjaan akun sosial di mana login, browsing, posting, dan tindakan tindak lanjut harus tampak terikat pada satu identitas jaringan.
  2. Alur verifikasi iklan di mana rendering halaman arahan, pengalihan, dan urutan acara perlu konsistensi.
  3. Pengujian QA dari pendaftaran, banner persetujuan, jalur checkout, atau konten berbasis geo yang berubah setelah permintaan pertama.

Panduan praktis terbaru yang dirangkum dalam diskusi tentang strategi proxy scraping menunjukkan bahwa banyak panduan menyederhanakan rotasi sebagai “ganti IP per permintaan,” sementara keberhasilan di dunia nyata tergantung pada keseimbangan tekanan CAPTCHA, kecepatan crawling, dan panjang sesi. Untuk tim yang menyetel perilaku sesi, referensi yang berguna adalah panduan ini tentang strategi rotasi IP proxy.

Catatan lapangan: Jika alur kerja menyerupai sesi pengguna, pertahankan IP stabil cukup lama agar sesi tersebut masuk akal.

Kerangka rotasi yang dapat diterapkan

Alih-alih bertanya “seberapa sering saya harus merotasi,” ajukan tiga pertanyaan yang lebih sempit:

  • Apakah tugas tersebut tidak memiliki status atau memiliki status? Tugas yang tidak memiliki status mentolerir rotasi agresif. Tugas yang memiliki status tidak.
  • Apakah platform menilai kontinuitas? Sistem sosial dan iklan biasanya melakukannya.
  • Apakah hambatan adalah blok atau throughput? Jika blok adalah masalahnya, tingkatkan kepercayaan atau kekakuan sebelum Anda hanya meningkatkan jumlah perubahan IP.

Pola operasional sederhana bekerja dengan baik:

  • Pertahankan satu IP untuk seluruh sesi pada tugas berbasis akun.
  • Rotasi antara sesi, bukan antara klik.
  • Perlambat ketika frekuensi CAPTCHA meningkat.
  • Pisahkan tindakan berisiko tinggi dari crawling berisiko rendah sehingga mereka tidak berbagi jejak yang sama.

Itu adalah desain yang lebih baik daripada merotasi secara membabi buta pada setiap permintaan dan berharap target menganggap kekacauan sebagai lalu lintas normal.

Implementasi Praktis dengan Contoh Kode

Teori itu penting, tetapi lapisan proxy hanya menjadi berguna ketika kode tahan banting. Pertahankan integrasi sederhana terlebih dahulu. Kemudian tambahkan percobaan ulang dan logika sesi.

Seorang pengembang kartun yang sedang mengkode skrip web scraping Python menggunakan server proxy untuk mengakses data situs web.

Pengaturan proxy HTTP dan HTTPS dasar

import requests

proxies = {
 "http": "http://username:password@proxy-host:proxy-port",
 "https": "http://username:password@proxy-host:proxy-port",
}

headers = {
 "User-Agent": "Mozilla/5.0",
 "Accept-Language": "en-US,en;q=0.9",
}

response = requests.get(
 "https://example.com",
 proxies=proxies,
 headers=headers,
 timeout=30,
)

print(response.status_code)
print(response.text[:500])

Ini adalah pola default untuk banyak tugas scraping. Gunakan proxy yang sama untuk http dan https kecuali penyedia Anda menyebutkan sebaliknya.

Pengaturan SOCKS5

Jika titik akhir proxy Anda mendukung SOCKS5, alur requests mirip. Anda hanya perlu mengubah skema:

import requests

proxies = {
 "http": "socks5://username:password@proxy-host:proxy-port",
 "https": "socks5://username:password@proxy-host:proxy-port",
}

response = requests.get(
 "https://example.com",
 proxies=proxies,
 timeout=30,
)

print(response.status_code)

SOCKS5 bisa menjadi pilihan yang baik ketika Anda menginginkan lapisan transportasi yang lebih fleksibel daripada proxy HTTP standar.

Tambahkan percobaan ulang dengan backoff

Kegagalan sementara adalah hal yang normal. Koneksi direset. Target melambat. Sebuah IP ditantang untuk jangka waktu singkat. Bangun percobaan ulang ke dalam klien alih-alih menangani setiap kegagalan secara manual di hilir.

import time
import requests

proxies = {
 "http": "http://username:password@proxy-host:proxy-port",
 "https": "http://username:password@proxy-host:proxy-port",
}

headers = {
 "User-Agent": "Mozilla/5.0",
 "Accept-Language": "en-US,en;q=0.9",
}

url = "https://example.com"

for attempt in range(5):
 try:
 response = requests.get(
 url,
 proxies=proxies,
 headers=headers,
 timeout=30,
 )

 if response.status_code == 200:
 print("Sukses")
 print(response.text[:500])
 break

 if response.status_code in (403, 429, 503):
 wait_time = 2 ** attempt
 time.sleep(wait_time)
 continue

 response.raise_for_status()

 except requests.RequestException:
 wait_time = 2 ** attempt
 time.sleep(wait_time)
else:
 print("Permintaan gagal setelah percobaan ulang")

Untuk sistem yang lebih besar, jangan hardcode nilai proxy ke dalam setiap skrip. Tempatkan penugasan proxy, kebijakan percobaan ulang, dan aturan sesi di belakang lapisan abstraksi atau alur kerja API server proxy sehingga pekerjaan scraping Anda tetap konsisten di seluruh tim.

Bagaimana Menghindari Deteksi dan Memecahkan Blok

Proxy untuk scraping mengubah identitas jaringan. Itu tidak secara otomatis membuat sesi menjadi dapat dipercaya.

Membangun sidik jari yang koheren

Situs web membandingkan sinyal di seluruh permintaan penuh, bukan hanya IP sumber. Jika header tidak cocok dengan browser yang diklaim, bahasa tidak konsisten dengan geografi, atau cookie muncul dan menghilang dengan cara yang aneh, Anda menciptakan jejak sintetis.

Gunakan seperangkat sifat permintaan yang konsisten:

  • User-Agent: Sesuaikan dengan keluarga browser nyata dan jaga agar tetap stabil dalam satu sesi.
  • Accept-Language: Sesuaikan dengan pasar yang Anda uji atau ambil datanya.
  • Referer: Atur sumber navigasi yang dapat dipercaya ketika alur kerja biasanya memiliki satu.
  • Cookies: Pertahankan mereka di seluruh permintaan terkait alih-alih menghapus status setiap kali.
  • Timing: Tambahkan kecepatan yang mirip dengan manusia. Bahkan penundaan kecil dapat mengurangi perilaku lonjakan yang jelas.

Infografis daftar periksa profesional yang menunjukkan metode untuk pengambil data web agar menghindari deteksi dan mengatasi blok.

Baca kesalahan sebelum mengubah tumpukan

Sinyal blok biasanya memberi tahu Anda di mana masalahnya.

Sinyal Penyebab yang Mungkin Perbaikan Pertama
CAPTCHA muncul lebih awal Kepercayaan IP rendah, kecepatan buruk, atau header lemah Tingkatkan realisme sesi dan kurangi tempo permintaan
403 Terlarang Masalah reputasi IP atau pemicu kebijakan yang jelas Ganti kelas proxy atau isolasi alur kerja
429 Terlalu Banyak Permintaan Pembatasan laju Perlambat, perlebar kolam, atau perpanjang interval
503 dengan halaman tantangan Lapisan anti-bot bereaksi Tingkatkan konsistensi sidik jari dan penanganan sesi
Loop keluar atau verifikasi berulang Ketidakstabilan sesi Gunakan IP lengket dan pertahankan cookies dengan benar

Jangan mendiagnosis setiap kegagalan sebagai masalah IP. IP yang baik dipasangkan dengan header buruk masih terlihat palsu.

Urutan debugging yang praktis

Ketika blok meningkat, debug dari luar ke dalam:

  1. Periksa tubuh respons, bukan hanya kode status. Banyak platform memberikan blok lunak dengan respons 200.
  2. Periksa konsistensi header di seluruh permintaan dalam sesi yang sama.
  3. Bandingkan jalur sesi antara jalannya browser yang berhasil dan skrip Anda.
  4. Uji kesesuaian geografi dan ASN untuk alur kerja target.
  5. Tinjau reputasi dan perilaku proxy dengan daftar periksa pengujian deteksi proxy.

Jika Anda mengubah lima variabel sekaligus, Anda tidak akan tahu apa yang memperbaiki masalah. Ubah satu lapisan pada satu waktu: pertama kecepatan, kemudian header, kemudian durasi sesi, kemudian jenis proxy.

Pengambilan Data yang Bertanggung Jawab dan Rekomendasi Akhir

Pengambilan data yang baik tidak hanya tentang menghindari blok. Ini tentang mengumpulkan data dengan cara yang tetap berkelanjutan untuk tim Anda dan dapat dipertahankan untuk bisnis Anda.

Hormati robots.txt di mana yang sesuai, jaga laju permintaan tetap wajar, dan hindari mengumpulkan data pribadi yang tidak Anda butuhkan. Jika pekerjaan melibatkan otentikasi, pengiriman iklan, atau pengujian status pengguna, dokumentasikan mengapa alur kerja itu ada dan kontrol apa yang telah Anda terapkan di sekitarnya. Itu melindungi proyek ketika tim hukum, keamanan, atau kepatuhan mengajukan pertanyaan di kemudian hari.

Intinya sederhana. Proxy terbaik untuk pengambilan data tergantung pada model kepercayaan target, bukan pada saran proxy umum. Proxy pusat data cocok untuk pekerjaan dengan gesekan rendah. Proxy residensial cocok untuk banyak target yang dilindungi. Proxy seluler menonjol ketika platform sangat menghargai pola lalu lintas seluler dunia nyata, geografi yang stabil, dan kredibilitas sesi.

Jika tim Anda bekerja pada manajemen media sosial, verifikasi iklan, QA akun, atau pemeriksaan kampanye yang sensitif terhadap geografi, proxy 4G seluler sering kali merupakan cara paling bersih untuk mengurangi gesekan dan mempertahankan kualitas sesi.


Jika Anda membutuhkan lalu lintas seluler Prancis untuk alur kerja sosial, pemeriksaan iklan, riset pasar, atau QA, Evoproxy layak untuk dilihat. Pengaturan proxy 4G selulernya dibangun untuk tim yang membutuhkan IP asal operator yang otentik, rotasi yang dapat dikendalikan, dan sesi spesifik geo yang stabil tanpa mengubah manajemen proxy menjadi proyek rekayasa terpisah.