Scrap Links Menggunakan Python

Scraping web adalah teknik untuk mengekstrak data dari situs web. BeautifulSoup adalah modul yang dirancang untuk melakukan web scraping. Modul BeautifulSoup dapat menangani HTML dan XML. Modul ini menyediakan metode sederhana untuk mencari, menavigasi dan memodifikasi pohon parse.

Install BeautifulSoup

  • apt-get install python-bs4 //for Python 2
  • apt-get install python3-bs4 //for python3
  • easy_install beautifulsoup4
  • pip install beautifulsoup4
  • Ekstrak semua link di halaman HTML menggunakan tag <a> ... </a> sebagai trigger

    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    
    import requests
    from bs4 import BeautifulSoup
    
    url = raw_input("URL: ")
    r = requests.get(url)
    html_as_string = r.text
    soup = BeautifulSoup(html_as_string, 'html.parser')
    for link in soup.find_all('a'):
        print(link.get('href'))
    
    BACK

    2018 | Project by Codelatte Indonesia