スクレイピングでDMMのサイトに載っているAV女優一覧を取り出す

早速ですが、DMMのサイトに載っているAV女優一覧を取り出すコード例を通してスクレイピングの楽しさを味わっていただければ幸いです。

def write_women(self):
    suffixes = [
    "a","ka","sa","ta","na","ha","ma",
    "ya","ra","wa"
    ]
    res =  ""
    for suffix in suffixes:
    base_url = "http://www.dmm.co.jp/digital/videoa/-/actress/=/keyword="
    url = base_url + suffix + "/"

    r = requests.get(url)
    soup = BeautifulSoup(r.text)
    if soup.find("ul",{"class":"act-box-100"}) is None:
        continue
    recommend_imgs = soup.find("ul",{"class":"act-box-100"}).find_all("img")

    for recommend_img in recommend_imgs:
        name  = recommend_img.get("alt")
        res += name + " "

        normal_imgs = soup.find("ul",{"class":"act-box-65"}).find_all("img")

        if normal_imgs is None:
            continue

        for normal_img in normal_imgs:
            name  = normal_img.get("alt")
            res += name + " "

    return res

たったの30行程度で実現できてよかった。今年一番の出来だと思う。

Related Contents

Pickup Contents