|
阅读:11952回复:0
python 爬虫:BeautifulSoup 找不到对应的元素import re import urllib.parse from bs4 import BeautifulSoup soup = BeautifulSoup(html_cont,'html.parser') readList = soup.find_all('div',id="post_next_prev") 如上代码: 右键审查网页元素时,很明显的能找到 id 为post_next_prev的div, 可以通过BeautifulSoup就是找不到,最后把网页内容:html_cont输出来,进行查找,发现内容中真的没有这个id。 我想原因:应该是这个Id的代码是动态生成的,在通过URL去加载页面数据时,此id还不存在于页面中. 所以不是代码问题。原因是知道,可以如果去抓取动态的代码呢? 百度一下:http://www.jb51.net/article/58942.htm 这有一篇抓取动态网页的文章,感觉很复杂的样子,研究中,欢迎一起讨论。 |
|