最简单的python爬虫案例，适合入门学习( 二 ) _python爬虫

内容与前面在Preview里看到的一样，说明已经成功获得了网页内容。
3）、解析网页内容，获得数据
所有要爬取的数据，都在上面的soup结果里，但还有更多是我们不需要的数据。所以接下来第3步就是对上面的结果内容进行操作，以获得我们想要的内容。
1）根据目标，我们首先要获得小说的标题和章节标题
在开发者工具里，分析网页内容，发现我们的目标之一小说和章节的标题分别位于下图所示位置：

文章插图
图3-7 找到标题所处位置
A、小说标题“圣墟”在下面两个位置都出现过，写解析代码就可以了：
<a href=https://www.isolves.com/it/cxkf/yy/Python/2020-05-14/"/book/4772/">圣墟

<a href=https://www.isolves.com/it/cxkf/yy/Python/2020-05-14/'https://www.biqiuge.com/book/4772/' target='_blank' title="圣墟">圣墟

很明显第一个相对比简单点，所以，我们通过解析第一个位置内容来提取出标题“圣墟”
t1 = soup.find('a', href=https://www.isolves.com/it/cxkf/yy/Python/2020-05-14/"/book/4772/"').get_text()代码解析：上面两处标题都位于<a,....../a>之间，所以“a”就是我们要用的第一个参数，由于有a参数的代码还有很多，为了精准定位就是这个位置的a，我们发现属性href的值不同而且貌似是独一无二的，所以将其作为关键字放进代码里，就得到了此处的这段代码。然后用.get_text()将这段代码里的文字给爬取出来，就得到了我们最终想要的小说标题——“圣墟” 。上面的代码如果将href的参数值改为：'https://www.biqiuge.com/book/4772/'，也能得到相同的结果
B、章节标题在网页代码中也出现过多次，但是我们只需找到一处解析得到即可，根据上面的经验，我们选最简单的一处为：
<h1>第一章沙漠中的彼岸花</h1>编写代码：
t2 = soup.find('h1').get_text()2）获得小说内容
继续分析网页代码，发现小说内容的位置为：
<div id="content" class="showtxt"><script>App2();</script><br /> 大漠孤烟直......
说明小说内容位于<div ....../div >之间，所以将div作为第一个参数，由于div出现了很多次，所以我们需要继续用此处独有的参数作为关键字，我们将id="content" class="showtxt"同时作为参数放到代码里，这样代码就为：
tt = soup.find('div', id="content", class="showtxt").get_text()此时，由于class在python里代表“类”，为敏感词，作为关键字放在代码里容易混淆，所以我们将敏感词作为关键字时，需要在其后面加一个下划线，将代码class="showtxt"改为：class_="showtxt" 。运行后，小说内容就已经在tt里了。我们可以通过print(tt)看到效果。
4）、保存内容
虽然小说标题、内容都已经爬取到了，但到哪里看呢，我们不可能每次都用python用print()运行后看。我们可以将刚才爬取到的标题、内容，写入到一个txt文件里。这就用到os模块了。
此时运行程序，就能在e盘发现已新生成了文件“小说.txt文件"，打开，发现，所有想要的内容已经写入到文件里了如图3-8 。但是小说内容没有换行，阅读起来不方便，且前面有个多余的app2() 。

文章插图
图3-8 爬取的效果
为了达到更好的效果，我们将代码：
tt = soup.find('div', id="content", class="showtxt").get_text()优化为：
tt = soup.find('div', id="content", class_="showtxt").text.replace(' ','n').replace('app2();','n')即将app2()和空格符都替换为换行符。运行后得到效果为：

文章插图
图3-9 优化后最终的爬取结果
至此，一个简单的爬取就完成了。
其实，该网址内容完全可以直接复制就能得到，本文之所以还大费周章进行爬取，不过是借用这个简单的静态网页，体验一下爬虫4步骤的流程，为后续批量爬取网页中的小说、图片以及爬取动态网页数据做基础。
4、附录本文代码（完整）

# -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoup# 第一步：发出访问请求url = "https://www.biqiuge.com/book/4772/2940354.html"response = requests.get(url)# 第二步：获得网页信息soup = BeautifulSoup(response.content, 'lxml')# 第三步：解析网页数据t1 = soup.find('a', href=https://www.isolves.com/it/cxkf/yy/Python/2020-05-14/"/book/4772/").get_text()t2 = soup.find('h1').get_text()tt = soup.find('div', id="content", class_="showtxt").text.replace(' ','n').replace('app2();','n')# 第四步：保存内容f = open(r"e:小说1.txt", 'a+', encoding='utf-8')f.write(t1 + 'n')f.write(t2 + 'n')f.write(tt)f.close()print('下载完成')
上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  游趣电竞|还在努力，UZI认真谈复出：首先要具备两个关键因素 
                
                   
                
              
            

                  
              
                  【高校】关于高考的谣言，很多家长同学上当，耽误孩子一生，要切记这几条 
                
                   
                
              
            

                  
              
                  浙江大学|浙大通报“学生努XX受留校察看处分”：启动后续调查 
                
                   
                
              
            

                  
              
                  手机中国i9处理器加持不可错过，外星人m15/17游戏本2020版上架 
                
                   
                
              
            

                  
              
                  极品金针滇红茶,滇红茶哪款好 
                
                   
                
              
            

                  
              
                  「」华为新机入网：麒麟990 5G+40W快充，跟P40系列一样值得期待？ 
                
                   
                
              
            

                  
              
                  田广艳|而是去侠客岛写了侠客行，张无忌赵敏最后结局：没去草原牧马放羊 
                
                   
                
              
            

                  
              
                  水哥■一加8系列评析：狙击三星的“伏地魔” 
                
                   
                
              
            

                  
              
                  ZAKER生活|普通美国人的工资是多少啊？ 
                
                   
                
              
            

                  
              
                  新鲜的星座知识紫气东来，全家跟着享福的三个生肖，未来三年鸿运当头 
                
                   
                
              
            

                  
              
                  工作|找到了！长三乙运载火箭残骸在贵州、湖南现身 
                
                   
                
              
            

                  
              
                  马蹄是什么(马蹄是淀粉类食物吗) 
                
                   
                
              
            

                  
              
                  被单位开除，该咋办 
                
                   
                
              
            

                  
              
                  峨眉山A_我公司旗下分公司峨眉雪芽茶业是集高山生态茶业种植... 
                
                   
                
              
            

                  
              
                  固态硬盘|长江存储全球首发三体联名版致态TiPro7000 SSD：1TB 999元 
                
                   
                
              
            

                  
              
                  乳头肿痛怎么办 
                
                   
                
              
            

                  
              
                  饮用日照绿茶至少有八大好处 
                
                   
                
              
            

                  
              
                  白思豪■“弗洛伊德尸检报告反转”，美国骚乱更难平息了｜新京报快评 
                
                   
                
              
            

                  
              
                  178游戏网|上线计划再一次落空，DNF手游iOS商店下架 
                
                   
                
              
            

                  
              
                  安眠药丝乐丝 
                
                   
                
              
            

          

亚特兰蒂斯真的存在 亚特兰蒂斯被发现 

Python破解验证码技术，识别率高达百分之八十 

茶叶知识之黑茶与普洱茶的浅义及区别 

服务器的1U、2U是什么意思？42U机柜可以放多少台服务器？ 

Java回调的四种写法：反射+直接调用+接口调用+Lambda表达式 

Linux 提权—突破受限制的shell权限 

周冬雨出道前的经历 周冬雨毕业于哪一所初中 

成为高级黑客必须了解的，cors跨域和jsonp劫持漏洞 

鲶科鱼类大全 世界上最大的鲇鱼 

辛苦酿就清香 冻顶茶乡南投鹿谷的围城故事