博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取校园新闻首页的新闻
阅读量:5757 次
发布时间:2019-06-18

本文共 1314 字,大约阅读时间需要 4 分钟。

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

import requestsfrom bs4 import BeautifulSoupfor news in soup.select('li'):    if len(news.select('.news-list-title')) > 0:        t = news.select('.news-list-title')[0].text        dt = news.select('.news-list-info')[0].contents[0].text        a = news.select('a')[0].attrs['href']        c = news.select('.news-list-description')[0].contents[0]        print(dt,t,a,c)

 

2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

for news in soup.select('li'):    if len(news.select('.news-list-title')) > 0:        t = news.select('.news-list-title')[0].text #标题        a = news.select('a')[0].attrs['href']    #链接        resd = requests.get(a)        resd.encoding = 'utf-8'        soupd = BeautifulSoup(resd.text, 'html.parser')        print(soupd.select('.show-info')[0].text)   #正文        info =soupd.select('.show-info')[0].text        dt =info.lstrip('发布时间:')[:19] #发布时间        i =info.find('来源')        if i>0:            s = info[info.find('来源:')].split()[0].lstrip('来源:')  #来源:         break

 

 

3. 将其中的发布时间由str转换成datetime类型。

from datetime import datetime        str = '2018-03-30 17:10:12 '        dt=datetime.strptime('str,%Y-%a-%d %H:%M:%S')        now = datetime.now()        type(now)        now.strptime('%Y-%a-%d %H:%M:%S')

 

转载于:https://www.cnblogs.com/2015110114z/p/8691943.html

你可能感兴趣的文章
【Canal源码分析】Canal Server的启动和停止过程
查看>>
机房带宽暴涨问题分析及解决方法
查看>>
iOS 绕过相册权限漏洞
查看>>
我的友情链接
查看>>
XP 安装ORACLE
查看>>
八、 vSphere 6.7 U1(八):分布式交换机配置(vMotion迁移网段)
查看>>
[转载] 中华典故故事(孙刚)——19 万岁
查看>>
修改hosts文件里面的主机名,oralce asm无法启动
查看>>
Maven学习总结(十)——使用Maven编译项目gbk的不可映射问题
查看>>
php5编译安装常见错误和解决办法集锦
查看>>
Linux远程访问及控制
查看>>
MongoDB实战系列之五:mongodb的分片配置
查看>>
Unable to determine local host from URL REPOSITORY_URL=http://
查看>>
java基础(1)
查看>>
ORACLE配置,修改tnsnames.ora文件实例
查看>>
Workstation服务无法启动导致无法访问文件服务器
查看>>
.Net组件程序设计之远程调用(二)
查看>>
ant中文教程
查看>>
Linux常用命令(一)
查看>>
WSUS数据库远端存储条件下切换域及数据库迁移
查看>>