发布网友 发布时间:2022-04-23 21:35
共6个回答
热心网友 时间:2022-04-18 04:26
你好!
可以通过lxml来获取指定标签的内容。
#安装lxml
import requests
from lxml import html
def getHTMLText(url):
....
etree = html.etree
root = etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr = root.xpath("//div[@class='news-text']/table/tbody/tr");
#循环显示tr里面的内容
for tr in trArr:
rank = tr.xpath("./td[1]/text()")[0]
name = tr.xpath("./td[2]/div/text()")[0]
prov = tr.xpath("./td[3]/text()")[0]
strLen = 22-len(name.encode('GBK'))+len(name)
print('排名:{:<3}, 学校名称:{:<{}}\t, 省份:{}'.format(rank,name,strLen,prov))
希望对你有帮助!
追问这个可以用!谢谢啦!热心网友 时间:2022-04-18 05:44
这种情况用xpath啊,什么re和bs4都弱爆了。
import requests追问
会乱码哦!
热心网友 时间:2022-04-18 07:19
爬取这些主要看规则,如果就你刚才所说,可以用正则。可以试下一次正则是否能提取,如果不行的话,先取包含内容的部分,然后正则再区分。
当然还可以查下类似xml解析的方法将HTML转化为数组,然后取值
热心网友 时间:2022-04-18 09:10
如果只要tr td中的文本内容,建议还是用正则表达式来提取更为方便。追问能给代码吗?我看到网上很多都说用正则表达式,但是那些代码复制来都报错。
热心网友 时间:2022-04-18 11:18
举个例子:
想要提取全部标签<h4></h4>内的文本,可使用如下Python代码:
import re
with open("html.html",'rU') as strf:
....str = strf.read()
res = r'(?<=<h4>).*?(?=</h4>)'
li = re.findall(res,str)
with open("new.txt","w") as wstr:
....for s in li:
........wstr.write(s)
........wstr.write(" ")
........print(s,' ')
正则表达式r'(?<=<h4>).*?(?=</h4>)中括号部分属于向后向前查找,相当于字符串作为边界进行查找。
运行后会将标签<h4></h4>内的文本提取到文件new.txt
热心网友 时间:2022-04-18 13:43
Bs4 beautiful soup了解下