使用python爬取数据时,有时候会遇到jsonp的数据格式,由于不是json的,所以不能直接使用json.loads()方法来解析,需要先将其转换为json格式,再进行解析。在前面讲了jsonp的原理 ,这里就略过一部分。
jsonp的格式jsonp的内容一般是这样的:
callback({ "name":"zhangsan", "age":18})
也有有可能是这样的:
(资料图)
callback( "name", (function(a,b,c){ return { name:a, age:b, gender:c } })("孙悟空",18,"男"))
这里的callback就是一个函数名,这个函数名是由后端返回的,我们需要将这个函数名提取出来,然后将其替换为一个我们自己定义的函数名,然后再将其转换为json格式,再进行解析。
这个函数名一般会包含在get请求的参数中,例如:
<script src="xxx.xxx?callback=cb"></script>
在这个url中,callback=cb是我们传给服务器的参数,我们可以理解为告诉服务器我们需要将数据传入cb这个函数中,然后服务器返回的数据就会以cb(data)的形式返回,例如:
cb({ "name":"zhangsan", "age":18})
获取数据方法一通常情况下服务器返回的数据调用哪个函数由传递的callback参数决定,如果我们将callback的参数改为我们自己定义的函数名,那么服务器就会返回这个函数名。因此,我们也可以尝试将callback参数填写为空,例如:
import requestsrequests.get("xxx.xxx?callback=")
这样服务器就会直接返回数据而不是用函数包裹
方法二通过字符串切片或者正则表达式来提取数据,例如:
import requestsimport reres = requests.get("xxx.xxx?callback=cb")# 正则表达式提取data = re.search("cb\((.*?)\)",res).group(1)# 字符串切片提取data = res[3:-1]
方法三使用subprocess库执行js代码,但是jsonp返回的数据中只有一个调用函数的代码,因此我们需要提前定义一个函数,并将内容写入js文件后执行,例如:
import requestsimport subprocesscb_data = requests.get("xxx.xxx?callback=cb").text# 定义一个函数js = """ function cb(data) { console.log(data);}"""# 将函数写入js文件with open("jsonp.js","w",encoding="utf-8") as f: f.write(js+cb_data)# 执行js文件的同时捕获打印信息result = subprocess.run("node jsonp.js",shell=True,stout=subprocess.PIPE)# 将结果转换为jsonjson = json.loads(res.stdout.decode())""" json转换时可能会出错,因此可以在定义的函数中将console.log(data) 修改为 console.log( JSON.stringify(data)) """# 打印转换后的内容print(json)
以上,简单的介绍了三种获取jsonp数据的方式,如果有错误或不足之处欢迎指正