怎么用python获取js生成的get请求地址

如题所述

仔细分析一下这个地址还是比较固定的,saller_id 应该是卖家id, 这个可以在含有saller_id的页面先抓取出来,

size 是每页的显示的数量,page是页号,ajson=1是固定的,

总之可以自己构造这样一个地址,而不用通过抓取。

追问

如果只是采集这几个当然可以,sellid和其它参数也会变,而且随着滚动条下拉,会不断触发JS,会不断发出请求,我就自动获取请求,现在还没有发现selenium有这个功能,数据也能通过其它方式全获得,但太慢,效率太低

追答

如果这种方式还慢的话,我不知道还有没有更快的方式。
并且每页的显示的大小可以在size进行设置的,默认的一页显示10条数据,这种方式可以自由设置每页获取的数量的,比如可以设置30或者更多,这样就快了。
“滚动条下拉,会不断触发JS,会不断发出请求”,这种方式是一次只能获取1条数据的。

追问

如果能够捕捉get方法发现的请求的网址,就可以很容易获取数据,它的数据格式是json格式,在python里转换一下就可以下载,很方便,很可惜没有发现能捕捉每条get方法发出的请求。

温馨提示:内容为网友见解,仅供参考
第1个回答  2018-01-11
python + selenium 可以抓取到动态页面数据追问

python + selenium 可以抓取到动态页面数据,这个怎么自动获取get方法发出的请求地址,在firefox里能看js发出get方法和请求地址,在python+selenium里怎么获取js发出的请求地址

追答

搜索 python + selenium 相关信息

追问

这个回答等于没讲,我要是找到了,还提问吗,朋友

追答

有心学,这个信息足够了,不想自己动手动脑就算给你代码你也运行不起来。

python中如何调用js文件中的方法呢
1、打开pycharm开发工具,点击File菜单,选择Settings...,进行第三方模块安装;输入selenium,点击Install Package。2、接着在python项目的指定文件夹下,鼠标右键新建python文件,输入文件名并点击Python file。3、打开新建的文件,依次导入selenium、webdriver和time。4、调用webdriver模块中的Chrome(),使用ge...

python如何获取网页script里的url?
获取方法如下:def get_js_value(url):page_source = requests.get(url, headers=headers).content.decode('utf8')selector = etree.HTML(page_source)script_content = selector.xpath('\/html\/head\/script[3]\/text()')[0]context = js2py.EvalJs()context.execute(script_content)

怎么调用js文件怎么调用js文件中的方法
1、首先要引入js文件2、指定的元素调用js的方法\/*下面的例子是JQuery的方法调用each遍历函数,mouseenter函数,find函数*\/3、自定义的函数也的调用functionshow1(obj){obj.style.background=red }varoDiv=$(#p1);oDiv.mouseover=function(){show1(oDiv);} JS怎么调用PHP中的方法?在js中调用php的方...

爬虫工具--fiddler
1.1 浏览器自带抓包功能,通过右键审查元素,点击network,点击请求,右边栏展示请求详细信息:request、headers、response。以搜狗浏览器为例,任意点击加载选项,查看get参数。1.2 Fiddler,一个HTTP协议调试代理工具。它能记录并检查电脑和互联网之间的所有HTTP通信,收集所有传输的数据,如cookie、html、js...

最全总结!聊聊 Python 调用 JS 的几种方式
首先安装PyExecJS依赖包。从JS文件读取源码,使用execjs类的compile()方法编译加载JS字符串,获取上下文对象。最后调用上下文对象的call()方法执行JS方法。注意,PyExecJS在本地环境运行,启动JS环境导致运行速度偏慢。更多信息可查看github.com\/doloopwhile\/...方法二:js2py,一个纯Python实现的JS解释器...

Python中Requests库的用法
首先,需要使用pip安装Requests库:pip install requests 安装完成之后,可以进行基本的GET请求。例如,获取JSON文件:import requests r = requests.get("a.json")print(r.text)print(r.json())如果需要获取原始套接字响应,可以设置stream=True:r = requests.get('github.com\/timeline.js', stream=...

最全总结!聊聊 Python 调用 JS 的几种方式
首先,最常用的是PyExecJS,它在本地JS环境中运行,通过pip安装,读取和编译JS代码,然后调用方法。接着,js2py是一个纯Python的JS解释器,无需JS环境,将JS代码转为Python执行。方式三则是利用Node.js,通过os.popen执行命令,导入并调用JS函数。最后,PyV8是一个高效的选项,但Mac和PC的Python3环境...

如何利用python爬取网页?
发现在座位号前面的那个query字符串是一个看不出什么规律的编码。解析这个query是在后端进行解析,但既然发get请求你要在页面上发,那这个代码必然在前端是有迹可循的。这个编码的答案就在页面底部的js链接中,通过运行那一段js代码就可以搞定这个编码,从而拼凑起这最后一块拼图。

如果网页内容是由javascript生成的,应该怎么实现爬虫
2. 驱动浏览器内核,这个方法的优点是编程实现比较简单,只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显,慢,占用的资源比较多,不如抓包分析获取数据灵活。我以前抓取的好多网站都是用抓包分析的方式,还分析了好多网站的登录的机制,用 Python 重写 js 的...

Python反爬虫的四种常见方式-JS逆向方法论
首先,当我们尝试使用Python的requests库抓取某个网页时,可能会发现返回的是一段JS代码,而非HTML内容。这是因为服务器在收到浏览器请求后,运行了一段JS代码,生成了一个(或多个)cookie。这个cookie携带着这次合法的浏览器访问信息。解决方法是研究这段JS代码,找到它生成cookie的算法,从而在爬虫中...

相似回答