怎么用python获取js生成的get请求地址

如题所述

举报该文章

相关建议 2018-01-11

仔细分析一下这个地址还是比较固定的，saller_id 应该是卖家id, 这个可以在含有saller_id的页面先抓取出来，

size 是每页的显示的数量，page是页号，ajson=1是固定的，

总之可以自己构造这样一个地址，而不用通过抓取。

追问

如果只是采集这几个当然可以，sellid和其它参数也会变，而且随着滚动条下拉，会不断触发JS，会不断发出请求，我就自动获取请求，现在还没有发现selenium有这个功能，数据也能通过其它方式全获得，但太慢，效率太低

追答

如果这种方式还慢的话，我不知道还有没有更快的方式。
并且每页的显示的大小可以在size进行设置的，默认的一页显示10条数据，这种方式可以自由设置每页获取的数量的，比如可以设置30或者更多，这样就快了。
“滚动条下拉，会不断触发JS，会不断发出请求”，这种方式是一次只能获取1条数据的。

追问

如果能够捕捉get方法发现的请求的网址，就可以很容易获取数据，它的数据格式是json格式，在python里转换一下就可以下载，很方便，很可惜没有发现能捕捉每条get方法发出的请求。

温馨提示：内容为网友见解，仅供参考

当前网址：https://22.t2y.org/zz/csxxf6st20s0xfstsf6.html

其他看法

第1个回答 2018-01-11

python + selenium 可以抓取到动态页面数据追问

python + selenium 可以抓取到动态页面数据，这个怎么自动获取get方法发出的请求地址，在firefox里能看js发出get方法和请求地址，在python+selenium里怎么获取js发出的请求地址

追答

搜索 python + selenium 相关信息

追问

这个回答等于没讲，我要是找到了，还提问吗，朋友

追答

有心学，这个信息足够了，不想自己动手动脑就算给你代码你也运行不起来。

python中如何调用js文件中的方法呢
1、打开pycharm开发工具，点击File菜单，选择Settings...，进行第三方模块安装；输入selenium，点击Install Package。2、接着在python项目的指定文件夹下，鼠标右键新建python文件，输入文件名并点击Python file。3、打开新建的文件，依次导入selenium、webdriver和time。4、调用webdriver模块中的Chrome()，使用ge...

python如何获取网页script里的url?
获取方法如下：def get_js_value(url):page_source = requests.get(url, headers=headers).content.decode('utf8')selector = etree.HTML(page_source)script_content = selector.xpath('\/html\/head\/script[3]\/text()')[0]context = js2py.EvalJs()context.execute(script_content)

怎么调用js文件怎么调用js文件中的方法
1、首先要引入js文件2、指定的元素调用js的方法\/*下面的例子是JQuery的方法调用each遍历函数，mouseenter函数，find函数*\/3、自定义的函数也的调用functionshow1(obj){obj.style.background=red }varoDiv=$(#p1);oDiv.mouseover=function(){show1(oDiv);} JS怎么调用PHP中的方法？在js中调用php的方...

爬虫工具--fiddler
1.1 浏览器自带抓包功能，通过右键审查元素，点击network，点击请求，右边栏展示请求详细信息：request、headers、response。以搜狗浏览器为例，任意点击加载选项，查看get参数。1.2 Fiddler，一个HTTP协议调试代理工具。它能记录并检查电脑和互联网之间的所有HTTP通信，收集所有传输的数据，如cookie、html、js...

最全总结!聊聊 Python 调用 JS 的几种方式
首先安装PyExecJS依赖包。从JS文件读取源码，使用execjs类的compile()方法编译加载JS字符串，获取上下文对象。最后调用上下文对象的call()方法执行JS方法。注意，PyExecJS在本地环境运行，启动JS环境导致运行速度偏慢。更多信息可查看github.com\/doloopwhile\/...方法二：js2py，一个纯Python实现的JS解释器...

Python中Requests库的用法
首先，需要使用pip安装Requests库：pip install requests 安装完成之后，可以进行基本的GET请求。例如，获取JSON文件：import requests r = requests.get("a.json")print(r.text)print(r.json())如果需要获取原始套接字响应，可以设置stream=True：r = requests.get('github.com\/timeline.js', stream=...

最全总结!聊聊 Python 调用 JS 的几种方式
首先，最常用的是PyExecJS，它在本地JS环境中运行，通过pip安装，读取和编译JS代码，然后调用方法。接着，js2py是一个纯Python的JS解释器，无需JS环境，将JS代码转为Python执行。方式三则是利用Node.js，通过os.popen执行命令，导入并调用JS函数。最后，PyV8是一个高效的选项，但Mac和PC的Python3环境...

如何利用python爬取网页?
发现在座位号前面的那个query字符串是一个看不出什么规律的编码。解析这个query是在后端进行解析，但既然发get请求你要在页面上发，那这个代码必然在前端是有迹可循的。这个编码的答案就在页面底部的js链接中，通过运行那一段js代码就可以搞定这个编码，从而拼凑起这最后一块拼图。

如果网页内容是由javascript生成的,应该怎么实现爬虫
2. 驱动浏览器内核，这个方法的优点是编程实现比较简单，只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显，慢，占用的资源比较多，不如抓包分析获取数据灵活。我以前抓取的好多网站都是用抓包分析的方式，还分析了好多网站的登录的机制，用 Python 重写 js 的...

Python反爬虫的四种常见方式-JS逆向方法论
首先，当我们尝试使用Python的requests库抓取某个网页时，可能会发现返回的是一段JS代码，而非HTML内容。这是因为服务器在收到浏览器请求后，运行了一段JS代码，生成了一个（或多个）cookie。这个cookie携带着这次合法的浏览器访问信息。解决方法是研究这段JS代码，找到它生成cookie的算法，从而在爬虫中...

相似回答

大家正在搜