关于数据获取

问题

以前一直用urllib库的方式来获取webpage的信息,也就是爬网,主要是不想看新闻,只想看内容,用这个可以get到内容,而且整理起来也方便。

然后用网上的库来收集一些别的地方的信息。

但是很多时候,这些地方都有针对爬网或者API的限制。怎么越过这个限制就是个问题,自己比较懒,其实也不聪明,想着为了越过这个东西要耗费不少时间,还不一定行,就放弃了。

但是人的想法有时候由于热情或者埋在心里的那种冲动会发生改变,为了看一些人发出来的信息,还是去做了。

过程

这个是针对短的信息的应用。利用API Key转为Application Key的方式来一次性获取更多的信息的方法。

这个比直接用python的好的一点是,不会出现402这样的错误,402错误表示链接受限,可能是网络问题,SSL的问题,更大的可能是服务器端不允许链接了。而且速度很快,普通的发文人,顶多半小时就把他几年的发文给收下来了。

当然如果你想要持续的关注这个人,那么接下来就可以用stream的方式,实时进行监控。这里就不往下继续了。

| 访问量:
Table of Contents