统计开源中国女性用户数据 - 女网红篇

/

开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。

遇到 bug



开场前,先暖暖场 开源中国女性用户 Top20

数据有可能不是完整的,大家开心就好


进入正题,如果获得开源中国的女性会员数据?

https://zb.oschina.net/developer/

从这个数据上来看,个人感觉数据应该不是完整的。数据里面没有发现小小编辑的信息。
简单的计算下 : 4600 ÷ 2800000 * 100% = 0.16%

通过众包的数据希望不是全的,不然的中国(同xing恋jiao友)社区 …

获取分页数据

  1. wget https://zb.oschina.net/developer/?_c=all&_r=0&_w_y=-1&_d_w=-1&_is_r=0&_is_w_o=0&_s_n=-1&rf=0&rg=1&key=&p=1

使用 wget 试了下,并没有出现什么 403,于是那么就用 wget 爬取了这400多页的数据。接下来干的事情就比较的简单了。

解析分页数据

Jsoup
果然是个神器,这里强烈推荐一个FireFox的插件 FirePath 这个工具可以帮你快速定位你的 css 路径,然后就不用自己一级一级的找了,同时还支持 XPath 方式。

当然光有这个页面是不行的,还需要通过一个 Id 去访问这个人的个人主页,才能得到更多的数据。


数据存放 Json->Mongo

解析数据这些都是代码都比较的容易。关键在于这里如何存放这些数据,方便查找。
不知道什么时候开始自己开始将一些数据存为文本或则是 json 文件的方式
有了这个Json数据后,第一想到的使用Mongo进行存放,对于层级关系数据的查找排序很方便。,又一次体会到 Mongo 中编写JavaSrcipt 带来的便利了。完全不用什么模板语言麻。
于是就在数据库层面完成了这个网页的数据拼接


@芳仔小脚丫 可真厉害呀。

转载请注明作者和出处,并添加本页链接。
原文链接: //xiaochun.zrlog.com/266.html