统计开源中国女性用户数据 - 女网红篇
开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。
遇到 bug
开场前,先暖暖场 开源中国女性用户 Top20
数据有可能不是完整的,大家开心就好
进入正题,如果获得开源中国的女性会员数据?
https://zb.oschina.net/developer/
从这个数据上来看,个人感觉数据应该不是完整的。数据里面没有发现小小编辑的信息。
简单的计算下 : 4600 ÷ 2800000 * 100% = 0.16%
通过众包的数据希望不是全的,不然的中国(同xing恋jiao友)社区 …
获取分页数据
wget https://zb.oschina.net/developer/?_c=all&_r=0&_w_y=-1&_d_w=-1&_is_r=0&_is_w_o=0&_s_n=-1&rf=0&rg=1&key=&p=1
使用 wget 试了下,并没有出现什么 403,于是那么就用 wget 爬取了这400多页的数据。接下来干的事情就比较的简单了。
解析分页数据
Jsoup
果然是个神器,这里强烈推荐一个FireFox的插件 FirePath
这个工具可以帮你快速定位你的 css 路径,然后就不用自己一级一级的找了,同时还支持 XPath
方式。
当然光有这个页面是不行的,还需要通过一个 Id 去访问这个人的个人主页,才能得到更多的数据。
数据存放 Json->Mongo
解析数据这些都是代码都比较的容易。关键在于这里如何存放这些数据,方便查找。
不知道什么时候开始自己开始将一些数据存为文本或则是 json 文件的方式
有了这个Json数据后,第一想到的使用Mongo进行存放,对于层级关系数据的查找排序很方便。,又一次体会到 Mongo 中编写JavaSrcipt 带来的便利了。完全不用什么模板语言麻。
于是就在数据库层面完成了这个网页的数据拼接
@芳仔小脚丫 可真厉害呀。
转载请注明作者和出处,并添加本页链接。
原文链接:
//xiaochun.zrlog.com/266.html