» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[其他] TGFC 20years Dashboard, TG20周年巨献, 耗资300小时开发大作[更新: 星空找人]

posted by wap, platform: Android
引用:
原帖由 @linkliu  于 2018-5-8 07:03 发表
楼主用什么技术做的呀,想学
说了, 主要是Python和js

具体的就太多了, 反正做一个项目, 该用的都要有

数据库 , 服务器配置, 前端, 后端, 数据分析, 机器学习等等


本帖最近评分记录
  • linkliu 激骚 +1 最骚 Rated by wap 2018-5-8 11:57

TOP

posted by wap, platform: Android
引用:
原帖由 @kives  于 2018-5-8 08:50 发表
posted by edfc, platform: iPhone X

tg总的用户数才4w?太少了吧,难怪可以整天tgbxs
另外问一句lz,把tg所有帖子爬下来要多大的存储空间?
也不大, 总数据库大概10g



TOP

posted by wap, platform: Android
引用:
原帖由 @babyone  于 2018-5-8 09:43 发表
注意到一个问题:关键词相关的部分显然没有包含数字常用语,比如300、233这些,猜测这个搜索是按照网页的html全代码来检索的,而不是定位到具体容器,所以才忽略了数字部分?

另外这样大规模的爬虫行为是否会影响服务器速度?如果会的话建议在深夜人少的时候做抓取。
是直接html分析的, 具体词语后面可以优化, 加入需要出现的, 尤其是符合论坛特色文化的, 大家可以推荐补充


爬虫其实我考虑到tg的负载, 我都只开一个线程爬取, 所以总共花了快一个月才爬完


TOP

posted by wap, platform: iPhone
内牛满面,头顶青天,楼主牛逼。

TOP

posted by wap, platform: 小米
引用:
原帖由 @somesun  于 2018-5-8 09:54 发表
我个人觉得祭扫还是有价值的, 尤其是只有祭扫有负值, 所以如果负祭扫就减总分, 也合理点, 毕竟负祭扫高的是什么人大家也知道

本帖最后由 somesun 于 201858 09:55 通过手机版编辑
祭扫高很多都是各种要分贴赚的,我几乎从来不进去要分,不公平啊。。。

TOP

为了爬虫也打算学python,java的爬虫框架比较少,不如python成熟。

TOP

posted by wap, platform: iPad
前排

TOP

posted by wap, platform: Samsung
最后一图表明tg还是个游戏论坛

TOP

大作,直接变成tg的一个项目算了,开源,有能力的一起维护

TOP

前10页都是前排,赶紧排个队占位

TOP

占楼蹭蹭lz的面子,证明我也是tg一份子,哈哈

TOP

mark

TOP

posted by wap, platform: iPhone
喷了!厉害
域名改之前的贴子估计只有比版存档了吧

TOP

posted by wap, platform: iPhone
大数据威武

TOP

这个统计挺不错

TOP

发新话题
     
官方公众号及微博