银河飞将
主要是python+javascript
共投入大约300小时开发时间 3月底开始, 持续一个半月吧
爬虫共抓取帖子25891836条, 共分析文本2265045897字
很明显, ps 遥遥领先, xbox和wii差不多
貌似锤片先火, 蝶片后来居上
看图, 大屁股貌似2015年开始传奇之路
2009年一月, 中山公园事件轰动一时
2016年前不相上下, 2016年华为暴跌, 小米后来逆市增长, 也符合实际情况
江西恐龙好像2010后就开始隐退了
tg2007到2017访问量其实很稳定的
可以看到, 游戏区2007年达到顶峰, 之后变快速花落了, 当年的, 水区2007年后边暴涨, 很快取代成为tg第一板块
tg之最告诉你
看图, 确实2007, 2015是个高峰, 对应了这么多年的两个牛市
tg会员星空图, 我把会员各项活动算了一个总积分, 并划分为各个行星, 就好像tg是宇宙,我们每个人是个小星.
最后, 海王星大神只有2人, 分别为west2046, 和 zhaolinjia, 这两人都是名副其实的tg铁杆, 向他们致敬. 你们也来找找看自己在那里呗.
计算公式为: 在tg天数 * 1 + 主贴数 * 3 + 回帖数 * 1 + 总文字数 / 100 + 鸡骚 * 2 + 精华 * 500
本项目完全是个人兴趣, 所有数据仅供参考, 且都以实际统计为准, 部分与tg现实数据不符, 因为抓取过程中也发现很多错误的帖子.
目前是在google cloud
初步计划是开一年
数据需要手动更新, 且比较麻烦, 所以打算每3个月更新一次
暂不打算申请专门域名
最后看数据, 有点惊讶, tg居然只有4万多有效会员(指发过贴, 且没被封或删id的) 大部分会员都可算是核心, 8年以上占大部分
从关键词趋势确实可以看出很多有意思的东西
感谢TG, 感谢站长和比卡丘等人, 我觉得无论人或物, 如果能相处十年, 那一定是有爱的. 此项目献给所有爱tg的人!
感谢python, 没有python很难独立高效开发, python是神, 不解释
感谢很多开源大神的分享, 没有开源开发寸步难行啊
感谢我的测试服务器, 去年组装ryzen 1700+32G , 这次16线程终于派上用场, 文本处理相当耗时
感谢imac , 我的主力开发机, 确实稳定高效, 光荣完成任务, 打算换台新的了
2018.5.7 somesun
查看详细资料
TOP
原帖由 @blackeyed 于 2018-5-8 02:06 发表 233 tgfc股票发帖讨论量和牛熊市的对比, 我一直写在计划表, 还没空做, 没想到让楼主先做了…… 那我问一下, 怎么定义股票讨论的, 不会是"股票"这两个关键字吧…… 关键词趋势图能不能用正则表达式?
原帖由 @心之一方 于 2018-5-8 05:59 发表 提个建议,铁杆会员里把祭扫*2去掉
原帖由 @linkliu 于 2018-5-8 07:03 发表 楼主用什么技术做的呀,想学
原帖由 @kives 于 2018-5-8 08:50 发表 posted by edfc, platform: iPhone X tg总的用户数才4w?太少了吧,难怪可以整天tgbxs 另外问一句lz,把tg所有帖子爬下来要多大的存储空间?
原帖由 @babyone 于 2018-5-8 09:43 发表 注意到一个问题:关键词相关的部分显然没有包含数字常用语,比如300、233这些,猜测这个搜索是按照网页的html全代码来检索的,而不是定位到具体容器,所以才忽略了数字部分? 另外这样大规模的爬虫行为是否会影响服务器速度?如果会的话建议在深夜人少的时候做抓取。
原帖由 @pimp1234 于 2018-5-8 15:58 发表 lz能不能搞个每年大戏的帖子汇总,之前腻大好像搞过,后面搁置了
原帖由 @superzz_0 于 2018-5-8 13:09 发表 好顶赞,每个用户能查询么
原帖由 @rb 于 2018-5-8 13:47 发表 泥潭在我注册那时候就存在了,所以接近30年了要。 各种分区调整过很多次,游戏区分分合合很多次,所以各区排名可能不能反映当时的情况。
原帖由 @blackeyed 于 2018-5-8 15:00 发表 这作用已经巨大了好吧 每隔三五年一个牛市的话, 三五年随便买点还行的股票,每年就是20%啊 如果自身一直在炒股, 到你那个股票数值达到800以上就坚决空仓的话, 也可以减少30以上的损失 当然了,炒股最大的困难还是自己的心 人人都喊满仓冲一万点, 就你不去, 需要强大的心
原帖由 @一只纯猪头 于 2019-3-6 20:26 发表 访问不了??