» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[其他] TGFC 20years Dashboard, TG20周年巨献, 耗资300小时开发大作[更新: 星空找人]

posted by wap, platform: iPad
TGFC 20years Dashboard 项目简介
地址:  http://35.194.171.40/

TGFC20 项目简介项目创意一个多月前, 我发了个帖子, 问tg建站日期是什么时候, 因为我突然想到tg好像快20年了, 简单查了下最老几个用户比如rb, 注册日期是2000年初, 1号id是voodoo, 但是时间是2006, 应该改过了,所以我假定tgfc建站时间大概是2009年吧.
不管具体日期如何, 确实是快20年了, 仔细想想天朝这么多年, 能持续20年的网站还真不多, 更别说这么一个小众网站了, 就算很多曾经很火的网站, 很多也早已不存在了.
一个网站能存在这么久, 肯定有他的价值所在. 而对于一个论坛来说, 会员就是最大的价值, 就是因为有这么多铁杆会员, 把tg当成一个真正的社区, 愿意互动分享. 所以我一直认为, 论坛这种最古老的网络应用, 将长期存在下去.
时不时也有人发帖, 说如果tg不在了如何, 要不要找个地方继续, 我个人觉得不太可能, 没那么容易换个地方还能有原来的感情的. 所以我也早就想过这个问题, 如果tg不在了, 我也不想找个替代品了, 就这样吧, This is it.
不过, 我想留下一些东西, 一些回忆, 所以就有了初步的想法. 恰巧, tg4月出了故障停了不少时间, 也进一步坚定了我的想法.
项目需求开始很简单, 就是想做个爬虫, 抓取tg的所有网页, 然后存到本地数据库, 不就可以一直保留, 甚至搞个搜索引擎, 时不时搜一搜当年的趣事.
但项目开始后, 我慢慢也有了更多想法, 其实tg历史有很多有意思的地方, 而项目是解决问题的, 那么我就提出以下几个问题吧.

  • 三大主机 ps xbox wii, 到底哪个火?
  • 锤片, 蝶片两位那个更火?
  • 大屁股的威名无人不知, 那么大屁股什么时候开启传奇之路的呢?
  • tg最著名的中山公园事件发生在什么时候?
  • 小米, 华为到底哪个火?
  • 一些老会员, 如江西恐龙等什么时候开始隐退的呢?
  • tg什么时期最火爆?
  • 水区, 游戏区的发帖趋势如何?
  • 最多一天发帖多少?
  • tg谁是最铁杆会员, 贡献最大?
  • 股票讨论一多就要完是不是真的?
项目就是为了回答这些问题的, 后面将揭晓答案


项目开发我大概分成3个子项目进行开发, 每个子项目独立运行, 每个子项目产出将作为下一个子项目的输入


  • 子项目1, 爬虫 - 目标是爬取tg超过2000万帖子
  • 子项目2, 文本分析 - 分析2000万帖子, 和所有会员信息进行分词,统计
  • 子项目3, web展示- 通过互动图表展示这些统计数据
项目技术
主要是python+javascript
项目周期
共投入大约300小时开发时间 3月底开始, 持续一个半月吧
项目结果
爬虫共抓取帖子25891836条, 共分析文本2265045897字
刚好帖子2千万, 也符合tg特色, 文本超过20亿字
最终可以很好回答以上提出问题, 并提供各种互动图表


项目展示废话不多说了, 上图


  • 三大主机 ps xbox wii, 到底哪个火?
很明显, ps 遥遥领先, xbox和wii差不多

  • 锤片, 蝶片两位那个更火?
貌似锤片先火, 蝶片后来居上

  • 大屁股的威名无人不知, 那么大屁股什么时候开启传奇之路的呢?
看图, 大屁股貌似2015年开始传奇之路

  • tg最著名的中山公园事件发生在什么时候?
2009年一月, 中山公园事件轰动一时

  • 小米, 华为到底哪个火?
2016年前不相上下, 2016年华为暴跌, 小米后来逆市增长, 也符合实际情况

  • 一些老会员, 如江西恐龙等什么时候开始隐退的呢?
江西恐龙好像2010后就开始隐退了

  • tg什么时期最火爆?
tg2007到2017访问量其实很稳定的

  • 水区, 游戏区的发帖趋势如何?
可以看到, 游戏区2007年达到顶峰, 之后变快速花落了, 当年的, 水区2007年后边暴涨, 很快取代成为tg第一板块


  • 最多一天发帖多少?
tg之最告诉你

  • 股票讨论一多就要完?
看图, 确实2007, 2015是个高峰, 对应了这么多年的两个牛市

  • tg谁是最铁杆会员, 贡献最大?
tg会员星空图, 我把会员各项活动算了一个总积分, 并划分为各个行星, 就好像tg是宇宙,我们每个人是个小星.
最后, 海王星大神只有2人, 分别为west2046, 和 zhaolinjia, 这两人都是名副其实的tg铁杆, 向他们致敬. 你们也来找找看自己在那里呗.
计算公式为: 在tg天数 * 1 + 主贴数 * 3 + 回帖数 * 1 + 总文字数 / 100 + 鸡骚 * 2 + 精华 * 500


声明
本项目完全是个人兴趣, 所有数据仅供参考, 且都以实际统计为准, 部分与tg现实数据不符, 因为抓取过程中也发现很多错误的帖子.
存在问题
  • 汉语分词其实是个很深的学问, 我目前只是做了初步分词学习, 肯定还有很多词应该出现但没发现的, 大家可以推荐下


FAQ
  • 这个网站服务器在哪里?
目前是在google cloud
  • 这个网站打算开多久?
初步计划是开一年
  • 目前数据怎么更新?
数据需要手动更新, 且比较麻烦, 所以打算每3个月更新一次
  • 没有域名?
暂不打算申请专门域名
总结
最后看数据, 有点惊讶, tg居然只有4万多有效会员(指发过贴, 且没被封或删id的) 大部分会员都可算是核心, 8年以上占大部分
从关键词趋势确实可以看出很多有意思的东西
感谢
感谢TG, 感谢站长和比卡丘等人, 我觉得无论人或物, 如果能相处十年, 那一定是有爱的. 此项目献给所有爱tg的人!
感谢python, 没有python很难独立高效开发, python是神, 不解释
感谢很多开源大神的分享, 没有开源开发寸步难行啊
感谢我的测试服务器, 去年组装ryzen 1700+32G , 这次16线程终于派上用场, 文本处理相当耗时
感谢imac , 我的主力开发机, 确实稳定高效, 光荣完成任务, 打算换台新的了
2018.5.7 somesun
最后送上彩蛋
致MJ

[ 本帖最后由 somesun 于 2018-5-8 01:35 编辑 ]

本帖最后由 somesun 于 2018-5-8 23:39 通过手机版编辑
附件: 您所在的用户组无法下载或查看附件


本帖最近评分记录
  • Leon 激骚 +12 感谢分享 2018-5-9 08:58
  • Leon 发贴积分 +954 感谢分享 2018-5-9 08:58
  • 地刺 激骚 +2 太骚了 2018-5-9 01:20
  • shacg 激骚 +8 最骚 Rated by wap 2018-5-9 00:51
  • apple 激骚 +3 最骚 Rated by wap 2018-5-9 00:49

TOP

麻痹部署搞了一天, 网络太慢了, 睡觉了, 明天再来



TOP

posted by wap, platform: Android
引用:
原帖由 @blackeyed  于 2018-5-8 02:06 发表
233

tgfc股票发帖讨论量和牛熊市的对比, 我一直写在计划表, 还没空做, 没想到让楼主先做了……

那我问一下, 怎么定义股票讨论的, 不会是"股票"这两个关键字吧……

关键词趋势图能不能用正则表达式?
目前还没想那么多, 也没怎么考虑股票的事

我个人觉得舆情与股票可能并没有想象的有价值, 这个指标最大用场其实是判断何时清仓走人, 反正高点减仓甚至清仓肯定也没错, 但低点也不一定就适合买

另外这个可能对大盘大势比较准, 但并不适合个股

应该有人爬取贴吧或雪球做类似分析的, 我早就想过, 但觉得实用性可能没那么高所以也没动手


TOP

posted by wap, platform: Android
引用:
原帖由 @心之一方  于 2018-5-8 05:59 发表
提个建议,铁杆会员里把祭扫*2去掉
我个人觉得祭扫还是有价值的, 尤其是只有祭扫有负值, 所以如果负祭扫就减总分, 也合理点, 毕竟负祭扫高的是什么人大家也知道

本帖最后由 somesun 于 2018-5-8 09:55 通过手机版编辑

TOP

posted by wap, platform: Android
引用:
原帖由 @linkliu  于 2018-5-8 07:03 发表
楼主用什么技术做的呀,想学
说了, 主要是Python和js

具体的就太多了, 反正做一个项目, 该用的都要有

数据库 , 服务器配置, 前端, 后端, 数据分析, 机器学习等等
本帖最近评分记录
  • linkliu 激骚 +1 最骚 Rated by wap 2018-5-8 11:57

TOP

posted by wap, platform: Android
引用:
原帖由 @kives  于 2018-5-8 08:50 发表
posted by edfc, platform: iPhone X

tg总的用户数才4w?太少了吧,难怪可以整天tgbxs
另外问一句lz,把tg所有帖子爬下来要多大的存储空间?
也不大, 总数据库大概10g

TOP

posted by wap, platform: Android
引用:
原帖由 @babyone  于 2018-5-8 09:43 发表
注意到一个问题:关键词相关的部分显然没有包含数字常用语,比如300、233这些,猜测这个搜索是按照网页的html全代码来检索的,而不是定位到具体容器,所以才忽略了数字部分?

另外这样大规模的爬虫行为是否会影响服务器速度?如果会的话建议在深夜人少的时候做抓取。
是直接html分析的, 具体词语后面可以优化, 加入需要出现的, 尤其是符合论坛特色文化的, 大家可以推荐补充


爬虫其实我考虑到tg的负载, 我都只开一个线程爬取, 所以总共花了快一个月才爬完

TOP

posted by wap, platform: iPad
星空找人功能开发好了, 晚上上线:D

TOP

posted by wap, platform: iPad
引用:
原帖由 @pimp1234  于 2018-5-8 15:58 发表
lz能不能搞个每年大戏的帖子汇总,之前腻大好像搞过,后面搁置了
这个不打算做, 我搞这个是完全基于数据计算, 不会手工去整理一些东西

一般真有用应该可以通过关键词优化搜索来看看
本帖最近评分记录
  • pimp1234 激骚 +1 感谢分享 2018-5-8 19:20

TOP

posted by wap, platform: iPad
引用:
原帖由 @superzz_0  于 2018-5-8 13:09 发表
好顶赞,每个用户能查询么
查询什么, 用户档案可以查每个用户啊

TOP

posted by wap, platform: iPad
引用:
原帖由 @rb  于 2018-5-8 13:47 发表
泥潭在我注册那时候就存在了,所以接近30年了要。

各种分区调整过很多次,游戏区分分合合很多次,所以各区排名可能不能反映当时的情况。
是的, 游戏板块开始都是独立的ps区, 微软区, 后来合并了

可惜早期数据也没了

TOP

posted by wap, platform: iPad
引用:
原帖由 @blackeyed  于 2018-5-8 15:00 发表
这作用已经巨大了好吧
每隔三五年一个牛市的话, 三五年随便买点还行的股票,每年就是20%啊
如果自身一直在炒股, 到你那个股票数值达到800以上就坚决空仓的话, 也可以减少30以上的损失
当然了,炒股最大的困难还是自己的心
人人都喊满仓冲一万点, 就你不去, 需要强大的心
是的, 这个关键词趋势可以很好的把握离场时间

假如下次牛市来了, 可以拿2015年搞点为基准, 设置一个警戒位, 比如70%, 边涨边抛肯定没错

TOP

posted by wap, platform: iPad
星座找人功能已上线

另外各图片有工具栏, 是可以下载图片, 或放大缩小的
附件: 您所在的用户组无法下载或查看附件
本帖最近评分记录

TOP

posted by wap, platform: iPad
引用:
原帖由 @一只纯猪头  于 2019-3-6 20:26 发表
访问不了??
服务器被google 关了,  东西没完全备份

暂时没空折腾

下次有时间再把它跑起来

TOP

发新话题
     
官方公众号及微博