首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

我爬取了我的 qq 空间 139 万说说数据做了一个年终盘点,但是总觉得分析的不知所云

  •  
  •   equationl · 46 天前 · 3559 次点击
    这是一个创建于 46 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天花费了整整一天时间用前几天怕的空间说说数据做了这么一个盘点: 2018,年终,不过又是一个叉子

    这也不是我第一年尝试用这种方式做年终盘点了,前年我也写了这么一篇: 对 QQ 空间指定好友 2017 年说说数据的分析

    但是,总觉得自己分析完全不知所云,完全是在浪费数据,基本上就是在纯粹的罗列数据而已。

    我想问问各位 v2exer,我能否用这些数据分析出来一些有意思的东西呢?

    还有在分析类似数据时应该从哪一方面入手呢?

    第 1 条附言  ·  46 天前
    我想补充一下抓取的数据内容,因为我发现似乎大佬们给的建议都是对说说内容进行分析。
    说说数据:

    说说所属 qq

    说说内容

    说说的回复数量

    说说的发表时间

    发表说说时的手机标志

    说说配图地址

    说说定位信息

    说说 id

    说说的点赞数

    说说的浏览量

    说说的转发量


    点赞数据:

    点赞者 qq

    点赞所属说说 id

    点赞者地址

    点赞者星座

    点赞者性别

    点赞者昵称



    回复数据

    回复者 qq 号

    回复所属说说

    回复内容

    回复时间

    回复者昵称

    二级回复的上级 id
    18 回复  |  直到 2019-01-02 18:39:37 +08:00
        1
    VDimos   46 天前 via Android
    闷声发大财,你这是生怕腾讯不知道你爬了它数据吗
        2
    jugelizi   46 天前
    分词
    按时间维度 各个节日大家在说什么
    按性别 也可以分析热点什么的
        3
    equationl   46 天前
    @VDimos 嗯?怎么说?
        4
    equationl   46 天前
    @jugelizi 分词我使用 jieba 进行分词时发现高频词都是类似 一个、我们、自己 之类的“无意义”的词,是不是我使用方式不对?
        5
    TimePPT   46 天前 via iPhone
    @equationl 停用词,了解一下
        6
    equationl   46 天前 via Android
    @TimePPT 试过,效果不太理想
        7
    TimePPT   46 天前 via iPhone
    @equationl 停用词要自己按照需求做筛检的啊,「我们」这种一般都会在停用词表里被过滤的。
        8
    equationl   46 天前 via Android
    @TimePPT 嗯,其实我的做法是导出词频前 50 的词组,然后手动排除我认为没意义的词,然后我发现排除完后基本就不剩几个词了...
    我还是学习一下停用词的用法吧
        9
    muhaocd   46 天前
    只取形容词、动词、名词分别比较?算一下 tgi 指数?
        10
    TimePPT   46 天前 via Android
        11
    equationl   46 天前 via Android
    @TimePPT 好的,谢谢大佬~
        12
    oyhw92   46 天前 via iPhone
    分词可以筛选一下,分享的归一类消极的归一类,看看大家都是开心了发还是难过了发?
        13
    envylee   46 天前
    @VDimos 我也就好笑了,都是做发财梦做傻了吧,麻烦开口前分清楚什么叫「数据」什么叫「用户数据」好吧
        14
    jookr   46 天前
    以前我的 QQ 空间小偷程序因为很多关键词被机房掐了 N 次网线
        15
    atonku   46 天前
    你的空间里废话有点儿多哦
        16
    equationl   46 天前 via Android   ♥ 1
    @atonku 怎么说? qq 空间不应该就是用来说废话的吗?
        17
    atonku   45 天前
    @equationl 我说错话了,QQ 空间确实是用来干这个的,我为我的措辞道歉
        18
    equationl   45 天前 via Android
    @atonku 额...没这么严重吧
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2059 人在线   最高记录 4346   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 20ms · UTC 04:10 · PVG 12:10 · LAX 20:10 · JFK 23:10
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1