V2EX 首页   注册   登录
 jahan 最近的时间轴更新

jahan

  •   V2EX 第 206398 号会员,加入于 2016-12-17 01:56:28 +08:00,今日活跃度排名 1055
    外行问一下, elasticsearch+kinda 可以做多复杂的大数据分析?
    Elasticsearch  •  jahan  •  1 小时 48 分钟前  •  最后回复来自 jahan
    10
    这个配置用来 esxi 可以流畅不?
    VMware  •  jahan  •  15 天前  •  最后回复来自 jahan
    2
    请教自动化交易,如何实现一单成交其他单作废?
    Python  •  jahan  •  39 天前  •  最后回复来自 4ever911
    25
    jahan 最近回复了
    使用 filebeat 来收集表进入 logstash,然后 logstash 送给 elastisearch。 疑问 1.如果不用 filebeat 或者 logstash 来收集,现在我是通过建立 index,mapping 后,进行手工的数据导入( python 将||分割的 txt 转成 mapping 的 json );假若重新部署一个新的环境,如果想要使用 filebeat 和 logstash 的话,是不是在都不需要在 elasticsearch 上建立 mapping ?只需要建立一个 index,告知 filebeat 和 logstash 数据流送到哪个 index 即可( filebeat 需要建立 templalte )?非常疑惑使用 filebeat 和 logstash 后要不要在 elasticsearch 上建立 mapping。

    疑问 2。根据 create table 语句建立 mapping,有没有特别简单的办法?不用写手写或者 python 程序,就能迅速把 mapping 的 json 根据 create table 语句弄出来?有具体例子就最好了。

    疑问 3。配置文件,f,l,e 都是通过配置文件来设置的,有点糊涂到底需要配置哪些文件来使用呢?看 filebeat.yul,logstash 下面建立自己的 myself.conf,还没有能整体上了解。这里就回到了疑问 1,如何在 filebeat 上建立 mapping,是 template ?

    疑问 4,filebeat 在官方文档里面只是一个 log ship,不进行 parsing,那么就是不会将每一个数据文件里面的 line 变成 json ?
    然后疑问就是 template.json 配置来干嘛呢? logstash 对数据进行 gork 操作,分割符号是 0001 的控制符怎么表示呢?

    raw 数据文本怎么通过 f,l 进入 e 绕的有点晕了。
    @knktc 感谢提示。
    当时也不是知道在玄学知乎上看到说 es 不能很好的保持数据。
    还有一篇文章比较 elk 和 hadoop 的文章说了,数据量不大随便用哪个,数据量大,自己就能体会到。简直太玄学。
    后期会尝试包装一下,因为要兼顾两类用户使用。

    目前配置了最新的 6.2 平台,算是刚刚入门这个。
    @knktc 感谢回复。
    想搭建一个既能存储,有能方便有现成的轮子方便分析的平台。就搭建了一个 elk 的系统。
    当然我的数据都是结构化的数据(固定分隔符),不是日志、也不是杂乱文本。不过定期会有数据进来。然后快要搭建好了问了自己一个问题,这个 elk 够用吗?


    主要的目的就是想搭建一个能够适合不懂 sql 的人使用或者很精通 sql 和 r,python 等工具的人来挖掘一点有价值的信息,存储数据也是一部分(貌似 es 不能很好的保持数据?)也不知道上述目的用 elk 这样好不好,请大家多指教。
    @laxenade 谢谢。哪里会能看到案例呢
    @defunct9 大量的数据怎么整理成 json 呢,有没有现成的轮子呢
    看了一下,5 张表中都有客户编码,所以如果都放在一个 index 下面,那么 index/表 1,。。。。index/表 5,就可以了?
    @knktc 目前 oracle 里面的数据是做所有的客户的视图来实现的。
    如果是给每一个客户下的表都加上一个客户字段,应该也可以完成这个功能。

    @bayker 的意思是把客户对应的表放在一起?
    @Hieast 和 @acepcs 的意思是,所有客户的数据一股脑放在一个 index 下面?
    @Hieast 客户所有的表,以及表里的的字段都不会改变了。
    @bayker 有关系的表都放在一个 index 下面:是将 A 客户的表 1,B 客户的表 1,。。。。都放在一起;其他类推。我理解的可对?
    可能有一点我没有讲明白,A ( B,C,D,....)客户下面所有的表都没有 A ( B,C,D,....)客户的字段。
    如果每个客户相同的表都放在一个 index 下,应该就乱了吧。
    总是有点 sql 思维。
    6 天前
    回复了 tianxiacangshen 创建的主题 AdSense adsense 收入截图,终于是要走出去了
    如果是书籍下载站点,会不会被谷歌禁止?版权啊
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1238 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 51ms · UTC 11:28 · PVG 19:28 · LAX 03:28 · JFK 06:28
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1