科技网

当前位置: 首页 >互联网

统计数据联网报送平台微博春晚数据再创记录或将加速台网联动

互联网
来源: 作者: 2019-05-17 14:29:03

1 : 微博春晚数据再创记录 或将加速台网联动

本文系猎云网读者投稿

马年春晚正式开始前,有个短片《甚么是春晚》里有这样1句:“春晚最大的乐趣是甚么,吐槽啊!”在哪吐槽呢?必须是微博啊。并且这1次,由于网民吐槽春晚的气场太过强大,都惊动了海外媒体。

据英国广播公司网站1月31日报导,在新浪微博有关春晚的微话题下已有超过1.6亿条发布,其中1月30日至1月31日发布的有2700万条。报导还指出,很多网民的除夕夜都是在看春晚和在网络发表评论中度过的。

春晚和微博如果能紧密结合起来,绝对极大提升节目在微博平台上的再次暴光和广泛传播。央视固然也意想到这1点,在万众注视的马年春晚屏幕上,特地留出1个右下角,专门放置与微博合作的2维码,引导观众扫描进入春晚互动平台,还能抽取新年红包大礼。

微博平台天然的“吐槽”属性,再加上央视的积极推动,促进了马年春晚在微博上的讨论大爆发。重新浪微博官方数据看,马年新春第1分钟共有86万多条微博发出, 又1次创下纪录。有3447万用户参与了春晚互动,互动量(原创、转发、评论、赞)达6895万。除夕和初1春晚微博讨论量高达9500万。尾月2109到大年初5,春晚官博粉丝实现翻番,由300多万1跃近700万。

与此同时,参与春晚的明星也在微博上收获了极高的关注度。@微博小秘书 发的春晚数据长围脖显示,李敏镐成为热议演员TOP1,截至大年初4讨论量高达4387万,他直播春晚的单条微博春晚期间转评赞超过103万。小彩旗也取得了1555万的讨论量。

所以今年春晚还没结束,就有网友模仿小品《扶不扶》的台词发微博:“人倒了还能扶起来,要微博倒了,春晚可就真扶不起来了!”知名主持人柳岩在大年310晚上的1条微博,更是很直接表达出微博对春晚的重要价值:“感谢春晚, 感谢微博,1定要看春晚,否则你会看不懂微博。”

今年春晚与微博的深度合作带来的话题大爆发,算得上是相当做功的,在1定程度上有望加速台网联动。其实自去年以来,电视与微博逐步加强了合作,台网联动的趋势愈发明显,其中特别以综艺类节目体现最为突出。缘由就是,社交媒体与电视台有天然的共生关系,电视节目可以催生社交话题的产生,社交话题的热烈讨论,能够增强互动性并刺激收视,吸引更多的观众收看电视。

去年7月,《中国好声音》《快乐男声》等综艺节目通过话题运营、大V调动在微博上进行话题热度PK,就清晰得反应出电视和微博的相互拉动。与两个节目相干话题在当季成为微博最热话题,整体微博话题提及量分别超过1.8亿和1.2亿,而它们的收视率也是全国最高。特别是经过对阶段数据的分析对照,发现微博的讨论热度极大程度上影响了节目的收视率,2者显现出正相干关系,即节目微博话题讨论热度越高,收视率也就越高。微博对电视节目的重要性可见1斑。

本次春晚与微博的成功合作,和微博对综艺节目的助力,都将进1步加速台网联动。而从营销价值来看,电视与微博的紧密结合,有助于提升电视节目和电视广告的覆盖度、互动量及收视率,同时还能吸引社交平台上最为活跃的年轻用户。企业可以斟酌在微博和电视同时投放广告,这样可以最大化覆盖人群和广告投放效果,通过微博话题的运维,让品牌形象更加立体生动,增强广告互动效果,同时积累目标粉丝,为后续企业传播和营销打下基础。

2 : 铛铛网发力数字浏览:计划做自出版平台

新浪科技讯 6月24日上午消息,据消息人士流露,铛铛网正在发力数字浏览市场,不但成立原创事业部,还计划做“自出版”平台。

不久前铛铛网与童话大王郑渊洁签约,在是铛铛首次绕过出版社直接签约作者,意味着其希望加大原创数字内容的扶持力度。

据内部人士流露,除推动直签作家真略,铛铛还在网络文学领域招兵买马成立原创事业部,目前事业部成员包括幻剑书盟、博易创为、梦工厂等班底。

豆瓣上1位人气网络写手流露,铛铛网的目标多是要做1个“自出版”平台,希望扶持网络文学里的草根作家。

铛铛网在数字图书领域的对手,亚马逊中国正在通过Kindle推动数字浏览市场,虽然铛铛网也曾推出过电子书产品“都看”。与亚马逊硬件推数字书浏览不同,铛铛网除开发了“都看”浏览器,还实施“买纸书送电子书”的政策,以讨好深度浏览者培养数字书浏览习惯。

在业内人士看来,铛铛网此举也是比拼硬件更好的抢深度用户的方式,毕竟手机浏览才是现在和未来的数字书浏览主流,很多读者其实不愿意为浏览数字书增加1个浏览终端。

铛铛网CEO李国庆在公然场合不止1次强调,电子书短时间内不会替换纸书。铛铛网内部人士表示,用硬件推动数字书浏览市场其实不是1件最紧急的事,关键还是在版权。

“数字书1战惨烈程度将不亚于纸书,原创资源、纸书数字版权和作家资源、深度浏览人群等等都将是战场,靠硬件铺路多是把事情想简单了。”上述人士称。

1组未公然的数据是:1.铛铛网读书客户端“铛铛读书”的月活跃用户以每个月30%速度在增长,以此计算,读书客户真个年用户增长将到达23倍;2.“铛铛读书”用户以深度浏览者为主,用户逐日平均的浏览时长超过30分钟。

这也是铛铛布局数字浏览的重要缘由。不过铛铛内部人士表示,在目前阶段,铛铛网没有打算在数字版权领域赚钱,主要还是想拿更多畅销的版权资源。

铛铛网副总裁姚丹骞很多天前参加1个电商论坛时流露,在获得版权资源后,铛铛网将通过图书出版激活电商文化产业,涉足影视、手游文化产业。(林明)

3 : 链家网大数据平台关键——工具链

声明:本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请定阅2017年《程序员》。

作者:吕毅,链家网平台架构师。目前负责链家网大数据平台,之前曾负责链家网基础服务平台建设。

责编:郭芮,关注大数据领域,寻求报导或投稿请联系guorui@csdn.net。

链家网于2015年成立大数据部门,开始构建基于Hadoop的技术体系,早期大数据部门以运营数据报表需求、公司核心指标需求为主。随着2015年链家网发力线上业务,toB与toC业务齐头并进,数据需求量激增的情况也随之在2016年突显,数据量增至PB级。我们开始思考如何改变现状,如何高效支持未来可预感的众多数据需求。

基于ROLAP技术的报表平台

链家网大数据部门成立之初,面对着零散的数据需求,最初期的办法是配置定时任务跑脚本,将结果通过邮件方式发送给需求方。2015年期间,随着运营数据需求的增加、希望查阅数据的人员增多,邮件的方式不方便人员间信息传递,并且查找历史数据也不方便,在技术上也因数据相干人太多致使邮件发送阻塞。因此,斟酌到运营数据需求、公司核心指标需求相对固定,并且维度可枚举,特在2015年基于ROLAP技术方案,搭建了初期的报表系统。

图1 链家网初期的报表系统

初期的报表系统,由数据开发工程师提交数据任务,通过配置Oozie定时任务,定时的基于Hive数据做ETL进程,将报表系统所需的数据推入关系型数据库(MySQL)中。该系统从接收需求到报表系统里看到数据,需要比较长的1段时间进程,涵盖进程以下:

沟通需求,由数据开发工程师理解数据需求; 对接数据,将数据源对接入HDFS; 构造数据,将数据加工处理到Hive中,逐层由STG到ODG,再到DW层; 数据任务,数据开发工程师根据需求方需求、DW层数据,编写基于Oozie的调度任务; 发布任务,将Oozie调度任务发布到线上,定时履行,数据运行结果将被推送到MySQL; 数据展现,由自研的报表系统,根据需求方展现需求,添加维度挑选能力,开发1些对结果数据的再加工程序,部署上线。

流程进程较长,角色间传递信息较多,前后依赖太强,都是制约当时报表系统快速产出数据的根本问题。该系统在以后的迭代中,通过增加选取MySQL数据、自助勾选维度,实现了自助报表系统,命名为“地动仪”并服务至今。但是,流程长、传递信息多、依赖强的问题照旧没有根本解决,对逐步增多的数据分析需求,更不能及时响应。

地动仪在1定程度上解决了邮件方式的弊端,提供Web界面化的查询,支持历史查询和多人使用。但对非订制化需求、数据探索需求、数据分析需求支持的力度其实不好。我们开始计划更好的数据分析平台服务。

链家网大数据平台的诞生

大数据工作划分,通常分为大数据利用、大数据平台两大部份。常见的大数据利用形态有数据发掘、数据分析、个性化推荐、数据报表等,大数据利用情势相对更多样,可以根据业务不同而有具体的大数据利用产品。大数据平台,在1家公司中则应相对统1,以方便做好公司统1的数据接入规范、统1的数据管理机制、统1的数据处理能力等,做好数据管控。

因此,在对历史大数据架构进行梳理后,链家网将原有大数据部门工作细化,将大数据利用交由业务线团队或其他技术团队承当,便于业务线展开多样化的数据工作,同时将大数据部门聚焦于构建公司统1的大数据平台,负责公司内各部门数据相干需求的统1计划与实现,建设公司统1的数据仓库与数据服务。至此,链家网大数据平台团队诞生,我们开始着手建立平台,支持好未来公司内对数据使用上的各类需求。

在2016年中期,通过梳理各部门数据需求,将数据需求分类为:数据探索需求、报表需求、数据分析需求、数据API需求这4类。为满足这些数据需求,我们相应计划了下面这些数据产品:

AdHoc系统:解决数据探索性需求,基于SQL查询,查询速度要求高; 地动仪:解决报表需求,承接较固化报表需求、公司级报表需求; BI产品:解决数据分析需求,支持多维查询,支持数据分析中经常使用的下钻、上卷等功能; 数据API:解决数据API需求,大数据API统1出口,支持各部门的格式化数据获得。

结合数据产品层面的计划,大数据平台在技术工作上做了重新计划,技术工作上划分出了4个部份:平台服务、数据管理、工具链与集群。其中平台服务包括报表系统、BI系统与大数据API;大数据工具链包括OLAP引擎、即席查询AdHoc系统、调度系统3部份;大数据集群层面除集群性能、稳定性工作外,还包括集群安全、集群资源隔离两部份;贯穿服务、工具链、集群3层的数据管理部份,更加关注数据治理,内含元数据管理、指标管理、数据权限管理3大数据管理工作。技术工作划分情况如图2:

图2 链家网大数据平台

大数据平台的建设进程,是由下而上逐渐完成的。首先要有Hadoop集群,在有HDFS与Hive后,才能展开数据接入工作,才能基于集群建设工具链;当工具链部份的OLAP引擎构建好,才有上层BI、报表系统和数据API,只有AdHoc能力构建好,才能提供基于SQL的数据探索平台,工具链中特别需要建设好调度系统,才能在实现好数据ETL任务的同时,管控数据流向与数据关系。最后则是服务层面的建设,重心在于逢迎需求的同时,服务做得更加易用。数据管理系统会穿插于全部大数据平台中。

大数据平台中衔接服务与集群的关键——工具链,正是全部平台能力的传送带,它肩负着将大数据能力输送到上层服务层的重担,也承当着上层多项服务被使用时的数据能力支持。

建设大数据平台关键——工具链

大数据平台内部工作,完全可以简单划分为集群与服务两部份,为什么要在它们之间构建1层工具链层呢?由图1可以看到,原大数据架构中,因产品层面单1,数据从搜集入HDFS后,数据流向单1,均由Oozie调度任务从Hive获得数据,并向上推送。斟酌到平台服务层面的多个产品形态,数据流向也需扩大才能满足产品所需能力,而数据流的管理与集群工作强迫计划在1起,太过僵硬。故全新开辟1层工具链层,通过借助集群能力,通过或使用开源或自研,来扩大数据转换与输出的能力,提供更多种的数据流情势,以满足上层数据服务需求。

对工具链层面的设计,我们依照数据流向设计了下图中的工具链结构:

图3 大数据工具链数据流向计划

数据探索类需求

数据探索类需求,即数据查询需求,若都基于Hive采取MapReduce运算,速度上会大大影响用户的使用体验,但是即席查询AdHoc技术方面,Facebook开源的基于内存计算的Presto进入了我们的视野,斟酌到Presto与Hive均为Facebook开源技术,在SQL兼容性方面通用性更强,特对Hive、Presto、Spark在SQL on Hadoop方面进行测试对照:

数据样本:2000万行数据集、7000万行数据集;

SQL样例:简单SQL(select count)、复杂SQL(线上真实SQL);

机器资源:

Hive:3台机器;

Spark:4个节点;

Presto:3个节点,每节点最大内存4G。

通过量次测试结果显示,在处理速度方面,Presto < Spark SQL < Hive,大部份情况下,Presto时间开消上远少于Hive SQL,速度优势略微好过Spark SQL。斟酌到公司内探索性数据查询需求由人发起,数量可控,Presto技术选型完全满足我们对响应速度的要求。故采取Presto引擎搭建AdHoc平台,AdHoc的Web界面我们通过自研,除基础的数据查询功能外,实现了数据导出、转发、生成报表等功能,其中生成报表功能与调度系统买通,将数据探索工作成果进1步延伸,由AdHoc发起的调度任务,则是使用MapReduce离线运算。关于Presto UI部份,Airbnb开源的Airpal界面简洁清晰,也是不错的选择。

图4 Airbnb开源的基于Presto的UI界面

数据分析类需求

数据分析性需求依照工作方式细分,还可以分为非技术人员使用Web工具分析数据、技术型人员直连Hadoop集群提交分析任务两种类型。前者更多是运营、研究院、产品线数据PM等角色使用,后者则是做数据发掘、推荐的工程师们在使用,对工程师们,我们内网开放集群运算能力,供工程师们提交任务,通过集群中的资源隔离保障大家的任务高效运行。工具链中,则更关注前者的分析类场景,如何方便地满足。

非技术人员的数据分析需求,相对比较固话的数据报表型需求,指标、维度的组合上希望灵活性更高,并且有着下钻、上卷分析数据的需求,更多维的查询数据。由于分析工作1般是连续查询数据,所以对查询速度也有1定的期望。

鉴于此,我们斟酌通过预置数据的方式,通过空间换时间,来解决查询速度问题。对多维查询需求,我们斟酌通过构建多维Cube方案解决。这正是MOLAP解决数据查询问题的方式,而MOLAP方案的有限技术选型中,我们更看好Apache Kylin项目。

Apache Kylin项目的1些特性,匹配我们的数据需求和我们当时的现状。数据需求已梳理清晰,要快、要多维查询,Kylin项目对已创建了Cube并构建好数据的数据集上,提供亚秒级的快速查询。并且Kylin还提供工具方便构建Cube、提供API方便对接上游BI产品。另外一方面我们当时的现状是,海量数据库方面我们具有稳定且调优过的HBase集群,这恰巧是Apache Kylin所依赖的数据库选型。综合这些情况,我们通过调研Kylin系统本身能力、Kylin与Sarku的对接情况,和有Apache Kylin研发团队成员现场交换,逐渐启动了基于Kylin的MOLAP引擎构建。预计不久我们将以Kylin为基础,为BI产品、数据API两项数据平台服务提供数据查询能力,以满足公司内的多维数据分析需求。

通过MOLAP建设,与原有地动仪ROLAP相辅相成,面向公司内有数据分析诉求的同事,提供更全面的数据分析平台。

调度系统

调度系统,是大数据工具链的核心环节,乃至是大数据平台化的基础。数据ETL任务完全基于任务调度在有计划地履行,数据任务的关系、数据血缘也需要基于调度系统的能力来自动化构建。

在链家网大数据平台建设之初,最早对原本的Oozie调度系统进行调研分析,发现Oozie与Hadoop集群绑定太过紧密,任务间的状态传递必须依赖HDFS中的文件状态来传递任务状态,这致使1些数据任务需要我们用Hack的手段处理,例如我们的任务是定时“先将Hive数据导到MySQL,再运行1个远程服务器脚本对MySQL统计数据,再将脚本统计的结果发送到xxx@lianjia.com邮箱”,这样的需求,全部进程没有产生HDFS文件的必要,但在使用Oozie时,我们不能不在每步履行完后在HDFS中创建文件以便传递信息。

我们已可预感未来数据任务需求会有所增加,随之而来的数据任务种类也将会扩充,若不做调度系统上的改变,大数据平台的数据任务能力,将会受限于Oozie的使用处景,这与平台设计理念不符,工具应当更好的支持平台建设,而非阻碍平台发展。所以在那时,我们决定自研大数据调度系统,在参考了行业内1些调度系统解决方案的同时,我们梳理了现有的任务种类与可能的未来需求,逐渐排期的实现调度系统必须的两大环节:调度环节、履行环节,并且抽象的设计了他们之间的传输协议,为未来扩大新型履行单元提供了可能。

图5 调度系统前端功能

图6 调度系统后端能力

工具链作为数据驱动纽带,工具化的为上层平台服务提供各类能力,上层平台服务包装大数据平台能力,开放给用户使用。围绕着工具链的建设,大数据平台较改造前的数据加工模式,提供了更丰富的上层数据服务。通过Apache Kylin技术构建MOLAP引擎,与原本的ROLAP引擎相辅相成,搭配基于Presto的AdHoc服务,提供了1站式的快速数据查询、分析平台,并且提供了统1的大数据API,为公司各业务线、数据分析团队、数据利用方提供高可用稳定的数据格式化出口。随着调度系统的逐步成熟,工具链层面的建设逐步完善,平台化的大数据服务,整体较从前有全面的改良。链家网的大数据工作逐步从报表阶段,步入了平台化自助服务的阶段。

技术挑战

固然,在建设大数据工具链的进程中,仍然还有很多技术问题需要攻坚。例如Presto中还未完全兼容Hive SQL语法,需要触及到Presto SQL解析器部份的调剂工作,又例如Kylin如何能够根据指标系统中的指标自动构建Cube,需要斟酌买通指标系统与Kylin系统,或通过自动化的程序来避免数据开发人员的重复操作。工具链中的技术挑战还有很多,但我们清晰的发展线路,让我们有坚定的信心去逐一攻克,也欢迎有志之士加入,1同建设链家网大数据平台。

大数据平台的计划

目前大数据工具链的技术问题,在陆续解决的同时,我们的平台服务、集群、数据管理相干的工作也都在紧锣密鼓的进行中。整体大数据平台长线的1些工作,也在逐步计划着,例如自动化构建数据血缘、调度系统中任务DAG实时关系图、MOLAP与ROLAP的融会、数据API的全自助服务等技术问题。相信未来半年到1年的大数据平台发展进程中,在将平台服务包装的更加优秀的同时,将会积累更多实用的技术沉淀,促进公司、团队、个人共同成长与进步。

在建设链家网大数据平台期间,我们与百度、美团、滴滴和Kyligence有着良好的沟通交换,他们在大数据平台上的沉淀与经验在平台设计计划阶段,对我们的帮助很大,我们也将会在建设链家网大数据平台的同时,通过技术分享的方式与行业内大数据相干的朋友分享交换,帮助营建行业内大数据领域共同进步的良好氛围。

定阅2017年程序员(含iOS、Android及印刷版)请访问 http://dingyue.programmer.com.cn

【定阅咨询】QQ:2251809102 电话:010⑹4351436

想了解更多大数据相干资讯?立即扫码关注吧。

4 : 7659游戏4月份平台数据报告

白癜风患者的饮食禁忌有那些拉萨白癜风医院地址和治疗你好,昨晚用的'触爱cici。朋友说到第二天用冲洗器冲洗,

相关推荐