您现在的位置:首页 >> IT >> 正文
个推-构建基于LBS的大数据应用
发表时间:2015年7月10日 13:35 来源:新科技 责任编辑:编 辑:麒麟

移动互联网时代,“大数据”是关键词之一。作为推送技术服务行业的领跑者,个推不断进行技术革新引领推送革命。在20154月底,个推正式对外发布其划时代意义的推送3.0产品-“应景推送”,深挖用户使用场景,结合地理位置信息精确命中不同用户的各类需求。在不断服务拥有亿级用户的大客户的过程中个推通过自身平台积累的海量数据发展了大数据技术,专注于移动推送技术的个推,同时具有利用大数据实时监控和分析海量用户位置信息的能力。

个推产品目前经历了三个阶段的进阶:

个推1.0 实时推送 — 技术指标领先于竞品,最大程度覆盖用户

个推2.0 智能推送 — 合适的内容推给合适人,有效降低用户打扰

个推3.0 应景推送 — 合适地点合适时间触发,精准捕捉用户场景

个推3.0产品最重要的技术——电子围栏技术:电子围栏是精确捕捉用户场景,实时给用户推送有价值消息的手机推送解决方案。客户根据业务需求,在地图上设置电子围栏区域和目标用户属性,通过冷数据画像(结合大数据分析,筛选目标用户)以及热数据投放(当目标用户进入电子围栏实时触发),做到在合适的时间、合适的地点、合适的场景、把合适的内容、推送给合适的人。

构建基于LBS的大数据应用,一般的实现流程为:通过信息收集后进行基础数据的整理,数据挖掘/机器学习,服务搭建以及数据可视化等。

 

数据挖掘的基本流程

基础数据的处理主要包括:数据集成和一些部分数据处理。

数据集成,数据挖掘或统计分析可能用到来自不同数据源的数据,我们需要将这些数据集成在一起。但如果只有一个数据源,这一步可以省略。

基础数据处理,有些数据是缺失的(数据属性的值是空值),有些数据是含噪声的(属性的值是错误的,或有孤立点数据),有时同样的信息采用了多种不同的表示方式(在编码或命名上存在不一致),基于种种问题要对数据进行基础的处理。通过基础数据处理,可以确保村人数据仓库中的信息是完整、正确和格式一致的。

数据转换主要是利用现有的字段进行运算来得到新的字段,通常说到数据变换主要包括四种:数据离散化(采用分箱等方式)、产生衍生变量、使变量分布更接近正态分布、数据标准化。如果对连续变量进行离散化,可以避免引入任何分布假设。这样就不需要符合正态分布了。

数据挖掘时只根据数据库中的数据,用合适的数据挖掘算法进行分析,得出有用的信息。其中,模型算法质量的评价是很重要的一步。且数据挖掘是一个循环往复的过程。

基于LBS的大数据应用需要解决很多问题:基础数据问题比如海量数据流(>20W /s)、数据处理性能复杂计算(定位和统计)、准确率、秒级实时性要求、以及数据的实时性等。对此,个推的解决方案是:分布式流式计算框架、Spark Streaming、发布/订阅模型、Apache KafkaEvents等。

最后,基于大数据的LBS应用,可以使用分布式流式计算框架,构建数据闭环,从而实现持续优化基础数据。

2015年,个推曾作为杭州白马湖动漫节的安全保镖保障动漫节圆满落幕。本次动漫节依托个推的大数据平台和移动互联网技术,通过海量的样本数据采集和分析,以实时人流热力分析图为主要服务接口,监控动漫节期间杭州滨江区白马湖动漫广场附近的人流去向和拥挤程度。这一项部署建立了白马湖区块的实时监控和人流预警系统,在人流量超过一定数量的时候实时发布预警,从而及时提醒相关人员注意对应区域的高峰人流量疏散和引导,从源头上防范踩踏事件及避免安全隐患的发生。

个推还把电子围栏技术和大数据的运用深度拓展到与国家地震网和旅游局等的合作,如通过将大数据分析和推送相结合,在发生地震时实时警报,并通过大数据对人群热力图的分析,为震后救援工作定制合理方案及提供有效帮助。又比如个推与旅游局合作,将旅游分析热点图与实时推送相结合,用于疏散和引导景区高峰人流量,避免危险事件发生。

个推作为为开发者提供推送技术服务的“送水工”,在拓展新技术的同时也正在为服务公益项目做出越来越多的贡献。

相关文章
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备15027068号】
Copyright © 2015 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。