数塔.Datale基于收录的全国3000万+企业大数据,为政府、园区、金融机构及中小企业提供专业的企业大数据智能服务。
导航: |
数塔.Datale
基于机器学习的企业评价系统
成都探码科技有限公司
目录
数塔.Datale基于机器学习的企业评价系统
数塔.Datale是一个基于大数据采集、机器学习、模型算法、知识图谱、数据洞察的企业大数据平台。
数塔.Datale基于收录的全国3000万+企业大数据,为政府、园区、金融机构及中小企业提供专业的企业大数据智能服务。从企业查询、成长性评价、投资价值分析、行业洞察、指数排名等业务场景出发,帮助机构及园区大幅提升信息管理水平。
打造服务政府部门的企业评价决策支撑平台,服务园区机构的企业指数排名及企业洞察平台!
从2014年中央经济工作会议首次明确提出“大众创业、万众创新”,到2015年正式写入《政府工作报告》,近两年来,创业、创新已成为社会发展的一个主题词。2016年,在全球融资总额整体下降的大趋势下,我国融资总额逆势增长,涨幅为10%。2017上半年国内共发生2786例投资事件,融资总额达3252亿元,平均投资额度创历史新高。但是也发现几个问题,部分地区出现双创虚热,质量跑不过数量的线下;部分地区出现付出多、回报少的主体获得感低。少数地方在“双创”中出现的“浮、漂、虚”的现象值得高度警惕。如果通过大数据征信、风险、评价预警等平台,可以及时预判,使政府和机构在开展“双创”工作更加精准和有效。
同时,近年来政府对金融科技行业的监管更加严格了,行业乱象被清理,政府、企业、包括个人均越来越重视数据保护。市场上对私业务被监管、限制,对公业务需求则在持续稳定的增长。这对探码科技的发展来说是一个非常好的趋势,契合我们一直坚持做企业大数据智能评价服务的核心战略。
市场对企业端智能大数据服务需求猛增。而基于此的大数据增值服务也将迎来黄金时代。在未来,大数据产业的核心竞争力将不再是数据,更多集中到对数据的分析、挖掘结果处理上,如何应用它给业务带来价值。
经市场调查研究发现以下现状:
一、由于企业谎报隐瞒企业信息,导致政府、园区机构等难以清楚的掌握企业的运营风险及经营财务指标(包含企业成长能力、现金流、偿债能力等各项指标),也因此难以掌握企业经营状况,评估企业稳健发展的可能性。
二、企业在申报项目时,无法准确的评估项目的可行性以及相关联项目的在同地区同行业排位水平。这些痛点最终导致政府对企业的扶持难度增大,优质项目难以抉择,园区机构投资风险增大。
第一是如何获得精准的目标客户,对于中小企业来说获得客户很大部分都是依靠黄页,地毯式扫楼,或者朋友介绍,这存在的一个问题就是效率低而且成本高;
第二是如何有效地对老客户进行维护,企业BRM上冗杂的信息缺少优化的工具,难以从中筛选出有限营销线索;
第三是如何提升业务能力,客户的获取以及老客户的维护难,直接导致了业务能力的下降;
第四是如何提升企业在行业当中的品牌竞争力。
对于个人用户可以查到企业的工商信息、股东法人信息、诉讼失信信息,以及招聘、市场活动信息等;
对于2B企业通过分析和挖掘全网在线企业数据信息,再结合企业内部的BRM系统,为2B企业精准挖掘潜在企业客户;
对于金融机构提供征信查询,同时还可以查到人和人、人和公司、公司和公司之间的关系;
对于政府、园区提供企业排名指数、成长价值平台报告、多维度企业发展潜力分析报告。
该项目,通过信息聚合、过程优化及资源优化,通过探码Datale智能Web大数据采集、机器学习、模型算法、知识图谱、时序分析等高新技术,使用数塔企业大数据,能缩短企业挖客的时间,提高获客的精准与效率,降低成本,改善服务,提高企业的市场应变能力和竞争能力;控制金融机构投资的风险,提供政府政策决策的支撑。
在大数据的发展浪潮下,成都探码科技有限公司通过大数据技术创新,自主研发业内领先的数塔•Datale大数据企业评价系统。数塔•Datale大数据企业评价系统深入研究大数据平台技术和应用技术,为满足顶层大数据应用需求,自主开发大数据能力,实现企业大数据外部与内部CRM的大数据分析挖掘存储,打造了ID关联模型、用户深度标签、行业知识库、分布式爬虫、数据可视化等平台即人工智能技术的企业大数据SAAS平台,并以标准化应用程序编程接口(API)的形式支持顶层数据的相关应用,打造企业成长价值评价系统、政府决策支撑平台、企业精准获客工具、企业舆情监控平台、行业指数排名工具、开发API信息查询6款企业大数据核心功能。
数塔•Datale大数据企业评价系统技术架构下图所示,其底层平台基于开源技术搭建,融合了离线批处理、内存计算、流计算等多种计算模型,以及关系型数据库、列数据库、内存数据库、图数据库等多种数据库模型,向上提供计算和存储能力;并结合机器学习、知识图谱、时序分析等技术在大数据开放能力层,研发了企业画像、ID图谱、用户标签等多种大数据分析挖掘技术,并结合第三方的地理信息系统(GIS)等能力,面向多个行业领域,向应用层以API 的形式提供多种数据服务。
数大数据企业评价系统技术架构图
数塔•Datale大数据企业评价系统主要研发了企业画像、混合数据库、ID关联模型、用户深度标签、行业知识库、统一数据采集与存储等几项关键技术。
融合关系型数据库、列数据库、 内存数据库、图数据库,并提出面向不同存储过程和计算需求的混合数据库模型,可以满足多种场景下的数据处理需求,解决单一数据库模型无法满足大规模数据训练、高频高实时性计算、网状结构计算等不同场景下的数据处理问题。
如图所示,海量数据计算使用非关系型数据库(NoSQL)来支持;网 状结构数据的机器学习训练依靠图数据库(Neo4j)来支持;高频高实时性计算对接内存数据库(Redis);小规模顶层数据查询与展现对接关系型数据库(SQL)。
混合数据库模型
具体来说,包含4点内容:
(1)能够实现有一定实时性需求的、传统千万级及以下的数据查询与 展现业务,并基于传统关系型数据库MySQL来构建。通过加载数据预读取算法,MySQL的单机处理能力可以达到秒级访问5000万条多维数据的水平,能够满足一般的数据查询业务需求。
(2)对于千万级以上的数据查询业务,已超出单台MySQL的支持水平,更适宜转化成离线查询业务,直接使用非关系型数据库HBase来支持。此时数据查询的范围可扩展至数十亿甚至上百亿,系统仍可平稳输出查询结果,前提是付出分布式离线计算的延时代价。
(3)对于在深度包检测技术(DPI)数据的 K-V 查询过程中需同步完成标签数据在数塔本地服务器的ETL工作的场景,任何传统磁盘输入输出(IO)基本都无法支持该高频数据存取操作,则借助内存数据库Redis 来完成。Redis可在典型的单台计算资源下支持100毫秒级的数据ETL操作,并且可以与 K-V 查询进行无缝衔接,轻松应对每日2亿条标签数据入库。
(4)对于图状数据结构,如数塔平台中典型的企业大数据SAAS平台,则适合从边和节点的角度进行数据存储、表达和计算,无论行数据库还是列数据库都不再适合,因此采用图数据库Neo4j来支持。
目前,数塔•Datale大数据行业应用平台支持1000万级多维数据的秒级查询展现,10亿级多维数据的24 h内基础演算,10毫秒级的数据流处理,并可秒级完成10亿级边、1000万级节点的子图查询运算。
基于图计算技术构建ID关联模型,采用图数据库进行数据存储和模型计算,实现DPI数据内的多种用户ID关联,解决了企业大数据内部与外部数据有效关联和拼接的问题。利用机器学习技术学习专家打分,模仿专家对企业价值评价的决策过程。建立评价模型,通过自动高效地对上传数据的企业进行多维度、全方位解析,反映企业价值、企业成长性与成长趋势。它是一种对企业的持续分析与动态评价。最终形成一套企业成长性评价报告,是基于大数据与机器学习技术建立起企业成长性评价模型的结果体现,形成企业的深度画像。
企业投资价值报告
根据用户上网行为、使用机器学习和模式识别等算法,如树状增强型朴素贝叶斯(TAN)分类算法等,推断用户的性别、年龄等基础人口属性,并打造消费偏好、消费能力等其他深度标签,用于支持用户行为分析的大数据应用。
目前,数塔•Datale大数据企业评价系统已构建超过10个行业的总计6000余类用户深度标签。
通过整合数据采集、数据存储、数据形式化、数据表达等环节,打造完善的行业知识库,为各行业网络大数据的解析提供必要的支持。其中,行业知识库的构建包含以下环节:
(1)基于分布式爬虫进行数据采集
如图所示,分布式爬虫DTSpider基于开源技术WebMagic与内存数据库技术Redis而研发,搭建在云主机上,提供行业知识库数据采集解决方案。
分布式爬虫DTSpider
(2)面向垂直行业构建知识体系
如图所示,行业知识库面向如电商、新闻、影视等不同的垂直行业,分别构建树状知识体系,能够直接对接标签能力应用。例如,电商行业的树状知识体系,可按照商品类别进行构建,如图书、服饰、运动健康等。
行业知识库
(3)深挖垂直行业知识详情
基于从页面抓取的标题和正文,经自然语言处理得到知识详情,例如电商库存量单位(SKU)名称、价格、参数、评论等。
目前,数塔•Datale大数据企业评价系统的行业知识库整体字典规模超过1亿。
面向企业填报数据、互联网公开数据和企业自有数据等多种数据类型,分别构建数据采集能力,并定义了统一的数据采集接口与存储接口,解决了多源异构数据的采集与存储的相关问题。
(1)探码Web大数据采集
探码Web大数据采集系统基于云计算的大数据采集。主要特征是利用许多云计算服务器协同工作,能快速采集大量数据,而且也避免了一台计算机硬件资源的瓶颈,另外对数据采集的要求越来越高,传统post采集不能解决的技术问题也逐步被解决,以探码Kapow/Datale采集器为代表的新一代智能采集器,能模拟人的思维,模拟人的操 作,从而彻底解决了ajax等技术难题,因为网页一般都是设计来给人浏览的,所以能模拟人的智能采集器工作起来就非常顺利,不论后台技术是什么,当数据最终显示在人的面前的时候,智能采集器就开始提取。这最终把计算机的能力发挥到了极致,使得计算机可以代替人做所有网页数据采集的工作。并且利用大数据云采集技术,把计算机的计算能力也发挥到了极致。目前这一采集技术得到
了越来越广泛的应用。各行各业只要是需要从网络上获取一些 数据或者信息,都可以使用此类技术。整体框架如图所示。
数塔•Datale是一个基于探码科技Datale智能大数据Web采集、机器学习、模型算法、知识图谱、时序分析等人工智能技术的企业大数据工具平台。