风报是一家面向企业,基于公开信息的企业情报分析及风控系统,在风报的搜索引擎上输入人名、公司名称等,可以快速获得所有的关联信息,包括企业投资过哪些企业,以及相关股东(包括二级股东)、甚至这家公司可以和哪家公司进行财产转移,都会以简单明了的形式呈现。2015年9月正式发布以来,风报已拥有500多家企业用户。
创业邦了解到,风报已完成数千万级的 Pre-A 轮融资。
在公开数据中搜集信息
风报联合创始人兼CTO闵可锐说,风报相当于一个垂直行业的百度,不仅罗列了企业信息,还做了结构化的梳理,将信息自动整理和归类,通过信息量来确定关联程度,并把数据图形化。
风报通过对司法文书的语义分析,形成完整的关联图,挖掘更多关联背后的真相
此外,风报还可以对企业性质进行判断,比如是否具有风险信号,是否曾为失信被执行人,是否存在刚刚立案的官司,税务是否正常缴纳等。这些信息还可以通过绑定微信直接推送给用户。
闵可锐对创业邦说,目前风报最早可以检索到2003年的信息,并且以小时来进行更新,新增的数据量每天在2000万左右。
而风报的数据来源主要分为两个方面:
1. 偏政府的信息,包括行政信息、司法信息、工商信息、专利登记信息等。例如开庭公告、裁判文书,审判结果执行情况等。目前,风报覆盖了12000家政府类网站。
2. 偏媒体的公开信息。风报把过去14年的20亿条经营类事件分为23类,捕捉对企业情报、风险有特定指向的事件,如高管变动、员工情况、是否有项目破产或暂停、是否有大股东增持或减持、业务上是否有变动等等。
从语义数据分析平台衍生而来
事实上,风报是在“玻森数据”的基础之上开发的一款产品,后者也是风报的技术核心。风报的创始人兼 CEO 李臻说,作为连续创业者的他,很看好人工智能这个方向,而中文文本处理及语义分析是人工智能很重要的一个方面,因此2012年7月,他成立了开发自然语义引擎处理平台的玻森数据,第三方公司可以利用这项一平台进行数据分析场景和产品应用场景的开发。
目前玻森数据上注册了4000位开发者和用户,分别为科技公司的开发者、研究咨询公司的数据分析部门、社交媒体的监测分析公司、舆情公司的引擎分析部门、品牌商的客户分析部分等。
总体来说,玻森数据可以实现以下几个方面的分析:
1.分词和词性的标注。
中文没有明确的词的定义,词与词之间没有区分符,这是中文处理首先会遇到的一个挑战,因此,玻森通过机器为词语加上分隔,并匹配相对应的词性。
2.实体的识别,也就是具体的产品、地点、时间、职位等名词。
闵可锐说,之所以能在这么短的时间内把这些词提取出来,绝不是玻森有所有词的名单列表,而是通过更长的上下文来决定词性,这也是和传统的关键词匹配方法和语义分析方法较大的区别。
3.文法分析,让机器去理解文章的结构。
4.情感分析,基于实体级别及语义的正负面程度分析。
在美国,与玻森类似提供语义分析引擎的公司AlchemyAPI在2015年被IBM收购,作为IBM Waston体系的布局,只是前者处理的是英文,而风报提供中文的处理分析。李臻说,中国在自然语言处理引擎的使用跟美国有较大差异,美国有很多的二次开发者和商业模式的开发者,但中国更看重结果的分析。这几年来,他们也一直在寻找一条更好的变现途径,恰逢中国开始推行政府公开化,同时,媒体信息也以几何倍的数量增长。因此,2015年,他们在玻森NLP(Natural Language Processing 自然语言处理系统)的基础上设计了自己的产品,就是风报。
未来会开发更多功能
目前,也有一些具有类似功能的产品。但李臻说,基于玻森数据在NLP技术上的优势,风报在数据种类及深入分析上更为全面。
下图为玻森曾做的自然语言处理系统在分词引擎上的测评结果:
创业邦了解到,风报根据客户查询和关注的公司数量进行收费,通常会根据企业全年需要关注的企业数量给出定价。
李臻说,未来风报将不断扩充数据源和数据分析功能,尤其是在专业性上。在服务某些特定行业,数据和功能可以形成某些行业特点,因此,针对某些专业领域的数据分析,风报会开发更多的功能。
也就是说,风报可能会衍生出有功能特性的版本,比如,根据行业对功能和特性做出调整。但李臻也说,目前最重要的还是把通用的功能做完整。
同时,风报也会使查询方式更为便捷,无论输入公司、产品、人都会找到关联企业。