自然语言处理是一门集计算机科学、统计学、文本数据挖掘和语言学于一体的新兴综合学科。其目的是使计算机系统能够“理解”人类语言,帮助人类从大量杂乱无章的非结构文本文件中发现有用信息,并找出内在的联系及发展的新趋势,因此被视为下一代搜索引擎技术的基础。“目前国外已有成熟的自然语言处理系统,而国内这方面至少还有5年的技术差距。我们的目标就是打造我国唯一可以商业化、实用化的自然语言处理系统,缩小国内外的数字鸿沟。”济南易夫森科技有限公司总经理李晓戈说。
1995年,李晓戈从中国科学技术大学计算机专业毕业后,先后赴亚洲理工大学和加拿大滑铁卢大学求学,之后在美国工作,一干就是八年。自2000年以来,他先后在美国Cymfony和Janya公司从事于自然语言处理、智能搜索、自动问答系统和文本数据挖掘方面的研发工作,历任高级研究员和研发部主任。在美工作期间,李晓戈先后负责和参加了多项美国国防部中小企业研究创新项目,累计获900多万美元资助,研发了基于自然语言处理技术的信息提取引擎。在搜索业界年度盛会TREC问答系统比赛中,他首次在自动问答系统中应用自然语言处理技术并获得第一名,为公司赢得了华尔街风险投资人1200万美元的投资。
2003年,李晓戈与赴加拿大考察的济南代表团取得联系,考虑到国内尚没有成熟的中文自然语言处理系统,萌生了回国创业的意向。2006年,李晓戈参加了海洽会,2008年9月,来济创办易夫森科技有限公司,主要是做中文自然语言处理技术的研发和应用。
易夫森企业成立距今只有两年,但在中文自然语言处理系统研发方面已取得了丰硕成果。公司先后与加拿大滑铁卢大学、香港科技大学、山东大学、中国人民大学等院校建立了密切合作,并在北京建立研发机构。具有自主知识产权的中文自然语言处理和信息提取平台已研发成功。该系统采用了模块化、分布式、统计学和人工规则相结合的设计方法,能自动分析处理大量文本文件,找出人物、产品、组织机构、时间、地点等实体和事件信息之间的相互关联,技术水平达到国际先进水平。
在这一平台基础上,易夫森公司开发完成了智能人事招聘系统和人物社会关系搜集与分析系统。智能人事招聘系统利用先进的自然语言处理技术,自动分析用户的简历和岗位要求,以概览方式自动搜索匹配排序,改变了传统的招聘系统用户需填写大量的繁琐求职招聘表格、人工查询搜索的简历和岗位需求的方法,大幅度的提升了使用者真实的体验及工作效率。人物社会关系搜集与分析系统利用互联网信息,自动分析产生各种实体(人物,组织,时间,地点)概览,利用本公司特有的跨文件信息聚合方法,可自动搜集分析给出人物和组织机构之间、人物和地点之间及人物和事件之间的关系,以此给出事件活动的趋势预测。“中文自然语言处理系统有着非常明显的先进性,以前我们应该依赖关键词,一条一条检索某人的简历,现在只需将搜索目标锁定,计算机就可以自动生成个人的详细简历、社会关系”,李晓戈解释说,对于普通大众而言,这种技术能大大方便检索信息。
谈及下阶段的目标,李晓戈表示,目前易夫森公司正在开发一系列应用产品,并进行市场推广。今后,公司将充分的发挥技术特长,逐渐完备自然语言处理和信息提取平台,在企业商品市场情报分析、自动搜索问答系统基础上开发新的自然语言处理技术应用系统,提高我国信息化应用水平。同时,公司将以合作开发、市场分销和软件服务等方法,迅速占领市场,带动产业高质量发展,为打造济南软件名城贡献力量。争取3至5年内,建成国际一流的中文自然语言处理技术服务公司。