首届中文NL2SQL挑战赛收官产学研携手推动智能交互快速发展

2019-12-10 01:54
中国科技财富 2019年11期
关键词:南京大学挑战赛产学研

文/本刊记者 陈 杰

筹备8个月,初、复赛鏖战3个月,千支队伍角逐,首届中文NL2SQL挑战赛结果揭晓。

10月12日下午,由追一科技主办、南京大学计算机软件新技术国家重点实验室协办的“首届中文NL2SQL挑战赛”总决赛答辩暨颁奖典礼在南京大学举行。经过最终决赛的5强选手队伍精彩分享、答辩和现场评委考评,决出最终名次。来自国防科技大学的选手团队“不上90不改名字”夺得冠军,国双科技选手团队“BugCreater”获得亚军,观安信息与妙盈科技选手联合团队“Model S”获得季军,来自华南理工大学与佛罗里达大学的选手队伍“大佬带我飞”,以及浙江大学的团队“老哥们不放假吗”则获得优胜奖。

首次举办、首次发布中文数据集,短短几个月,选手们的成绩,已经超过了国外WikiSQL,直奔“九十分”,让众多评委感觉“惊喜”。最终的现场答辩对决,让之前的短暂排名,再生悬念。

由众多人工智能大咖组成的专家评委团,包括中国移动研究院首席科学家冯俊兰、复旦大学教授肖仰华、新加坡南洋理工大学副教授毛可智、南京大学教授俞扬、追一科技CTO刘云峰等产学研多方代表,在决赛现场对选手们的技术方案,进行了专业精彩的分析点评,从而产生最终结果。从AI与数据库交互,到更广阔的创新空间,自然语言处理的“技术大年”味道越来越浓。

“此次挑战赛参与规模、选手表现远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。

NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。

此次NL2SQL挑战赛是国内首次举办,期间,追一科技发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句,并获得很多学界专家、产业界伙伴的支持,通过“产学研”等多方联动,希望提供一个平台,来推动NL2SQL的研究和应用。

“直接用自然语言访问关系型数据库一直是业界梦想”,嘉宾评委代表肖仰华表示,随着对大数据价值的重视,这一愿望更变得日益迫切。此次比赛的发起和中文数据集的公布,在短短的时间里,加速了NL2SQL研究设想的实现,“最终选手的成绩,完全超出了我们对于比赛的预期。”

经过选手的不断努力与探索,比赛任务短期内就达到与英文数据集上相当水平的分数,并持续刷新记录。比赛初期,准确率尚为60%多,至8月份初赛结束时,榜上头部分数已经达到89%,接近WikiSQL成绩。复赛结束时,选手最高成绩达到92%,并且,最终晋级决赛的5支队伍,个个都在“90分”以上。

据了解,本次1457支参赛队伍中,院校和企业参与者各占“半壁江山”。其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。

虽然本次比赛的数据内容是中文形式,但仍然吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶级院校参与,包括卡内基梅隆、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。

作为新兴NLP研究任务,NL2SQL在专业难度上,也对选手提出较高要求。据了解,本次参赛选手中,硕士及以上学历占比57%,其中,博士学历占比6%;而专业分布上,计算机科学专业背景的选手则属于参赛主力。

在如火如荼的比赛背后,NL2SQL应用潜力,也受到了越来越多的瞩目。来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。

“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”刘云峰博士表示,中文NLP研究与应用突破需要产学研界的同共努力。

猜你喜欢
南京大学挑战赛产学研
谆谆教导 殷殷期望——南京大学师生热议习近平总书记给南京大学留学归国青年学者的重要回信
推行产学研一体化基地建设
基于产学研三位一体的高校旅游管理专业人才培养研究
21天习惯养成挑战赛
基于“产学研”协同创新的针织专业人才培养模式改革探索
南京大学学报数学半年刊 第38卷 2021年 总目次
《南京大学学报数学半年刊》征稿简则
Ps挑战赛
Ps挑战赛