电子报
电子报

郑大人工智能领域的“探索者”

———记我校第五届“英特尔杯”全国并行应用挑战赛银奖获奖团队







  在第五届“英特尔杯”全国并行应用挑战赛的现场,面对“基于自然语言处理(NLP)的金融营销活动情感分析”这一赛题,物理工程学院2016级的钟发海在5分钟内,向各位评委阐述自己所在团队编写出的程序模型。在历经了与来自中国科学院计算所、清华大学等300多支国内强队的激烈对抗后,由我校物理工程学院罗荣辉副教授和超算中心尚远博士带领的钟发海、袁航、刘枫、潘梓恒团队,以第二名的优异成绩,斩获了人工智能赛道银奖。
  从决定参加比赛起,钟发海等人就毅然选择了今年新增的“人工智能”竞赛组。“人工智能包括研究机器人、图像识别、自然语言处理等领域,它通过输入大量的数据对模型进行训练,使模型积累一定的经验之后对新事物做出判断,其实就像人学习的过程。”钟发海说自己团队选择人工智能赛道的原因正是看中了它可以模拟、延伸、拓展人的智能。
  “我们最终炮制出的模型是采用人工智能的方法,在自然语言处理的基础上对金融营销活动做情感分析。”钟发海这样解释自己团队模型的研究理念,“比如从网上抓取下来一些关于金融营销活动的评论,输入到模型之后,我们可以通过这个模型来判断发表评论人的情感,帮助金融运营商对他们的营销活动做出评估。”虽然他们团队大胆尝试了新的研究领域,放弃了传统的优化和应用赛道,但国内外用人工智能做文本情感分析都没有特别多的研究,所以他们一路艰难地摸索着。
  在此之前,国内外在用人工智能文本情感分析上,大都采用二分类的方法,只要求把文本转换成积极、消极两种情感,或者正、负两种类别。但这次比赛中却要求选手增加中性这一情感类别,原来很多二分类的方法都不再适用。如何创新出一种适合的方法成了团队当时面临的主要困难。“我们查阅了特别多的国内外文献,但在8月初,团队建造的模型还是不能用,那时候离比赛截止日期只差10天了。”现在回想起来,刘枫还是有些紧张,“我们整个暑假都留校了,进入8月份,几乎每天都是通宵,困了,就在实验室外面的沙发上躺一躺,有时候用几个椅子拼在一起将就着眯一会儿。”
  经过几十次的尝试,钟发海等人在做了数据预处理后借鉴了微博和电商评论文本情感分析的方法,把传统的规则、统计学的方法应用到金融营销评估中,最终研究出了能够实现三分类的分析方法,实际分析准确度达到60%左右。“这是一个没有多少人研究过的领域,我们并不知道要达到什么程度才算好,得到一个结果是很简单的,但我们并不清楚我们得到的这个结果处于哪个水平,所以就想不断地提高它。”钟发海说道。因为当时国际研究二分法的精确度已达到 90%以上,想不断向国际前沿靠拢的他们,在不断优化数据后,最终达到了82.2%的准确度。
  除了要创造出新方法来进行三分类外,钟发海等人在实际尝试中还面临数据处理的问题。要想把文本转换成情感,首先要对文本数据进行识别。“数据库里给了很多类似颜文字的数据,机器没有办法识别,所以我们在进行三分类之前,不得不先对这些数据进行清理,删除不能使用的数据。”
  从4月份选择参加比赛,到10月份获奖,7个月的时间里四位同学不断磨合,共同进步。管理工程学院2015级的潘梓恒回忆起几个人最初在一起的场景,感慨道:“我们四个人在不同的年级,有的甚至还不同专业,都是因为兴趣才把我们聚到一起。我开始对主办方提供的平台也不熟悉,但因为团队需要,我还是愿意尝试一下,最后研究出的方法也是几个人一起想出来的。”
  除了几位队友的帮助,钟发海还受益于院系和老师一直推崇的“以赛促学”的教学理念。在几个月的时间里,罗荣辉老师坚持让团队里的学生每10天给自己汇报一次研究进度,在研究方向上给学生以指导。“对于我个人而言,这是一次蜕变,从以前每次都由于紧张在关键时刻把比赛搞砸,到现在面对十几位专家评委,仍然能够在答辩场上镇定地讲解演示文稿,团队几个月的共同努力,以赛促学的教学思想让我得到了很多锻炼,正是老师不断鼓励我们参加各种比赛,才让我们积累了很多经验。”
  “目前我们实验室在做的导游机器人也用到了这次比赛所研制出的模型。”团队成员袁航表示。除了对实验室的后续研究产生重要影响,这次探索也是我校物理工程学院首次在自然语言处理(NLP)方向开展新研究、新尝试,标志着我校在自然语言处理研究方向上有了新进展。除此之外,该模型在实际的生活应用中还可以为政府部门提供舆情分析。