缪天鹏 1 ,韩建军 1 ,王振江 1
(华中科技大学 核算机科学与技能学院,湖北 武汉 430074)
摘要:语义智能化开展是大数据技能国家严重战略需求,也是核算学、数据科学、信息科学和管理科学等学科的世界前沿。在大数据环境下,数据的规划、类型、结构和增长速度发生了质的改变,传统数据剖析和处理的核算学理论和剖析办法已不能满意大数据年代下的种种需求。本研讨拟环绕大数据剖析与处理的核算学根底理论与剖析办法的中心问题和难点问题,略析言语大数据处理虚词形状新办法, 为大数据技能开展和未来智能查找引擎等运用供给新根底理论和办法支撑。
要害词: 语义了解;查找引擎;古汉语;虚词;形状特征
* 本文得到国家天然科学基金项目(61872411)赞助。
1 认知、互动的智能需求
Internet互联网广泛运用,人们对信息查询的要求越来越高,现在查找引擎中全文检索都是依据要害词匹配的,在不断胀大的用户需求面前,中文查找所展示出的局限性越来越不行忽视,其间之一便是它不能区别同形异义,岐义现象的发生是没有树立完好的语义了解支撑,完好的语义了解是智能化查找引擎的根底中心。西方言语是粘连型言语,而汉语是剖析型言语,依据汉字的三要素音、形、义进行解析,解“义”而言汉字(词)分为实词和虚词,在现有的查找引擎中,往往经过实词及要害词匹配来满意检索需求,汉字的虚词常被疏忽,而用户查询语句的实在意向得不到完好的语义了解 [1-2] 。明显,汉语虚词虽无“意”却有“形”,但在语句中具有语法等功用形状,疏忽虚词、虚(词)实(词)联系是构成歧义现象的根本原因之—。
汉字一词多义现象也与虚词的形状改变相关,多义性导致字词的智能化辨义解析程度下降,呈现查询精度不高、检索功率低劣等现象,为此简略的要害词匹配(实词)和完好的语义匹配(实词+虚词)是有本质区别的。虚词虽无义却有形,其形状量化与联系是首要任务之一,清楚了形状联系也就处理了语句中实词与虚词调配组句的语法、语义、语用形状特征,汉语虚词形状信息提取及量化剖析是智能化语义了解不行或缺的 [3-4] 。换言之,词汇语用批改了词汇语义在词语挑选与词语了解上的缺点,并指出语境化是了解和运用词语的要害。词汇的运用和了解不仅仅是一个言语问题,更是一个语用与认知(语感)的问题。
现代汉语虚词约800左右,而古代虚词约1100左右,白话文是古代的书面言语,也是现代汉语的源头,追根究底,从繁至简,正确了解现代汉语虚词的演化规矩和形状变迁,唯有从白话虚词的形状联系(安稳常识源)剖析着手,力求寻觅汉语虚词的天然演化规矩 [5] 。
智能化查找引擎面临的汉言语语是一种混合型文体(现代汉语+特别文体),特别文体包含诗词歌赋白话文等,无疑在现代言语中白话虚词古为今用举目皆是。白话虚词四种完好形状包含单音、复音、定式调配、惯性词组,经鉴别该虚词的完好构词数量,以确保分词定位匹配的正确精度。确认虚词在句中的方位、形状、联系,也就确保了语句的语法、语义、语用方向判别和逻辑推送的可核算性,然后为智能化查找奠定了根底。
虚词的虚化程度点评系统是树立真假联系、量化点评评测、虚化程度散布、类似度剖析以及真假用的概率核算剖析 [6] 。虚词联系模型的树立是言语数据预处理的必经之路,也是翻开未来智能汉语语义了解之窗。
2 感知到认知的数据处理
本研讨首要分为数据预处理和数据分类规约处理。正确的了解现代汉语虚词的演化规矩和形状变迁,为白话虚词的常识规矩结构化处理及定量定位定性剖析作预备。文本数据发掘有必要树立专家常识库、样本语料库,其间包含对数据的净化、转化、变量的整合以进行数理核算、数据发掘、人工智能等技能运用,结构以虚词为中心的大数据发掘渠道。
2.1 拟处理的要害问题
拟处理的虚词形状、形状联系及要害技能问题:
①虚词构词形状的四种方式区分,词序联系形状.
②虚词虚用\虚词有用的词法形状.
③虚词的句法形状,句位形状.
④真假比联系.
2.2 研讨内容及办法
2.2.1 了解数据和数据的来历
核算常识库的常识转化为规矩的静态数据处理,详细而言将虚词字典的常识内容进行常识规矩区分,依据符号界说和符号规约,完结常识到规矩的结构化处理。
常识库的树立是将传统的常识字典依照现代数据处理办法分层分类。语料库是依据常识库相对应的常识规矩,抽取样本语料进行规矩验证和规矩升降维处理,以满意规矩相信度、类似度、精确匹配以及匹配命中率核算剖析。常识库转化为规矩库是经过语料验证匹配才干构成种子规矩,以便于精确匹配和进步匹配命中率 [7] 。
2.2.2 获取相关常识与办法
在树立虚词的分层分类方位方式上实施定位剖析,由于虚词没有严厉形状特征,却有句位特征,如“择善而从之”(句末特征),以便于句位的核算概率规矩剖析。定量剖析可分为四种方式(单音虚词、复音虚词、定式调配、惯性词组)的虚词量化剖析,用以满意虚词为中心词的分词区分技能加核算剖析来完结,然后到达完好语句中的虚字虚用/有用的分层分类 [8-9] 。
形状特征分类:
(1)0层 根本形状特征1:构组词联系(单音、复音、定式、惯性词组),词序(间)联系,真假比联系(真假用联系、虚词与方位联系、虚词与语义语用联系)。言语形状与词汇映象。
(2)1层 根本形状特征2:句法形状(陈述句,疑问句,祈使句,感叹句),句法成分形状(主语,谓语,宾语,状语,定语,补语)。言语形状与句法映象。语义结构形状标示,语用功用形状标示(判别句,省略句,倒装句,被迫句,固定句式)。言语形状与句式映象。
(3)2层 语义结构形状。虚/实 义结构。⋯
(4)3层 语用功用形状。虚/实 用结构。⋯
总归,0~1层的根本形状是从语形学视角剖析词汇相关符号与符号之间的联系。而语义学重视的是 有关符号与符号所指之间的联系。语用学则是有关符号与解说者之间的联系。虽有殊途同归,但语形、语义、语用的三者联系而言,语形以语义为条件,语义是从语用中笼统出来的。而语用学是符号学根底,切当的语用特征是它处理符号化进程的不同形状(如句位形状)挑选相同暗含语用信息(言语环境、攀谈目标或言语事情等)[10] 。上下文环境目标事情从语用视角延伸至语境都是认知言语学根本领域,而句位形状引进展示人类言语习得进程和机理,认知形状的又一新视野。
2.3 整合与查看数据
定性剖析在完结了定量定位剖析的根底上,常识到规矩转化经核算完结各虚词特定方位所表达的意合概率以及分层聚类处理。
2.4 数据整理,去除过错或不一致的数据
虚字的真假不分会构成数据的不一致性,虚字有用在真假化核算剖析中客观反映量化剖析的每一个字的虚化程度,然后将字的虚化演化进程从静态到动态进行清楚的量化特点剖析。经过方式量化、数理核算等办法,将常用虚字18(A集)对应中学语料117篇进行真假分类得出四种方式与频度的联系。确认了虚字在句中的方位、句位和方式以及规矩散布和各概率散布映象,再经过相信测验和语料保证测验,使其样本依据具有满意的相信度 [11] 。
依据字典的常识理论定性剖析得出依据A集18常用虚字的真假比分类效果。经过字的真假规矩形状确认,该句的语用功用语义结构方向判别清楚,有用下降了歧义现象的发生。
2.5 数据域界说
历时数据的收集:经历+常识=规矩(虚词字典)
共时数据的收集:中学语文常用虚词18(A集)+大学语文常用虚词36(B集)+专业言语作业者常用虚词49(C集)
语料数据的收集:字典典范对应语料,中学白话文117篇,古文观止220篇,历年全国语文高考语料实例
经过规矩结合核算的办法完结常识到规矩的数字化处理,加上句位剖析、虚词分词技能、词序规矩规约分类。经根本处理,能够得到完好语句中的词序词态句位基因码,为后续的数字解析与语义了解奠定了根底。它是数据发掘、云核算的根底。
研讨思路与技能道路示意图如下:
2.6 实践数据发掘作业
句位剖析是依据汉字虚词的句位特征进行区域区分(固定句位/相邻句位),经过概率核算得出虚字在句首句中句尾的句位特征与呈现的概率频度,结合分类归层进行类似度剖析以及优先度剖析等办法。
虚词分词区分技能是选用经历常识将规矩的方式分类(四种方式),以固定组词长度、完好的内容完结虚词的精确区分。其间虚词真假化是固定完好内容的要害。
词序描绘:传统的文本字符书写习气是从左至右线型次序打开,符号言语描绘也应遵从习气规矩,即文本字符串(语句)=符号逻辑规矩。
例1:彬之总师也 分化:彬/n01 之/c0701 总师/n02依据特点抽取符号逻辑规矩:n01c0701n02逻辑规矩解说:虚字“之”用作并排连词c0701,词序衔接是逻辑与目标前置n01后置n02,n为名词。
例2:上临哭之恸 分化:上临哭/O 之/u1802 恸/v01依据特点抽取符号逻辑规矩:Ou1802v01逻辑规矩解说:该虚字“之”为结构助词u1802,词序衔接是逻辑与目标前置O后置v01,v为动词,O为宾语。
由例1例2知,词序规矩码不同,“之”字的词法句法的语用功用彻底不同。
7)测验和验证发掘效果、解说和运用在获取了终究的逻辑规矩树之后,就需要对逻辑规矩的研讨的正确性作验证剖析,在此处,以高考中的真题作为实例进行剖析验证 [12] 。
例3:2013年高考语文安徽卷下列各组语句中,加点词的含义和用法相同的一组是(D)
A.陆生因说佗曰 B.将相欲移兵而诛王伺者因而觉知 今人有大功而击之C.尉佗乃蹶然起坐 D.佗因稍以法诛秦所置长史今其智乃反不能急 独籍所杀汉军数百人运用逻辑规矩的办法对例1进行验证,验证效果如表1例1各选项剖析表所示。
形似定论XS逻辑判别通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))
∧(YY(A1) ∧(YY(A2))
如此类推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。
由形似定论XS到剖析定论FX的逻辑推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)
﹛F,F,F,T﹜﹛D﹜经过逻辑规矩和句位特征剖析能够得到本题的正确答案为D。由此可知,句位特征特点形似意不合是歧义发生的外在要素,其内因是虚词有用或虚用不同效果 [13] 。
3 技能创新点
①虚词方式区分与分词技能,白话文在现代查找技能中是无法切分的,本研讨根本处理古文的以虚词为中心的形状区分与分词技能完结。
②虚词的虚用/有用形状特征加句位特征剖析是处理组合形状特征的要害,为语句的逻辑判别与逻辑推送起到了语义语用功用的方向判别,为智能化的可核算的语义了解供给了科学的理论与技能支撑 [14-16] 。
综上所述,运用定性剖析办法处理虚词的根本形状区分和形状特征剖析,可满意以虚词为中心的分词技能在对特别文体(白话文)中的虚用有用鉴别,经过整理句中的词序联系和词间联系,加上句位特征,构成一种安稳组合形状,依此对应句中的语法含义、语义结构、语用功用,使特征数据的结构愈加清楚,更可核算,以便于大数据发掘 [17-18] 。
汉语语义了解高端智能化终极目标之一便是完结人机交互更深层次需求,提出以虚词为形状标识点评评测系统办法,完结特别文体(白话文)分词区分技能 [19] ;运用句位剖析办法完结语句的真假化静态到动态量化演化剖析 [20] ,为语句中各形状树立可剖析可核算多维形状标识 [21-22] 。
经过对汉语白话常用虚词的真假化数据发掘与剖析,以虚词为中心对古汉语完结分词区分,结合形状、句位剖析和虚用有用功用判别,完结词法结构到语法语义结构和语用功用的全方位数据常识图谱 [23-24] ,为未来的智能化查找语义了解供给可核算、可判别的全析了解奠定了有用根底 [25] ,也就供给了言语数字化处理的智能了解支撑,在此根底上可扩充到现代汉语虚字的延展,就能满意未来各行各业的智能化(例:智能查找、机器人、APP在线教育等)需求。
参考文献
[1]吕叔湘. 现代汉语语法剖析问题[M]. 北京:商务,1979.
[2]何乐士. 古代汉语虚词词典. 北京: 语文出版社, 2006: 1-663.
[3]何金松. 虚词历时词典. 湖北: 湖北人民出版社, 1994: 1-554.
[4]王延飞, 秦铁辉. 信息剖析与决议计划. 北京:北京大学出版社, 2001.
[5]宗成庆. 核算天然言语处理. 北京:清华大学出版社. 2008年5月第1版: 1-243.
[6]俞士汶. 建造归纳型言语常识库的理念与效果的价值[J]. 中文信息学报, 2007(6).
[7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.
[8]昝红英, 张坤丽, 柴玉梅, 俞士汶. 现代汉语虚词常识库的研讨. 中文信息学报, 2007, 21(5):107-111.
[9]朱德熙. 语法讲义. 北京: 商务印书馆, 1982年9月第一版.
[10]詹卫东. 依据配价的汉语语义词典. 言语文字运用, 2000(1):37-43.
[11]鲁川,汉语句子的语义成分和语用成分.我国语文杂志社编, 语法研讨和探究, 北京:北京大学出版社,1988年9月,309-319.
[12]郭锡良, 古汉语虚词研讨评议. 言语科学,2003(1):87-98
[13]昝红英, 朱学锋. 面向天然言语处理的汉语虚词研讨与广义虚词常识库构建. 今世言语学, 2009, 11(2):124-135
[14]俞士汉,朱学锋. 关于汉语信息处理的知道及其研讨战略. 《言语文字运用》, 2002(2):51-85
[15]Noam Chomsky. Syntactic Structures. 北京: 我国社会科学出版社, 1979: 28-35.
[16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.
[17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.
[18]张大方, 张洁坤, 黄昆. 一种依据智能有限自动机的正则表达式匹配算法. 北京:电子学报, 2012(8).
[19]陈志泊.数据仓库与数据发掘[M].北京:清华大学出版社.
[20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.
[21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.
[22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.
[23] 曾黄麟.粗集理论及其运用.重庆:重庆大学出版社,1996.
[24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.
[25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.
本文来历于科技期刊《电子产品世界》2019年第6期第52页,欢迎您写论文时引证,并注明出处