亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

電力文本數(shù)據(jù)挖掘現(xiàn)狀及挑戰(zhàn)(一)

  隨著智能電網(wǎng)建設(shè)的全面展開(kāi),以及電力信息通信與電網(wǎng)企業(yè)經(jīng)營(yíng)管理的深度融合,電力數(shù)據(jù)出現(xiàn)爆發(fā)性增長(zhǎng)。這些數(shù)據(jù)中隱藏著豐富的關(guān)系到電網(wǎng)安全穩(wěn)定經(jīng)濟(jì)運(yùn)行的信息,因而成為電網(wǎng)企業(yè)寶貴的數(shù)據(jù)資產(chǎn)。

  電力數(shù)據(jù)挖掘是智能電網(wǎng)的前提

  電力大數(shù)據(jù)雖已成為當(dāng)前熱點(diǎn)研究對(duì)象,然而每年只有少量的數(shù)據(jù)被挖掘利用,因此電力數(shù)據(jù)挖掘是智能電網(wǎng)發(fā)展迫切需要研究的前沿領(lǐng)域。電網(wǎng)企業(yè)是資產(chǎn)密集型企業(yè),電力設(shè)備健康狀態(tài)管理是其核心任務(wù),利用大數(shù)據(jù)進(jìn)行科學(xué)管理是必然趨勢(shì)。

  然而業(yè)界普遍認(rèn)為,電網(wǎng)數(shù)據(jù)存在體量大、類(lèi)型多、價(jià)值密度低和變化快的特點(diǎn),較難利用。其中,數(shù)據(jù)價(jià)值密度低,是指絕大部分?jǐn)?shù)據(jù)是電網(wǎng)正常數(shù)據(jù),只有極少量的異常數(shù)據(jù)。數(shù)據(jù)的嚴(yán)重偏斜影響基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法的挖掘效果。幸運(yùn)的是,電力數(shù)據(jù)類(lèi)型眾多,其中文本數(shù)據(jù),因“重要的事情常常被記錄”而具有價(jià)值密度高的特點(diǎn),挖掘前景好,因此電力文本挖掘是電力設(shè)備健康管理重點(diǎn)關(guān)注的關(guān)鍵技術(shù)之一。

  當(dāng)前自然語(yǔ)言處理、人工智能等技術(shù)的快速發(fā)展,為電力文本挖掘提供了良好的技術(shù)基礎(chǔ);同時(shí)電網(wǎng)企業(yè)已積累了大量與電力設(shè)備健康相關(guān)的文本,如缺陷、消缺等短文本,以及試驗(yàn)、故障分析報(bào)告等長(zhǎng)文本,具備了文本挖掘的數(shù)據(jù)條件。

  此外,電網(wǎng)企業(yè)已建立了諸多與設(shè)備健康相關(guān)的標(biāo)準(zhǔn),如分別針對(duì)輸變電設(shè)備和配電網(wǎng)設(shè)備的缺陷分類(lèi)標(biāo)準(zhǔn)、設(shè)備狀態(tài)評(píng)價(jià)導(dǎo)則、狀態(tài)檢修試驗(yàn)規(guī)程等,為文本挖掘的應(yīng)用提供了參照與規(guī)則支持。因而,電力文本挖掘的條件已具備,且發(fā)展前景廣闊。

  然而,由于現(xiàn)階段知識(shí)和技術(shù)層面上的匱乏,文本挖掘技術(shù)在國(guó)內(nèi)電力行業(yè)還屬于新興的前沿領(lǐng)域,大部分研究還處于探究試驗(yàn)階段,應(yīng)用效益尚未顯現(xiàn)。與互聯(lián)網(wǎng)、醫(yī)學(xué)等行業(yè)取得的成就相比,電力行業(yè)的文本挖掘研究還有待加強(qiáng)。

  為此,基于電力文本挖掘領(lǐng)域已做的前期探索,本文歸納了電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和典型應(yīng)用,分析了這一領(lǐng)域面臨的挑戰(zhàn)。首先介紹文本挖掘技術(shù)的發(fā)展歷程,指出文本挖掘技術(shù)的難點(diǎn);接著重點(diǎn)分析電力文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及研究現(xiàn)狀;然后介紹文本挖掘技術(shù)在電力缺陷文本中的典型應(yīng)用;最后,提出電力文本挖掘面臨的挑戰(zhàn)。

  電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)

  文本挖掘技術(shù)發(fā)展過(guò)程

  文本挖掘的概念最早出現(xiàn)在20世紀(jì)80年代中期,它集成了自然語(yǔ)言處理和數(shù)據(jù)挖掘的部分技術(shù)與理念,至今已有30多年的歷史。早期,文本挖掘的科學(xué)性一度受到質(zhì)疑和詬病,但隨著文本挖掘技術(shù)的進(jìn)步和發(fā)展,其應(yīng)用逐漸得到認(rèn)可,并成為研究熱點(diǎn)。

  狹義上,文本挖掘是指從大量文本數(shù)據(jù)中提取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息、解決問(wèn)題;廣義上,文本挖掘既包括文本知識(shí)抽取,也包括面向各種應(yīng)用的文本數(shù)據(jù)處理過(guò)程。

  目前,理論研究方面,文本挖掘的主要研究方向有文本結(jié)構(gòu)分析、文本語(yǔ)義分析、文本摘要、文本關(guān)聯(lián)分析等;應(yīng)用研究方面,在社科情報(bào)和生物醫(yī)學(xué)領(lǐng)域的研究成果較多。在社科情報(bào)領(lǐng)域,文本挖掘被用于微博熱點(diǎn)話題監(jiān)測(cè)、情感分析、用戶評(píng)論語(yǔ)義分析、垃圾郵件分類(lèi)等。在生物醫(yī)學(xué)領(lǐng)域,有基于文本挖掘提取領(lǐng)域知識(shí)、通過(guò)挖掘事件記錄發(fā)現(xiàn)突發(fā)事件與醫(yī)學(xué)救援裝備之間的關(guān)聯(lián)等研究。

  文本挖掘技術(shù)難點(diǎn)

  文本數(shù)據(jù)屬于自然語(yǔ)言,其挖掘涉及語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、信息學(xué)、心理科學(xué)、認(rèn)知科學(xué)以及應(yīng)用領(lǐng)域等眾多學(xué)科。

  從技術(shù)角度看,文本挖掘存在數(shù)據(jù)和方法兩方面困難。數(shù)據(jù)方面,文本屬于非結(jié)構(gòu)化數(shù)據(jù),無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義,需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)才能被進(jìn)一步挖掘;同時(shí),文本屬于自然語(yǔ)言范疇,容易出現(xiàn)模糊性和歧義性,準(zhǔn)確理解和使用難度大;此外,文本采用的語(yǔ)言不同,挖掘技術(shù)就難以簡(jiǎn)單地移植。方法方面,雖然現(xiàn)有的文本挖掘方法已能解決一部分問(wèn)題,但依然存在效果欠佳問(wèn)題,例如搜索引擎還無(wú)法根據(jù)輸入文本返回精準(zhǔn)答案;還有很多文本挖掘問(wèn)題尚無(wú)有效解決方法。

  從應(yīng)用角度看,通用的文本挖掘方法運(yùn)用于專(zhuān)業(yè)領(lǐng)域時(shí),常會(huì)出現(xiàn)各種各樣的問(wèn)題,因此專(zhuān)業(yè)領(lǐng)域的文本挖掘需考慮通用挖掘方法的適應(yīng)性。此外,只有引入應(yīng)用領(lǐng)域的專(zhuān)業(yè)知識(shí),文本挖掘才更具有針對(duì)性與準(zhǔn)確性,因此需要結(jié)合應(yīng)用領(lǐng)域的專(zhuān)業(yè)特點(diǎn)去探索解決文本挖掘問(wèn)題的方法。 電力文本數(shù)據(jù)

  挖掘關(guān)鍵技術(shù)

  電力文本預(yù)處理技術(shù)

  非結(jié)構(gòu)化的電力文本數(shù)據(jù)需要先進(jìn)行文本預(yù)處理以及文本表示,才能轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘。文本預(yù)處理通常包括文本分詞、詞性標(biāo)注與去停用詞等。電力文本預(yù)處理還需要構(gòu)建電力領(lǐng)域本體字典。

  電力本體字典的構(gòu)建是指將電力詞匯分別按照同義、近義、反義、上下位、整體-部分等本體關(guān)系進(jìn)行組織,并存儲(chǔ)在數(shù)據(jù)庫(kù)中以供查詢、調(diào)用。構(gòu)建電力本體字典前,首先要構(gòu)建電力文本語(yǔ)料庫(kù),如選擇各類(lèi)電力設(shè)備的缺陷、消缺、檢修、試驗(yàn)等記錄或報(bào)告,也可以選擇企業(yè)頒布的與電力設(shè)備相關(guān)的導(dǎo)則、標(biāo)準(zhǔn),還有電力企業(yè)的各種工單、工作票、操作票等;然后結(jié)合已有的外部通用字典,采用基于統(tǒng)計(jì)的分詞模型,如采用基于隱馬爾科夫模型、條件隨機(jī)場(chǎng)模型等,對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,并基于詞頻對(duì)分詞結(jié)果進(jìn)行排序;最后依靠具有電力領(lǐng)域?qū)I(yè)知識(shí)的人員對(duì)專(zhuān)業(yè)術(shù)語(yǔ)、通俗用語(yǔ)、名詞堆砌的詞串和短語(yǔ)詞匯等進(jìn)行修正,并按照同義詞集、整體-部分關(guān)系、實(shí)體-屬性關(guān)系等構(gòu)建本體字典。需說(shuō)明的是,本體字典的構(gòu)建不會(huì)是一次完成,而是隨著新語(yǔ)料庫(kù)的增加,會(huì)有補(bǔ)充或修訂。電力本體字典的構(gòu)建是必須的基礎(chǔ)工作,其質(zhì)量關(guān)系著后續(xù)電力文本挖掘的科學(xué)性。文本分詞技術(shù)可分為3類(lèi):基于本體字典的分詞技術(shù)、基于統(tǒng)計(jì)規(guī)律的無(wú)字典分詞技術(shù)以及二者的結(jié)合。本體字典的建立可以大大提高分詞的準(zhǔn)確性與停用詞的識(shí)別效果?;诮y(tǒng)計(jì)規(guī)律的無(wú)字典分詞技術(shù)雖可以減輕建立字典的負(fù)擔(dān),但準(zhǔn)確性難以保證,分詞后需進(jìn)行詞性標(biāo)注。詞性既可以是名詞、動(dòng)詞等,也可以根據(jù)挖掘需求自行定義,例如文獻(xiàn)中的大部件、小部件、屬性、程度,以及文獻(xiàn)中的實(shí)體、缺陷現(xiàn)象、定性缺陷程度、定量缺陷程度等。詞性標(biāo)注的本質(zhì)是分類(lèi)問(wèn)題。將電力文本切分為一個(gè)個(gè)詞匯后,除了有用的電力詞匯,還會(huì)出現(xiàn)人名、地名、符號(hào)等停用詞,可根據(jù)實(shí)際挖掘需求去除待處理文本中的停用詞。

  電力文本表示方法

  文本表示方法是指將文本數(shù)據(jù)表示成計(jì)算機(jī)可處理的形式,表示方式將直接影響后續(xù)數(shù)據(jù)挖掘的效率和效果。表示方法有很多,如向量空間模型、嵌入式向量模型等向量化表示方法,以及語(yǔ)義框架模型、樹(shù)/圖結(jié)構(gòu)模型、正則表達(dá)法等等。向量空間模型用于快速提取句子的整體含義,而對(duì)句子中詞匯順序不是很關(guān)注;而嵌入式向量模型用于需要突出某一個(gè)或幾個(gè)詞匯含義或順序的文本。常見(jiàn)的向量化方法有詞袋方法與Word2Vec方法。詞袋方法基于向量空間模型,簡(jiǎn)單通俗,但向量維度高,而且詞向量忽略了句法;Word2Vec方法基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,屬于嵌入式向量模型,詞向量維度低,而且由于訓(xùn)練時(shí)考慮了上下文,不同詞之間具有同義、近義、反義等語(yǔ)義信息,可通過(guò)計(jì)算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用類(lèi)似的方法將句子向量化,優(yōu)點(diǎn)在于可以提取句子主旨。

關(guān)注讀覽天下微信, 100萬(wàn)篇深度好文, 等你來(lái)看……