前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇社交媒體文本分析范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:金融學(xué)研究;文本大數(shù)據(jù);數(shù)據(jù)挖掘;深度學(xué)習(xí)
在針對金融學(xué)領(lǐng)域進(jìn)行實證研究時,傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見類型如股票市場數(shù)據(jù)、財務(wù)報表等。大數(shù)據(jù)技術(shù)發(fā)展后,計算機(jī)技術(shù)逐漸成熟,在實證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財經(jīng)媒體報道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語氣語調(diào)與語義特征等。
1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法
傳統(tǒng)研究方法通常采用人工閱讀方法對文本信息進(jìn)行識別,因為文本數(shù)量龐大、信息構(gòu)成復(fù)雜,人工識別效率較低,而且信息識別質(zhì)量不穩(wěn)定,信息識別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計算機(jī)技術(shù)獲取語料,對文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進(jìn)行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關(guān)聯(lián)性。(4)監(jiān)督機(jī)器學(xué)習(xí)、詞典語法處理[2]。
1.1獲取語料
獲取語料的方法主要分為兩種:(1)人工獲?。唬?)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。
1.2預(yù)處理環(huán)節(jié)
獲取目標(biāo)語料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計算機(jī)程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達(dá)式進(jìn)行財務(wù)報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要刪除和清洗相關(guān)信息,從文本中篩選有價值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習(xí)慣,詞語為最小語言單位,可獨立使用?;诖朔N背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績說明會以及企業(yè)財務(wù)報告均可使用該類工具處理,完成分詞。在針對中文文本進(jìn)行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學(xué)選擇分詞方法,采用“jieba”針對文本進(jìn)行分詞處理時,選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時,需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關(guān)鍵依據(jù)是詞性等語法特征,詞語切分后標(biāo)記詞語詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計算機(jī)進(jìn)行詞語種類識別,避免詞語歧義,對語法結(jié)構(gòu)進(jìn)行有效識別,從而促進(jìn)計算機(jī)順利進(jìn)行語義分析。詞性標(biāo)注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴(yán)謹(jǐn),利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據(jù)主要為語法、語義等。簡言之,英文詞性識別標(biāo)記注重形式,漢語詞性標(biāo)記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達(dá)有限,然而對于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語言習(xí)慣分析停用詞,不僅需要處理特殊符號、標(biāo)點符號,還需要處理連詞、俚語。除此之外,應(yīng)根據(jù)具體研究內(nèi)容確定停用詞。在進(jìn)行文本情緒研究時,特定標(biāo)點符號、語氣詞等會影響文本表達(dá)的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。
1.3文檔表示環(huán)節(jié)
文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點,使用計算機(jī)處理文本數(shù)據(jù)時難度較高,預(yù)處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點,是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺符號顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過視覺獲取文本信息,實現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴(yán)格語序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語集合,采用向量化方法表達(dá)文本,在此過程中只計算各個詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個文檔:(1)文檔一:“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對單詞詞語賦予權(quán)重。TF-IDF是計算文檔定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內(nèi)詞語數(shù)量描述為aj,第i個文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時,詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,促使其有效捕獲詞語中包含的上下文信息,對詞語進(jìn)行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進(jìn)行文本分析屬于無監(jiān)督機(jī)器學(xué)習(xí)法,通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應(yīng)主題,從這些主題中抽取一個主題,然后假定文檔具有對應(yīng)詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應(yīng)的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢是,與手動編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點是在主題預(yù)設(shè)個數(shù)時,受到研究者主觀因素影響,選擇主題個數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關(guān)影響。
1.4抽取文本特征的方法
文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應(yīng)保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認(rèn)為,迷霧指數(shù)與年報可讀性呈負(fù)相關(guān)。年報文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報可讀性的重要因素。在使用迷霧指數(shù)評價文本可讀性時,常見的問題是,隨機(jī)排序句子中詞語將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過隨機(jī)排序處理的文本在分析計算時,顯示相同迷霧指數(shù)。不僅如此,在進(jìn)行商業(yè)文本測量時采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對企業(yè)披露信息進(jìn)行可讀性分析時,難以有效劃分年報可讀性與該企業(yè)實際復(fù)雜性?;诖朔N背景,在針對年報文本可讀性進(jìn)行評價時,需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時還需要融合大量金融學(xué)專業(yè)知識,從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻(xiàn)等分析媒體報道情緒,針對財務(wù)報告進(jìn)行語氣語調(diào)分析,以及進(jìn)行電話會議等進(jìn)行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時,通常是以英文詞典、詞庫等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風(fēng)險高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類方法時,重點環(huán)節(jié)在于對分類效果進(jìn)行檢驗和評價。交叉驗證法是常見檢驗方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點是分類精確度較好。
2.文本大數(shù)據(jù)分析
大數(shù)據(jù)分析主要是進(jìn)行財務(wù)報告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財經(jīng)媒體報道等進(jìn)行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場行為與文本特征等相關(guān)性。分析披露文本信息時,主要是利用文本信息對企業(yè)財務(wù)、經(jīng)營、管理層長效經(jīng)營信息等進(jìn)行研究。在進(jìn)行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認(rèn)為,財務(wù)報告具有較高可讀性的企業(yè)通常具有更長久的利潤。此外,有研究者提出,財務(wù)報告可讀性直接影響盈余預(yù)測離散性和可靠性。財務(wù)報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務(wù)報告可讀性可對投資者行為做出影響[13]。在針對企業(yè)發(fā)展情況和股票市場發(fā)展趨勢進(jìn)行分析時,披露文本語氣語調(diào)具有重要參考價值。相關(guān)研究認(rèn)為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長效經(jīng)營能力進(jìn)行預(yù)測,同時可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險。管理者情緒狀態(tài)可表現(xiàn)在電話會議語氣中,此種語氣分散情況與經(jīng)營決策具有相關(guān)性,同時語氣對投資者感知、分析師評價產(chǎn)生影響。分析財經(jīng)媒體報道時,主要關(guān)注媒體情緒,分析媒體報道著眼點,針對經(jīng)濟(jì)政策進(jìn)行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關(guān)注度。
結(jié)語
我們都知道數(shù)據(jù)可以分為兩大類,一類是數(shù)字和符號這樣的結(jié)構(gòu)化數(shù)據(jù),另一類則是文本、圖像和音頻這樣的非結(jié)構(gòu)化數(shù)據(jù)。如今,IT領(lǐng)域談到的“大數(shù)據(jù)”中,80%以上屬于非結(jié)構(gòu)化的數(shù)據(jù),而文本又是非結(jié)構(gòu)化數(shù)據(jù)中最重要的部分。盡管現(xiàn)有技術(shù)對數(shù)字信息進(jìn)行分析有相對成熟的方案,但如何高效地分析海量文本信息一直是業(yè)界的一道難題。
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員劉世霞博士告訴CHIP,之所以現(xiàn)有的文本挖掘技術(shù)不夠用,首先是因為目前技術(shù)尚處于研究階段,精準(zhǔn)度不夠;其次是因為技術(shù)的靈活性不足,很難滿足不同人的需求。她和同組的副研究員崔為煒以及香港科技大學(xué)屈華民教授共同主導(dǎo)的TextFlow項目在破解這個難題方面提出了新的思路,他們將文本挖掘技術(shù)與可視化這種交互技術(shù)結(jié)合在一起,不僅突破了傳統(tǒng)靜態(tài)文本挖掘技術(shù)的限制,而且能讓人利用直觀的流式圖形迅速把握海量信息的發(fā)展脈絡(luò)。在國際最頂尖的信息可視化學(xué)術(shù)會議IEEE InfoVis 2011上,TextFlow論文的引發(fā)了業(yè)內(nèi)人士的關(guān)注。有評委表示,“該論文的主要貢獻(xiàn)是在海量文本分析中引入主題合并和分裂的理念,這是分析主題演化時面臨的最大挑戰(zhàn)之一,從文本挖掘和可視化兩個角度來說都意義非凡?!?/p>
有趣的是,他們在論文中以自身最熟悉的領(lǐng)域——可視化研究作為其中一個案例,將2001年至2010年間發(fā)表在IEEE Vis和InfoVis兩個學(xué)術(shù)會議上的933篇論文作為文本數(shù)據(jù)集合,通過TextFlow模型得出了與實際學(xué)術(shù)發(fā)展潮流相當(dāng)吻合的圖表,其結(jié)論令人信服。例如,整體上看,過去10年間Vis相關(guān)主題有日漸式微的趨勢,2006年之后各個主題獨立發(fā)展;InfoVis與之相反,整體的趨勢是上升的,主題之間的合并和分割非常多,說明該領(lǐng)域的研究更活躍。
他們是如何做到的呢?崔為煒向我們解釋了文本可視分析的步驟(如上圖所示)。首先,主要由機(jī)器來完成海量文本的收集和預(yù)處理工作。然后,利用自然語言分析中的概率模型HDP(Hierarchical Dirichlet Process)計算出文本所屬的主題(topic)。這里假設(shè)每個主題都是由一組關(guān)鍵詞來描述的,關(guān)鍵詞以不同的概率出現(xiàn)在不同的主題中,每篇文章自然也會以一定的概率屬于不同的主題(注:傳統(tǒng)聚類方法會認(rèn)為每個文本只屬于一個主題)。劉世霞強(qiáng)調(diào),HDP模型的優(yōu)勢是可以自動確定文本中的主題數(shù)量,但是它只能計算出一組靜態(tài)文本數(shù)據(jù)的主題,無法進(jìn)一步找出主題之間的關(guān)系。2010年的時候,他們成功改進(jìn)了HDP模型,將這個語言模型擴(kuò)展到能處理動態(tài)的文本數(shù)據(jù)流。簡單地說,就是跟蹤比較T1和T2兩個時刻文本內(nèi)容的變化情況,由此來確定主題之間是否發(fā)生了合并或者分裂。文本分析的最后一步就是利用前面得出的主題演化結(jié)果,計算出其中的關(guān)鍵事件和關(guān)鍵詞,從而更好地展示事件發(fā)展的來龍去脈。
在談到TextFlow模型對于主題合并和分割判斷的準(zhǔn)確率時,劉世霞表示目前還沒有一個固定的樣本集可供測試,但把多個領(lǐng)域的分析結(jié)果拿給相關(guān)領(lǐng)域?qū)<也榭磿r,他們都認(rèn)為結(jié)果比較準(zhǔn)確,可以達(dá)到滿足應(yīng)用的水平。另外,我們還了解到TextFlow模型的主要算法本身與語言是無關(guān)的,中文與英文的區(qū)別主要在于海量文本預(yù)處理階段的分詞技術(shù),這方面已經(jīng)有成熟的技術(shù)可以完成。
William Ribarsky是北卡羅萊納州大學(xué)Charlotte可視化研究中心創(chuàng)始董事,非常關(guān)注微軟亞洲研究院在文本可視分析方面所做的工作,他在美國召開的一次學(xué)術(shù)會議的發(fā)言中提到劉世霞所做的交互式可視文本分析,并稱“這項成果令人刮目相看”。在撲面而來的大數(shù)據(jù)時代,相信未來利用TextFlow模型可以做許多幫助企業(yè)提升生產(chǎn)效率的事情。崔為煒向我們演示的案例中既包括對歷史新聞事件的回放,也包括跟蹤社交媒體的數(shù)據(jù)預(yù)測即將發(fā)生的新聞事件。由此引申開來,所有之前難以度量的文本數(shù)據(jù)或許都能迎來一次重生的機(jī)會。在信息時代,誰能把握住信息的脈搏,誰就能更好地把握住時代的脈搏。
文章開頭虛構(gòu)的面試題,大家找到答案了嗎?
聲音
我們應(yīng)該把文本挖掘技術(shù)和可視化這種交互技術(shù)結(jié)合在一起,讓人去做人擅長的事情,機(jī)器去做機(jī)器擅長的事情。機(jī)器擅長做什么呢?機(jī)器比較擅長去存儲,做大數(shù)據(jù)量的運算,而人有分析的能力。因此,我們的工作主要就是把人的智能和機(jī)器的計算能力結(jié)合在一起。
——劉世霞
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員
通過對海量新聞的集合進(jìn)行數(shù)據(jù)挖掘,可以知道大概發(fā)生了什么事件,但我們利用文本可視分析還可以在此基礎(chǔ)上得出這些事件之間的關(guān)系,從而幫助人們更準(zhǔn)確地把握信息的脈搏。
本文將首先討論非結(jié)構(gòu)數(shù)據(jù)處理流程涉及到的主要算法和技術(shù),并在最后列出非結(jié)構(gòu)化處理在典型行業(yè)的一些實際應(yīng)用案例。
一 非結(jié)構(gòu)化數(shù)據(jù)處理流程
非結(jié)構(gòu)化處理流程主要以網(wǎng)頁處理為例來闡述,包括三個階段,分別是信息采集、網(wǎng)頁預(yù)處理和網(wǎng)頁分類。
信息采集是將非結(jié)構(gòu)化的信息從大量的網(wǎng)頁中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的過程;網(wǎng)頁預(yù)處理主要是進(jìn)行一些數(shù)據(jù)清洗的工作,保證分類質(zhì)量;網(wǎng)頁分類工作則是通過數(shù)據(jù)挖掘算法訓(xùn)練出來的分類模型,對分類數(shù)據(jù)進(jìn)行分類提煉,得出有價值的信息。
信息采集
信息采集面對的是特定的專業(yè)人群,其采集的信息只限定于特定的主題和相關(guān)的領(lǐng)域,出于對性能和成本的考慮其不必也不可能對整個互聯(lián)網(wǎng)進(jìn)行遍歷,因此主題信息采集中通常需要研究以何種方式預(yù)測鏈接指向的頁面與主題的相關(guān)性,并判斷其是否值得訪問;需要研究以何種爬行策略訪問Web,以在盡可能多地采集到主題相關(guān)頁面的同時盡可能少地采集到主題無關(guān)的頁面。
信息采集的基本方法是通過預(yù)先設(shè)定的種子鏈接集,利用HTrP協(xié)議訪問并下載頁面,在用各種分析算法分析頁面與主題的相關(guān)性之后提取出待訪問的鏈接,預(yù)測鏈接指向主題相關(guān)頁面的可能性,再以各種不同的爬行策略循環(huán)迭代地訪問網(wǎng)頁。
信息采集根據(jù)基于主題的不同可分為以下兩類:一類是基于內(nèi)容的主題信息采集:它需要建立一個針對主題的詞表。另一類是基于超鏈接的主題信息采集:它是基于網(wǎng)頁之間的引用關(guān)系,類似Page rank算法。
網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理部分本文主要介紹一下網(wǎng)頁去重,網(wǎng)頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內(nèi)容的對比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁去重需要先對文檔對象的特征抽取,需要將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,該步驟主要是為了方便特征比較計算相似度。之后需要針對特征的壓縮編碼,主要通過哈希編碼等文本向數(shù)字串映射方式以方便后續(xù)的特征存儲以及特征比較,起到減少存儲空間,加快比較速度的作用。最后需要進(jìn)行文檔的相似度計算,這一步需要根據(jù)文檔特征重合比例來確定是否重復(fù)文檔。一般是對網(wǎng)頁提取一個信息特征,通常是一組詞,或者是詞加權(quán)重,調(diào)用特定的算法,轉(zhuǎn)化為一組代碼,也被稱為指紋。若兩個頁面有相當(dāng)數(shù)量的相同指紋,那么可以認(rèn)為這兩個頁面內(nèi)容重復(fù)性很高。
網(wǎng)頁分類
分類問題是人類所面臨的一個非常重要且具有普遍意義的問題。將事物正確地分類,有助于人們認(rèn)識世界,使雜亂無章的現(xiàn)實世界變得有條理。自動文本分類就是對大量的自然語言文本按照一定的主題類別進(jìn)行自動分類,它是自然語言處理的一個十分重要的問題。文本分類主要應(yīng)用于信息檢索,機(jī)器翻譯,自動文摘,信息過濾,郵件分類等任務(wù)。文本分類的一個關(guān)鍵問題是特征詞的選擇問題及其權(quán)重分配。
在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會根據(jù)不同的網(wǎng)頁類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調(diào)度時會做不同的調(diào)度策略;在做頁面信息抽取的時候,會根據(jù)頁面分類的結(jié)果做不同的抽取策略;在做檢索意圖識別的時候,會根據(jù)用戶所點擊的URL所屬的類別來推斷檢索串的類別等等。
網(wǎng)頁分類方法有SVM分類方法和樸素貝葉斯方法:其中比較推薦的是SVM分類方法,Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(SupportVector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來提出的一種新方法。
典型的SVM分類有兩種,一種是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能;另一種是基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。
典型的樸素貝葉斯分類,它可以分為模型訓(xùn)練、模型分類和分類結(jié)果評估三個階段:模型訓(xùn)練階段,主要計算訓(xùn)練集下所有類別的先驗概率,以及所有特征詞在每一個類別下的條件概率;模型分類階段,對訓(xùn)練集建立模型;對每個待分類文檔計算后驗概率,后驗概率大的類別為文檔所屬類;分類結(jié)果評估階段:對分類結(jié)果進(jìn)行抽樣、人工檢驗。分別計算出每個類別分類的查準(zhǔn)率和查全率,通過F―度量公式評估模型準(zhǔn)確度。
二 自然語言處理的典型方法與應(yīng)用
自然語言處理是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的理論和方法。自然語言處理是一門融語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。
自然語言處理部分主要以輿情分析為例,輿情分析系統(tǒng)的數(shù)據(jù)來源有三個渠道,一是網(wǎng)絡(luò)上公開的信息,如各大交易所每日評論,社交網(wǎng)絡(luò)各方觀點和財經(jīng)門戶網(wǎng)站。二是從合作方獲取的信息,如交易信息等。三是微博、人人網(wǎng)等社交網(wǎng)絡(luò)信息。
網(wǎng)頁信息摘要
網(wǎng)頁信息摘要需要將同一主題下的多個文本描述的主要信息,按壓縮比提煉出一個文本的自然語言處理技術(shù)。對于互聯(lián)網(wǎng)上海量的期貨分析報道,如果能從中提煉出一個覆蓋性強(qiáng)、形式簡潔的摘要將具有重要的意義。
如何收集企業(yè)的戰(zhàn)略信息?面對海量信息,一個研究員需要花費4個小時閱讀相關(guān)信息。借助語義引擎,把50篇文獻(xiàn)縮略成10余條概要,面對概要信息,一個研究員需要花費3分鐘閱讀相關(guān)信息,并形成思考。借助文字情緒引擎,把概要內(nèi)容指數(shù)化、知識化,面對指數(shù)信息,一個研究員需要花費2秒鐘閱讀相關(guān)信息,并獲得決策支持所需的知識。
熱點事件預(yù)測
熱點事件的發(fā)現(xiàn)與預(yù)測的算法有很多,最行之有效的方法是做大規(guī)模的邏輯回歸。在大數(shù)據(jù)的背景下,我們拿到的數(shù)據(jù)是全量并非抽樣,這使得類似邏輯回歸等簡單算法起到事半功倍的效果。通過歷史事件傳播數(shù)據(jù),提取向量,并做邏輯回歸出規(guī)則,就可以做很多預(yù)測。例如美國大選,疾病傳播,甚至預(yù)測死亡。
維克托?邁爾-舍恩伯格寫的《大數(shù)據(jù)時代》一書中就有這么幾個關(guān)于熱點事件預(yù)測的案例:
案例一:華爾街“德溫特資本市場”公司首席執(zhí)行官保羅霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。他的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。這一招收效顯著――當(dāng)年第一季度,霍延的公司獲得了7%的收益率。
案例二:美國一個超市將女性顧客中的孕婦視作購物的黃金消費者。為了將這部分目標(biāo)人群在懷孕前就爭取過來,該超市通過調(diào)查羅列出幾十種購物偏好,當(dāng)某位顧客的收銀條上集中呈現(xiàn)這類商品時,就會被認(rèn)定為可能是孕婦或家中有孕婦,超市隨后向其發(fā)送孕婦產(chǎn)品廣告。一次,當(dāng)有人以“家中并無孕婦卻總是收到相關(guān)產(chǎn)品廣告”為由控告這家超市后,卻發(fā)現(xiàn)原來是自己還在上高中的女兒懷孕了。
案例三:2009年甲型H1N1流感病毒出現(xiàn),在沒有疫苗的情況下,公共衛(wèi)生專家能做的只是減慢傳播速度,要做到這一點,專家必須先知道流感出現(xiàn)在哪里,這只能依靠各地醫(yī)生發(fā)現(xiàn)并告知疾控中心,信息肯定是滯后的??墒牵珿oogle的工程師們比疾控專家更早地判斷出流感從哪里傳播出來,他們依靠的就是Google所掌握的大數(shù)據(jù)。
歷史相似事件可使用文檔相似度比較。文檔相似度比較算法首先采用TF-IDF方法把文檔建模為詞頻向量,然后使用向量距離計算算法求得。常用的距離計算方法如:Jaccard距離、歐式距離、余弦相似度等。
情感分析
正負(fù)情感度量化統(tǒng)計分析一般用于分析金融機(jī)構(gòu)和大眾對期貨產(chǎn)品的態(tài)度、情感和觀點傾向,對行情走勢往往具有十分重要的意義。通過對收集來的信息進(jìn)行情感度分析后,可以統(tǒng)計出社會輿論對期貨未來走勢的觀點傾向度。通過計算歷史輿論觀點與走勢的相關(guān)度可以驗證情感度分析模型的有效性。
情感詞監(jiān)測模塊是通過對金融期貨網(wǎng)站定時采集更新,對輿論話題進(jìn)行連續(xù)監(jiān)控,提取熱點關(guān)鍵詞,實現(xiàn)熱點信息的實時發(fā)現(xiàn)。通過搜索引擎抓取情感關(guān)鍵詞熱度,計算關(guān)鍵詞與趨勢相關(guān)性。
主題詞表的優(yōu)劣在相當(dāng)程度上影響了系統(tǒng)后續(xù)的信息采集內(nèi)容和效果。首先,由領(lǐng)域?qū)<医o出相關(guān)領(lǐng)域的權(quán)威網(wǎng)站作為基礎(chǔ)語料來源,通過對權(quán)威網(wǎng)站網(wǎng)頁內(nèi)容的整站抓取獲得領(lǐng)域語料資源。之后對語料資源進(jìn)行中文切分詞和詞頻統(tǒng)計,獲得一張高頻詞表。再由領(lǐng)域?qū)<覍Ω哳l詞表中的高頻詞匯進(jìn)行整理,人工選取出與領(lǐng)域相關(guān)的詞語。然后,對從高頻詞表中選取出的領(lǐng)域主題詞進(jìn)行上位詞(花是鮮花的上位詞,植物是花的上位詞)、下位詞、同義詞、近義詞擴(kuò)展,去除重復(fù)詞匯,從而最終形成相關(guān)領(lǐng)域的主題詞表。在信息采集系統(tǒng)后續(xù)的采集中還將不斷收集相關(guān)領(lǐng)域的新詞匯,在發(fā)現(xiàn)領(lǐng)域新詞后加入到領(lǐng)域主題詞表中,形成系統(tǒng)性的反饋機(jī)制,從而不斷對主題詞表進(jìn)行更新維護(hù)。
正負(fù)情感度量化統(tǒng)計分析是從抓取的文章中進(jìn)行情感度分析打分,分?jǐn)?shù)范圍為不等。負(fù)數(shù)越大表示負(fù)面觀點強(qiáng)度越強(qiáng),正數(shù)越大表示正面觀點強(qiáng)度越強(qiáng),0表示持有中立態(tài)度;通過情感度分析可以統(tǒng)計出一段時間內(nèi)社會輿論對于某個話題的正負(fù)面態(tài)度,輿論壓力往往可以導(dǎo)致市場波動。
情感詞檢測通過對金融期貨網(wǎng)站定時采集更新,對輿論話題進(jìn)行連續(xù)監(jiān)控,提取熱點關(guān)鍵詞,出現(xiàn)頻率較高的詞語作為熱點信息詞,實現(xiàn)金融熱點的實時發(fā)現(xiàn)。
趨勢分析和預(yù)測
根據(jù)交易的價格曲線走勢,與綜合指數(shù)對比,使輿論指數(shù)趨勢體現(xiàn)與交易價格曲線的相關(guān)性和一定的前瞻性。通過構(gòu)建時間序列模型,對未來走勢進(jìn)行預(yù)測,如圖1所示。綜合指數(shù)包括各個相關(guān)因素的變化趨勢(天氣因素等)以及輿論指數(shù)。
三 行業(yè)應(yīng)用案例
數(shù)據(jù)挖掘和自然語言處理的應(yīng)用范圍廣泛,其中也不乏一些有意思的案例,它可能應(yīng)用于運營商、銀行、傳統(tǒng)企業(yè)和券商,挑選幾個具有代表性的案例與大家分享。
電信行業(yè)
某城市電信運營商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個用戶的偏好。首先該系統(tǒng)通過并行統(tǒng)計清洗出每個人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁內(nèi)容,提取正文,并通過文本分類算法計算分類;最后通過統(tǒng)計出每個用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個用戶的偏好。
金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險評估系統(tǒng),該系統(tǒng)通過抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報、公司變動、領(lǐng)導(dǎo)情況、財務(wù)狀況等數(shù)據(jù),分析公司運營指數(shù);通過計算各供應(yīng)商社交數(shù)據(jù),對其社會影響力做評估;通過同行之間的數(shù)據(jù)分析對比,對供應(yīng)商進(jìn)行實力評估。這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進(jìn)行供應(yīng)商風(fēng)險評估。
地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會化品牌實時營銷系統(tǒng),該系統(tǒng)通過社交媒體(微信、微博等)數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)口碑監(jiān)測,負(fù)面情緒被及時發(fā)現(xiàn)并制止;通過與客戶進(jìn)行互動,爭取客戶忠誠度;通過監(jiān)控同行及競爭對手的各方面資訊,量化評估競爭態(tài)勢;快速提升品牌知曉度和美譽(yù)度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。
證券行業(yè)
【關(guān)鍵詞】移動互聯(lián)網(wǎng) 運營模式 澎湃新聞 今日頭條
作為上海報業(yè)集團(tuán)改革后問世的第一個新媒體成果,澎湃新聞自2014年推出以來,其網(wǎng)站、微博、微信公眾平臺及新聞客戶端等多款新媒體產(chǎn)品共同推進(jìn),作為傳統(tǒng)媒體數(shù)字化轉(zhuǎn)型的樣本,澎湃新聞的多媒體融合及數(shù)字化發(fā)展模式具有一定的研究意義。
今日頭條則是完全脫胎于互聯(lián)網(wǎng)環(huán)境、基于數(shù)據(jù)挖掘技術(shù)的新媒體產(chǎn)品,以移動客戶端為主打產(chǎn)品。自2012年8月上線至2015年12月以來,今日頭條已吸納用戶超過3.5億,且在2014年6月獲得1億美元的C輪融資,并仍保持每天超過3500萬的用戶增長速度。這一基于數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)算法來完成的新媒體項目,對媒介融合和新媒體的創(chuàng)新發(fā)展也具有可研究價值。
一、平臺:多渠道并進(jìn)與專注APP的差異
(一)多渠道并進(jìn)的澎湃新聞格局
媒介渠道是新聞信息流動的通路,合理有效的媒介布局是信息有效傳播的基礎(chǔ)。①向社交媒體平臺延伸已成為傳統(tǒng)媒體應(yīng)對移動互聯(lián)網(wǎng)時代的挑戰(zhàn)、尋求生存渠道必不可少的轉(zhuǎn)型方式之一。具備多元化傳播渠道的澎湃新聞,不僅注重多平臺內(nèi)容傳播,也重視不同平臺間的關(guān)聯(lián)性?;诰W(wǎng)絡(luò)端與移動端的使用差異,其界面設(shè)計和部分細(xì)節(jié)功能上也有所差異,而且相較于網(wǎng)站或WAP網(wǎng)頁版的運作,澎湃新聞更重視對移動客戶端的推廣,例如其網(wǎng)站首頁右側(cè)頂端吸引用戶的位置展示對移動端的推廣信息,首頁右側(cè)則放置了微信二維碼提醒用戶掃碼下載客戶端。這種推廣趨勢意在表明,移動客戶端在未來將會成為澎湃新聞的主要推廣平臺,也是其未來應(yīng)對移動互聯(lián)網(wǎng)發(fā)展進(jìn)行多媒體轉(zhuǎn)型的主要渠道。但重視推廣移動客戶端的同時,與同類新聞客戶端相似,澎湃新聞也在客戶端的文章結(jié)尾處提供了微博、微信等社交媒體的分享按鈕,以期以此形成信息的多平臺、多層次傳播。
盡管如此,澎湃新聞以移動客戶端為主要新媒介傳播平臺的渠道戰(zhàn)略趨勢仍較為明確,例如在其新浪微博和騰訊微博的每條博文中,都附有下載移動客戶端的超鏈接,其官方微信賬號的菜單欄設(shè)置有“下載APP”的按鈕,且每篇推送文章結(jié)尾處也都提示讀者通過“閱讀原文”下載移動客戶端。值得注意的是,除了澎湃新聞的官方微信之外,其運營團(tuán)隊還推出了包括“市政廳”等與其新聞客戶端的子欄目同名的微信公眾號,并分屬給各自的內(nèi)容團(tuán)隊運營,從而形成多平臺緊密聯(lián)系又各有專攻的渠道運作結(jié)構(gòu)。
(二)以客戶端為主的今日頭條數(shù)據(jù)挖掘者
今日頭條平臺最大的特點在于它以自己的客戶端為連接點,鏈接各大新聞門戶網(wǎng)站的熱門新聞,使其以新聞聚合工具的身份出現(xiàn)在媒介市場和公眾視野。根據(jù)其對自身“基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品”而非新聞客戶端的定位,今日頭條得以運營、推廣和盈利的基礎(chǔ)是技術(shù)。如何實現(xiàn)網(wǎng)絡(luò)媒體資源的再利用和再傳播是今日頭條的關(guān)注焦點。作為新聞聚合類應(yīng)用,今日頭條的算法模式與美國Prismatic公司有相似之處,即“收集網(wǎng)上資源并排序,這種排序建立在文本分析、用戶喜好、社交網(wǎng)絡(luò)普及和大數(shù)據(jù)分析的基礎(chǔ)之上?!雹谶@與其公司屬性有關(guān):雖然今日頭條是新聞類產(chǎn)品,但其公司六成員工為技術(shù)開發(fā)人員,使該產(chǎn)品可以根據(jù)算法技術(shù)對用戶偏好進(jìn)行較為精準(zhǔn)的分析與判斷,并通過智能推薦方式,根據(jù)用戶對推送設(shè)置的偏好,向用戶實時推送信息。
同時,作為一款社交媒體,今日頭條并不局限于重點打造的客戶端平臺,與澎湃新聞的多媒體關(guān)聯(lián)運作方式相似,今日頭條的客戶端也通過分享功能將其與自身的微信、微博等其他社交媒體平臺相關(guān)聯(lián),為用戶收藏、分享或轉(zhuǎn)發(fā)新聞資訊提供可能。這一方面使用戶成為今日頭條資訊的二次傳播者;另一方面,通過用戶自發(fā)傳播的方式,今日頭條也通過其他社交媒體平臺再次推廣了自己的移動客戶端。
二、內(nèi)容:側(cè)重時政與海量信息的差異
(一)專注時政與思想的澎湃新聞
澎湃新聞的定位是“專注時政與思想的互聯(lián)網(wǎng)平臺”,以此定位為基礎(chǔ),“內(nèi)容原創(chuàng)”成為澎湃新聞致力發(fā)展的目標(biāo)和方向,同時也是其重點打造的核心競爭力。憑借上海報業(yè)集團(tuán)的新聞品牌和公信力優(yōu)勢,澎湃新聞采集并匯聚大量原創(chuàng)報道,突出內(nèi)容的獨特性和不可替代性。而且澎湃新聞的采編隊伍依托其傳統(tǒng)媒體――《東方早報》,在內(nèi)容采編觀念上與傳統(tǒng)媒體“內(nèi)容為王”的核心理念相契合,使其能夠利用并強(qiáng)化基于紙媒基礎(chǔ)發(fā)展起來的深度報道特長,將內(nèi)容集中在“時事、財經(jīng)、思想、生活”四個方面,以時政新聞報道為主。同時,澎湃新聞并不拘泥于單一的新聞報道角度,而是多視角、多方面地報道同類新聞。
此外,澎湃新聞還推出“問吧”欄目,以此來匯集互聯(lián)網(wǎng)的海量、碎片化的優(yōu)秀原創(chuàng)內(nèi)容,從而實現(xiàn)內(nèi)容生產(chǎn)的規(guī)?;?。這種富有針對性的內(nèi)容生產(chǎn)方式,加之其傳統(tǒng)紙媒的內(nèi)容生產(chǎn)基礎(chǔ),使其在新媒體產(chǎn)品的界面設(shè)計上也繼承了傳統(tǒng)紙質(zhì)媒體的特點:簡潔、干凈。以其移動客戶端為例,首頁為重大時政或財經(jīng)事件的圖片新聞,每則新聞的布局為上圖下文,且文字不超過兩行,一目了然。界面左側(cè)的下拉菜單為不同欄目的菜單欄,右側(cè)的下拉菜單則是為用戶提供了可定制的新聞選擇項目,用戶也可以根據(jù)自己的偏好設(shè)置該移動客戶端界面,但并不會對該客戶端界面的基本布局和設(shè)計做出較大改觀。
關(guān)鍵詞:在線產(chǎn)品評論;文本評論;文本挖掘技術(shù)
基金項目:教育部人文社會科學(xué)研究青年基金項目:“網(wǎng)頁中產(chǎn)品屬性文本信息對消費者購買決策的影響機(jī)制研究”(編號:14YJC630204)
中圖分類號:F724.6 文獻(xiàn)標(biāo)識碼:A
收錄日期:2015年5月31日
網(wǎng)絡(luò)購物用戶在網(wǎng)上購物時很多人都會瀏覽參考其他人對商品的評論信息,并且在購物后進(jìn)行在線評論。2006年開始對在線產(chǎn)品評論的研究不斷增多(李恒,2015)。由于該研究主題涉及信息系統(tǒng)、電子商務(wù)、消費者行為、圖書與情報科學(xué)等多個不同領(lǐng)域的交叉,相關(guān)研究文獻(xiàn)較難得到系統(tǒng)性的整理。本文擬從在線評論的特征、作用、分析技術(shù)這三個方面對這些文獻(xiàn)進(jìn)行梳理。值得注意的是,由于文獻(xiàn)涉及范圍過于廣泛,為了使本文綜述主題聚焦,文中關(guān)于在線評論的文獻(xiàn)僅局限于商家購物網(wǎng)站的購買者評論,也稱為在線產(chǎn)品評論。其他在線評論或者在線口碑形式不在討論之列,比如第三方平臺的評論(影評、試乘試駕評論、點評網(wǎng)站評論等)、社交媒體中的產(chǎn)品或企業(yè)評論(各類口碑、輿情、內(nèi)容營銷及互動等)。
一、在線產(chǎn)品評論特征
李恒(2015)把消費者的在線評論特征總結(jié)為分屬于評論星級和文本評論兩種形式下的12種維度。其中,評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。在文本評論這一形式中,有評論標(biāo)題、評論內(nèi)容一般特性、評論內(nèi)容的語義特征、評論內(nèi)容的時間特性這四類。在這四類中分別包含了評論標(biāo)題、評論質(zhì)量、評論數(shù)量、評論長度、評論差異性、評論效價、評論類型、評論可讀性、評論強(qiáng)度、評論及時性、評論時效性等11個維度。這12個維度具體的隸屬關(guān)系以及其研究焦點屬性本文將其整理至表1中。接下來本文針對表1中的各種在線評論特征維度和其研究焦點屬性逐一進(jìn)行解釋。(表1)
評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。通常的研究焦點在于評論星級的極端性與中立性的作用。以大部分購物網(wǎng)站采用的五星評分制度為例,評論星級的極端性即一星為代表的極端負(fù)面評價與五星為代表的極端正面評價,而三星反映中立態(tài)度。
接下來的文本評論中包含了網(wǎng)購用戶有文字留言內(nèi)容的評論中的各種特性的研究維度。大略可以分為文本評論標(biāo)題和文本評論內(nèi)容兩類,文本評論標(biāo)題是評論者對評論內(nèi)容的文本概括,在除了在線產(chǎn)品評論以外的在線評論中比較常見。通過評論者自擬的標(biāo)題使瀏覽者容易從標(biāo)題的關(guān)鍵詞以及總體情感傾向中搜索以及快速知曉評論整體內(nèi)容,但是在購物網(wǎng)站的用戶評論中設(shè)置標(biāo)題的并不多,比如國內(nèi)的淘寶、京東等購物網(wǎng)站的用戶評論中均沒有設(shè)置文本評論的標(biāo)題。因此,本文中不再贅述。文本評論內(nèi)容就是網(wǎng)購用戶用文字留下的購買感受的評價內(nèi)容,李恒(2015)將其特性分為一般特性、語義特征和時間特性三類。本文在介紹完表1這些特征之后,再對其中未包含的一些特征進(jìn)行補(bǔ)充。
評論內(nèi)容的一般特性包括評論的質(zhì)量、數(shù)量、長度和差異性。其中,數(shù)量和長度比較好理解,就是該產(chǎn)品下購買者的累計評論的總數(shù)和評論的文字字?jǐn)?shù)長度,其研究屬性也是總數(shù)和字?jǐn)?shù)長度的計量值。評論質(zhì)量特性借鑒了霍夫蘭德的說服模型中信息內(nèi)容對說服效果的影響作用,強(qiáng)調(diào)了在線產(chǎn)品評論作為消費者用來參考購買的有用信息,信息的瀏覽者對于產(chǎn)品評論信息的真實性、可靠性、內(nèi)容與其所評價的產(chǎn)品的相關(guān)性以及是否為后續(xù)購買者提供了大量有用的信息這幾個方面的主觀感知(郭國慶,2010;李宏,2011)。其研究屬性也基本圍繞這幾個有關(guān)信息質(zhì)量評價的主觀因子展開。評論差異性,即評論離散度,能顯示不同評論中購買者態(tài)度或觀點上的分歧程度。其研究屬性通常采用評論者對網(wǎng)絡(luò)平臺設(shè)置的評分項打分的方差或標(biāo)準(zhǔn)差來度量。
評論內(nèi)容的語義特征包括評論的效價、類型、可讀性和強(qiáng)度,這些特性都與文字評論的文本內(nèi)容的表達(dá)有關(guān)。簡單來說,效價代表了文本內(nèi)容的詞語描述中總體體現(xiàn)出來的情感傾向,其研究屬性有正面、負(fù)面和中立(或綜合)之分;類型代表了文本詞語中對產(chǎn)品屬性及其體驗的描述是客觀還是主觀之分;可讀性代表了評論文本詞語中每個評論者其自身帶有的語言習(xí)慣表達(dá)、拼寫、詞匯選擇、句長句式語法等是否容易讓瀏覽閱讀的人理解,因此其研究屬性也是瀏覽評論者的一種主觀性的感知(Korfiati,2012);強(qiáng)度代表了評論文本詞語措辭中表現(xiàn)出的情感態(tài)度的強(qiáng)烈程度,其研究屬性主要集中于瀏覽者對負(fù)面口碑中負(fù)面情緒強(qiáng)度的感知程度(黎小林,2007)。
評論內(nèi)容的時間特性包括及時性和時效性,這兩條特性與評論的時間信息有關(guān)。評論及時性代表評論時間與購買時間的間隔遠(yuǎn)近,研究屬性是評論發(fā)表的天數(shù),但是究竟天數(shù)長好還是短更好可能并不是簡單的線性關(guān)系,因此到底是否及時的判斷也就比較模糊了;而時效性代表評論時間與現(xiàn)在(瀏覽時間)間隔遠(yuǎn)近,以及是否在最近有頻率較高的密集評論,這反映了該產(chǎn)品的近期火熱與流行程度,研究屬性是評論瀏覽者對時效性強(qiáng)與弱的主觀評價(劉逶迤、逯萬輝,2010;郭國慶等,2010;龔思蘭等,2013)。
其他表1中未提及的較為重要的特性還有評論者特征等等。評論者的特征包括評論者是否匿名(身份知否披露)、評論者的專業(yè)性、評論者的聲譽(yù)、排名等等(Racherla P,F(xiàn)riske W,2012;Hyunmi et al.2012)。這個部分我們只是將這些現(xiàn)有研究中涵蓋的特征進(jìn)行了簡單歸類和羅列,其中有些特征在技術(shù)、功能和研究范式發(fā)展過程中會出現(xiàn)不同程度的交叉重疊和所屬類別上的變化,在后文中會有所提及。
二、在線產(chǎn)品評論作用
以上談到的是在線產(chǎn)品評論的特征,對于在線產(chǎn)品評論的功能研究者們也有所探討。在線評論的功能一方面包含有大量產(chǎn)品屬性、使用價值方面的描述信息可以給潛在購買者信息上的借鑒,幫助他們降低不確定性風(fēng)險;另一方面評論中含有大量購買的情感體驗和表達(dá)信息,對商品有強(qiáng)大的推薦作用,大量比較集中的正面或者負(fù)面評論會引起潛在購買者的從眾行為,影響他們購買或者不購買的最終決定。遵從這些意見購買產(chǎn)品(Park DH,et al.2007;Duan W J,et al.2008)。關(guān)于評論功能的衡量焦點主要集中在評論信息質(zhì)量(評論有用性),評論可信度和消費者態(tài)度形成與改變以及具體的銷量數(shù)據(jù)等。
Mudambi和Schuff(2010)從信息經(jīng)濟(jì)學(xué)中信息的診斷性角度定義了評論信息質(zhì)量。早期的評論信息質(zhì)量的評價并不局限于文本評論,但隨著研究者對評論內(nèi)容特征的關(guān)注,評論質(zhì)量越來越多用來反映文本評論內(nèi)容對瀏覽者的信息參考價值。正如上文中提到對于文本評論而言評論質(zhì)量包含真實性、可靠性、相關(guān)性、有用性四個方面。借鑒技術(shù)接受模型TAM中人們接收新技術(shù)會受到對新技術(shù)感知有用性的影響這一思路,評論質(zhì)量中關(guān)于評論有用性的評價指標(biāo)更加受到重視,并成為判斷評價信息功能的主要研究變量。早期的評論有用性研究將評論星級及評論長度作為評論有用性的衡量指標(biāo),其好處是指標(biāo)簡單,易量化。后期產(chǎn)品評論研究的重點轉(zhuǎn)向文本內(nèi)容認(rèn)知,對于文本內(nèi)容有用性的劃分采用了評論長度和可讀性兩個維度來衡量,有的研究中也將評論有用性定義為評論感知價值(Schindler&Bickart,2012)。由于當(dāng)前對文本內(nèi)容分析的方法是基于文本語義屬性的挖掘方法,對于在線產(chǎn)品評論相關(guān)特征的數(shù)據(jù)采集和統(tǒng)計大都是通過網(wǎng)絡(luò)信息搜索軟件實現(xiàn),因此目前評論有用性的衡量通常是用網(wǎng)站中評論有用性的排名數(shù)據(jù)統(tǒng)計來替代。但是并不是所有購物網(wǎng)站的評論系統(tǒng)中都會設(shè)置評論是否有用這一瀏覽者打分機(jī)制,并且受到文化的影響,即便網(wǎng)站設(shè)置了這一功能,國內(nèi)的消費者也沒有去給評論打分的習(xí)慣。因此這種衡量方式的有效性也一直受到爭議。
研究中與評論有用性常常共同出現(xiàn)的一個衡量評論的功能的變量就是評論的可信度。由于在交流有關(guān)研究領(lǐng)域發(fā)現(xiàn)可信度與勸說性之間的強(qiáng)相關(guān),可信度被用來作為評論信息是否對潛在消費者態(tài)度以及行為有強(qiáng)的勸說性的衡量指標(biāo)。從信息傳播的角度來說,信息源、消息和接受者是信息評價的3個主要的信息元素。因此相比于有用性,在線評論的可信度更強(qiáng)調(diào)從評論強(qiáng)度、信息源的可信度、評論間的一致性、評論累積排名等維度來度量,從已有的研究文獻(xiàn)來看,其中又主要側(cè)重于對信息源可信度的判斷,也就是對評論者的可信度的判斷(Cheung等,2009)。Lis(2013)將信息源的專業(yè)度和值得信任程度作為信息源可信度的衡量標(biāo)準(zhǔn)和評論排名一起作為評論可信度的決定因素,其中值得信任程度中包含評論內(nèi)容的質(zhì)量、與其他評論的一致性以及其他消費者對評論的認(rèn)可這幾個方面。因此,評論可信度與評論有用性是有交叉又各有側(cè)重的兩個研究變量。研究者會根據(jù)研究方法以及目標(biāo)選擇其中合適的變量作為對評論功能的衡量。不過由于目前側(cè)重于文本評論數(shù)據(jù)挖掘的研究方法所限,還是以有用性的排名統(tǒng)計作為評論價值功能的衡量更多見。
其他還有一些研究變量,比如將瀏覽者看完評論信息以后持有的態(tài)度作為衡量評論功能實現(xiàn)的衡量指標(biāo),比如對產(chǎn)品的購買意愿、感知的產(chǎn)品質(zhì)量、滿意度、忠誠度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企業(yè)經(jīng)營數(shù)據(jù),比如產(chǎn)品的銷量、企業(yè)收入、公司股價來作為評論的作用,不過后兩者多用于第三方評論或者公眾輿論有關(guān)的評論效果研究中,與在線產(chǎn)品評論有關(guān)的經(jīng)營數(shù)據(jù)最主要的還是被評論產(chǎn)品的銷量數(shù)據(jù)(Sonnier等,2011)。
三、在線產(chǎn)品評論分析技術(shù)
在線評論信息挖掘研究集中在信息系統(tǒng)、電子商務(wù)管理科學(xué)等領(lǐng)域。近幾年,在線評論信息挖掘日益成為在線產(chǎn)品評論研究的熱點,由于文本挖掘技術(shù)的研究進(jìn)展還處于不太成熟的階段,各領(lǐng)域中計算機(jī)科學(xué)和信息科學(xué)領(lǐng)域?qū)ξ谋就诰蚣夹g(shù)的研究居多。文本挖掘技術(shù)和自然語言處理等技術(shù)現(xiàn)在已經(jīng)能對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,在線評論的表現(xiàn)形式為數(shù)量眾多且非結(jié)構(gòu)化的文本,但是如何提高對在線評論的挖掘精確度也一直是技術(shù)研究領(lǐng)域關(guān)注的焦點。目前,在挖掘技術(shù)上的研究集中于信息抽取、情感分析和文本分類這三類主流研究方法。信息抽取是情感分析的基礎(chǔ),同時信息抽取和情感分析又是文本分類的基礎(chǔ)。信息抽取主要是通過對評論中描述產(chǎn)品性能或功能的名詞或短語進(jìn)行關(guān)鍵詞的抽取,情感分析是通過語義分析對評論中需要聯(lián)系上下文才能理解評論者表達(dá)效價進(jìn)行情感傾向的判斷,挖掘出的信息結(jié)果包括抽取的主題特征 (價格、質(zhì)量、外觀等)、情感傾向 (正面、中立、負(fù)面)、文本類別(主題和情感類別)。以情感分析為例,當(dāng)前所廣泛采用的文本語義屬性分析的挖掘方法是不夠成熟的,無論是詞語極性推測法、點互信息法、抽取主觀表達(dá)式法還是構(gòu)造情感詞典法,都是基于文本內(nèi)容字面信息的加工和處理,而文本內(nèi)容所包含的潛在信息卻是無法挖掘的,如說話人的語言風(fēng)格所反映出的評論人所屬的用戶群體或?qū)I(yè)程度等,因此僅從字面來進(jìn)行情感傾向的判斷存在一定的不精確性。
但是也有越來越多的學(xué)者在信息抽取和文本挖掘的基礎(chǔ)上從實證研究角度對在線評論的有用性、對消費者態(tài)度以及商家銷量的影響等進(jìn)行研究。有學(xué)者利用主題特征信息抽取技術(shù)從在線評論中抽取產(chǎn)品特征和主題信息,并以此研究發(fā)現(xiàn)評論中消費者提及最多的產(chǎn)品主題特征并不一定對他們的滿意度影響最大(You WJ,et al.2012)。Cao等(2011)運用潛在語義文本分析文本挖掘法(LSA)應(yīng)用logit回歸模型研究了評論星級、評論時間、評論字?jǐn)?shù)、評論中包含的句子數(shù)、語義特征(評論中的情感傾向)對評論有用性投票數(shù)的影響,經(jīng)過發(fā)現(xiàn)評論的語義特征對評論有用性影響最大。Min和Park(2012)從評論者經(jīng)驗這一角度出發(fā)應(yīng)用文本挖掘和實證分析方法研究如何根據(jù)評論者經(jīng)驗識別出高質(zhì)量評論。還有研究者通過對手機(jī)評論進(jìn)行情感分析,識別手機(jī)是否存在過度的功能設(shè)計并以此獲得更多的顧客滿意度來提高銷售績效(Liu P,et al.2010)。未來隨著文本挖掘技術(shù)的進(jìn)步,分析精確性不斷提高,相信這類結(jié)合實證方法證明在線產(chǎn)品評論商業(yè)應(yīng)用效果的研究也會越來越多并得出更有價值的結(jié)論。
四、結(jié)語
綜上所述,在線產(chǎn)品評論現(xiàn)階段為止的研究有以下三個方面的特點:第一,研究中關(guān)于在線產(chǎn)品評論的一般特征,內(nèi)容特征,評論者特征等等這些特征形式早期研究較多。雖然在研究發(fā)展過程中會出現(xiàn)不同程度的交叉重疊和所屬類別上的變化,但隨著購物網(wǎng)站評論體系設(shè)置的成熟化,這些特征形式基本穩(wěn)定下來,并且主要的特征屬性都集中在評論文本的特征描述中,這也說明了文本評論的重要作用。因此,現(xiàn)階段的研究主要集中于評論文本內(nèi)容的深度挖掘帶來的新的特征屬性;第二,文本挖掘技術(shù)和自然語言處理等技術(shù)現(xiàn)在已經(jīng)能對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,而在線評論的表現(xiàn)形式為數(shù)量眾多且非結(jié)構(gòu)化的文本,如何提高對在線產(chǎn)品評論的挖掘精確度也一直是技術(shù)研究領(lǐng)域關(guān)注的焦點。正因為文本挖掘技術(shù)的研究進(jìn)展還處于不太成熟的階段,現(xiàn)階段的挖掘主題比較少,情感分析精度也不夠高,因此其他領(lǐng)域即便將現(xiàn)有挖掘技術(shù)應(yīng)用于實證研究中,也難以得到穩(wěn)定的和有價值的結(jié)論。相信未來隨著文本挖掘技術(shù)的進(jìn)步,這類結(jié)合實證方法證明在線產(chǎn)品評論商業(yè)應(yīng)用效果的研究也會越來越多,并得出更有價值的結(jié)論;第三,在商業(yè)應(yīng)用研究領(lǐng)域,如何選取合適的研究變量和指標(biāo),比如消費者行為變量及觀測指標(biāo)來與文本挖掘技術(shù)得到的計量數(shù)據(jù)相結(jié)合,從而實現(xiàn)更準(zhǔn)確有價值的實證研究,也是在研究方法上需要繼續(xù)探索和解決的問題,比如目前用網(wǎng)站評論有用性的排名數(shù)據(jù)統(tǒng)計來替代評論有用性度量的方式過于單一且準(zhǔn)確性受到質(zhì)疑。
另外,還有兩個在線產(chǎn)品評論研究中比較集中的主題未來也可能會繼續(xù)發(fā)展:一個是購買者參與評論的動機(jī)及其在社交網(wǎng)絡(luò)中的作用;另一個是對購物網(wǎng)站上越來越多出現(xiàn)的虛假評論現(xiàn)象的研究,目前的研究集中在虛假評論的識別以及其影響方面,未來隨著消費者的經(jīng)驗增加以及網(wǎng)站成熟運作,這方面的研究還會有新的熱點出現(xiàn)。
主要參考文獻(xiàn):
[1]李恒.在線評論特征的維度綜述[J].企業(yè)技術(shù)開發(fā),2015.1.
[2]李宏,喻葵,夏景波.負(fù)面在線評論對消費者網(wǎng)絡(luò)網(wǎng)絡(luò)購買決策的影響,一個實驗研究[J].情報雜志,2011.5.
[3]龔思蘭,丁晟春,周夏偉,巢乃鵬.在線商品評論信息可信度影響因素實證研究[J].情報雜志,2013.32.11.
[4]宋曉晴,孫習(xí)祥.消費者在線評論采納研究綜述[J].現(xiàn)代情報,2015.1.
[5]羅彪,叢日飛.留、傳、搜、用:消費者行為視角下的電子口碑研究綜述與展望[J].外國經(jīng)濟(jì)與管理,2015.37.8.
[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.
社交網(wǎng)絡(luò) 社交禮儀 社交媒體理論 社交禮儀教育 社交媒體管理 社交禮儀培訓(xùn) 紀(jì)律教育問題 新時代教育價值觀