
公司新聞
[點(diǎn)擊量:2506][來源:創(chuàng)選寶防靜電專家(www.wlitfl.cn)]
2019-08-06
金融行業(yè)是數(shù)據(jù)驅(qū)動的行業(yè),很多傳統(tǒng)金融業(yè)務(wù)對行情、資訊等金融數(shù)據(jù)已經(jīng)形成了高度依賴。知識圖譜作為人工智能時代的“知識工程”、“專家工程”,承載了對紛繁復(fù)雜、多源異構(gòu)的金融資訊大數(shù)據(jù)加工整合的重任,已經(jīng)得到行業(yè)從業(yè)人士的普遍認(rèn)同。
知識圖譜可以將金融資訊大數(shù)據(jù)中的實(shí)體關(guān)系屬性等信息,用極其簡單的三元組的方式聚合在一起,形成一個金融語義網(wǎng)絡(luò)。因?yàn)橛薪y(tǒng)一的數(shù)據(jù)表示,所以可以形成統(tǒng)一的數(shù)據(jù)消費(fèi),這種機(jī)器可以看得懂的大數(shù)據(jù),沒有理由不在智能金融業(yè)務(wù)場景中大放異彩。在探索與落地的過程中,一些難點(diǎn)仍有待突破。
看見
語義鴻溝是一個人工智能專業(yè)術(shù)語,用來解釋傳統(tǒng)金融與智能金融的溝通障礙非常貼合。這里有兩個層面的問題,一個是“看見”的問題,一個是“信任”的問題。
傳統(tǒng)的金融IT是由業(yè)務(wù)部門提業(yè)務(wù)需求,IT部門負(fù)責(zé)轉(zhuǎn)化為軟件需求,IT供應(yīng)商負(fù)責(zé)提供解決方案或者軟件產(chǎn)品。這套方法在數(shù)字金融時代、互聯(lián)網(wǎng)金融時代都非常有效,為何在智能金融時代就玩不轉(zhuǎn)了呢?這里就存在著能不能“看見”的問題。
簡單來說,人工智能的數(shù)據(jù)科學(xué)家看不見業(yè)務(wù)部門的業(yè)務(wù),而金融機(jī)構(gòu)的業(yè)務(wù)人員也看不見自己的某項(xiàng)業(yè)務(wù)問題還可以用人工智能的方法來解決,從而也提不出這樣的需求。所以在人工智能團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)之間,必須有一類角色要解決這個問題,負(fù)責(zé)創(chuàng)造性地提出某些業(yè)務(wù)場景如何用人工智能(大數(shù)據(jù)技術(shù))加以改造。這類角色最好是業(yè)務(wù)出身,并且懂一些人工智能技術(shù),他們是典型的創(chuàng)新型人才,其當(dāng)下的重要作用不亞于數(shù)據(jù)科學(xué)家。
信任
語義鴻溝的第二個層面是信任問題。人工智能結(jié)果的可靠性、質(zhì)量的保障以及過程的可解釋性,是產(chǎn)生信任問題的根源。舉個例子,面對人工審核的合同和用AI審核的合同,即使后者的準(zhǔn)確率能夠高達(dá)98%,傳統(tǒng)業(yè)務(wù)人員可能依然傾向于人工審核的合同,因?yàn)樗枰P(guān)鍵條款不能出錯,而不是一個針對通篇的高概率的正確。這背后,隱藏的是經(jīng)年的用戶教育問題。
數(shù)據(jù)質(zhì)量
比之于語義鴻溝,數(shù)據(jù)質(zhì)量對金融知識圖譜的推廣有更大的影響。知識圖譜是一份“大而全”的數(shù)據(jù),數(shù)據(jù)的增量部分是很少的,大部分?jǐn)?shù)據(jù)是對已有數(shù)據(jù)的再組織,成果就是由“多源異構(gòu)數(shù)據(jù)”轉(zhuǎn)化為統(tǒng)一的schema。不過,數(shù)據(jù)的質(zhì)量以及數(shù)據(jù)的缺失,影響了圖譜的發(fā)力。
從schema構(gòu)建來說,這張圖已經(jīng)清晰描述出了企業(yè)核心譜系,實(shí)體上,覆蓋了公司、產(chǎn)品、行業(yè)、概念、地域,甚至資訊、研報(bào)、事件、指標(biāo)也做了定義;關(guān)系上,股權(quán)關(guān)系為主,還覆蓋了產(chǎn)業(yè)鏈上下游。但如果這個schema定義的知識圖譜,實(shí)體關(guān)系只有1、2度這樣的深度,那么他跟上市公司三方數(shù)據(jù)沒什么區(qū)別。知識圖譜的強(qiáng)大不在于信息的詳盡,而在于信息的穿透。
以股權(quán)穿透為例,因?yàn)樾畔⑴兜脑?,上市公司的一層股東關(guān)系很容易獲得,諸如:10大股東、10大流通股東、聯(lián)營公司、母公司、子公司。而在二層股東關(guān)系里,可能會有一些非上市公司,非上市公司沒有信息批露的義務(wù),所以有可能只能獲取有限的工商股權(quán)數(shù)據(jù)。這就使得上圖定義的如此強(qiáng)大的schema變得非常尷尬,當(dāng)知識圖譜schema定義的很多槽無法得到有效填充的情況下,知識圖譜的信息穿透等分析能力就會大為減弱,這種數(shù)據(jù)的缺失,影響著金融知識圖譜的發(fā)展。
筆者曾率隊(duì)做過一個股權(quán)方面的課題,業(yè)務(wù)本身比較簡單,以股權(quán)投資超過一定比例作為控制邏輯,計(jì)算上市公司包含在哪些資本系里面,并給出實(shí)控公司、核心成員以及擴(kuò)展成員。該課題實(shí)踐下來,最難的不是連通子圖的計(jì)算,也不是上下穿透的圖分析,而是找到并清洗出一份合格的股權(quán)數(shù)據(jù)。這其中存在很多問題,例如某個公司股權(quán)信息為空,最大股權(quán)小于規(guī)定比例等等。
如果用工作量來度量下這個課題,算法占20%,應(yīng)用開發(fā)占20%,數(shù)據(jù)源比對占30%,數(shù)據(jù)處理占30%。數(shù)據(jù)積累和沉淀,道路漫漫。
那么未來金融知識圖譜的發(fā)展之路應(yīng)該如何走呢?融合產(chǎn)業(yè)鏈數(shù)據(jù)與引入“事件”是兩種值得思考與探索的方式。
融合產(chǎn)業(yè)鏈數(shù)據(jù)
金融知識圖譜為何需要產(chǎn)業(yè)鏈數(shù)據(jù)呢?企業(yè)分析首先從關(guān)系分析開始,對于上市公司來說,企業(yè)的關(guān)系分析除了基本的企業(yè)鏈信息之外,無外乎兩大類關(guān)系:公司的股權(quán)關(guān)系,實(shí)體公司的產(chǎn)業(yè)鏈條關(guān)系。
公司的股權(quán)關(guān)系包括:股東關(guān)系、投資關(guān)系、母子公司關(guān)系、擔(dān)保關(guān)系、質(zhì)押關(guān)系等等;產(chǎn)業(yè)鏈關(guān)系則包括:公司主營產(chǎn)品信息、公司所屬行業(yè),產(chǎn)品所屬細(xì)分行業(yè),產(chǎn)品上下游、行業(yè)上下游等等。
一個公司的股權(quán)信息代表了一個實(shí)體公司在金融層面的一些運(yùn)作,股權(quán)投資、股權(quán)激勵、增資擴(kuò)股、股權(quán)質(zhì)押、股權(quán)擔(dān)保等都屬于這類業(yè)務(wù),股權(quán)結(jié)構(gòu)的變化可能會體現(xiàn)出公司的經(jīng)營風(fēng)險(xiǎn)、業(yè)務(wù)前景等;但對一個實(shí)體公司來說,股權(quán)層面的操作都可以看作是副業(yè),實(shí)體產(chǎn)業(yè)的經(jīng)營才是主業(yè)。
從投資研究的角度看,實(shí)體產(chǎn)業(yè)的估值、行業(yè)地位、市場占有率、上下游構(gòu)成,這類信息構(gòu)成了實(shí)體公司的投資分析基礎(chǔ),這些數(shù)據(jù)都屬于產(chǎn)業(yè)鏈數(shù)據(jù)。產(chǎn)業(yè)鏈數(shù)據(jù)是當(dāng)下行研分析師做投資研究的基礎(chǔ)數(shù)據(jù),知識圖譜對于公司的關(guān)系分析,尤其產(chǎn)業(yè)鏈條的關(guān)系分析,是核心。
產(chǎn)業(yè)鏈數(shù)據(jù)配合股權(quán)數(shù)據(jù),可以解決實(shí)體+金融兩類主要關(guān)系的業(yè)務(wù)分析。此時的金融知識圖譜才是在數(shù)據(jù)上完整的知識圖譜。這份知識圖譜數(shù)據(jù)才能夠覆蓋投研、風(fēng)控、投資、營銷服務(wù)等金融各類場景的數(shù)據(jù)服務(wù)需求。
引入“事件”
整合了產(chǎn)業(yè)鏈數(shù)據(jù)的金融知識圖譜,能夠進(jìn)一步演化為產(chǎn)業(yè)金融知識圖譜。有了產(chǎn)業(yè)分析能力的金融知識圖譜,就可以試水行研風(fēng)控等金融核心業(yè)務(wù)了。
筆者在智能金融實(shí)踐中,經(jīng)常會遇到如下的一些問題:原材料漲價(jià),對行業(yè)上下游的公司有什么影響?某P2P平臺暴雷,這個風(fēng)險(xiǎn)事件對上市公司會有什么影響?CPI拐點(diǎn)出現(xiàn),該指標(biāo)對哪些行業(yè)、哪些公司有哪些影響?
這類問題不是簡單的數(shù)據(jù)問題,也不是在找企業(yè)的某種關(guān)系,而是投研/風(fēng)控領(lǐng)域經(jīng)常面對的業(yè)務(wù)研究問題。這類問題的起點(diǎn)是一個個具體的事件,尋找的答案是事件的影響分析。
這類問題在過去基本存在于行研風(fēng)控專家的業(yè)務(wù)模型里,而現(xiàn)在知識圖譜作為企業(yè)關(guān)系分析的利器,企業(yè)等實(shí)體的關(guān)系網(wǎng)絡(luò)的存儲載體,讓我們對于這類問題可以有新的方案加以應(yīng)對,將傳統(tǒng)業(yè)務(wù)研究嫁接到基于知識圖譜的人工智能基礎(chǔ)設(shè)施上,而支撐這類業(yè)務(wù)研究的,是構(gòu)建在圖譜數(shù)據(jù)中臺之上、投研風(fēng)控業(yè)務(wù)之下的一個中間業(yè)務(wù)處理層——事件圖譜。
區(qū)別于傳統(tǒng)事件驅(qū)動的“事件”,這里的“事件”是廣義上的事件。事件圖譜是指將新聞、公告、輿情等各類資訊,用人工智能分類的方法進(jìn)行事件類型識別,將識別好的事件和關(guān)聯(lián)主體跟金融知識圖譜做關(guān)聯(lián),從而形成事件圖譜。事件圖譜也不同于國內(nèi)學(xué)術(shù)界提出的事理圖譜,事理圖譜更多的是從NLP角度將新聞資訊的內(nèi)容格式化為知識圖譜,形成大數(shù)據(jù),進(jìn)而做推理分析。
事件圖譜的作用主要體現(xiàn)在兩方面:一個是事件識別,一個是事件的影響分析。所謂事件識別,可以理解為事件的建模,或者說事件本體的構(gòu)建,簡單來說就是用模型描述一類事件,比如訴訟事件可以簡單建模成{事件類型:訴訟事件;影響標(biāo)的:某公司;情感分析:-0.5;事件熱度:0.8;事件影響度:0.5};也可以對此進(jìn)行更加復(fù)雜的建模,把原告、被告、訴訟金額、訴訟地點(diǎn)等識別出來,從而更加精準(zhǔn)的對事件加以描述。
事件的影響分析有兩個維度,一是事件回測,二是事件傳播影響。事件回測是對歷史上同類事件的發(fā)生做一個數(shù)據(jù)統(tǒng)計(jì)分析,對于上市公司而言,回測的目標(biāo)可以是設(shè)定為行情的收益率、波動率或者某個金融工程的具體模型,目的是看歷史上同類事件發(fā)生后,對于相關(guān)公司會有什么樣的影響。
事件傳播影響則要借助金融知識圖譜,通過事件識別命中某個事件主體(可能是某個公司、行業(yè)、產(chǎn)品,抑或是某個宏觀數(shù)據(jù)行業(yè)指標(biāo)等),將該主體關(guān)聯(lián)到金融知識圖譜里,可以查看跟這個事件相關(guān)的企業(yè)鏈信息、股權(quán)鏈信息和產(chǎn)業(yè)鏈信息。事件自身的正負(fù)面、影響度、熱度會沿著知識圖譜實(shí)體的關(guān)系網(wǎng)絡(luò)進(jìn)行傳播,對這個傳播影響進(jìn)行定性或者定量的分析就是事件圖譜要解決的核心問題了。
所以,事件圖譜通過對新聞資訊輿情所描述的事件進(jìn)行建模,并對其做定性或者定量的影響分析,從而在金融大數(shù)據(jù)和投研風(fēng)控的業(yè)務(wù)研究中加入了一層智能事件的圖譜分析。事件圖譜聯(lián)合企業(yè)畫像和標(biāo)簽系統(tǒng),將為傳統(tǒng)金融向智能金融演化提供強(qiáng)有力的人工智能的業(yè)務(wù)支撐。
當(dāng)使用知識圖譜的業(yè)務(wù)由點(diǎn)及面,各類數(shù)據(jù)通過各個項(xiàng)目慢慢匯集在一起,并且在各個場景中逐步產(chǎn)生數(shù)據(jù)的增量價(jià)值,金融知識圖譜的威力也會進(jìn)一步凸顯。
(來源:億歐)