中新網(wǎng)北京5月18日電 (記者 張素)“安全合規(guī)與隱私保護(hù)是開展大規(guī)模數(shù)據(jù)分析的前提。”深圳大學(xué)特聘教授、東壁科技數(shù)據(jù)創(chuàng)始人吳登生在受訪時說,可以通過差分隱私、同態(tài)加密等技術(shù)手段來確保研究者不泄露個人隱私,最終助力醫(yī)學(xué)數(shù)據(jù)的知識轉(zhuǎn)化。
“全球醫(yī)學(xué)頂尖科研成果高質(zhì)量數(shù)據(jù)集索引(2019–2024)”17日對外發(fā)布。該數(shù)據(jù)集從海量醫(yī)學(xué)文獻(xiàn)中精準(zhǔn)提取高價值科研數(shù)據(jù),構(gòu)建覆蓋基礎(chǔ)研究、醫(yī)療器械、生物醫(yī)藥與人工智能四個領(lǐng)域的多維數(shù)據(jù)框架,旨在為全球醫(yī)學(xué)研究趨勢研判、政策制定與產(chǎn)業(yè)創(chuàng)新提供權(quán)威數(shù)據(jù)支撐。
這一數(shù)據(jù)集由東壁科技數(shù)據(jù)聯(lián)合上海財經(jīng)大學(xué)數(shù)字經(jīng)濟(jì)學(xué)院發(fā)布。吳登生說,醫(yī)學(xué)領(lǐng)域存在數(shù)據(jù)集質(zhì)量參差不齊、結(jié)構(gòu)不清、可擴(kuò)展性差等問題,一定程度上制約了醫(yī)學(xué)數(shù)據(jù)價值釋放。此次團(tuán)隊(duì)創(chuàng)新設(shè)計了基礎(chǔ)研究、醫(yī)療器械、生物醫(yī)藥、人工智能四個一級分類框架,構(gòu)建了兼具深度與廣度的醫(yī)學(xué)知識圖譜。
針對非結(jié)構(gòu)化文本解析的挑戰(zhàn),團(tuán)隊(duì)開發(fā)了“數(shù)據(jù)融合—知識抽取—質(zhì)量驗(yàn)證”三層智能引擎,通過融合期刊影響因子、學(xué)科分類等結(jié)構(gòu)化信息與論文標(biāo)題、摘要等文本內(nèi)容,并結(jié)合大模型技術(shù),實(shí)現(xiàn)了從文獻(xiàn)到結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù)的高效自動提取。
吳登生介紹說,“全球醫(yī)學(xué)頂尖科研成果高質(zhì)量數(shù)據(jù)集索引(2019–2024)”基于Dongbi Index(東壁指數(shù))頂級期刊評價體系,鎖定34本醫(yī)學(xué)領(lǐng)域頂尖期刊。這些期刊涵蓋腫瘤學(xué)、心血管、免疫學(xué)等學(xué)科,80%以上影響因子超過10。數(shù)據(jù)顯示,2019年至2024年,34本期刊累計發(fā)表論文10.6萬余篇,為高質(zhì)量數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)基礎(chǔ)。
通過對數(shù)據(jù)集的15260篇文獻(xiàn)深度解析,研究團(tuán)隊(duì)發(fā)現(xiàn),美國以9719篇核心論文位居榜首,其后依次為英國、德國和法國,中國位列第五。
進(jìn)一步對中國和美國的細(xì)分領(lǐng)域發(fā)文以及數(shù)據(jù)集使用類型進(jìn)行對比分析,吳登生說,在腫瘤發(fā)生與演進(jìn)機(jī)制及防治、疾病治療和傳染病防控等研究領(lǐng)域,美國的研究數(shù)量均高于中國。這表明美國在基礎(chǔ)病理機(jī)制與臨床轉(zhuǎn)化研究上具有更為深厚的積累與投入,中國在這些領(lǐng)域仍有提升空間。
但在新興或高技術(shù)含量領(lǐng)域上,比如腦科學(xué)、放射治療設(shè)備、基因療法、醫(yī)學(xué)影像等領(lǐng)域,中美差距相對較小。“這意味著我國在精準(zhǔn)醫(yī)療與先進(jìn)技術(shù)應(yīng)用方面有望迎頭趕上。”吳登生說。
研究團(tuán)隊(duì)此番發(fā)布的報告指出,中國憑借其廣泛的國際合作網(wǎng)絡(luò),在數(shù)據(jù)集使用領(lǐng)域迅速崛起,不僅與美、英、德等傳統(tǒng)科研強(qiáng)國保持頻繁的學(xué)術(shù)交流,也在與加拿大、意大利、荷蘭、巴西和阿根廷等新興研究伙伴的合作中持續(xù)擴(kuò)大影響力。這為中國在構(gòu)建覆蓋廣泛、多元互補(bǔ)的醫(yī)學(xué)數(shù)據(jù)庫體系、提升國際話語權(quán)與競爭力提供了寶貴經(jīng)驗(yàn)與合作平臺。
圍繞中國醫(yī)學(xué)數(shù)據(jù)庫建設(shè),報告提出,一方面應(yīng)構(gòu)建以多組學(xué)、多中心臨床試驗(yàn)及流行病學(xué)調(diào)查為基礎(chǔ)的復(fù)合型數(shù)據(jù)庫,保障數(shù)據(jù)的高質(zhì)量與多樣性。另一方面,應(yīng)在數(shù)據(jù)庫設(shè)計中預(yù)置完善的臨床干預(yù)、長期隨訪和綜合指標(biāo)體系,鼓勵開放式數(shù)據(jù)共享與跨學(xué)科聯(lián)合分析等,提升數(shù)據(jù)的挖掘價值與科研轉(zhuǎn)化效率。
報告建議,要主動融入并推動多國、多機(jī)構(gòu)間的數(shù)據(jù)互認(rèn)與標(biāo)準(zhǔn)統(tǒng)一,建立符合國際慣例的元數(shù)據(jù)描述規(guī)范和數(shù)據(jù)交換標(biāo)準(zhǔn),促進(jìn)國內(nèi)外資源共享與協(xié)同創(chuàng)新。(完)