“數聚未來——鳳凰大模型數據研討沙龍”現場。受訪方供圖
人民網北京11月14日電 (記者許維娜)近年來,人工智能技術的應用不斷改變著傳統新聞生產流程,重塑著整個新聞業態。不少深耕內容科技領域從業者,正尋求AI、大數據等技術與媒體等行業的深度融合。
日前,“數聚未來 —— 鳳凰大模型數據研討沙龍”在京舉辦,與會嘉賓們共同探討高質量數據構建與基于數據驅動的大模型訓練優化。
鳳凰衛視執行副總裁兼運營總裁李奇在致辭中表示,數據仍然是目前人工智能發展的短板之一。數據就像是人工智能時代的石油資源,它的開發和應用都將是一個系統工程,需要產業界無數企業共同參與。期望發揮鳳凰的媒體平臺優勢,為產業界建立一個共建共享的數據平臺,共同推進人工智能的快速發展。
微博COO、新浪移動CEO王巍在主旨演講《數據賦能:微博探索AIGC多場景應用》中提出,圍繞大模型,目前已經形成由基礎設施層、模型層、應用層共同構成的AIGC(生成式AI)生態體系。對于媒體而言,AIGC將帶來內容生產方式的變革,AIGC時代的內容質量、效率及產量都將迎來高速發展。在未來,AI將創造出一種新型的“人機共存消費模式”。
“語料數據是大模型訓練的重要‘燃料’,有助于大模型更好地適配實際的應用場景,實現人工智能賦能千行百業的愿景。”王巍表示,從目前的情況來看,雖然我國的數據資源豐富,但是由于數據挖掘不足、數據尚無法在市場上自由流通等因素,優質的中文數據集依然比較稀缺,成為阻礙大模型研發的重要因素。
“在這里,我們也呼吁更多的媒體機構加入到中文數據集的建設中。這將是一項非常重要的基礎工作,因為它為AI技術提供了豐富、多樣的數據源,有助于提升AI模型對中華文化的理解。”王巍表示,中文數據集的建設不僅能夠滿足媒體行業的需求,還將推動AI技術在華語地區的更廣泛應用和發展。這一工作具有很高的價值,將為媒體行業和AI行業帶來更多的創新和合作機會。
王巍還介紹,目前,AIGC在多個領域的創新成果逐漸顯現,媒體作為最適用AIGC相關技術和產品的產業之一,在這一變革中面臨全新的挑戰和機遇。
華為云 EI 產品部部長尤鵬帶來《盤古大模型的數據之道》的主旨演講。尤鵬表示,華為希望和鳳凰衛視一起共建數據黑土地,共同探索產業界自下而上的數據合作路徑和商業模式,共同構建大模型的“數據-算力-商業”飛輪,推動數據產業發展。
期間,鳳凰衛視推出 “鳳凰智媒 AI 數據業務”,并發布 “中文訪談對話數據集” 和 “正向價值對齊數據集”。
鳳凰衛視融媒體研發副總經理馮偉表示,高質量的數據語料庫是 AI 時代承載中華文化的新載體,鳳凰數據的核心目標是為 AI 時代的中華文化傳播奠定堅實基礎,讓 AI 與中華文化認知對齊更簡單。
據悉,2024 年,鳳凰數據計劃分三批發布更多高質量數據集,并正式上線 AI 訓練平臺。同時,鳳凰數據還將舉行 “Link + 科技峰會” 和 “AI 數據挑戰賽” 等系列活動,共同推進 AI 與華語文化的認知進程。