生成式人工智能賦能哲學社會科學研究的機理與實踐
任麗梅
當今時代,生成式人工智能(Generative Artificial Intelligence)快速發展,它基于深度學習技術,在大規模多模态數據集的基礎上,根據給定的提示或條件,生成全新的文本、程序代碼、圖像、視頻和聲音等數據,展現出強大的内容生成能力,為哲學社會科學研究帶來了深遠影響。作為探索人類社會發展規律、研究人類思想文化精神的重要學科體系,哲學社會科學在信息時代的數據浪潮中面臨着數據處理解析手段落後與傳統理論框架解釋力不足等困境。自2020年OpenAI發布的GPT-3模型以來,人們陸續研發出了Gemini、DeepSeek等大模型産品,其以強大的數據處理、高效的多模态融合式内容生成、出色的全域檢索等能力突破人類思維和認知的局限,幫助哲學社會科學走出數智環境中的認知困境,實現更大的學科跨越式發展。從技術底層把握生成式人工智能的智能原理和在哲學社會科學學術研究中的最佳場景與應用局限,針對生成式人工智能的認知邊界與社會事實的“可計算性”邊界等問題,展開對未來人機協同的技術追問和反思,對于重塑哲學社會科學的研究範式,推動人類對社會和自身的認知不斷深化等,都具有重要的理論與現實意義。
一、數智環境下哲學社會科學的認知困境與生成式人工智能的助力
哲學社會科學的研究雖然有流派和階段等各方面的差異,但研究的前提還是從問題開始,旨在提供有用的解決方案以指導當前實踐。在複雜而系統的研究過程中,研究者通常使用文獻綜述、研究設計、資料數據收集、數據分析與邏輯推演等方法,以達到發現問題、分析問題以及解決問題的目的。然而,在當前數據與知識爆炸的時代,傳統的哲學社會科學研究出現了認知困境,需要新的工具與方法來革新自己的工作方式,最終實現研究範式的創新。
(一)信息時代傳統哲學社會科學研究出現認知困境
在信息量呈爆炸式增長的當今時代,因為“信息過載”,傳統哲學社會科學研究在文獻綜述方面遭遇效能瓶頸,同時面臨數據處理量過大和傳統理論框架解釋力不足等問題。
1. 傳統研究方法在人工文獻綜述方面遭遇效能瓶頸
通常的系統性文獻綜述,需要研究者閱讀盡可能多的文獻方能覆蓋前沿進展。随着計算社會學等交叉學科的發展,在文獻綜述方面大量引入數據分析的方法。傳統的文獻綜述方法在此方面遭遇了效能瓶頸。而且,不同研究者的主觀認知偏差明顯,同一主題的文獻綜述,不同研究者提取的關鍵理論框架重合度不高,結論的相似度也不夠。特别是在此過程中,跨學科的跟蹤更容易出現信息篩選困難,研究者普遍存在文獻焦慮的現象。
2. 傳統研究模式遇到數據處理總體數量過大等問題
随着數字化進程,人們在創造和創作的同時産生大量數據。據統計,全球數據圈将從2018年的33ZB增加至2025年的175ZB,其中約80%為非結構化的文本、圖像或視頻。而傳統人工處理大數據的方式耗時巨大,且質性分析方法效率低下。如:社交媒體情感分析需要同時處理語義、語境、文化隐喻等多個維度的信息,研究者要能夠在細粒度語義層次上實現關聯發現,而這對既有的研究範式是個不可逾越的挑戰。因為,人類研究者難以實現毫秒級的實時解析,在傳統的研究範式下數據信息量與數據細粒度要求之間存在矛盾,研究人員的認知能力在此方面遭遇了“天花闆效應”。
3. 傳統理論框架正面臨解釋力不足的挑戰
在當前大變革、大發展時代,社會現象呈現跨越時空和層級的複雜聯系,哲學社會科學研究往往需要多學科同時參與來完成。例如:氣候變化引發的移民潮研究,涉及環境科學、經濟學、政治學等多個學科的交叉領域;又如:社交媒體上的集體行為呈現非線性的動态關系,僅通過個體行為的簡單累加無法得出正确結論,需要通過新興交叉學科諸如量子社會科學、計算傳播學等對群體的數據展開動态分析。跨學科融合發展成為哲學社會科學發展的必然趨勢。跨學科與新興交叉學科需要新的複雜性理論研究工具,幫助哲學社會科學突破傳統研究範式,彌補和解決現有研究中的短闆和矛盾問題。
(二)生成式人工智能助力哲學社會科學走出認知困境
生成式人工智能因為在數據處理和全域連接的開放搜索與知識拓展等方面的突出能力,使之可以作為人類的“外腦”,承擔内容生産與知識存儲等“知識外包”性質的工作。其對哲學社會科學研究的支持體現在文獻整理環節、數據處理環節、數據分析挖掘和報告撰寫等各個環節,幫助傳統哲學社會科學走出認知困境。
1. 文獻整理環節
在對已有文獻資料、調查檔案和曆史記錄等信息與數據進行大量收集和整理方面,傳統的人工處理方法耗時耗力,而且還存在信息不全、認知偏差等問題。生成式人工智能支持的新型系統性文獻綜述法,應知識爆炸的背景而生,它集成學術數據庫、搜索引擎等工具,在對海量學術資源開展自動化分析和歸納的基礎上,可以快速準确地檢索到與研究主題相關的文獻資料,并進行基礎性的篩選、分類和整理,幫助研究者總結經驗、發現問題,加強研究主題的選題準确性和深度,并節省信息收集整理的時間成本和精力成本。在技術層面,它建基于知識創新的機制,通過對文獻的解讀來建立知識之間的聯系,從而通達知識的本真。在結果層面,它在有效地規避大海撈針的危險的同時,保證在一定的标準上一個也不少。
2. 理論梳理環節
挖掘理論空白點并提出創新性的理論論辯,是哲學社會科學研究實現理論突破和發展的關鍵步驟,這是生成式人工智能的優勢。以DeepSeek為代表的混合專家型(Mixture of Experts,MoE)生成式人工智能與專業理論的深度融合條件更為充分,可為經濟和社會發展預測、政策評估等方面提供更精準的模型和方法,幫助研究人員對大量文獻展開實時高效的分析,為理論論辯提供實證支持。所以,生成式人工智能為研究者打開研究視域,深入研究問題的本質,提出創新性的理論研究主題等提供有力支持,推動哲學社會科學研究在數智化時代的理論創新。
3. 信息分析與挖掘環節
研究目标确定後,信息分析與挖掘工作對研究結果的呈現至關重要。生成式人工智能技術為此環節帶來了新的突破。其大型語言模型能與外部信息源、工具、感官數據、圖像、物理對象等進行交互,使其具有強大的多模态數據分析能力。目前,大型語言模型已被應用于分析社交媒體發帖、調查數據和新聞文章上,促進了哲學社會等科學相關領域的數據驅動研究。以輿情分析為例,社交媒體平台上每天都會産生海量的用戶數據,這些數據蘊含着公衆對于各種社會事件、政策、熱點話題的看法、态度和情緒。利用自然語言處理技術,生成式人工智能夠輕松地對社交媒體上的大規模文本數據進行實時監測和分析。在某一社會熱點事件發生後,研究人員借助生成式人工智能軟件可以迅速抓取相關的微博、微信、論壇帖子等文本信息,進行分詞、詞性标注、句法分析等預處理操作,然後提取出其中的關鍵詞、關鍵短語和句子加以分析,挖掘其中的規律和趨勢,等等。
4. 報告撰寫環節
目前,已有不少生成式人工智能軟件可以充當報告撰寫的智能助手,輔助研究者完成報告的起草和細化工作,大大提高了“中級專業寫作任務的生産力”。在研究者的整體報告框架下,生成式人工智能軟件能夠根據研究者提供的研究思路、大綱和相關資料在專業的模型系統或者是加上了自身特殊知識内容的系統中進行内容生成。研究者隻需對初稿中的内容進行核對、補充和優化,就能夠快速完成報告的框架性草稿撰寫,并有效維護參考文獻與引用關聯信息,節省了研究者大量的精力,為人類創造了更多的機會和時間去探索新的領域和解決更具挑戰性的問題。
展望未來,以DeepSeek為代表的新一代人工智能産品的開源創新模式,一方面促進産品自身的不斷疊代升級;另一方面持續降低應用門檻,在哲學社會科學研究領域展現出更為廣闊的發展前景。
二、生成式人工智能的智能原理
生成式人工智能為哲學社會科學研究提供了強有力的支持。深入分析其智能原理,有助于我們了解其内在的優勢與不足,從而更準确地運用其推動哲學社會科學發展。
(一)生成式人工智能的智能形成過程
生成式人工智能即大語言模型的智能生成基于兩大階段,即無監督的預訓練與有監督的微調(精調)。其核心是通過Transformer架構的自注意力機制,從海量文本中學習語言模式。在預訓練階段,模型利用數千億甚至數萬億詞彙(詞元)的語料,在基礎詞元的基礎上,通過掩碼預測或自回歸生成任務,構建詞與上下文的高維向量表征,捕捉語法、語義及淺層邏輯關聯。在這個過程中,生成式人工智能系統首先對輸入文本進行分詞處理,将文本轉化為一個個離散的詞元(Token)。這些詞元作為模型的輸入,被嵌入到一個向量空間中,每個詞元都對應一個向量表示(如:著名的“Word2vector”方法),包含了該詞元的語義信息。
然後,模型通過多層Transformer編碼器對這些向量進行編碼,不斷提取和融合語義特征,構建出對輸入文本的深層次理解。在這個過程中,模型會根據輸入文本(即所謂的“訓練語料”)的語義和上下文信息,自動調整注意力權重(即所謂的“學習訓練”),關注與當前推理任務相關的信息詞元。譬如:當輸入一個關于科學研究的問題時,模型會在編碼過程中,重點關注與科學術語、研究方法、實驗結果等相關的詞元向量,忽略其他無關信息。這個過程最終會形成一個每個詞元與其他向量空間的所有詞元之間的注意力大小的數據矩陣(可以看作是每兩個詞元之間在這個向量空間中“共現”的可能性概率)。
在使用過程中,生成式人工智能利用Transformer解碼器進行推理和生成。解碼器根據編碼器輸出的語義表示,結合目标語言的語法和語義規則,通過自回歸的方式逐步生成輸出文本。在每一步生成中,模型會根據已生成的前文内容,預測下一個最可能出現的詞元,從而使模型能夠生成出内容邏輯連貫、語義通順的句子和段落。當然,這種推理和生成過程并非簡單的模式匹配,而是基于對大量文本數據的學習和理解,通過向量計算,捕捉到語言中的各種語義和邏輯關系,從而在生成時形成高質量的通順連貫文本。而且,這種文本生成,還可以在推理鍊的控制下,實現長文本(有可能是上萬字的論文)的輸出。
而所謂的微調,就是在已經使用大量訓練語料預訓練形成的模型系統基礎上,利用準備好的特定數據集和微調策略,對模型進行進一步訓練。在訓練過程中,依據設定的超參數和優化算法,參考已知的最佳結果,不斷調整模型參數,以最小化損失函數的值,從而提升模型在特定任務上的性能。
上述智能形成過程,既是生成式人工智能以技術邏輯的方式展開成為一種人工智能的過程,也是深度學習構建智能生成與發展過程,它“既是技術邏輯的重要發展,更是技術追求智能本質的重要進展”。
(二)生成式人工智能的智能機制
總的來看,生成式人工智能的智能機制主要在于三部分:一是運用千億級參數構成的向量空間,形成複雜模式記憶的載體;二是通過動态權重分配聚焦關鍵信息,實現多種注意力機制;三是通過推理鍊和數據多樣性,實現跨領域文本提升泛化能力。
1. 向量空間設置——數智智能和意識形态限制的基礎
向量空間設置是生成式人工智能理解和處理信息的基石,而基礎詞彙表的選擇更是基礎中的基礎。如:DeepSeek的基礎詞彙表有12萬多詞元,一個詞元在生成式人工智能領域即是一個向量,這就為生成式人工智能提供了一種統一的數據表示方式。這些詞元向量不僅僅是簡單的文字組合,它們蘊含着豐富的語義信息。生成式人工智能工具通過分析向量之間的關系和距離,可以推斷出詞語之間的語義關聯、概念層次結構等知識和邏輯,從而實現對輸入信息的理解,并生成更準确、合理的預測内容進行輸出。在生成式人工智能中,無論是文本、圖像還是音頻,都可以轉化為向量形式,這樣不同類型的數據就可以在同一框架下進行處理和分析,以及進行後續的計算和模型訓練。由于這個特殊的向量空間是通過人為定義或通過語料計算出來的,因此,這些符号化記憶在某種程度上是一種用于生成内容的技術或算法的先驗性知識,也可以被看作是一種機器智能的認識基礎,是人類文明通過技術系統為“意義世界”樹立的先驗規則體系,其本質上還是沉澱了人類文明的符号化記憶載體。
2. 注意力機制——将一切的邏輯與推理都轉化為關系計算
現有生成式人工智能産品大多是基于Transformer架構,其中,注意力機制是Transformer架構生成式人工智能理解和處理信息的核心機制。注意力機制核心目标是通過動态建模輸入序列中詞元(token)之間的關聯關系,捕捉長距離依賴和語義的上下文信息,并通過動态權重建模全局依賴。本質上就是将詞元之間的所有可能的關聯都轉化為關系計算。注意力機制被認為是生成式人工智能的一大核心進步,也是其智能的核心。但是也有研究者在實踐中發現其不足,即由于這種機制不是基于對問題本質的理解來進行推理,而是過度依賴于特定的token與訓練數據的匹配,因而,當嘗試增加問題的難度時,所有模型的性能都持續下降,且方差變高。當遇到完全超出其訓練數據範圍的全新問題或情境時,模型往往無法進行有效地推理和處理。所以,我們要正确看待大語言模型。如果我們将創造性視為“對可能性空間的探索”,則這樣的生成式人工智能仍應被視為人類認知的工業化延伸工具,本質是将人類領域知識編碼為可計算範式。
3. 推理的實現機制——本質仍然是更複雜的模式匹配
推理機制即所謂的“推理鍊”是生成式人工智能的一個關鍵智能表現。推理的基礎實現是在Transformer架構中利用自注意力(Self-Attention)機制,由模型計算每個詞與上下文中其他詞的相關性權重,構建語義關聯網絡。在處理長文本時,主要采用了多頭注意力機制(Multi-Head Attention),讓模型同時關注輸入文本的不同部分,捕捉文本中詞彙之間的長距離依賴關系和語義關聯,從而準确把握文章的主旨和邏輯。以DeepSeek為代表的混合專家模型(MoE)在推理技術方面取得重大突破。它主要是在模型架構上,将傳統MoE架構細分為共享專家和路由專家,使用時動态激活不同專家處理輸入數據,顯著提升模型容量和任務适應性。而在應對處理一些特殊的情況或問題時,模型還具備多步推理的能力。這種能力被稱為思維鍊。其實質是将需要進行多步推理的問題,自動分解為一系列的步驟,進行逐步解決并求得答案。也就是說,推理是存在的,但是受前置——“數智”“先驗知識”——訓練權重庫與語料庫的控制的。生成式人工智能的推理鍊機制,從技術上講仍然是複雜的匹配,本質上仍然是工具的升級。推理的價值在于它是對“可能性世界”的算法彰顯,也就是一種可能性的價值。它不具有邏輯推理的認證傳遞功能,我們不能因為這種“推理”在形式上可以就認證其結果的正确性。
以上,無論是對句子内部推理生成下一個詞元,還是長文本的輸出,還是思維鍊的多步推理,生成式人工智能通過算法架構将人類認知的曆時性積澱轉化為共時性運算,它不僅再造了認知的工業化生産線,更在現象學意義上重構了意義生成的拓撲空間,引發知識生産模式的根本性轉變。
(三)生成式人工智能的智能本質
生成式人工智能本質上是高效的概率拟合工具,是可能性世界的“算法顯影”。其中,語言與世界的聯系是其智能的基礎;語料庫沉澱了人類文明的符号化集體記憶,是其“智能”的直接來源;推理機制仍然是機械遞歸的封閉系統;而創造性則是其“可計算性”的邊界。
語言與世界的聯系是生成式人工智能的基礎。維特根斯坦(Wittgenstein)在《邏輯哲學論》中提出語言與世界之間存在着邏輯同構性,他認為,“命題是對事态的描述”,即世界結構中的“世界(事實)—複合事實—原子事實—對象”與語言結構中的“語言(命題)—複合命題—原子命題—名稱”在邏輯上是一一對應的。因此,正确地使用語言就能正确地描述世界,是基于大語言模型的生成式人工智能的核心理念。生成式人工智能就是正确描述世界的語言工具,其中Transformer的預訓練權重庫和語料庫是沉澱了人類文明的符号化集體記憶,形成康德“先驗範疇”(生成式人工智能系統所擁有的)的數字化技術等價物。這種“先驗性”在某種程度上是構築“數智”認識論基礎:不是為自然“立法”,制定知識規則,而是通過數字化技術系統的“數智(向量)空間”為意義世界“立法”,建立“映射”。
生成式人工智能的智能源自經過語料庫訓練而成的神經網絡,這種智能是參數、詞元(Token)、數據與算力協同作用的結果,而非單純大數據處理能力或程序。這種智能已經表現出與以往人工智能截然不同的自主交互能力,有人據此認為“人工智能奇點”出現,由此人工智能呈現出一定的主體性特征。OpenAI和Google等機構也曾提出“湧現”概念,認為當大模型系統的參數量達到一定程度,如:超過千億參數時,模型可能會突然展現出一些複雜邏輯推理、創造性生成等超出預期的新能力。直白地說,就是生成式人工智能有可能突變産出生物智能的特征。然而,相關研究指出,OpenAI和Google等機構提出的“湧現”現象可能并非源于模型能力的質變,而是由于評測指标的非連續性設計。具體來說,一些研究者認為,所謂的“湧現”能力可能是因為研究者選擇的非線性或不連續指标而産生的。例如:斯坦福大學的研究人員提出,大模型的“湧現”能力與任務的評價指标強相關,更換一些連續、平滑的指标後,湧現現象就不那麼明顯,更接近于線性。這表明,所謂的“湧現”可能更多是評測方法和指标設定的缺陷,而非模型本身具有某種突變或質變的能力。也就是說,生成式人工智能的“智能”雖然源自參數詞元(Token)、數據與算力的協同,但其本質上仍是高效的概率拟合工具的集合。大模型的運行機制始終受限于符号操作的還原論範式:輸入文本被分解為離散标記,通過矩陣運算重構概率分布。這種“碎片化—重組”過程與生物智能的湧現存在本質差異。其輸出僅是預設算法對訓練數據分布的拟合,缺乏真正的意向性。盡管大模型還可以通過微調更新權重,但其架構本身是靜态的(如:Transformer塊的固定堆疊)。因此,所謂“湧現”更接近技術神話而非科學事實。真正的“湧現”需要系統具備自我指涉與動态重構能力,現階段這種基于還原論意義上的經語料訓練而産生“智能”的生成式人工智能,實際并不具備這個條件。
生成式人工智能的“推理鍊”,本質上仍然是可能性世界的“算法顯影”。海德格爾曾批判技術将存在簡化為“持存物”,而Transformer模型正是将語義壓縮為向量空間的數學對象。大模型通過自注意力機制建立的關聯網絡,看似實現了海德格爾式的“诠釋學循環”,實則陷入機械遞歸的封閉系統。例如:多頭注意力并行計算的上下文關聯,僅是統計學意義的共現強化,無法突破訓練數據的曆史邊界(如:無法理解未見于語料的物理定律)。這種封閉性使得模型無法真正突破既有的知識框架,正如哥德爾不完全性定理所揭示的“自我超越”的困境。
所以說,當前大模型架構受限于還原論範式、技術先驗性壓制與機械诠釋學閉環,無法實現真正意義上的創造性湧現,創造性是其“可計算性”的邊界。然而,這種局限恰恰讓我們看到智力勞動中“提問”與“回答”環節的分工。其中,人是創造性存在,機器則是生成性存在。但是,我們并不能因此而否定作為一種“智能”形式的機器處理存在的協同創作的價值。我們應該基于将這樣一種機器的或者是文本知識本身的智能形式納為人類所用的共識,擱置“機器自主創造”的執念,開啟人機協同的認知增強模式。但在此之前,我們需要了解人工智能給哲學社會科學研究所帶來的挑戰,這樣,才能更好地發揮其在協同創作中的價值和作用。
三、哲學社會科學研究應用生成式人工智能所面臨的新挑戰
生成式人工智能應用于哲學社會科學研究,在數據處理、理論梳理等環節具有獨特的優勢,但同時也存在一定的局限性。
(一)智能幻覺是帶有根源性的關鍵問題
生成式人工智能的“智能幻覺”(AI Hallucination),是其應用于哲學社會科學研究時最主要的缺陷。智能幻覺是指模型生成看似合理但實際不準确、虛假或脫離現實的内容。也即是說,模型在缺乏真實理解的情況下,通過統計模式生成形式邏輯自洽但不符合事實的文本、圖像等信息。産生這種現象的原因有三:其一,因為生成式人工智能是根據概率随機生成内容,這就導緻可能會生成一些不符合實際或與預期不符的内容。其二,大模型在根據用戶的提示生成新的内容時,可能存在的上下文關注不足,過度關注相鄰文本而忽視原有的上下文意義所緻。其三,到目前為止,生成式人工智能的推理類似于一種“黑盒”方式,模型的微調都是根據輸入和輸出的人工對比來進行參數的調整,以至于在研究高精度且強創新性的場景中,其工具價值受到很大限制。
(二)應用場景局限于總結而非推演
生成式人工智能大模型的強大數據處理能力,是對跨學科數據處理與分析能力的根本性解鎖,讓哲學社會科學研究範式正在經曆一場深刻的變革。但是,正如前文所述,生成式人工智能的推理鍊本質上是一種更複雜的模式匹配,或者說是有概率的再現,而不是邏輯充分的推演,如:無法分析不同觀點之間的内在聯系和邏輯關系,等等。這就使得生成式人工智能在面對複雜的理論問題時,無法像人類研究者一樣進行深入的分析和探讨,其生成的内容往往缺乏深度和洞察力。也即是說,哲學社會科學應用生成式人工智能,其功能其實僅局限于“總結”而非“論辯”或“推演”。
(三)數據隐私、知識産權與數據安全問題
當前,生成式人工智能的本質仍然是“數據智能”,其智能的關鍵在于訓練數據的質量和數量。但在實踐中,在訓練數據集的過程中關于數據隐私、知識産權與數據安全的問題日益凸顯,成為制約其應用于哲學社會科學的一大阻礙。生成式人工智能的訓練數據量極大,涵蓋的範圍極廣,數據形式包含文本、圖像、音頻等多種形式,使用過程中不能完全“脫敏”個人隐私信息。在醫療領域,訓練數據可能包含有一些不知情的患者的病曆、診斷結果甚至是基因數據等;在金融領域,數據可能涉及用戶的賬戶信息、交易記錄、信用數據等。倘若數據的不當使用(主要是指數據未經授權使用,或者是超範圍使用等情況),将有可能直接造成哲學社會科學研究的信任危機。
(四)算法偏見與意識形态影響
訓練數據往往來自現實世界,而現實世界中本身存在着各種偏見和不平等現象。算法偏見是生成式人工智能應用中的隐匿性問題,但它為各種意識形态的提取和傳播帶來便利,所帶來的影響卻可能是全方位、多層次的,不容忽視。算法偏見産生于多方面,訓練數據的偏差是其重要根源之一。如:前述分析,基礎向量詞彙詞元的設計、訓練數據的篩選,以及微調中的人工調試等,許多都是人為預設的。在數據收集過程中,如果樣本選擇不具有代表性,或者對某些群體的數據收集不足,就會導緻訓練數據存在偏差。如:在訓練一個用于圖像識别的生成式人工智能模型時,如果訓練數據中大部分圖像來自某一特定種族或性别的人群,那麼模型在識别其他種族或性别人群的圖像時,可能會出現偏差,導緻識别準确率降低。另外,其他細節分析算法設計本身也可能引入偏見,“造成信息失真、隐私洩露、有毒有害意識形态傳播等風險”。
(五)可靠性與可解釋性的不足
生成式人工智能雖然能夠生成看似合理的文本、圖像等内容,但這些内容并不總是準确無誤。在深度學習模型中,大量的參數和複雜的運算使得模型的決策過程變得非常複雜,研究者很難了解模型是如何根據輸入數據生成輸出結果的。其内部的決策過程和推理機制往往被視為“黑箱”,難以被人類理解和解釋。這使得研究者在使用生成式人工智能時,無法判斷其生成内容的合理性和可靠性,增加了研究的風險。生成式人工智能的不可解釋性,使得研究者難以對其生成内容的可用程度進行有效的評估和驗證,從而降低了研究者對其的信任度與使用意願。況且,哲學社會科學研究往往涉及複雜的社會現象、人類行為和價值判斷,這些問題具有高度的不确定性和多樣性。生成式人工智能在面對這些複雜問題時,可能無法進行真正有效的推理,生成不準确或不完整的内容。
四、人機協同構造新引擎提升哲學社會科學研究效率
生成式人工智能促使智力勞動中的“提問”與“回答”環節相分離,讓哲學社會科學研究從人類中心主義的思辨傳統轉向人機共生或協同思考。未來生成式人工智能的突破或許不在于追求參數規模的無限擴張,而在于構建容納不确定性、具身性與自指性的新型認知架構,重塑哲學社會科學的研究範式,實現人機協同新機制。
(一)揚長避短實現人機協同新機制
如前文所述,生成式人工智能雖然能夠對文本進行語法和語義分析,注意力權重分布雖然揭示出完全異質于生物神經活動的關聯模式,但它還不具備“自我”和“自我意識”,難以準确把握理論背後的深層次含義和價值取向。也就是說,它對于理論概念及其内在邏輯尚不能做到有意義的理解和勾連,無法達到人類對理論進行分析驗證和體系化梳理的創新能力。
具體而言,生成式人工智能因為以下幾方面的原因使其不能達到人類的理解能力與價值創造。其一,社會現象的本質是人與非人行動者(如:技術、制度)的動态網絡互動,生成式人工智能将一切簡化為可量化的關聯,必然導緻關系性本體的消解,使得概念本身缺乏其情境所依賴的實踐意義;其二,計算過程代替邏輯推演,導緻過程性維度的缺失,社會事實的持續建構過程被壓縮為靜态數據快照;其三,是價值負載概念的不可計算性。由上,我們很難用拉圖爾的行動者網絡理論來定義生成式人工智能作為行動者的“理性”,承認這種技術實在的認知主體性。“使用和發展生成式人工智能時,我們需要明确其定位——它應當是人類智慧的補充和延伸,而非替代。”因此,“GAI(生成式人工智能)參與的學術論文,其作者還屬于人類”。未來,仍然是以人為主體的人機協同或者說是人機協同計算而形成的智能輔助的關系。
所以,可以在認識論層面研究人機協同機制,即“溯因—演繹—歸納的循環增強”機制。如果這一機制中出現由“人工智能生成假設”、由“人類溯因篩選”并結合進行“演繹推導可檢驗命題”再由人工智能來進行歸納驗證,并最終由人來進行決策與價值判定,将有可能構建“人—人工智能—世界”的新型關系。其中,人工智能作為社會事實解釋的“合作诠釋者”,而人則是“權威判定者”,在二者之間形成以人為主體的人機協同的關系,将在工具價值與人文價值統一的基礎之上實現數據驅動與理論驅動的辯證統一,解釋性研究與批判性研究的協同創新,以及進行學科本體論重構的可能性探索。
(二)改進基礎技術并優化架構與算法
技術改進是提升生成式人工智能性能和可靠性的關鍵路徑。我們可以通過不斷優化架構與算法,開發可視化工具等,輔助哲學社會科學研究在理論創新的同時實現嚴謹的分析驗證,确保其在邏輯上的嚴密性、在實踐中的可行性以及在理論體系中的連貫性。
在算法改進方面,應緻力于提高信息空間的規範性與算法的準确性和穩定性。針對基于強化學習的生成式人工智能在處理複雜數據和任務時容易出現偏差和錯誤的情況,研發人員可以通過改進高維信息空間的規範與規定法則和算法的設計和實現方式,增強算法對數據特征的提取和分析能力。在自然語言處理中,我們可以通過改進Transformer架構的算法,更好地捕捉文本中的語義和邏輯關系,盡可能減少生成文本中的語法錯誤和語義模糊問題;可以通過引入注意力機制的變體,如:位置敏感注意力機制,讓算法更加關注文本中不同位置的詞彙信息,提高對長文本的處理能力,從而生成更準确、更連貫的文本内容;還可以通過開發解釋性算法,對模型的輸出結果進行解釋和說明。如:基于規則的解釋算法,能夠将模型的決策過程轉化為人類更容易理解的規則,提高模型的可解釋性和可信度。
在系統架構方面,需要降低系統的複雜度并增強系統的穩定性和可靠性。如:采用基于混合專家模型(MoE)的系統進行深化,使大模型系統能夠更好地應對各種複雜的内容輸入;探索開發哲學社會科學研究專用的預訓練模型(如:SocBERT),等等。當然,模型訓練的微調和優化也是提升生成式人工智能性能的重要環節。優化模型的結構和參數設置也至關重要,通過對模型内部機制的改進,使得決策過程清晰可辨。而最具有創新價值的,當然就是構建可解釋性的新型模型架構,使模型的決策過程更加透明,智能機制更加可控。
最後,在工具和規則方面,可以通過開發各種類型的工具和引入規則來輔助解釋和決策。如:開發類型豐富的可視化工具,将模型的内部決策過程和推理機制以更直觀的方式呈現出來;通過引入領域知識和規則,對模型的生成結果進行約束和解釋,來提高模型的可解釋性。
(三)修訂與完善學術倫理與管理規範
生成式人工智能應用于哲學社會科學研究,本質上是通過算法架構将人類認知的曆時性積澱轉化為共時性運算,它不過是康德(Immanuel Kant)的“為自然立法”走向“通過技術為意義立法”的範式遷移。在此遷移的過程中,為确保其在哲學社會科學研究中應用與發展符合人類的價值觀和道德标準,保證人的主體性地位,需要制定新的倫理準則規範,包括數據使用倫理規範、算法倫理規範、生成内容倫理規範等。
在數據使用倫理規範方面,大模型訓練數據使用包括收集、存儲、使用和共享不同階段。“為了規約數據技術的發展和應用,必須在使用中保持人的主體性地位,必須遵從人類的倫理規範,才能更好地發揮數據技術的作用,避免人的主體性地位的喪失。”為此,需采用安全可靠的存儲技術、加密技術等,保障數據主體的知情權和隐私權,提升大模型數據社會信用的整體價值與意義。
在算法倫理規範方面,人工智能模型的設計階段,應加強相關規則設計時的審查,避免引入偏見和歧視。通過多樣化的數據訓練和公平性的專業評估,以确保算法在處理不同群體的數據時,不會産生不公平的結果。
在生成内容倫理規範方面,為了防止生成式人工智能生成虛假信息、有害内容和侵犯知識産權的内容,還需要建立有效的生成内容監督和評估機制。基于自主的哲學社會科學知識體系建立專業的标準語料訓練數據庫,對不同的生成式人工智能産品的倫理表現進行量化評估。通過定期評估,及時發現和糾正存在的倫理問題,推動生成式人工智能的健康發展。
(作者簡介:任麗梅,中國社會科學院馬克思主義研究院副研究員,碩士生導師,哲學博士)
來源:《觀察與思考》2025年第5期