知識圖譜 (Knowledge Graph)

(圖說:美味的背後有多少辛苦的前置準備? 拍攝於 Le Bouchon Ogasawara 餐廳,渋谷,東京。圖片來源:Ernest。)



摘要 tl;dr

知識圖譜 (Knowledge Graph) 是一種以圖狀結構表示知識的資料模型,由 實體 (entity)、節點 (nodes)關係 (relationship)、邊 (edges) 組成,用來描述現實世界中的對象、事件、概念及它們之間的關聯。與傳統的關係型資料庫不同,知識圖譜採用彈性的圖形資料模型,能夠統合異質且不斷演進的資料,保留資料的語境語意

知識圖譜廣泛應用於搜尋引擎、推薦系統、問答系統、智慧醫療和金融科技等領域。主要工具包括 Wikidata、Neo4j、Stardog、Amazon Neptune 等平台。隨著生成式 AI 的興起,知識圖譜與大語言模型的結合成為重要趨勢,形成「KG+LLM」的新研究熱點。(個人覺得 KG 與 Workflow 才是基礎,LLM 隨時可以被其他新技術取代。)


內容

1. 定義與簡介

知識圖譜 (Knowledge Graph) 1 是一種結構化的語意知識庫,以 圖形 (Graph) 表示知識的資料模型,由 實體 (entity)、節點 (nodes)關係 (relationship)、邊 (edges) 組成,用來描述現實世界中的對象、事件、概念及它們之間的關聯。其基本單位是「實體-關係-實體」的三元組 (Triple),採用「主語-謂語-賓語」的結構來描述基本事實。

例如「Ernest 居住在 Taipei」可表示為三元組 <Ernest, 居住在, Taipei>,其中 Ernest(主語)是一個人物實體,Taipei(賓語)是一個地點實體,而「居住在」(謂語)表示兩者間的關係類型。每個節點通常代表一個具體的實體(例如人物、地點、物品),每條邊表示實體間的一種類型關係,大量的三元組集合成一張圖,就構成了知識圖譜中網絡化的知識表示。

  • 與傳統資料庫的差異:
    • 相較於關聯性資料庫以表格(行、列)及預先定義的模式來儲存資料,知識圖譜以圖狀結構來組織實體及其關係。
    • 傳統資料庫擅長儲存結構化資料和處理基本查詢,但在捕捉複雜關聯以及從資料中推理新知識方面力有未逮。
    • 知識圖譜則將資料表示為節點和邊組成的網路,能靈活新增新的節點類型或關係類型而不需要改變整體結構,具有高度的模式延展性。
    • 每筆知識以三元組呈現,使得系統可以透過關係邊進行雙向查詢和推理,例如知道「天空 顏色 是 藍色」,便能反向推得「顏色為藍色的事物包括天空」。

這種彈性與語意表達力允許知識圖譜在儲存事實之餘,同時保留資料的語境 (context)語意 (semantics),有助於跨資料來源的整合並從中推理出新知。知識圖譜的目標在於讓機器能理解這些語意關係,從而支援更精確的資訊檢索與推理。

知識圖譜通常儲存在專門的圖資料庫 (Graph Database) 中,因其資料本身採用圖形結構來組織和表示知識關係,故稱為「圖譜」。雖然視覺化呈現能更直觀地展示這種圖形結構,但「圖譜」的稱呼源於其底層的圖形資料模型,而非僅因視覺化效果。某些研究認為「知識圖譜」與傳統的 知識庫 (Knowledge Base)本體論 (Ontology) 本質上並無不同,我是覺得值得另外討論。我的基礎想法是本質上世界模型應盡可能簡化成某幾個本體,然後依照場景或人類認知而需要特定參數或預設值,此時會產生新的名詞定義以便稱呼

2012 年 Google 推出 Google 知識圖譜 2 後使此名稱廣為流行。

2. 架構與建構

知識圖譜的技術堆疊可以分成 (1) 語意網標準 以及 (2) 圖譜構建流程 兩個部分:

語意網與標準

知識圖譜的理念源自於 W3C語意網 (Semantic Web) 3 (1999年提出) 技術框架。語意網想要在將網路上的資料以結構化方式定義和連結,使機器能理解網頁內容的語意。其核心標準包括:

  • RDF (資源描述框架)
    • 一種用於網路資料交換的資料模型,以「主詞 → 謂詞 (predicate) → 受詞」三元組 (triple) 形式描述事實。
    • 每個 RDF 三元組表示一個關係陳述,例如:「小明 → 喜歡 → 蘋果」。
    • RDF 靈活的三元組結構是知識圖譜的基石,使資料可以在不同來源間連結。
  • OWL (網路本體語言)本體論 (Ontology)
    • 單靠 RDF 三元組只能描述具體事實,但缺乏對概念和類別的抽象表達。本體層用來定義概念類型、屬性及它們之間的層次關係。
    • OWLRDFS 提供一套預定義的詞彙來描述類別、屬性和關係的模式。例如可定義「人 是 一種 類別」、「足球員 是 人 的子類別」、「人 有 屬性 出生日期」等知識結構。
    • 知識圖譜在邏輯架構上區分為資料層和模式層:資料層包含具體的事實三元組網路,而模式層(本體)則規範了實體類型、屬性、關係的類型層次與約束。
    • 有了本體,知識圖譜不僅是簡單的網狀資料,更成為可進行推理的知識庫——透過本體約束和推理引擎,系統能從已知知識中演繹出新的知識。例如已知「雍正 是 康熙的兒子」「乾隆 是 雍正的兒子」,利用家族關係的本體規則,可以推理出「乾隆 是 康熙的孫子」。
  • SPARQL 查詢語言 4
    • 語意網的查詢語言與協定,全名為 SPARQL Protocol and RDF Query Language,相當於語意圖譜的 SQL。
    • 使用者可以透過 SPARQL 查詢三元組模式,例如查詢「?人 a 演員;出生地 = 上海」即可找出知識圖譜中所有出生於上海的演員等資訊。
    • SPARQL 支援模式匹配、過濾、聚合等功能,能靈活地在龐大的知識圖譜中提取結構化資訊。
    • SPARQL 查詢可以跨資料集進行,非常適合鏈結開放資料環境,能從分散於不同來源的 RDF 資料中整合得到答案。
  • 其他標準:
    • RDFS (RDF 模式語言) 用於定義基本類別階層與屬性架構,
    • SWRL (語意網規則語言) 用於在 OWL 本體上撰寫邏輯規則等。

透過這些標準,知識圖譜能在網際網路上實現資料共享與推理,實現語意網的遠景。

知識圖譜的構建方式

知識圖譜的構建大致有自頂向下(Top-down)和自底向上(Bottom-up)兩種路徑:

  • 自頂向下方式(Top-down):
    • 通常指由領域專家人工建模,先設計本體架構(定義類別與關係),再將結構化資料來源(如百科、資料庫)整合進圖譜。
    • 例如早期 Freebase 等知識庫多依賴維基百科這類結構化/半結構化資料,透過人工和程式結合的方式抽取知識,建構出知識圖譜的骨架。
  • 自底向上方式(Bottom-up):
    • 著重於自動化,從大量非結構化資料(如文本、網頁)中抽取知識,再由人工校驗融合進知識庫。
    • 隨著機器學習和自然語言處理技術進步,現今大多數大型知識圖譜都採用自動抽取為主、人工校正為輔的方式,以應對網路開放資料的規模和複雜性。

知識圖譜的構建流程

建立一個知識圖譜通常需要整合多種資料來源,並運用自然語言處理與資料庫技術來抽取知識 5 6 7。自動構建知識圖譜一般包含以下關鍵步驟:

  • 資料整合與清理 (Data Integration & Cleaning, DIC):
    • 首先從各類來源收集資料,包括結構化資料(如關係資料庫、CSV 檔)、非結構化資料(如文件、圖片)及半結構化資料(如 JSON、XML)。
    • 針對多來源資料,需要進行實體對齊/解析 (Entity Resolution)資料融合 (Data Fusion),將不同來源中實際相同的實體識別並合併,解決命名不一致或重複的問題,消除衝突和不一致性。
  • 實體辨識 (Named Entity Recognition, NER):
    • 使用自然語言處理從文本等非結構化資料中抽取出有意義的實體名稱,如人名、地名、組織名等。這一步將非結構資訊轉化為圖譜節點的候選。
    • 早期 NLP 技術對實體識別的精度有限,不過隨著統計學習和深度學習應用(如隱馬爾可夫模型、條件隨機場、BERT 等),現今 NER 的性能已有大幅提升,為知識圖譜提供了可靠的實體清單。
  • 實體消歧與連結 (Entity Disambiguation & Linking, EDL):
    • 對抽取出的實體進行消歧,即釐清同名異物的差異,並將這些實體連結到知識圖譜中已有的實體節點或外部知識庫(如維基百科/Wikidata)上的唯一實體。
    • 透過實體連結,可確保每個節點具有全域唯一身份(例如 URI),將相同實體的各種別名對應起來,統一本體。
  • 關係抽取 (Relation Extraction, RE):
    • 識別文本中實體之間的語意關係,將分散的實體連結成知識網絡。例如從句子「愛因斯坦出生於德國烏爾姆」中抽取 (愛因斯坦, 出生地, 烏爾姆) 這樣的關係三元組。
    • 關係抽取可以基於監督學習(需要人工標註的關係樣本)、遠距監督(利用已知知識自動標記語料)或深度學習模型自動完成。目前還有端到端模型試圖同時抽取實體及關係,以提高抽取效率。
  • 知識表示與儲存 (Knowledge Representation & Storage, KRS):
    • 將處理後的實體和關係按照所選模型存入圖資料庫中。常見做法包括 RDF 三元組儲存 (Triplestore)屬性圖模型RDF 三元組資料庫(如 Ontotext GraphDBStardog)天然支援語意網標準,以三元組形式存放並允許以 SPARQL 查詢;屬性圖資料庫(如 Neo4j)則以頂點和帶屬性的邊來儲存圖,提供專用語言如 CypherGremlin 進行查詢。
  • 資料融合與推理 (Data Fusion & Reasoning, DFR):
    • 建構完成的知識圖譜通常會進一步進行語意推理 (Reasoning),利用本體規則(如 OWL 公理或 SWRL 規則)自動推導隱含的知識,豐富圖譜內容。
    • 例如,若已知「A 位於 B」和「B 位於 C」,則可推理得出「A 位於 C」。
  • 知識完善與質量管控:
    • 完成基本的實體和關係抽取後,還需要進一步加工知識使其結構化、層次化。例如依據抽取結果構建或更新本體結構,將實體歸類到適當類別,關係分類分層等。
    • 由於自動抽取可能引入錯誤,在知識入庫前通常要進行質量評估與清理。Google Knowledge Vault 專案曾嘗試全自動從網頁抽取數十億事實,並使用機器學習為每條知識計算置信度,再用可靠知識庫的先驗知識來校正評分,以降低誤判率,提高知識品質。
    • 實踐中,大型知識圖譜仍結合人工審核特定關鍵知識,以保證重要知識的正確率。
graph TD
    A["原始資料來源"] 
    B["資料整合與清理 
(Data Integration & Cleaning, DIC)"] B --> C["實體辨識
(Named Entity Recognition, NER)"] C --> D["實體消歧與連結
(Entity Disambiguation & Linking, EDL)"] D --> E["關係抽取
(Relation Extraction, RE)"] E --> F["知識表示與儲存
(Knowledge Representation & Storage, KRS)"] F --> G["資料融合與推理
(Data Fusion & Reasoning, DFR)"] G --> H["知識圖譜"] A1["結構化資料
(e.g. CSV, 資料庫)"] --> B A2["非結構化資料
(e.g. 文件, 圖片)"] --> B A3["半結構化資料
(e.g. JSON, XML)"] --> B style H fill:#e1f5fe style A fill:#f3e5f5 style B fill:#e8f5e8 style C fill:#e8f5e8 style D fill:#e8f5e8 style E fill:#e8f5e8 style F fill:#fff3e0 style G fill:#fff3e0

3. 應用領域

知識圖譜因其關聯關係表達與推理能力,在許多領域獲得廣泛應用:

搜尋引擎

知識圖譜被大型搜尋引擎用於增強搜尋結果的理解與呈現 2。典型例子是 Google 於 2012 年推出的「知識圖譜」功能,構建一個包含超過 5 億實體、數十億事實的大型知識庫,內容來源包括 Freebase、維基百科、CIA World Factbook 等。透過知識圖譜,Google 搜尋能在側邊資訊面板直接展示人物或地點等摘要資訊,理解使用者查詢語意,提供更精確的答案 8

推薦系統

在電子商務和娛樂內容平台中,知識圖譜可作為推薦引擎的核心,用來挖掘用戶、物品及其屬性之間的深層關聯 9。例如零售業利用圖譜實現產品加購/交叉銷售建議:根據知識圖譜中「顧客-購買-產品」的連結,以及產品間的相似性或互補關係,推薦相關商品給顧客。Amazon 的產品推薦系統大量採用知識圖譜技術,將產品屬性、用戶行為、評價等資訊連結起來,提供個人化推薦 10

問答系統與聊天機器人

知識圖譜賦能問答系統 (QA)以提供準確、有根據的回答 11。例如 IBM Watson 早期參與美國《Jeopardy!》問答比賽時,即結合大型知識圖譜進行語意解析和推理,從而在複雜問句中定位相關實體和關係,迅速檢索答案 12。現代的智慧助理(如 SiriAlexa)和對話機器人也常在背後利用知識圖譜作為知識基礎。

智慧醫療

在醫療保健與生物資訊領域,知識圖譜用於整合龐大的醫學知識和患者資料,實現智慧決策支援 13。例如構建醫學知識圖譜將痾病-症狀-藥物-治療等實體關係串聯起來,有助於臨床診斷與個性化治療方案推薦。IBM Watson for Oncology 即運用大型醫學知識圖譜來協助癌症治療決策,整合臨床指南、研究文獻及病例資料 14

金融科技

在金融服務領域,知識圖譜支援風險控管與知識發現 15。一個應用是瞭解你的客戶 (KYC)防制洗錢 (AML),銀行可透過知識圖譜將客戶、交易、公司實體等資料相連結,形成關聯網路來識別可疑交易路徑與高風險對象 16摩根大通 (JPMorgan Chase) 等大型銀行已廣泛應用圖技術進行金融犯罪偵測和風險評估。

智慧製造

工業 4.0 和智慧製造領域,知識圖譜被廣泛用於整合製造設備、產品、製程和品質資料,實現數位化工廠的智慧管理 17。透過建構製造知識圖譜,可以將設備狀態生產參數品質指標維護紀錄等資訊關聯起來,實現預測性維護和生產最佳化。

一個典型的製造業知識圖譜應用案例是西門子 (Siemens)MindSphere 平台,該平台運用知識圖譜技術整合工廠設備資料和生產知識,當某台設備出現異常時,系統能自動追蹤相關零件供應商、維修紀錄和類似設備的故障模式,提供精準的故障診斷和維修建議 18通用電氣 (GE)Predix 平台也採用類似架構,將航空引擎、發電機組等工業設備的感測器資料與領域知識圖譜結合,實現智慧化的設備健康管理和性能優化 19

此外,數位孿生 (Digital Twin) 技術與知識圖譜的結合正成為製造業創新的重要趨勢。知識圖譜能夠為數位孿生系統提供豐富的語境資訊,包括設備規格、製造流程、品質標準、歷史維修資料等,使得數位孿生模型不僅能反映物理實體的即時狀態,還能進行基於歷史知識的預測和最佳化決策 11

供應鏈管理

在複雜的全球供應鏈網路中,知識圖譜提供強大的工具來追蹤產品來源、供應商關係和風險管理 20。透過構建包含供應商原物料製造商物流中心零售商等實體及其關係的圖譜,企業能夠即時監控供應鏈狀況,識別潛在風險點並快速響應中斷事件。

沃爾瑪 (Walmart) 的食品追溯系統是供應鏈知識圖譜應用的典型案例。在 2018 年沃爾瑪實施的區塊鏈食品追溯系統中,知識圖譜技術發揮了關鍵作用。該系統能夠在食安事件發生時,於數秒內追蹤受污染食品的完整供應鏈路徑,包括原料產地、加工廠、運輸路線、批發商到零售店等每個環節。相比之下,傳統人工追蹤方法需要數週時間,而知識圖譜驅動的系統可以即時識別所有潛在受影響的產品和銷售點,大幅縮短響應時間並降低食安風險 21

Amazon 也運用類似技術優化其龐大的物流網路和供應商管理。Amazon 的供應鏈知識圖譜整合了全球數百萬供應商的資訊,包括供應商能力、產品規格、交貨時間、品質評級等,使得平台能夠智慧化地進行供應商匹配和風險評估 20。當某個地區發生自然災害或政治動盪時,系統能夠立即識別受影響的供應商,並自動推薦替代方案,確保供應鏈的韌性和連續性。

此外,聯合利華 (Unilever) 在永續供應鏈管理方面也採用知識圖譜技術,將供應商的環境影響資料、認證狀況、社會責任表現等資訊整合到知識圖譜中,支援其永續採購決策和供應商發展計畫 21

網路安全

在網路安全領域,知識圖譜被用於威脅情報分析、攻擊路徑重建和風險評估 22。透過建構包含惡意軟體攻擊者漏洞攻擊技術受害目標等實體及其關係的圖譜,安全分析師能夠更好地理解威脅景象,預測潛在攻擊並制定防護策略。

MITRE ATT&CK 框架是網路安全知識圖譜的代表性案例。該框架本身就是一個結構化的網路攻擊知識圖譜,系統化地記錄了攻擊者的戰術、技術和程序 (TTPs)。MITRE ATT&CK 將攻擊生命週期劃分為多個階段,每個階段包含多種攻擊技術,並詳細描述了攻擊者組織、使用的工具、目標產業等資訊。全球安全社群廣泛採用此框架進行威脅建模和防護策略制定 23

企業安全平台也積極整合知識圖譜技術來增強威脅偵測能力。微軟 (Microsoft)Microsoft Sentinel 運用知識圖譜技術將安全事件、用戶行為、設備資訊和威脅情報關聯起來,能夠識別跨系統的複雜攻擊模式 24IBMQRadar 也採用類似架構,透過知識圖譜分析網路流量、日誌資料和威脅情報,提供更精準的威脅偵測和事件響應 25

此外,CrowdStrike 等新興安全公司也在其威脅情報平台中廣泛使用知識圖譜技術,將全球威脅情報、攻擊歸因、惡意軟體家族等資訊整合到統一的知識圖譜中,為客戶提供更全面的威脅可視性和防護建議 26

mindmap
  root(("知識圖譜應用領域"))
    搜尋引擎
      Google 知識圖譜
      語意理解
      資訊面板
      Freebase
      維基百科
    推薦系統
      Amazon 推薦
      電子商務
      娛樂平台
      個人化推薦
      交叉銷售
    問答系統
      IBM Watson
      Jeopardy 比賽
      智慧助理
      Siri
      Alexa
      聊天機器人
    智慧醫療
      臨床診斷
      治療方案推薦
      疾病症狀關聯
      IBM Watson Oncology
      個性化醫療
    金融科技
      風險控管
      KYC 瞭解客戶
      AML 防制洗錢
      摩根大通
      詐欺偵測
    智慧製造
      工業 4.0
      數位孿生
      預測性維護
      西門子 Siemens
      通用電氣 GE
      生產最佳化
    供應鏈管理
      產品追溯
      風險管理
      沃爾瑪 Walmart
      Amazon 物流
      即時監控
    網路安全
      威脅情報分析
      攻擊路徑重建
      MITRE ATT-CK
      Microsoft Sentinel
      IBM QRadar
      風險評估

4. 重要工具與平台

建置與管理知識圖譜需要專門的工具和平台。以下介紹數個常見的開源或商業解決方案,並比較它們的特性與適用場景:

工具/框架模型與查詢方式特點與功能適用場景
Neo4j屬性圖模型;使用 Cypher 查詢最流行的圖形資料庫之一,提供直觀靈活的節點-關係-屬性模型。支援 ACID 事務,擁有豐富的圖算法庫及可視化工具。不直接支援 RDF/OWL,但可透過外掛實現推理。社交網絡分析、推薦系統、實時路徑計算等需要高性能圖查詢的場景。開發者友好,廣泛應用於企業級圖應用。
StardogRDF 三元組庫;使用 SPARQL 查詢商業級語義圖形資料庫,完全相容 W3C 標準(RDF/OWL/SPARQL)。內建推理引擎,支援 RDFS/OWL 規則推理和全文檢索。提供圖形介面方便管理本體和查詢。企業知識整合、開放資料發布等需要嚴格語義一致性的場景。例如金融、醫療等領域的大型知識庫建構與查詢。
ProtégéOWL 本體編輯工具;SPARQL 查詢(透過推理引擎)史丹佛大學開發的開源本體編輯器。提供圖形化介面建構本體類別階層和屬性關係,並可透過推理機檢查本體一致性。可外掛各種推理機(如 Pellet)和轉換匯出 OWL/RDF。知識圖譜架構設計與本體管理。適合研發人員或領域專家定義知識結構,用於人工建構領域知識圖譜的模式層。
Amazon Neptune雙模型支援;Gremlin/SPARQL 查詢AWS 提供的全託管雲端圖形資料庫服務。同時支援屬性圖模型和 RDF 模型,提供高可用性、自動擴展和完整的雲端生態系統整合。需要雲端部署和高可用性的企業應用。適合與 AWS 生態系統整合的大規模知識圖譜應用。
Apache JenaRDF 框架;支援 SPARQL 查詢流行的開源Java 語義網框架。提供對 RDF 資料的完整 API,可內嵌記憶體或使用子方案(如 TDB)作為三元組儲存。支援 OWL、本體推理和 SPARQL 查詢引擎 Fuseki。作為程式庫靈活度高,可與自有系統整合。需要深度客製化的知識圖譜解決方案。常用於學術研究或企業內部開發,建構自定義的語義應用(例如語義查詢服務、資料整合工具等)。
Wikidata開放知識圖譜;SPARQL 查詢大型開源知識圖譜,由維基媒體基金會社群維護。它彙集了全球維基百科等來源的結構化知識,每個條目都有唯一的 Q 代號作為實體 ID,並以三元組形式儲存資訊。通用知識查詢、開放資料應用、知識圖譜研究和教學。適合作為外部知識來源或基礎知識庫。

以上工具各有優勢:

  • 若需要高效圖計算與即時查詢,Neo4j 等屬性圖資料庫更適合;
  • 若重視語義推理與標準化互通,則應選擇 StardogJena 這類 RDF 三元組庫配合本體使用。
  • Protégé 則是本體建構的利器,可與其他儲存結合使用;
  • Amazon Neptune 適合需要雲端部署的企業應用。

實際應用中,常常是多種技術並用:例如使用 Protégé 設計本體,Stardog 儲存知識,Jena 提供查詢服務等,以充分發揮各工具所長。

技術通常不會是痛點或卡點,最有挑戰性的通常還是我們人類要先想清楚我們自己要的是什麼、練習講出來、練習表達出自己的想法。

5. 發展歷程與趨勢

知識圖譜概念的演進歷史悠久,其雛形可追溯至早期語意網路和框架知識表示法:

語意網時代 (2000 年代)

在 1990 年代末到 2000 年代初,萬維網之父 Tim Berners-Lee 倡導了 Semantic Web (語意網)的理念,試圖讓網路資料具有語意可理解性。此時期 W3C 制定了 RDFOWL 等標準,以及 Linked Data 的原則,鼓勵各資料來源透過 URI 互相連結資料。

知識圖譜普及 (2010 年代)

2012 年是知識圖譜發展的重要轉折點。Google 在該年宣布推出 Google Knowledge Graph,將知識圖譜應用於主流搜尋,引發轟動。隨後,微軟 Bing 建構了名為 Satori 的知識圖譜,Facebook 亦在其社群平台內發展知識圖譜。

新興趨勢 (2020 年代)

進入 2020 年代,知識圖譜領域呈現出與其他 AI 技術融合的明顯趨勢,其中最引人注目的是大語言模型 (LLM) 與知識圖譜的結合。隨著 Sonnet 4GPT-4 等生成式模型展現強大語言能力,研究者開始探索如何讓符號式的知識圖譜與神經網路模型優勢互補,建構更接地氣的知識系統。

  • 知識圖譜增強的檢索擴增生成 (Graph-enhanced RAG):
    • 傳統的檢索擴增生成 (Retrieval-Augmented Generation, RAG) 主要依賴向量檢索來為 LLM 提供外部知識,但這種方法在處理複雜關聯知識時存在限制。
    • 知識圖譜的引入為 RAG 系統帶來了突破性改進:透過實體識別關係推理,系統能夠進行多跳推理 (Multi-hop Reasoning),沿著知識圖譜中的關係路徑探索相關資訊,大幅提升檢索的精確度和答案生成的準確率。

此外,知識圖譜提供的結構化表示有效緩解了 LLM 的幻覺問題 (Hallucination),為生成的答案提供可追溯的知識來源。這種「KG+RAG+LLM」的架構正成為建構可靠 AI 系統的重要範式 (paradigm),在問答系統、智慧助理、知識管理等領域展現出潛力。

  • 圖神經網路 (Graph Neural Networks, GNN) 的整合:
    • 圖神經網路 (Graph Neural Networks, GNN) 技術與知識圖譜的結合成為另一個重要趨勢。
    • GNN 能夠直接在圖結構上進行深度學習,捕捉節點間的複雜關係模式。
    • 相較於傳統的知識圖譜嵌入 (Knowledge Graph Embedding) 方法,GNN 能夠更好地處理圖的動態性和不完整性。
    • 典型的 GNN 架構包括Graph Convolutional Networks (GCN)Graph Attention Networks (GAT)GraphSAGE 等,這些方法在知識圖譜完成 (Knowledge Graph Completion)、鏈接預測 (Link Prediction) 和實體對齊 (Entity Alignment) 等任務中展現出優異表現。
  • 多模態知識圖譜:
    • 隨著多模態 AI 的發展,多模態知識圖譜 成為新的研究熱點。
    • 傳統知識圖譜主要處理文本和符號資訊,而多模態知識圖譜則整合了文本、圖像、音頻、視頻等多種模態的資訊。
    • e.g. 一個多模態知識圖譜可能包含「蒙娜麗莎」的文本描述、圖像資料、創作背景音頻解說等多種資訊類型。
    • 多模態嵌入 (Multimodal Embeddings) 技術使得不同模態的資訊能夠在統一的向量空間中進行表示和推理,為視覺問答、多媒體檢索、智慧推薦等應用提供了新的可能性。

學術界和開源社群持續推動相關技術發展,預期將成為下一代智慧系統的核心技術基礎。

6. 實際案例簡介

為更直觀了解知識圖譜的應用,以下列舉幾個真實世界中的知識圖譜案例:

Google 知識圖譜

這是目前最大眾所周知的知識圖譜應用之一。Google 於 2012 年推出此功能,在搜尋結果頁面直接顯示知識面板。Google 知識圖譜的後端是一個龐大的實體-關係網路,據報導包含超過 5 億實體和數十億條事實。

開放知識圖譜 (Wikidata/DBpedia)

WikidataDBpedia 是兩個重要的開源知識圖譜案例。DBpedia 始於 2007 年,由研究者從維基百科頁面的資訊框中抽取結構化資料而成。Wikidata 則在 2012 年由維基社群創立,作為所有維基計畫的中央知識庫。

Amazon 產品知識圖譜

全球電商龍頭 Amazon 構建了自己的產品知識圖譜,用於改進商品搜尋和推薦體驗。此圖譜將產品及其屬性、類別、品牌,以及用戶評價等資訊關聯起來,形成一個電商領域的知識網路。

彭博社知識圖譜

國際金融資訊服務商彭博 (Bloomberg) 也開發了屬於自己的企業知識圖譜。金融領域需要整合大量異質資料(公司基本面、新聞、市場行情、關聯人物等),彭博社將這些資料以知識圖譜形式組織起來,支持其終端產品為金融從業者提供智慧搜尋與分析。


參考資料 Reference

延伸閱讀

  1. Google Knowledge Graph Search API
  2. Microsoft Academic Knowledge API
  3. DBpedia - Structured Data from Wikipedia
  4. Apache Jena - A framework for building Semantic Web applications
  5. Stardog Knowledge Graph Platform

  1. Knowledge Graph - Wikipedia ↩︎

  2. Introducing the Knowledge Graph: things, not strings - Google Official Blog (2012) ↩︎ ↩︎

  3. Semantic Web Standards - W3C WikiWeaving the Web - Tim Berners-Lee (1999) ↩︎

  4. SPARQL Query Language - W3C ↩︎

  5. Knowledge Graphs: Opportunities and Challenges - Artificial Intelligence Review (2023) ↩︎

  6. A Survey of Knowledge Graph Construction Using Machine Learning - CMES (2024) ↩︎

  7. Healthcare Knowledge Graph Construction: A Systematic Review - Journal of Big Data (2023) ↩︎

  8. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources - Google Research (2015) ↩︎

  9. Building commonsense knowledge graphs to aid product recommendation - Amazon Science ↩︎

  10. The history of Amazon’s recommendation algorithm - Amazon Science ↩︎

  11. What Is a Knowledge Graph? - IBM Think Blog ↩︎ ↩︎

  12. Building Watson: An Overview of the DeepQA Project - AI Magazine (2010) ↩︎

  13. Learning a Health Knowledge Graph from Electronic Medical Records - Scientific Reports (2017) ↩︎

  14. Concordance Study Between IBM Watson for Oncology and Clinical Practice for Patients with Cancer in China - PMC ↩︎

  15. Graph Databases for Fraud Detection & Analytics - Neo4j Official Use Cases ↩︎

  16. A systematic review and research perspective on recommender systems - Journal of Big Data (2022) ↩︎

  17. Graph Database Use Cases & Solutions - Neo4j Official Documentation ↩︎

  18. MindSphere - Siemens Digital Industries ↩︎

  19. Predix Platform - General Electric Digital ↩︎

  20. Amazon Neptune for Supply Chain Management - AWS Official Documentation ↩︎ ↩︎

  21. Graph Databases for Supply Chain Management - Neo4j Use Cases ↩︎ ↩︎

  22. MITRE ATT&CK Framework - Official Knowledge Base ↩︎

  23. MITRE ATT&CK Framework - Getting Started Guide ↩︎

  24. Microsoft Sentinel - Cloud-native SIEM ↩︎

  25. IBM QRadar SIEM - Security Information and Event Management ↩︎

  26. CrowdStrike Falcon Intelligence - Threat Intelligence Platform ↩︎