知識圖譜問答

已發表: 2023-01-25

什麼是 Google 的知識圖問答功能?

知識圖問答 (KGQA) 在搜索引擎結果頁面 (SERP) 中佔據了大量空間。

Google 的知識圖問答功能無需用戶點擊網站即可回答用戶的查詢。

每個搜索引擎都希望根據搜索者的意圖返回最好的信息。 要成為值得信賴的首選答案來源,您需要在網上為人所知。 Google 了解查詢流並使用它們來識別主題並從網絡中提取可信數據以更新本體。 Google 卡片、知識圖 (KG) 和知識集合是用戶與 Google 交互的一種方式。 就像搜索結果中的“人們也會問”問題一樣,知識圖譜問答可以讓人們在 Google SERP 上停留的時間更長。

目錄

  • 什麼是 Google 的知識圖問答功能?
    • 知識面板和知識圖有什麼區別?
    • 知識面板和 Google 商家資料之間有什麼區別?
    • Google 的知識面板和知識庫有什麼區別?
  • 用機器學習回答複雜問題
  • 如何創建 Google 認為有用的問答內容
  • 知識圖譜回答與數據相關的問題
  • KG問答優化步驟
  • 如何請求 Google 知識面板更新?
  • 問答 KG 尋求提供經過驗證的知識

讓我們首先建立一個基礎詞彙表。

知識面板和知識圖有什麼區別?

可以獲取知識圖譜以在搜索結果中提供更豐富的知識面板並返回查詢的答案。

它有助於將知識面板視為 Google 知識圖的前端表現形式。 我們在面板圖數據中看到的數據背後有更多數據。 一旦你建立了一個知識圖譜實體,谷歌就會依賴它並將其視為規範的信息來源。 這家科技巨頭並沒有發明 KG 作為桌面用戶體驗的補充; 這是對更好的移動查詢答案需求的回應。 如此多的網站在移動設備上曾經(現在仍然)很糟糕。 GKG 旨在向其用戶提供準確的信息; 它的主要目標不是為您的網站增加流量。

以前,谷歌似乎並不根據準確性對網頁進行排名。 如今,其質量評估人員對如何評估經驗、專業知識、權威性和可信度 (EEAT) 有了更多的說明。 答案的準確性是一個信任因素,它的準則告訴我們信任是最重要的因素。 相反,“準確性”是實體在知識面板中顯示的一個因素。

知識面板是 Google 搜索結果頁面中的一種豐富結果類型。 它們為搜索者提供了與給定實體相關的經過審查的信息概覽。

知識面板和 Google 商家資料之間有什麼區別?

Google Business Profiles (GBP) 看起來與其知識面板非常相似。 GBP 對於在特定地點或指定服務區域內為客戶提供服務的企業而言是獨一無二的。 GBP 訪問權讓企業主可以管理他們在 Google 地圖和搜索中的數字化形象。 這是免費的。 相比之下,您的 Google 知識面板 (GKP) 是由 Google 使用有關您的在線實體的信息自動生成的。 它可以完全控制它的傳播以及它選擇在其中更新的內容。

Google 的知識面板和知識庫有什麼區別?

將 Google Knowledge Vault (GKV) 想像成由生成機器可讀百科全書的算法生成的。

只有在確信知識面板中顯示的內容正確且有用後,Google 才會將信息添加到其 GKV。 GKV 完全基於機器學習和機器邏輯。 只有在 Google 的全球知識算法對其對指定實體的理解獲得足夠的信心後,才會將來自多個域的獨立實體移入知識庫。

“……我們介紹了 Knowledge Vault,這是一個 Web 規模的概率知識庫,它結合了從 Web 內容中提取的內容(通過分析文本、表格數據、頁面結構和人工註釋獲得)和從現有知識庫中導出的先驗知識。 我們採用受監督的機器學習方法來融合這些不同的信息源。 知識庫比以前發布的任何結構化知識庫都要大得多,並且具有一個概率推理系統,可以計算事實正確性的校準概率。” – 知識庫:一種網絡規模的概率知識融合方法[1]

用機器學習回答複雜問題

Google 收到了 93% 的每日查詢。 就像它傳統上如何充當搜索引擎並最終成為您的產品或服務一樣。 為了改進其問答能力,谷歌的一項專利指出:“自然語言處理 (NLP) 可以涉及根據自然語言文檔中包含的信息回答自然語言問題。”

“所描述的技術能夠使用基於機器學習的方法回答自然語言問題,以收集和分析來自網絡搜索的證據。” – [2]

然而,在將實體添加到其知識庫之前,谷歌必須首先通過算法理解所提出的問題。 它試圖了解觸發問題的查詢意圖。 對於模棱兩可的查詢,語義解釋有助於回答複雜的問題,並試圖複製人類的認知。 Web 文章通常無法顯示發布日期或上次更新時間。 相比之下,谷歌的知識圖不斷更新。 例如,我正要為這篇文章引用一篇文章,但首先進行了研究並看到“這篇文章已有 3 年多了”。

MarketWatch 估計,“到 2023 年,語義知識庫行業的價值將達到 330 億美元,在接下來的十年中,年增長率將達到 10%。” 其 2023 年 1 月 18 日,與時間和成本相關的語義知識圖譜市場規模預計將在未來幾年到 2029 年行業增長,文章包括語義搜索、問答機和信息檢索。

令人費解的是,科學創新的增長有多少是為了更好的 KG。 同樣,數字營銷人員和 SEO 通過快速適應而受益。

KG 通常被視為大規模語義網絡,將事實存儲為(主題實體、關係、客體實體)或(主題實體、屬性、值)形式的三元組。 圖中的邊代表這些實體之間的關係。 大多數 KG 建立在不同的現有數據源之上以連接數據。 在 GPT3 中出現 GPTChat 之前,Google 並未受到其他大型 KG 的威脅,例如 DBpedia、Freebase 和 YAGO。

推動更人性化的問題答案

Goole、OpenAI、Bing 和其他公司之間的競爭規模空前,旨在為問題提供更人性化的答案,而不僅僅是信息鏈接。 谷歌不斷使用和測試各種大型 AI 語言模型,以改進其搜索引擎和知識面板。

“知識圖譜”這個術語有一個龐大的關係家族; 它包括知識圖譜、圖數據庫、知識庫、知識面板、神經網絡、機器學習、NLP、人工智能、關聯數據、知識圖譜嵌入、知識轉移、遷移學習、知識表示學習(KRL)等領域! 與有效填補問答內容空白相比,花錢在付費搜索和微不足道的網站性能改進上顯得蒼白無力。 以下建議來自我自己的經驗。

公司的數據驅動系統經過評估,以建立對科學方法及其應用的信任。 其知識圖 (KG) 問答 (QA) 功能依賴於可通過自然語言界面訪問的複雜數據結構。

如何創建 Google 認為有用的問答內容

如何創建通知 Google 的問答內容 - 示例:Lake Itaska

新的 SEO 理解Google 是一種答案引擎並提供給它。

你發布的驗證數據越多,科技巨頭就越能連接數據。 通過這種方式,您可以促進搜索引擎了解有關您實體的事實的工作。 當您將自己的結構化數據連接到所有談論您的不同第三方時,您就提供了幫助。 谷歌對於結構化數據實現是否通過圖形或節點數組連接而不是將它們作為頁面上自己的塊中的單獨元素沒有偏好。

  • 常見問題解答內容:您的公司可以創建標有架構的數據庫,以幫助 Google 抓取和獲取問答信息頁面。 Google 可能會選擇獲取您網站的常見問題解答內容。
  • 網站主題集群:具有明確本體的信息可用於表示主題專業知識。 知識圖使用 Google 信任的網絡數據組織實體。 您可以成為不同數據集中的主要來源。 這樣,你就是一個數據發布者。 如果您已經聲明了您的知識面板,這可能是觸發知識面板更新的更可靠、更快速的方法。
  • 準確的產品數據庫:只要您在保持產品數據庫更新方面做得無懈可擊,您就是在幫助 Google 獲得對您的產品事實的高度信任和信任。 如果您的在線品牌和產品清晰一致,Google 更有信心向其用戶顯示準確且相關的信息。 與您的在線形象保持一致。 使用相同的拼寫、標題、作者簡介、工作地點等。
  • 上傳圖像數據集:來自該特定數據庫的圖像可以與您的答案相關聯並填充您的知識圖譜。 產品 QA 數據集的存在和準確性有助於確保可比性。
  • 使用 FactClaim 架構標記: Google 的搜索結果通常來自其知識圖譜存儲庫,其中包含數十億關於人物、地點和事物的事實。 通過包含支持您的觀點的事實統計內容,您可以展示您對基於事實的相關來源的認識和了解。
  • 一致的姓名、地址、電話:進入 2023 年,有更多方法可以管理您的 Google 商家資料。但是,您的 NAP 是 Google 識別您的實體的基礎。 最好有一個穩定的地址並使用谷歌地圖中分配的地址。 知識圖譜與穀歌地圖密切相關。 它基於結構化數據,NAP 一致性形式的結構化信息:姓名、地址、電話號碼,以及這些信息如何影響確保 Google 地圖更新。 相同類型的一致性提供 GKG。
  • 自動 Google 商家資料常見問題解答文本回复:您可以直接在您的 Google 商家資料中添加自動常見問題解答回复。 它的功能是帶問答的自動雙向對話。
  • 結合有效的 Google Post 策略: Google 學術搜索作者、著名品牌和美國民選官員沒有利用這個機會來聲明他們的知識面板。 這反過來又為他們提供了訪問 Google 帖子的權限,這應該是您的內容知識圖策略的一部分。
  • 使用受眾數據和市場研究:初始市場研究提供了受眾數據洞察力,可以推動創新內容活動和 KG 策略。 知識庫首先根據問題相對於人們查詢意圖的“重要程度”對問題進行分類。

有關在您的網站上使用結構化數據的更多信息:

來自谷歌的 Ryan Levering 主要研究結構化數據,他在 Mastodon 上表示:“整個頁面的圖形都是我們使用的,無論它來自哪裡。 它被混合在一起,雖然知道它來自哪裡,但通常不使用。 但是,這裡需要注意的是,當您在多個塊中執行此操作時,有時會出現衝突/重複問題。 此外,隨著時間的推移,更豐富/正確的語義將有利於連接更多的圖。 我們仍然看到這樣的情況,即人們在與頁面上不同塊的主要實體相同的頂層放置關於事物(如相關產品)的不相關標記,這主要是噪音。 因此,有時集中邏輯會使其更加一致/正確。”

知識圖譜回答與數據相關的問題

圖的一個目標是能夠充當術語、邏輯和正確答案的基本事實。

這是直接來自谷歌的關於其知識圖如何工作的引述。

“谷歌的搜索結果有時會顯示來自我們知識圖譜的信息,我們的數據庫包含數十億關於人物、地點和事物的事實。 知識圖使我們能夠回答事實性問題,例如“埃菲爾鐵塔有多高?” 或“2016 年夏季奧運會在哪裡舉行。” 我們使用知識圖譜的目標是讓我們的系統在確定有用時發現並顯示公開的事實信息。” – Google 的知識圖譜如何運作

您可以為您的知識圖譜提供展示相互關聯的關係和概念的信息。 雖然正在對聊天機器人人工智能進行大量投資,但我們目前知道它需要一個領域模型來理解和回答問題。 機器學習可以生成龐大的句子和用例知識庫,但靜態聊天機器人有局限性。

在更新數據知識圖條目之前,谷歌收集有關特定主題或主題的信息以首先建立信心。 圖表幫助我們回答與數據相關的問題,以便 Google 可以輕鬆地存儲和檢索信息。 它基本上歸結為理解問題,將問題與你的知識圖聯繫起來,並推斷出答案。

KG問答優化建議步驟:

  1. 查看您控制的內容、人員、地點、原因以及方式。
  2. 確定哪些內部 QA 數據可以從外部獲取。
  3. 了解在哪裡可以找到它。
  4. 了解它是如何被使用的、被誰使用、如何使用以及為什麼使用。
  5. 使用圖表來確定如何通過分析他們的集群、群組和組來提供更多價值。
  6. 設置警報以幫助監控與實體關係內部和實體關係相關的上下文、組信號和動態的 QA 數據信號。
  7. 安排維護時間來管理和提供圖形 QA 內容。

自然語言處理和圖形對齊管理有助於查找衝突實體或關係定義的案例。 Google 的面板、圖表和保險庫與實體解析有關。

在您控制的平台上回答問題之前,請先智能地理解問題。 您應該知道搜索者的意圖和問題所需的關鍵信息。 搜索引擎通過搜索對知識圖譜包含有用的命名實體來提取關鍵信息。 為了自己被信任,他們在推斷 KG 上的答案之前是有選擇性的。

如何請求 Google 知識面板更新?

谷歌為其聲稱的知識圖所有者提供了一種請求更新和報告問題的方式。 一旦您獲得了提供直接反饋的能力,事情就變得容易多了。 它的即時答案會根據網絡抓取和用戶反饋定期更新。

“我們還知道,其信息包含在知識面板中的實體(如知名人士或電視節目的創作者)是自我權威的,我們為這些實體提供直接反饋的方式。 因此,顯示的某些信息也可能來自經過驗證的實體,這些實體建議對自己的知識面板上的事實進行編輯。 – 關於知識面板

“我們還以各種方式直接從內容所有者那裡收到事實信息,包括那些建議更改他們聲稱的知識面板的人。” – Google 的知識圖譜如何運作

許多人認為獲得語義知識圖的主要好處是它提供了品牌清晰度、數據恢復和銷售體驗。 但由於有這麼多人提出問題,考慮其整合數據並使用它提供答案的能力也很重要。 什麼不是以這種方式證明有價值的零售商?

問答信息檢索如何工作?

谷歌從它可以確定的來源收集問題集群內容。

2023 年是改進知識圖譜策略的時代,因為越來越多的潛在客戶轉化直接發生在搜索引擎結果頁面 (SERP) 上。 Google 會評估它可以信任您的實體的哪些方面,並選擇將包含在您的知識圖譜、知識面板和知識庫中的內容。 它了解您的目標受眾和客戶; 它旨在整合您在網絡上的優勢和知識,以提供最佳答案。 受眾研究和 SERP 分析可以為您的營銷方法提供信息。

當 Google 從網頁中提取 QA 實體信息時,會確定涉及這些實體的關聯分數及其與其他實體的關係。 它非常關心描述這些實體屬性的事實答案。 一旦確定了最佳營銷策略,就該將其轉化為營銷策略,您已採取特定的營銷行動來改善 SERP 結果。 無論是現在還是將來,了解 QA 信息檢索以及如何通知您的 KG 都是有效 SEO 的重要組成部分。

我們從谷歌專利中了解到自然語言處理模型如何回答自然語言文本問題。

“一個計算系統包括一個機器學習的自然語言處理模型,該模型包括一個經過訓練以接收自然語言文本主體並輸出知識圖譜的編碼器模型,以及一個經過訓練以接收自然語言問題並輸出程序的程序員模型。 該計算系統包括存儲指令的計算機可讀介質,這些指令在被執行時使處理器執行操作。 操作包括獲取自然語言文本主體,將自然語言文本主體輸入編碼器模型,接收知識圖譜作為編碼器模型的輸出,獲取自然語言問題,將自然語言問題輸入程序員模型,接收程序作為程序員模型的輸出,並在知識圖上執行程序以產生自然語言問題的答案。” – Natural Language Processing With An N-Gram Machine,專利號:WO2019083519A1,公開日期:2019年5月2日[3]

知識圖譜相關性評分

結合機器語言學習和數據圖,將聽眾問題的上下文與您的答案聯繫起來。 Google KG 相關性評分使用預訓練的 LM 對 KG 上的節點進行評分,以回答問題。 Google 在其 KG 中有一個加權信息的通用框架。 它的機器學習使用文本和知識圖譜的聯合推理。 通過這種方式,它通過使用 LM 和圖形神經網絡將問題的上下文與答案內容聯繫起來。

總體而言,Google KG 比網頁更高效、更可信。 那麼這是要去哪裡呢?

問答 KG 尋求提供經過驗證的知識

Google Knowledge Graph 提供查詢的直接答案

谷歌知識圖提供的響應查詢的事實最初來自其他來源。 (直到最近,這主要來自維基百科和維基數據)。 Google 努力工作以信任填充其 KG 的任何和所有信息。 準確地滿足查詢一定是具有挑戰性的。 例如,要回答“誰是谷歌的創始人?”,知識圖譜需要按照“[組織]由[人]創立”的方式在此處提取三元組(主語-謂語-賓語)

維基百科和維基數據提供了這樣的精確信息。

Electronic Arts 的知識圖譜策略師 Aaron Bradly 幾年前在 Twitter 上提出了一個有趣的問題。 “換句話說,一個更大的潛在問題是我們是否應該認為谷歌知識圖譜提供的‘事實’在事實上是正確的(以及谷歌本身是否認為圖譜提供的‘事實’在事實上是正確的)。”

人們可以很快看出為什麼知識圖譜提供的“答案”和“事實”需要得到用戶的信任。

布拉德利繼續說:“因此,Graph 需要依靠其來源的可信度來確定要做出的斷言。 如此之多以至於谷歌已經仔細考慮了改進他們如何確定來源可信度的方法。 最終,提供的斷言是“來自某處”。 當響應(尤其是語音)的有效負載不包含出處信息時,這就會成為問題。 知識聚合器(這裡是谷歌)和知識用戶(這裡是搜索者)都需要努力改進我們處理這些問題和答案的方式。” [4]

谷歌創始人拉里佩奇和謝爾蓋布林在 2019 年離職後重新露面,審查谷歌的人工智能產品戰略。 他們批准了計劃並提出了將新的聊天機器人功能添加到 Google 搜索引擎中的想法。 谷歌在 2023 年 1 月大規模裁員之前,它再次承諾將 AI 置於其計劃的前沿和中心。 [5]

您可以使用 Google Knowledge Graph Search API 在 Google Knowledge Graph 中搜索或查找實體。 Google Cloud 提供以下架構標記代碼示例: [6]

{
  “@語境”: {
    “@vocab”:“http://schema.org/”
  },
  "@type": "物品清單",
  “項目列表元素”:[
    {
      “結果”: {
        "@id": "c-07xuup16g",
        "name": "斯坦福大學",
        "description": "加州斯坦福私立大學",
        “詳細說明”: {
          "articleBody": "斯坦福大學,正式名稱為 Leland Stanford Junior University,是加利福尼亞州斯坦福市的一所私立研究型大學。校園佔地 8,180 英畝,是美國最大的校園之一,在校學生超過 17,000 人。",
          “網址”:“https://en.wikipedia.org/wiki/Stanford_University”,
          “許可證”:“https://en.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License”
        },
        “網址”:“http://www.stanford.edu/”,
        “圖片”: {
          “contentUrl”:“https://encrypted-tbn1.gstatic.com/images?q=tbn:ANd9GcTfPPf-ker0y_892m1wu8-U89furQgQ67foDFncY3r9sREpeWxV”,
          “網址”:“https://es.wikipedia.org/wiki/Archivo:Logo_of_Stanford_University.png”
        },
        “標識符”:[
          {
            "@type": "屬性值",
            "propertyID": "googleKgMID",
            “值”:“/m/06pwq”
          },
          {
            "@type": "屬性值",
            "propertyID": "googlePlaceID",
            “值”:“ChIJneqLZyq7j4ARf2j8RBrwzSk”
          },
          {
            "@type": "屬性值",
            "propertyID": "wikidataQID",
            “價值”:“Q41506”
          }
        ],
        “@類型”: [
          “地方”,
          “組織”,
          “電影院”,
          “公司”,
          “教育機構”,
          “事物”,
          “學院或大學”
        ]
      }
    }
  ]
}

我們發現實施模式標記非常有幫助。 如果您是雙重身份,請閱讀我們添加結構化數據標記文章的優缺點。

推進語義搜索和 GKG

如果本文提高了您對語義搜索和圖形技術的認識,並且現在您渴望響應此類機會,請致電 651-206-2410 致電 Jeannie Hill。

通過獲得我們的查詢實體審計來提升您的個人或企業知識圖譜

參考:

[1] https://research.google/pubs/pub45634/

[2] https://patents.google.com/patent/WO2014008272A1/en

[3] https://patentscope.wipo.int/search/en/detail.jsf?docId=WO2019083519

[4] https://mobile.twitter.com/aaranged/status/1108444732282163200

[5] https://searchengineland.com/google-search-chatbot-features-this-year-391977

[6] https://cloud.google.com/enterprise-knowledge-graph/docs/search-api