more
2008/08/14
2008/01/21
2007/07/05
2007/07/05
 
more
AUTONOMY 理論基礎
Autonomy 軟體使用先進的模式匹配技術,採用貝葉斯機率論(Bayesian Inference)和申農資訊論(Claude Shannon's Principles of Information)為發展基礎。Autonomy 軟體可根據單詞或詞語的使用和出現頻率來識別在不同文件中之重要性。 Autonomy 可使計算機了解一份文件內容與某個主題的相關度,並可用百分比表示出來。透過這種方法,Autonomy 可抽取文件中的內文要素,自動識別內文的概念,然後對該文件進行自動化的操作。這種創新的高性能模式識別演算法提供了精確的文件上下文分析和概念抽取,可針對訊息的內容執行自動分類和相互鏈接,從而提升訊息檢索的效率,實現對內容的動態個性化處理。這是計算機第一次實現了對文件、網頁、電子郵件、語音和個人興趣的自動理解,並且實現了對非結構化訊息內容的自動化操作。
貝葉斯機率論 (Bayesian Inference)
Autonomy 技術的理論基礎可以追溯到托馬斯 . 貝葉斯時代,他是 18 世紀的一個英國牧師, 有關他的數學機率論文 直到他死後才被出版(《倫敦王室社會哲學會報》, 1763 年)。貝葉斯的論文主要是計算多個變量之間的機率關係以及決定一個變量影響其他變量的範圍。

一個典型問題就是判斷一個文件與指定查詢條件以及與特定搜尋條件間的相關性。貝葉斯機率論可透過判斷該文件與已知細節之間的關聯,從而幫助我們的演算,作為“未來的”結果分佈(適用於判斷相關性),可更有效地被“已產生的”已知模型和相似性所利用。

對於文件的指定查詢來講,該理論的延伸比相關性訊息更加深入。適應性概念模型( APCM )可分析文件中的特性與相互之間的關係,從而發現新的概念和文件。並確定與其他文件之間緊密關聯的概念,從而對新文件準確地分類。

傳統的統計學論點認為︰如果一枚硬幣被拋 100 次並且每次都是正面朝上,則下次被拋出後背面朝上的機率雖然相同,但貝葉斯理論方法則認為被連續拋出 100 次正面朝上,相當於證明該硬幣不均衡或者兩面都是正面之可能性。 APCM 可使訊息“繁衍”,雖然沒有人知道貝葉斯理論的初衷是什麼,但貝葉斯定理已經成為當今統計學機率模型的核心原理。因此,將當代計算能力應用於貝葉斯所倡導的概念時,可快速高效率地計算出多個變量之間的關係,使得軟體可以自行處理文件內的概念。
申農資訊論(Claude Shannon's Principles of Information)
資訊論是所有訊息處理系統的數學基礎,從克勞德.申農的創新(《通信數學原理》 1949 年出版)中我們發現︰“訊息”在處理中可被作為一種可計算值。舉個最基本的例子(處理單元如文字或短語彼此相互獨立),根據申農的熵 ( 平均訊息量 ) 或不確定測量,一個單元平均傳送的訊息量應該是︰
當機率完全相同時該公式計算出最高值;若是這樣,則該文字資訊應該是任意的;如果不是這樣,被文本傳送的訊息將低於最高值;也就是說有冗餘。該結果就可以透過更多複雜的數學理論進一步得到擴展,直到有單元關聯。

自然語言含有高度的冗餘,在一個嘈雜的房間裡我們可以理解對方的談話(雖然有些字沒有聽到);即使一目十行,我們也可以獲取新聞文章的大意。也就是說,資訊論為抽取冗餘中的概念提供了一個框架。

Autonomy 對概念模型的處理方法基於申農資訊論,那就是,資訊單元出現的頻率越低,它所表達的訊息越多,因此,上下文中處理單元出現的越少,它所預示的意思就越多。正是這一理論使得 Autonomy 軟體可確定文件中最重要的概念(或包含最多的訊息)。

貝葉斯機率論是根據概念之間相互聯繫而建立其意義模型的數學方法,申農資訊論為提取相關文件中有意義的概念提供一種機制。下面有關企鵝的例子能很好地說明上述方法:

有些時候我們希望了解污染對企鵝的影響,傳統方法是利用關鍵字搜索引擎輸入“ Penguin (企鵝)”來尋找我們感興趣的訊息。在系統回報有用訊息的同時,這種方法還會帶來大量不相干的內容,如出版公司、巧克力餅乾、電影“蝙蝠俠與羅賓”等等。

但是,在我們的例子中,我們主要關心有關企鵝這種羽族的內容。一篇包含“海洋”的文章可能與企鵝有關,但是“海洋”會在許多情況下出現,因此很可能其內容是講述其他東西。不過,如果文章包含“黑色”、“白色”、“不會飛”、“羽毛”、“光滑”和“石油”等詞彙,則很可能與企鵝和污染有關。另外,其搜索過程並沒有使用“企鵝”一詞,而是使用更多較次要的訊息,其中任何一項都可以省略而不會明顯降低結果的高相關性。總之, Autonomy 的方法可以根據主要概念、關鍵詞或數量更多的次要訊息來理解上下文之間的關係。

Autonomy技術的框架,(IDOL)智能訊息操作層
Autonomy 採用先進的模式識別技術,不需要改變企業現有的資訊架構與部署, Autonomy 提供了一個智能數據操作層 (IDOL) ,這是一種強大的基礎軟體技術,能夠使企業自動處理各種訊息。

IDOL 能夠理解任何型式的訊息內容,即理解後整合( ITU ),實現了應用之間的相互通信,同時無需手動創建複雜的連接界面或使用 MetaData 。 Autonomy 技術使企業能夠處理任何類型的數據,並提供了前所未有的自動化水準。

IDOL 不需要複雜的工作排程、繁雜的整合、商業邏輯或中間設備,也不需要手工索引、連接或分類手續。其他應用程式可透過他們對非結構化訊息的共同理解迅速與 IDOL 整合,IDOL 則可以運用與人類相似的模式理解訊息(它能夠從人類可讀的文檔中讀取內容,直接關聯概念,而不倚賴由人工索引組成的規則)。

60 多個世界領先的軟體公司已經將 Autonomy 基礎軟體技術應用到他們的下一代企業應用中,例如客戶關係管理、電子商務、電子郵件監控以及資訊安全和內容管理等。目前,致力於 IDOL 應用的 OEM 合作伙伴包括 BEA 、 Vignette 、 Sybase、 Computer Associates 、Business Objects 以及 Hyperwave 等。

IDOL 的系統架構如下圖,它包括三個核心模塊︰動態推理引擎 (DRE)、分類伺服器(CS Server)和用戶伺服器 (UA Server) 。

動態推理引擎 (DRE)
Autonomy 智能數據操作層的核心是動態推理引擎( DRE ),它是一種高度可擴展的多線程進程引擎,可對目標內容進行分析並交付給用戶。動態推理引擎基於先進的模式識別技術(採用高性能機率模型技術)。 Autonomy 的動態推理引擎可實現下列的核心操作︰

概念識別
動態推理引擎接受一段內容或關鍵詞輸入,並根據內容的相關性或者是概念上的差異程度,執行對概念上相關文檔進行排序,然後將其結果送回至使用者。

自動摘要
動態推理引擎將文件內容最重要概念取出其摘要內容,另外,可以生成與原始查詢條件相關的上下文摘要 - 從而可以根據查詢的結果提供最適當的動態摘要內容。

定題識別
動態推理引擎可以接受用戶指定的任務訊息,並依據任務訊息的內容送回與任務相關的文件資訊。

自動超連結
動態推理引擎將內容動態連結到與上下文相似的訊息上,無須手工插入連結。

自然語言檢索
動態推理引擎接受自然語言查詢並回報與所查概念相關的結果。同時支持布爾查詢及關鍵詞查詢。
分類伺服器 (CS Server)
借助動態推理引擎能夠理解上下文訊息的功能, Autonomy IDOL 提供了第二個關鍵模組-分類伺服器,分類伺服器提供高擴展性的自動分類解決方案。

自動聚類
分類伺服器能自動將大量相關內容或類似文檔集中形成統一的聚類,並且可識別含有相似概念的訊息,自動為訊息分組。

自動分類
分類伺服器能根據概念相似性自動進行訊息分類,還能夠根據文檔內容發現最適合的分類並自動打上分類索引,以便進行後續的處理或歸檔。

動態目錄生成
對大量內容或概念進行分類與識別,使得分類伺服器能夠自動生成目錄,它可將群集或其他概念操作作為”發現 “來執行自動分類。
用戶伺服器 (UA Server)
結合動態推理引擎和 IDOL 的第三個模組-用戶伺服器,Autonomy 實現了一系列強大的個性化操作。

代理建立
用戶可使用關鍵詞、句子、文章等內容來建構代理,代理可自動維護與創建概念相關的結果叢集。

代理提示
用戶伺服器能自動根據與建構概念之相似性,排序出類似代理。

代理訓練
用戶伺服器能夠對代理所使用的概念內容進行訓練,以產生更準確的結果。

專家定位
透過對代理的分析,用戶伺服器能自動發現具有類似興趣的用戶或者用於確定某個領域的專家。