資訊論是所有訊息處理系統的數學基礎,從克勞德.申農的創新(《通信數學原理》 1949 年出版)中我們發現︰“訊息”在處理中可被作為一種可計算值。舉個最基本的例子(處理單元如文字或短語彼此相互獨立),根據申農的熵 ( 平均訊息量 ) 或不確定測量,一個單元平均傳送的訊息量應該是︰
當機率完全相同時該公式計算出最高值;若是這樣,則該文字資訊應該是任意的;如果不是這樣,被文本傳送的訊息將低於最高值;也就是說有冗餘。該結果就可以透過更多複雜的數學理論進一步得到擴展,直到有單元關聯。
自然語言含有高度的冗餘,在一個嘈雜的房間裡我們可以理解對方的談話(雖然有些字沒有聽到);即使一目十行,我們也可以獲取新聞文章的大意。也就是說,資訊論為抽取冗餘中的概念提供了一個框架。
Autonomy 對概念模型的處理方法基於申農資訊論,那就是,資訊單元出現的頻率越低,它所表達的訊息越多,因此,上下文中處理單元出現的越少,它所預示的意思就越多。正是這一理論使得 Autonomy 軟體可確定文件中最重要的概念(或包含最多的訊息)。
貝葉斯機率論是根據概念之間相互聯繫而建立其意義模型的數學方法,申農資訊論為提取相關文件中有意義的概念提供一種機制。下面有關企鵝的例子能很好地說明上述方法:
有些時候我們希望了解污染對企鵝的影響,傳統方法是利用關鍵字搜索引擎輸入“ Penguin (企鵝)”來尋找我們感興趣的訊息。在系統回報有用訊息的同時,這種方法還會帶來大量不相干的內容,如出版公司、巧克力餅乾、電影“蝙蝠俠與羅賓”等等。
但是,在我們的例子中,我們主要關心有關企鵝這種羽族的內容。一篇包含“海洋”的文章可能與企鵝有關,但是“海洋”會在許多情況下出現,因此很可能其內容是講述其他東西。不過,如果文章包含“黑色”、“白色”、“不會飛”、“羽毛”、“光滑”和“石油”等詞彙,則很可能與企鵝和污染有關。另外,其搜索過程並沒有使用“企鵝”一詞,而是使用更多較次要的訊息,其中任何一項都可以省略而不會明顯降低結果的高相關性。總之, Autonomy 的方法可以根據主要概念、關鍵詞或數量更多的次要訊息來理解上下文之間的關係。