分類整理不是最好的歸檔方式?快取演算法告訴你最有效率的做法
分類整理不是最好的歸檔方式?快取演算法告訴你最有效率的做法

本文摘自:《決斷的演算》,行路出版

把隔最久才會再用的資料剔除──貝雷迪演算法

到了某個時候,只要多學一些知識,就會忘記一些你原本已經知道的事情快取裝滿時,如果還需要存放其他資料,就必須騰出空間,在電腦科學中,這個騰出空間的程序稱為快取替換(cache replacement)或快取剔除(cache eviction)。

這類演算法稱為替換策略(replacement policy)或剔除策略(eviction policy),或者直接稱為快取演算法。其中最重要的大概是外號「雷斯」的萊斯洛.貝雷迪(László Bélády)設計的演算法。這篇論文說明,快取管理的目標,是盡量減少在快取中找不到需要的資料,以致必須轉而至速度較慢的主記憶體尋找的狀況。這類狀況稱為尋頁錯失(page fault)或快取未中(cache miss)。貝雷迪在論文中提到,最佳的快取剔除策略,是快取裝滿時就剔除最久之後才會再次需要的資料。

當然,要預測何時會再次需要哪些資料說來容易,做起來可沒那麼簡單。

這個無所不知、有先見之明、能預測未來並執行已知最佳策略的演算法,稱為貝雷迪演算法(Bélády’s Algorithm) ,它是電腦科學家說的「預知型」演算法,也就是由預測的資料獲取資訊的演算法。聽起來很扯其實不然,只是預測未來通常沒那麼容易,軟體工程師也經常開玩笑說,在實際運用貝雷迪演算法時碰到「實作上的困難」。挑戰在於,我們要找到一種演算結果得盡可能接近預言的演算法,縱然大多時候我們只能被死死的卡在現在,而且僅能在有限程度上臆測即將發生的事。

我們可以直接採用隨機剔除(Random Eviction) ,把新資料放進快取,隨機覆寫舊資料。快取理論有個令人驚訝的初步結論就是,儘管這個方式不是十全十美,但還不算太差。事實上,只要有快取,不論我們怎麼運用,系統效率都能提高。我們常用的資料一定會很快又放回快取。另一個簡單的策略是先進先出( First In, First Out,FIFO) ,剔除或覆寫在快取裡停留最久的資料。第三種方式是最近最少使用法(Least Recently Used,LRU) :剔除未使用時間最長的資料。

史都華的建議不僅策略完全不同,而且其中之一顯然比較優異。貝雷迪以數種狀況比較過隨機剔除、先進先出和好幾種LRU,發現LRU的表現最接近預知。LRU原理的效果源自電腦科學家說的時序局部性(temporal locality):如果程式曾經呼叫某項資訊一次,不久後就可能再度呼叫。時序局部性有一部分源自電腦解決問題的方式(例如執行一個快速進行相關讀寫的迴圈),但其實人類解決問題的方式也有時序局部性。如果你用電腦工作,你可能會在電子郵件、瀏覽器和文書處理軟體之間不斷切換。如果你剛剛用過其中之一,代表可能會再用到它。如果沒有意外,上次使用時間離現在最久的程式,通常也會隔好一段時間才會用到。

街底的那片雲──距離非常重要

我們經常把網際網路視為扁平、獨立和關係鬆散的網絡,其實完全相反。我們也經常把網際網路視為抽象、虛擬和不受地理環境影響。資訊界說我們的資料放在「雲端」,也就是一個散漫又遙遠的地方。同樣地,這些說法也都不對。事實上,網際網路是一大把實體線路和一個個金屬機架,而且它受到的地理環境影響可能超乎你的想像。

工程師設計電腦硬體時,考慮的地理環境影響尺度非常小:速度較快的記憶體通常比較接近處理器,盡量縮短資料行經的線路。現在的處理器時脈循環都以十億赫茲計算,也就是每次運算的時間不到一奈秒。或者這麼說,光在這段時間裡只能行進幾公分,因此電腦內部的實體布局非常重要。如果把同樣的原理套用到非常大的尺度,對於線路長達幾千公里的網際網路而言,實際地理環境就顯得十分重要。

如果你存放網頁內容快取的硬體所在位置更接近使用者,就能更快提供這些網頁。目前網路的資料流量大多由內容分配網路(CDN)管理,這個網路在世界各地都有電腦,存放較受歡迎的某些網站的內容副本。如此一來,呼叫這些網頁的使用者就能直接取用鄰近電腦中的資料,不需要跨越重重大陸到原始伺服器去取用。

「需要的檔案應該盡量接近使用地點」的概念,同樣適用純實體環境。舉例來說,亞馬遜書店規模龐大的出貨中心,通常會避免採圖書館或百貨公司這類人類能理解的整理方式,而要員工把貨品隨意放在倉庫裡的任何地方(電池可能放在削鉛筆機、尿布、烤肉架和鐵吉他學習軟體旁邊),再用條碼把每樣貨品的位置標註在中央資料庫中。不過這類刻意表面凌亂的儲存系統仍然有個看得見的例外:需求較大的貨品會擺在不同區域,比其他貨品更容易取用。這塊區域就是亞馬遜的快取。

Amazon
圖/ shutterstock

亞馬遜把這個原理向前推進一步,並以這項創新發明取得專利。這項專利的主旨稱為「預測包裹寄送」,根據媒體的說法,亞馬遜能在消費者下手購買之前就寄出貨品。亞馬遜跟其他科技公司一樣,希望擁有類似貝雷迪演算法的預測能力,但在規劃這項最新發展時,他們採用了快取概念。它這項專利其實是把最近在某個地區很受歡迎的貨品,運送到位於該地區的臨時倉庫,就像擁有實體貨品的CDN一樣。接著當消費者下單時,貨品距離消費者已經很近。預測個人的購買行為是不小的挑戰,但要預測幾千人的購買行為,大數法則就能派上用場了。好比說,某一天在柏克萊有人打算訂購回收紙漿衛生紙,當他們下單之後,衛生紙已經在運送途中了。

家中的快取──收納空間

雖然快取是為了整理電腦內部的數位資料而誕生,但顯然也很適合用來整理實際物品。

這些問題都很相似,因此我們說不定能把電腦科學提供的解決方案,運用到家裡。首先,當你決定要保留或捨棄哪些東西,LRU可能就是不錯的原則,至少比先進先出好上許多。如果你念大學時買的T恤有時還會穿,就不一定要丟掉。但已經好久沒穿的格紋長褲呢?送到二手商店去說不定還比較能遇上有緣人。

第二,充分運用地理環境。你通常在哪裡使用這個物品,就把那東西放在離那個地方最近的快取裡。教你收納的書大多沒有這樣的具體建議,但許多人認為有用的整理方案則經常提到這一點。舉例來說,有人說過茱莉.摩根斯坦(Julie Morgenstern)的《收納其實很容易》(Organizing from the Inside Out)有這麼一段話:「我把跑步和運動用品放在前門衣櫃底部的箱子裡。我希望它盡量接近大門。」

尚未成為櫥櫃整理原則的最後一個理論,是多層級記憶體階層。具備快取可提升效率,但具備容量最小且速度最快、到容量最大但速度最慢等多個層級的快取,可能更好。以你的收納空間而言,櫥櫃是一個快取層級、地下室是第二個,便利倉是第三個(當然,存取速度會隨層級而越來越慢,所以你應該依據LRU原理,來決定哪些物品要從每個層級剔除到下一個層級)。不過我們或許還能添加一層快取來加快速度,也就是再買一個比櫥櫃更小、取用速度更快也更接近的收納箱。

關於書面資料怎麼歸檔,收納專家大多說錯了

決定保留和捨棄哪些東西之後,最後一個挑戰就是該如何整理它們。我們已經討論過哪些東西要放進櫥櫃,以及櫥櫃應該放在哪裡,但該怎麼整理櫥櫃裡的東西呢?

目前我們經常看到的居家整理建議中,有個常見原則是「把類似的東西集中起來」,野口悠紀雄應該是目前唯一持相反看法的人,他說:「我必須強調一點,我的整理方法的基本原則,不是依據內容來分類檔案。」野口是東京大學經濟學家,寫過一系列為整理辦公室和人生提供「超級」技巧的書籍,包括《超級說服法》、《超級工作法》、《超級學習法》,以及跟本書最有關的《超級整理法》等。

piles of files.jpg
圖/ shutterstock

野口剛開始研究經濟學時,經常被信件、資料和手稿等大量資料淹沒,每天花許多時間整理,因此開始尋找解決方案。一開始他只是把每份文件放進檔案夾,檔案夾上標註文件標題和日期,然後把檔案夾全部放進大箱子。由於不需要考慮每份文件的正確位置,這樣確實能節省時間,但這樣沒有任何次序可言。到了1990年代初,他締造了重大突破:他開始一律把檔案插入箱子的左手邊──他稱之為「超級整理法」。

野口指出,不論新檔案還是舊檔案,都適用左邊插入法:每次取出檔案用過後要放回箱子時,一定要放到最左邊。找檔案時也一定要從最左邊找起。如此一來,最先看到的就是最近使用過的檔案。

野口解釋,他會這麼做,一開始只是因為塞到最左邊比塞回原處容易得多。但他後來慢慢發現,這種方式不只比較簡單,而且有效率得多。

用過一件物品後要放回去時,野口歸檔系統當然可以節省時間,然而這種方式是否容易找到需要的檔案,仍然是個問題。畢竟其他效率大師都建議我們,把類似物品集中在一起,跟野口的方法完全不同。

不過電腦科學告訴了我們一件效率大師沒辦法保證的事。

雖然野口當時並不知道,但他的歸檔系統其實就是LRU原理(最近最少使用法)的延伸。LRU告訴我們,把新內容加入快取時應該剔除最舊的內容,但沒有告訴我們應該把新內容放在哪裡。1970和1980年代電腦科學家進行的一連串研究,解答了這個問題。當時他們遇到的問題稱為自組織列表問題,狀況跟野口的歸檔困境幾乎完全相同。假如你有一組依順序排列的物品,你必須定時搜尋,找出其中某些物品。搜尋行為本身必須是線性,因為你必須從頭開始逐一看過每件物品,但你找到需要的物品之後,可以放回任何位置。此時你應該把物品放在哪裡,才能盡可能提高搜尋效率?

piles of files.jpg
圖/ shutterstock

丹尼爾.史利特(Daniel Sleator)和羅伯.塔爾占(Robert Tarjan)於1985年發表關於自組織列表的重要論文,以古典電腦科學方式探討在所有可能要求順序下,以各種方式列表的最差情況表現。依照直覺,搜尋從前端開始,所以我們排列順序時,也希望把最可能用到的物品放在最前端。但最可能用到的物品又是什麼?這又回到預測未來能力的問題了。史利特和塔爾占的研究結果顯示,某些「十分簡單的自調整方案,居然具備一定程度的」預知能力。也就是說,如果我們遵照LRU原理,每次都把物品放回列表的最前端,那麼搜尋所花的時間,絕對不會超過我們能預知未來時的兩倍。其他演算法都沒辦法保證這一點。

了解野口歸檔系統是LRU原理的實行範例可讓我們了解,LRU原理不只更有效率,而且是最佳方法。

史利特和塔爾占的研究結果,還提出另一種變化──把野口歸檔系統旋轉90度就是了。簡單地說,一箱檔案夾轉個90度就變成一疊檔案,如此一來搜尋檔案時自然會從上到下,每次抽出文件後要放回去時不會放回原處,而會放在最上面。

簡而言之,自組織列表的數學原理提出了一個十分創新的概念:在書桌上堆一大疊文件不但不是雜亂象徵,還是目前已知最精良、效率最佳的資料結構,沒必要因而有罪惡感。在別人看來那或許是凌亂、欠缺條理,其實它自有一套條理。由於我們無法預知未來,所以把用過的東西放回最上方是最好的辦法。

關鍵字: #數位書選
往下滑看下一篇文章
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局
聚焦智慧醫療,汎定科技藉 NVIDIA 新創計畫挹助,加速小心肝 AI 軟體服務開發與全球布局

汎定科技(FindingsTech)成立於2020年,以力學模擬、人工智慧與數據分析三大核心技術為基礎,迅速在智慧醫療領域打出名號,目前公司的主力產品有二:分別是小心肝 AI(HepatoWell.ai)與 AI Foundry 服務,前者透過 NVIDIA MONAI 為框架的 MRI 影像訓練,開發計算量化脂肪肝程度的 AI 軟體;後者則是因應客戶需求、使用情境提供最佳 AI 架構與解決方案,例如跟豐藝母公司和醫學中心合作開發的 OmniSurgery 手術房 AI 器械盤點平台,用來協助醫院器械供應中心自動偵測與盤點醫療機械設備。

汎定科技之所以會聚焦 AI 醫療影像市場,與創辦人的學經歷背景息息相關。汎定科技總經理許駿鵬表示:「10多年前,我曾在麻省理工學院的電腦科學與人工智慧實驗室擔任科學家,當時的計畫主持人都聚焦在醫療影像跟重症數據分析,在過程中深刻感受到,我們雖然不是第一線醫護人員,但依然可以透過科技實現『曲線救人』。」這段經驗以及教授鼓勵,讓其決定創立汎定科技,目標是以 AI 科學幫助醫療體系更快找到精準答案,無論是物理實驗、醫療輔助判別與撰寫報告都可以即時掌握關鍵發現 (Findings)。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

卓越的創新與技術能量,不僅於參加 NVIDIA Inception 新創計畫後獲得更多 AI 技術資源,更在2024年獲得豐藝集團的投資支持,正式成為集團旗下成員,接下來,汎定科技除持續深化產品服務,也會透過集團資源、以軟硬整合等方式擴展在醫療產業的服務能量。

聚焦脂肪肝 MRI 影像分析,汎定科技小心肝 AI–HepatoWell.ai– 進入臨床試驗階段

研究機構 Fortune Business Insight 預測,全球 AI 醫療影像市場規模將從2025年的392.5億美元快速成長到2032年的5,041.7億美元,年複合成長率高達44%,其中,「解決方案」類型的產品需求最高,其次才是平台型服務,顯示市場最需要的是能夠真正解決臨床痛點的應用。

在眾多 AI 醫療影像市場中,汎定科技會鎖定脂肪肝 MRI 影像分析、推出小心肝 AI(HepatoWell.ai)的原因有三:

首先是 AI 全自動量化計算肝臟脂肪密度。 全球脂肪肝盛行率高。目前的檢測脂肪肝的方式多為質化判斷不夠精準;即便現行的量化分析,也需要人工圈選。HepatoWell.ai 藉由讀取 MRI-PDFF(質子密度脂肪分數)訊號,AI 自動計算全肝臟體積脂肪分數(VLFF),可更精確的計算脂肪肝程度。

其次是整合新藥臨床試驗平台。 過去脂肪肝無藥物可治療,第一線治療方式多以飲食與調整生活習慣為主。因此,國際藥廠紛紛投入新藥臨床試驗。小心肝 AI 能提供標準化 MRI-PDFF 數據,可整合進臨床試驗工具。

最後是帶動產業鏈發展。 全球專注脂肪肝AI醫療影像的業者極少。小心肝 AI 的出現,讓醫療機構、健檢中心、臨床試驗公司、國際醫材設備商乃至國際藥廠有新的合作選擇,有助於形成更完整的產業生態系。

汎定科技總經理許駿鵬表示:「我們自從2023年7月展開前期研究(Pilot Survey),2025年進入臨床試驗、預計將於今年底完成,明(2026)年正式取證、將小心肝 AI 推向全球市場。」值得特別注意的是,醫療產業特性使然,「有技術」不等於「能落地」,研發實力、客戶需求,以及品牌能見度缺一不可,而藉由 NVIDIA Inception 新創計畫的支援,汎定科技不僅強化了產品開發速度,如以 MONAI Core 選擇適切的演算法、MONAI Label 加速影像標註等,也在品牌行銷與市場拓展上獲得關鍵性的極大推力。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

以2025年獲邀參展 COMPUTEX InnoVEX 大會中的 NVIDIA Inception for Startup Pavilion 新創展區為例,汎定科技在展會期間收到超過100個客戶諮詢,會後有逾50家潛在客戶表達興趣,其中10多家已進入洽談階段,對正在推進的臨床試驗與未來市場擴張極具幫助。「我們的計畫是在取證後三年將小心肝 AI 推向20家健診中心,並且積極發展亞洲市場商機,而後再一步一腳印地擴展歐美市場。」關於小心肝 AI 的未來規劃,許駿鵬如是說道。

善用集團與 NVIDIA 技術資源,加速智慧醫療布局

在加入 NVIDIA Inception 新創計畫後,新創團隊可在 NVIDIA Inception 新創計畫網站清楚寫下產品服務等資訊,NVIDIA 全球各個部門便都可以查詢到新創團隊資訊,更有機會取得 NVIDIA 軟體產品的早期試用(Early Access),並能免費下載使用各種 NVIDIA 軟體套件(SDK),以及受邀參加地區活動曝光等。至於新創公司擴展最重要的資金環節,新創團隊則可透過 Inception Capital Connect 與全球 NVIDIA Inception VC Alliance 創投夥伴接觸,加速募資流程。

汎定科技與豐藝集團即是透過 NVIDIA Inception 新創計畫而結識。

豐藝集團策略長陳少翎表示:「汎定科技擁有絕佳的技術實力與發展潛力,瞄準的市場與豐藝集團的布局方向一致,很快就決定投資團隊。目前雖由豐藝集團100%持股,但仍維持汎定科技的獨立營運彈性,鼓勵其以新創速度深耕市場,同時,透過鏈結集團資源等方式深化對智慧醫療產業的佈局。」舉例來說,當豐藝集團與 GE、飛利浦、西門子等全球醫療大廠進行產品藍圖與市場規劃討論時,也會同步介紹汎定科技的產品服務與實務經驗,進而創造更多跨國合作的可能性。

數位時代 X NVIDIA _ FindingsTech
圖/ 數位時代

展望未來,汎定科技除持續推進小心肝 AI 的產品與市場布局、也將與 NVIDIA Inception 新創計畫更緊密連結到全球新創與創投網絡以強化產品的海外布局,也會透過跟集團子公司與客戶合作等方式,更好布局未來市場。

NVIDIAxFindingsTech
圖/ 數位時代

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓