(A) 利用資料庫中的數值性資料來實現「數值性資料探勘」的目的

從數量化資料中發掘出各種假設,以往許多數量資料說隱含的資訊難以主動被發掘出來,不過數量化資訊挖掘模式之研究便能夠提供資料倉儲堣j量的資料所難以得知的資訊。這個部分的研究乃偏重於如何找出一個方法主動發掘隱藏於數量化各種可能性的假設。

(B) 利用文件探勘技術來實現「知識分類」自動化與發掘特定領域的知識

文件探勘技術有一個極有潛力且具有原創性的應用領域 - 『知識分類』;文件探勘技術具有自動將文件分類的能力;然而不同於傳統『文件分類』的技術,『文件探勘』的概念並非僅根據『顯性』的文件特徵、相似度(例如關鍵詞出現頻率、文件向量相近度等)來作為分類的基礎,它能更進一步地達到以『隱性』的概念之相似的程度來作為分類的依據;故而,利用此一特質,可將外表看起來似並無關係的文件(關鍵詞同時出現),但內容所表達的概念卻相似的文件歸類在一起。本 實驗室 研究工作除了求證 machine learning 的方法可達到文件自動分類的效果外,分類後所得到的文件間內容的關聯更是本文件探勘研究最關切的結果;除此更進一步,本 實驗室 已進行數個實驗自動地於網際網路中進行資訊蒐集、整理與探勘針對相似的文件在 learning model 的演算法下可自動地群集在一起的特性,可利用此特質根據某一事件自動地發掘更多相關的背景資訊或知識,再將文件探勘的機器學習技術應用於知識之分類目錄的自動建立與維護,以達到用文件探勘技術來實現『知識分類』自動化,與發掘包括 多國語言文件庫的問題查詢 (Multilingual question answering) 及生物基因的組合資訊等 特定領域的知識。

(C) 「多媒體資料庫」的實現與「多媒體資料探勘」
由於網際網路時代的興起及大量研究人力的投入,近年來 『多媒體 資料分類 』 的 技術已有長足的進步而趨於成熟。目前由於許多傳統的文件紛紛轉變為電子化文件來加以儲存管理和作為訊息交換處理等其他用途,以及全世界各地每日以驚人的速度成長的網站網頁, 將 如此 大量 電子文件 資料加以 分類 管理的方法 , 遂成為獲取商機與拓展人類新的知識領域的最佳利器 。然而 『 資料 分類 』雖似已為漸臻 成熟 的 技術,但是對於以分類演算法進行 多媒體 資料語意的相關性的分析以及根據語意的相關性來作為分類方法的研究,仍有相當大的發展空間有待更多的研究投入;一般相信以 多媒體 資料語意相關性為主的分類法比傳統的分類 法較能提供細部的 分類與 更多 相關性 高之 多媒體 資料的擷取,也是具有挑戰性與實用價值的研究工作。 本 實驗室 以 Machine Learning 方法 (e.g. Support Vector Machines) 用於 多媒體 資料庫中 多媒體內容 語意相關性的分析,以 支援 MOD(Media-On-Demand) 伺服器的視訊、聲音及影像等多媒體分類索引與搜尋。
進行中研究:

基於類神經網路與癌症基因統計資訊之白血病基因文獻分類方法

多國語言文件探勘技術應用於評估專利文件的相關性之研究

結合文件探勘、景點影像標註與融合技術在地理知識發掘的應用研究

微網誌事件偵測系統之研究

 最佳解析度:1024*768  最後更新日期:2015年07月07日