TW201642195A - 商品相關網路文章之自動圖文摘要方法及系統 - Google Patents
商品相關網路文章之自動圖文摘要方法及系統 Download PDFInfo
- Publication number
- TW201642195A TW201642195A TW104116870A TW104116870A TW201642195A TW 201642195 A TW201642195 A TW 201642195A TW 104116870 A TW104116870 A TW 104116870A TW 104116870 A TW104116870 A TW 104116870A TW 201642195 A TW201642195 A TW 201642195A
- Authority
- TW
- Taiwan
- Prior art keywords
- product
- information
- specific subject
- database
- article
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明提供一種商品相關網路文章之自動圖文摘要方法及系統。該方法包括步驟:從網際網路上搜集網路文章;從搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中;以及從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫中。
Description
本發明涉及網路資訊處理領域,特別涉及一種商品相關網路資訊之自動圖文摘要方法及系統。
隨著互聯網和Web2.0的快速發展,互聯網上的資訊量每天都在以驚人的速度增長。越來越多的人喜歡在互聯網上發表他們對人、事、物的意見,論壇、部落格(Blog)、評論網站、微博等都給Web2.0時代的使用者提供了一個發佈資訊、表達觀點的平臺,於是互聯網上產生了大量的含有個人主觀色彩的評論資訊。在購買商品前,例如購買3C產品或美妝產品,或到餐廳進行消費等,消費者往往習慣於在網路上搜尋商品的相關資訊或評論。然而,網路資訊數量繁多、品質好壞不一、完整度不一,不同來源的評論可能意見相左,想要獲得較為可靠的評論之總結,就必須瀏覽與綜合許多不同來源的意見。因此,如何自動綜合分析網路上對特定商品的評論資訊,如何快速提取出有參考價值的資訊,以便減輕消費者閱讀大量相關評論資訊的工作量,並幫助消費者於短時間內判斷及做出購買決策,已經成為自然語言處理領域中的一個研究熱點。
有鑒於此,有必要提出一種商品相關網路文章之自動圖文摘要系統及方法,以解決上述問題。
一種商品相關網路文章之自動圖文摘要系統,安裝並運行於一伺服器中。該自動圖文摘要系統包括一資訊搜集模組,用於從網際網路上搜集網路文章;一資訊擷取模組,用於從該資訊搜集模組搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中;以及一影像摘要模組,用於從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫中。
一種商品相關網路文章之自動圖文摘要方法,應用於一伺服器中。該自動圖文摘要方法包括步驟:從網際網路上搜集網路文章;從搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中;以及從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫中。
本發明的商品相關網路文章之自動圖文摘要方法及系統,採用自動摘要技術,彙整不同資訊來源,提供商品代表圖片與評論摘要兩方面的商品資訊,為用戶提供了直觀的數據,方便用戶查詢,並幫助消費者於短時間內判斷及取得重要購買決策參考資訊。
圖1是本發明一實施方式中的商品相關網路文章之自動圖文摘要系統的運行環境示意圖。
圖2是本發明一實施方式中的商品相關網路文章之自動圖文摘要系統的功能模組示意圖。
圖3是本發明一實施方式中的商品相關網路文章之自動圖文摘要方法的流程圖。
圖4是本發明一實施方式中的篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中的流程圖。
圖5是本發明一實施方式中的從與各個商品相關的圖片中分別篩選出各個商品的代表圖片的流程圖。
圖6是本發明一實施方式中的根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要及分別生成各個商品的評論摘要資訊的流程圖。
如圖1所示,是本發明一實施方式中的商品相關網路文章之自動圖文摘要系統10的運行環境示意圖。
該自動圖文摘要系統10為安裝並運行於一伺服器100中的一系列電腦化程式碼。在本實施方式中,該伺服器100可以是網路伺服器、雲端伺服器等計算機裝置。
該伺服器100還包括,但不限於,儲存單元11、處理器12以及通訊單元13。該通訊單元13用於與一網際網路200連接,並從該網際網路200中獲取資訊及/或向該網際網路200上傳資訊。
該儲存單元11用於儲存各類資訊,例如該自動圖文摘要系統10的電腦化程式碼。該處理器12用於執行該自動圖文摘要系統10以及該伺服器100內安裝的各類軟體的電腦化程式碼。該儲存單元11可為快閃記憶體卡、硬碟等。該處理器12可為中央處理器、單片機、數位訊號處理器等。
在本實施方式中,該自動圖文摘要方法及系統,彙整不同來源商品相關網路文章,並採用自動摘要技術,提供商品代表圖片與評論摘要兩方面的商品資訊,為用戶提供了直觀的數據,方便用戶查詢,並幫助消費者於短時間內判斷及取得重要購買決策參考資訊。
如圖2所示,是本發明一實施方式中的商品相關網路文章之自動圖文摘要系統10的功能模組示意圖。
在本實施方式中,該自動圖文摘要系統10包括一資訊搜集模組101、一資訊擷取模組102、一影像摘要模組103、一文字摘要模組104、以及一查詢模組105。
本發明所稱的模組是指一種能夠被計算機的處理器所執行並且能夠完成特定功能的一系列電腦化程式碼,其儲存在該計算機裝置的儲存單元中。關於各模組的功能將在下面的流程圖中具體描述。根據不同的需求,該流程圖步驟的順序可以改變,某些步驟可以省略。
圖3為本發明一實施方式的商品相關網路文章之自動圖文摘要方法的流程圖。如圖3所示,根據本發明一實施方式的商品相關網路文章之自動圖文摘要方法,包括以下步驟:
步驟301,該資訊搜集模組101透過該通訊單元13從網際網路200上搜集網路文章,並將搜集到的網路文章傳送至該資訊擷取模組102。
在本實施方式中,該資訊搜集模組101可以採用現有的資訊收集方法,例如,採用面向互聯網的自動化程式,例如網路爬蟲(crawler)、網路機器人(bot)、或網路蜘蛛人(spider)等來定期自動地從網際網路200上搜集網路文章。
在本實施方式中,該網路文章可以是部落格、微博、論壇等網頁文件。
步驟302,該資訊擷取模組102從該資訊搜集模組101搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫300(例如餐廳資料庫)中。
該特定主題的商品可為3C產品、家電、汽車、美妝產品、或餐廳等。
如圖4所示,在本實施方式中,該步驟302具體包括以下步驟:
步驟3021,該資訊擷取模組102辨識該搜集到的網路文章是否與該特定主題的商品相關。
以餐廳及部落格資訊為例,與該餐廳相關的特定主題為食記(對應於商品,則可為商品開箱文)。該資訊擷取模組102辨認該部落格的主題是否是食記。
在本實施方式中,該資訊擷取模組102首先藉由現有的語言算法將搜集到的網路文章分別表示成文字字典分佈(Bag-Of-Words)特徵向量,然後利用預先訓練好的機器學習食記分類器,辨認該網路文章的主題是否是食記。
機器學習食記分類器的產生方式如下:預先搜集訓練資訊,食記資訊作為正例,非食記資訊作為反例。將這些訓練資訊輸入機器學習的分類演算法,例如支撐向量機(Support Vector Machine)、隨機森林(Random Forests)、類神經網路(Neural Network)等,經過電腦學習計算這些訓練資料之後即可產生食記分類器。
在此步驟中,該資訊擷取模組102將辨認為非食記的部落格資訊捨棄,即非食記的部落格資訊不會被送給後續的步驟處理,也不會被儲存進該餐廳資料庫。該資訊擷取模組102將辨認為食記的部落格資訊送往下一個步驟處理。
步驟3022,該資訊擷取模組102以結構化樣式規則從與該特定主題的商品相關的網路文章中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫300中。
以餐廳為例,該資訊擷取模組102從辨認為食記的文字資訊中,搜尋是否有符合預先定義的結構化樣式,並從中擷取出餐廳資訊。結構化樣式如,店名:○○○、地址:○○○、電話:○○○。當該資訊擷取模組102發現這些樣式時,即取出店名、地址、電話等資訊,並至該餐廳資料庫中搜尋是否已有此店家資訊。若無此店家,則將店家資訊及食記內容存入該餐廳資料庫,並將該食記連結至該店家。若已有此店家,則僅將食記內容存入該餐廳資料庫,並將該食記連結至該店家。若已找到符合的結構化樣式,則完成資訊擷取工作;否則,進入步驟3023。
步驟3023,該資訊擷取模組102從與該特定主題的商品相關的網路文章的非結構化資訊中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫300中。
以餐廳為例,在此步驟中,該資訊擷取模組102從辨認為食記的文字資訊中搜尋非結構化的店名資訊。此步驟的執行遵循以下二個假設:店名出現在該部落格的標題中,或店名出現在部落格內文中次數較高。
對於每一部落格食記,該資訊擷取模組102首先利用現有的自然語言處理方法對部落格標題做斷詞,並將斷詞後的每個單位(詞)視為可能的候選店名,然後計算每一個詞在部落格內文中的統計特徵,包括該詞在內文中出現的次數,以及該詞在內文中的前後文出現特定關鍵詞句的次數。前後文特定關鍵詞句由電腦學習計算其他的訓練資訊之後統計得出,例如:○○○是數十年的老店、○○○的招牌菜是酸菜白肉鍋、○○○的地址位於中正路與中山路口。“老店”、“招牌菜”、“地址位於”,這些詞都是餐廳名稱的前後文關鍵詞。在計算完標題中的候選店名的統計特徵後,若有連續幾個詞的統計特徵超過設定的門檻值,則該資訊擷取模組102將該連續幾個詞合併成單一店名。
最後,該資訊擷取模組102在該餐廳資料庫搜尋是否有符合該店名的店家資訊。若沒有,則不將該食記內容存入該餐廳資料庫。若有單一店家店名符合,則該資訊擷取模組102將該食記內容存入該餐廳資料庫,並將該食記連結至相對應之店家。若有多筆店家店名符合,則需比對該食記中是否出現某一家店名的地址、電話等資訊。若有,則將該食記內容加入該餐廳資料庫,並連結至相對應之店家。
步驟303,該影像摘要模組103從該特定主題商品資料庫300中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫300中。
其中,網路文章中嵌入的圖片包括嵌入在商品資訊中的圖片及嵌入在評論資訊中的圖片。
以餐廳為例,針對一家餐廳,該影像摘要模組103從餐廳資料庫中儲存的所有相關部落格食記中下載其嵌入的圖片。
如圖5所示,在本實施方式中,該步驟303中的“從與各個商品相關的圖片中分別篩選出各個商品的代表圖片”具體包括以下步驟:
步驟3031,針對每一商品,該影像摘要模組103根據預設條件對與該商品相關的所有圖片做預過濾。
在本實施方式中,以餐廳為例,該預設條件為下述的一個或多個:去除有人臉的圖片(因人物照大多重點不在食物,不容易引發消費者食慾)、去除畫素值太低的圖片、去除黑白圖片。
步驟3032,該影像摘要模組103從經過濾後的每一圖片中分別擷取影像特徵。
該影像特徵包括下述的一個或多個:1)顏色分布;2)飽和度分布;3)明暗度分布;4)對比度;5)清晰度;6)視覺字典(Bag-Of-Visual-Words)分布;7)圖片嵌入處的前後文是否出現該餐廳的招牌菜的關鍵字;8)相似畫面的圖片是否出現在多個不同的網路文章中。
其中,在這些影像特徵中,第1至5項與視覺美觀相關。第6項用於辨認圖片內容屬於食物、裝潢、或是餐廳建築外觀等中的哪一種類別。第7項需先找出店名招牌菜關鍵字。實現方法是採用詞頻統計算法,找出經常出現在該店家的不同相關網路文章中的菜名,則該菜名很有可能是該店家的招牌菜(因不同人到該店家,一般都會提到該道菜)。第8項背後的概念是若不同網路文章都嵌入了相似畫面的圖片,則該圖片較有可能是該店家的招牌菜的圖片。為達成此目的,首先利用現有算法,例如分群演算法找出相似畫面的圖片群聚,再計算該圖片群聚中各自被嵌入不同網路文章數量的多寡。
步驟3033,該影像摘要模組103將從各張圖片中擷取出的影像特徵提供給一照片選擇器,利用該照片選擇器給每一張圖片評分,並將該評分作為選擇代表圖片的依據。
該照片選擇器的產生方式如下:預先搜集好與不好的代表圖片的範例並擷取出各自的影像特徵,將這些代表圖範例及其影像特徵輸入機器學習的分類演算法,例如支撐向量機(Support Vector Machine)、類神經網路(Neural Network),或是排序學習演算法(Learning-to-Rank)等,藉由機器學習演算法從中歸納出代表圖片好壞與其影像特徵的關連性而得到判斷模型(或是判斷規則)。此判斷模型便可以作為照片選擇器使用。
步驟3034,該影像摘要模組103篩選出綜合評分最高的圖片作為對應的商品的代表圖片。
這樣,經過預過濾、擷取影像特徵及評分之後篩選出來的代表該餐廳的圖片具有以下特徵:圖片的美觀與品質良好、圖片較能引發使用者的食慾以及去該餐廳的動機、以及圖片較能反應出該餐廳的特色,如該餐廳的代表菜色。
步驟304,該文字摘要模組104從該特定主題商品資料庫300中分別獲取與各個商品相關的所有網路文章中包含的評論資訊,根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要及分別生成各個商品的評論摘要資訊,並將各個商品的評論摘要資訊儲存於該特定主題商品資料庫300中。
以餐廳為例,針對一家餐廳,該文字摘要模組104從餐廳資料庫中儲存的所有相關部落格食記中提取關於該餐廳的所有評論資訊。
如圖6所示,在本實施方式中,該步驟304中的“根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要及分別生成各個商品的評論摘要資訊”具體包括以下步驟:
步驟3041,針對每一商品,設定商品的若干個屬性類別,對該商品的所有相關評論資訊中的每一個句子進行屬性分類及相應的情感分類。
首先,藉由一斷詞模組對所有相關評論資訊進行包括分句、分詞、詞性標注等在內的各種預處理,以獲得包括在該評論資訊中的眾多評論語句的詞、詞性向量。
該斷詞模組可以採用已有的自然語言處理方法來實現,用於對該評論資訊進行預處理。例如,對於評論語句“上菜速度快。”,在經過預處理之後可得到類似於如下所示的結果:上菜/v速度/n快/a。/w。其中,“/v”表示動詞詞性,“/n”表示名詞詞性,“/a”表示形容詞詞性,“/w”表示標點符號。
其次,藉由訓練模型預先訓練好的機器學習屬性分類器確定經預處理後的每一個評論句子的內容歸屬的屬性類別。
在本實施方式中,以餐廳為例,商品屬性類別預設為:味道、服務、環境、價格、及其他。
在本實施方式中,利用一類別特徵詞庫區分每一個句子的內容歸屬的屬性類別。該類別特徵詞庫為預先搜集的資訊庫,內有味道、服務、環境、價格這四個類別的句子常出現的關鍵詞。如,味道類關鍵字有:味道、口味、口感、飲料等。
對於一個句子,統計各個屬性類別的關鍵詞在該句子中出現的次數,確定具有出現次數最多的屬性類別,將該屬性類別確定為該句子的內容歸屬之屬性類別。若該句子中都沒有包含這四類別的關鍵詞,則該句子的內容歸屬於其他屬性類別,且不進行下一步的處理。
在此,也可以採用基本名詞短語識別技術從經預處理的評論句子中提取出候選商品屬性類別,然後統計候選商品屬性類別在評論句子中出現的次數,並從候選商品屬性類別中選擇那些出現頻率滿足預設條件(例如,大於預定門檻值)的商品屬性類別作為該句子的內容歸屬之屬性類別。
然後,對每一個屬性類別的句子進行情感分類。
在本實施方式中,利用一類別意見詞庫區分每一句子的情緒為正向或負向。該類別意見詞庫亦為預先搜集的資訊庫,內有四個類別的正向情緒與負向情緒的關鍵詞。例如,味道類的正向情緒詞有:可口、鮮美、美味等,負向情緒詞有:難吃、油膩、不好吃等。
步驟3042,確定每一屬性類別對應的情感分類結果。
以餐廳為例,對於每一間餐廳,分別統計出各個屬性類別的句子中出現的正向詞與負向詞的次數。若某一個屬性類別正面詞次數多,則總結出網路對該餐廳的該屬性類別的總體評價為正面評價,反之則總結為負面評價。
步驟3043,對於每一個屬性類別,從歸屬為該屬性類別且情感分類與該情感分類結果相符的所有句子中挑選出現次數最多的特徵詞與意見詞,並利用自然語言生成技術將特徵詞組合意見詞來產生評論摘要。
以餐廳為例,例如,對於口味類別,若情感分類結果為正面評價,則從歸屬為口味類別且為正面評價的所有句子中挑選出現次數最多的特徵詞,例如料理,與意見詞,例如好吃。最後將特徵詞與意見詞組合得到短評,例如「料理好吃、店家貼心、沙發高級、價位小貴」。
步驟305,該查詢模組105根據該通訊單元13從該網際網路200中接收到的一目標商品的搜尋關鍵字,從該特定主題商品資料庫300中搜尋該目標商品的影像摘要資訊及評論摘要資訊。
在一種實施方式中,藉由一線上搜尋引擎自該網際網路200上接收消費者之搜尋請求,諸如目標商品的搜尋關鍵字,並將該搜尋請求發送給該自動圖文摘要系統10。該自動圖文摘要系統10的該查詢模組105從該特定主題商品資料庫300中查詢與該目標商品對應之影像摘要資訊及評論摘要資訊,並返回給該線上引擎以回應於自該網際網路200中所接收到之搜尋請求。
對於實施方式中所闡述的僅是本發明的優選實施方式,應當指出,對於本領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干的變形和改進,這些也應該視為屬於本發明的保護範圍之內。
100‧‧‧伺服器
11‧‧‧儲存單元
12‧‧‧處理器
13‧‧‧通訊單元
10‧‧‧自動圖文摘要系統
101‧‧‧資訊搜集模組
102‧‧‧資訊擷取模組
103‧‧‧影像摘要模組
104‧‧‧文字摘要模組
105‧‧‧查詢模組
200‧‧‧網際網路
300‧‧‧特定主題商品資料庫
301-305、3021-3023、3031-3034、3041-3043‧‧‧步驟
無
301-305‧‧‧步驟
Claims (13)
- 一種商品相關網路文章之自動圖文摘要系統,安裝並運行於一伺服器中,其改良在於:該自動圖文摘要系統包括:
一資訊搜集模組,用於從網際網路上搜集網路文章;
一資訊擷取模組,用於從該資訊搜集模組搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中;以及
一影像摘要模組,用於從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫中。 - 如申請專利範圍第1項所述之自動圖文摘要系統,其中:該資訊擷取模組藉由下述方式篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中:
辨識該搜集到的網路文章是否與該特定主題的商品相關;以及
以結構化樣式規則從與該特定主題的商品相關的網路文章中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中;或
從與該特定主題的商品相關的網路文章的非結構化資訊中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中。 - 如申請專利範圍第2項所述之自動圖文摘要系統,其中:該影像摘要模組藉由下述方式從與各個商品相關的圖片中分別篩選出各個商品的代表圖片:
針對每一商品,根據預設條件對與該商品相關的所有圖片做預過濾;
從經過濾後的每一圖片中分別擷取影像特徵;
將從各張圖片中擷取出的影像特徵提供給一照片選擇器,利用該照片選擇器給每一張圖片評分,並將該評分作為選擇代表圖片的依據;以及
篩選出綜合評分最高的圖片作為對應的商品的代表圖片。 - 如申請專利範圍第2項所述之自動圖文摘要系統,其中:該自動圖文摘要系統還包括一文字摘要模組,用於從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中包含的評論資訊,根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要及分別生成各個商品的評論摘要資訊,並將各個商品的評論摘要資訊儲存於該特定主題商品資料庫中。
- 如申請專利範圍第4項所述之自動圖文摘要系統,其中:該文字摘要模組藉由下述方式從該特定主題商品資料庫中分別獲取與各個商品相關的網路文章中的評論資訊,根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要:
針對每一商品,設定商品的若干個屬性類別,對該商品的所有相關評論資訊中的每一個句子進行屬性分類及相應的情感分類;
確定每一屬性類別對應的情感分類結果;以及
對於每一個屬性類別,從歸屬為該屬性類別且情感分類與該情感分類結果相符的所有句子中挑選出現次數最多的特徵詞與意見詞,並利用自然語言生成技術將特徵詞組合意見詞來產生評論摘要。 - 如申請專利範圍第4項所述之自動圖文摘要系統,其中:該自動圖文摘要系統還包括一查詢模組,用於根據從該網際網路中接收到的一目標商品的搜尋關鍵字,從該特定主題商品資料庫中搜尋該目標商品的影像摘要資訊及評論摘要資訊。
- 一種商品相關網路文章之自動圖文摘要方法,應用於一伺服器中,其改良在於:該自動圖文摘要方法包括步驟:
從網際網路上搜集網路文章;
從搜集到的網路文章中篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在一特定主題商品資料庫中;以及
從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中嵌入的圖片,從與各個商品相關的圖片中分別篩選出各個商品的代表圖片,並將各個商品的代表圖片儲存於該特定主題商品資料庫中。 - 如申請專利範圍第7項所述之自動圖文摘要方法,其中:篩選出與一特定主題的商品相關的網路文章及提取出相應的商品名稱,並將該篩選出來的網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中具體包括以下步驟:
辨識該搜集到的網路文章中是否與該特定主題的商品相關;以及
以結構化樣式規則從與該特定主題的商品相關的網路文章中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中;或
從與該特定主題的商品相關的網路文章的非結構化資訊中提取出商品名稱,並將該網路文章與相應的商品名稱連結後一併儲存在該特定主題商品資料庫中。 - 如申請專利範圍第8項所述之自動圖文摘要方法,其中:從與各個商品相關的圖片中分別篩選出各個商品的代表圖片具體包括以下步驟:
針對每一商品,根據預設條件對與該商品相關的所有圖片做預過濾;
從經過濾後的每一圖片中分別擷取影像特徵;
將從各張圖片中擷取出的影像特徵提供給一照片選擇器,利用該照片選擇器給每一張圖片評分,並將該評分作為選擇代表圖片的依據;以及
篩選出綜合評分最高的圖片作為對應的商品的代表圖片。 - 如申請專利範圍第9項所述之自動圖文摘要方法,其中:該特定主題的商品為餐廳,對於每一家餐廳,該影像特徵至少包括圖片嵌入處的前後文是否出現該餐廳的招牌菜的關鍵字,以及相似畫面的圖片是否出現在多個不同的網路文章中。
- 如申請專利範圍第8項所述之自動圖文摘要方法,其中:該自動圖文摘要方法進一步包括步驟:
從該特定主題商品資料庫中分別獲取與各個商品相關的所有網路文章中包含的評論資訊,根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要及分別生成各個商品的評論摘要資訊,並將各個商品的評論摘要資訊儲存於該特定主題商品資料庫中。 - 如申請專利範圍第11項所述之自動圖文摘要方法,其中:從該特定主題商品資料庫中分別獲取與各個商品相關的網路文章中的評論資訊,根據各個商品的屬性特徵對與各個商品相關的評論資訊分別進行自動摘要具體包括以下步驟:
針對每一商品,設定商品的若干個屬性類別,對該商品的所有相關評論資訊中的每一個句子進行屬性分類及相應的情感分類;
確定每一屬性類別對應的情感分類結果;以及
對於每一個屬性類別,從歸屬為該屬性類別且情感分類與該情感分類結果相符的所有句子中挑選出現次數最多的特徵詞與意見詞,並利用自然語言生成技術將特徵詞組合意見詞來產生評論摘要。 - 如申請專利範圍第11項所述之自動圖文摘要方法,其中:該自動圖文摘要方法進一步包括步驟:
根據從該網際網路中接收到的一目標商品的搜尋關鍵字,從該特定主題商品資料庫中搜尋該目標商品的影像摘要資訊及評論摘要資訊。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104116870A TWI645348B (zh) | 2015-05-26 | 2015-05-26 | 商品相關網路文章之自動圖文摘要方法及系統 |
US14/806,043 US9906588B2 (en) | 2015-05-26 | 2015-07-22 | Server and method for extracting content for commodity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104116870A TWI645348B (zh) | 2015-05-26 | 2015-05-26 | 商品相關網路文章之自動圖文摘要方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201642195A true TW201642195A (zh) | 2016-12-01 |
TWI645348B TWI645348B (zh) | 2018-12-21 |
Family
ID=57399689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104116870A TWI645348B (zh) | 2015-05-26 | 2015-05-26 | 商品相關網路文章之自動圖文摘要方法及系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9906588B2 (zh) |
TW (1) | TWI645348B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI749908B (zh) * | 2020-11-25 | 2021-12-11 | 英業達股份有限公司 | 基於社群資訊追蹤及預測產品品質的方法 |
TWI832099B (zh) * | 2020-12-28 | 2024-02-11 | 日商樂天集團股份有限公司 | 學習裝置、程式產品及學習方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190122B (zh) * | 2018-09-03 | 2023-04-18 | 上海腾道信息技术有限公司 | 一种应用于国际贸易领域中商品命名的识别方法 |
TWI731469B (zh) * | 2019-11-11 | 2021-06-21 | 財團法人資訊工業策進會 | 資訊檢測裝置及方法 |
CN113688268B (zh) * | 2021-08-31 | 2024-04-02 | 中国平安人寿保险股份有限公司 | 图片信息抽取方法、装置、计算机设备及存储介质 |
TWI826957B (zh) * | 2022-03-16 | 2023-12-21 | 國立高雄科技大學 | 筆記智能歸類裝置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962461B2 (en) * | 2004-12-14 | 2011-06-14 | Google Inc. | Method and system for finding and aggregating reviews for a product |
US8862591B2 (en) * | 2006-08-22 | 2014-10-14 | Twitter, Inc. | System and method for evaluating sentiment |
TW200816010A (en) * | 2006-09-29 | 2008-04-01 | Webgenie Information Ltd | Method for document auto-summarization |
US7930302B2 (en) * | 2006-11-22 | 2011-04-19 | Intuit Inc. | Method and system for analyzing user-generated content |
US20090063247A1 (en) * | 2007-08-28 | 2009-03-05 | Yahoo! Inc. | Method and system for collecting and classifying opinions on products |
WO2009061399A1 (en) * | 2007-11-05 | 2009-05-14 | Nagaraju Bandaru | Method for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis |
US8254684B2 (en) * | 2008-01-02 | 2012-08-28 | Yahoo! Inc. | Method and system for managing digital photos |
US8117207B2 (en) * | 2008-04-18 | 2012-02-14 | Biz360 Inc. | System and methods for evaluating feature opinions for products, services, and entities |
US8229960B2 (en) * | 2009-09-30 | 2012-07-24 | Microsoft Corporation | Web-scale entity summarization |
US8131786B1 (en) * | 2009-11-23 | 2012-03-06 | Google Inc. | Training scoring models optimized for highly-ranked results |
US8595234B2 (en) * | 2010-05-17 | 2013-11-26 | Wal-Mart Stores, Inc. | Processing data feeds |
US8903800B2 (en) * | 2010-06-02 | 2014-12-02 | Yahoo!, Inc. | System and method for indexing food providers and use of the index in search engines |
US8606652B2 (en) * | 2010-12-20 | 2013-12-10 | Target Brands, Inc. | Topical page layout |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
US9870376B2 (en) * | 2011-04-01 | 2018-01-16 | Excalibur Ip, Llc | Method and system for concept summarization |
US20130117645A1 (en) * | 2011-11-03 | 2013-05-09 | Taptu Ltd | Method and Apparatus for Generating a Feed of Updating Content |
US20130125005A1 (en) * | 2011-11-14 | 2013-05-16 | Microsoft Corporation | Contextual data displayed via browser toolbar |
US9449028B2 (en) * | 2011-12-30 | 2016-09-20 | Microsoft Technology Licensing, Llc | Dynamic definitive image service |
TW201421265A (zh) * | 2012-11-20 | 2014-06-01 | Indexasia Digital Consulting Corp | 智慧型新聞分析系統 |
US20150249652A1 (en) * | 2014-03-03 | 2015-09-03 | Real Strategic Inc. | Enabling image based broadcast of reviews |
TWI595450B (zh) * | 2014-04-01 | 2017-08-11 | 能晶科技股份有限公司 | 物件偵測系統 |
US11151630B2 (en) * | 2014-07-07 | 2021-10-19 | Verizon Media Inc. | On-line product related recommendations |
-
2015
- 2015-05-26 TW TW104116870A patent/TWI645348B/zh active
- 2015-07-22 US US14/806,043 patent/US9906588B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI749908B (zh) * | 2020-11-25 | 2021-12-11 | 英業達股份有限公司 | 基於社群資訊追蹤及預測產品品質的方法 |
TWI832099B (zh) * | 2020-12-28 | 2024-02-11 | 日商樂天集團股份有限公司 | 學習裝置、程式產品及學習方法 |
US12100032B2 (en) | 2020-12-28 | 2024-09-24 | Rakuten Group, Inc. | Learning device, computer-readable information storage medium, and learning method |
Also Published As
Publication number | Publication date |
---|---|
TWI645348B (zh) | 2018-12-21 |
US9906588B2 (en) | 2018-02-27 |
US20160350264A1 (en) | 2016-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
TWI631474B (zh) | Method and device for product identification label and method for product navigation | |
TWI645348B (zh) | 商品相關網路文章之自動圖文摘要方法及系統 | |
CN104106087B (zh) | 用于网上购物的关联提取的系统和方法 | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
US10032081B2 (en) | Content-based video representation | |
CN110059271B (zh) | 运用标签知识网络的搜索方法及装置 | |
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN105243087B (zh) | It资讯聚合阅读个性化推荐方法 | |
WO2018014759A1 (zh) | 一种聚类数据表的展现方法、装置和系统 | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
CN108230085A (zh) | 一种基于用户评论的商品评价系统及方法 | |
JP6428795B2 (ja) | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 | |
CN102831234A (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
CN103235818A (zh) | 一种基于网页情感倾向性的信息推送方法和装置 | |
CN104063476A (zh) | 基于社交网络的内容推荐方法和系统 | |
CN108228682A (zh) | 字符串验证方法、字符串扩充方法与验证模型训练方法 | |
CN103577405A (zh) | 基于兴趣分析的微博博主社区分类方法 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
TWI705411B (zh) | 社交業務特徵用戶的識別方法和裝置 | |
CN109582847A (zh) | 一种信息处理方法及装置、存储介质 | |
KR20080037413A (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
CN103207917A (zh) | 标注多媒体内容的方法、生成推荐内容的方法及系统 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification |