BBC News Classification Using BERT Fine-Tuning With Tensorflow Keras
嘗試完二分類任務後,不如來玩玩多分類的任務吧!還沒玩過二分類 BERT Fine Tuning 的讀者,可以參考以下連結!
以下這篇文章跟上一篇使用 BERT Fine-Tuning 進行 Sentiment Analysis 有高度相關,唯一差別就是資料集的不同。
首先,引入常用函式庫以及等會將用到的 BERT 套件。
讀取資料,查看資料長相,查詢我們要使用的欄位。
定義函式,這些函式可以協助我們把原始的文字資料轉為 BERT Pre-Trained Layer 所要求的 Input 形式。細節可以參考 Document 。
先設定一下可接受的最大輸入序列長度,以及要分類的資料共有的類別數量。此外,先設定好我們要使用的 Tokenizer ,以利後面進行文字資料的處理。
藉由剛才設定好的 Tokenizer 以及上方定義好的函式,製造訓練與測試資料集,並符合特定的格式。其中要特別注意的是,你傳給模型的 One-Hot Encoding 必須為 numpy.ndarray,而不是 list。
定義模型,並開始訓練。
最後,透過測試資料集分析模型訓練表現。
GitHub for your reference:
Latest Version (v4) of Pre-Trained BERT BASE:
Official Guide for fine-tuning BERT:
This article will be updated at any time! Thanks for your reading. If you like the content, please click the “clap” button. You can also press the follow button to track new articles at any time. Feel free to contact me via LinkedIn or email.