《卓越新聞電子報》第 769 期｜新聞網站封鎖AI爬蟲機器人，傳統印刷媒體封鎖比例較其他類型媒體高

研究報告｜AI公司需以大量資料訓練大型語言模型，新聞網站是高品質文本重要來源 ※ 國際傳媒現況｜甘尼特2023年第四季數位營收佔總收入41%，寄望提高營收達收支平衡

卓越新聞電子報主編

Apr 12, 2024

第 769 期，發刊日期：2024/04/12

新聞網站封鎖AI爬蟲機器人，傳統印刷媒體封鎖比例較其他類型媒體高

更多卓越新聞：Web｜FB｜YouTube

⚜編輯部公告⚜

～2024卓新沙龍第二場，開放報名中！第二場主講人邀請《報導者》「The Real Story」Podcast製作人詹婉如主講，講題「從電臺走入Podcast 聲音報導裡的變與不變」。詹婉如小時候，喜歡透過聲音瞭解世界；長大後，如願成為以聲音為業的新聞工作者。曾獲5座卓越新聞獎、5座廣播金鐘獎、2座曾虛白先生新聞獎、1座SOPA亞洲卓越新聞獎音頻首獎。報名資訊請詳閱：https://feja.org.tw/75176，或上KKTIX（https://feja.kktix.cc/events/2024salon02）報名。

⚜本期摘要⚜

牛津路透新聞學研究所（Reuters Institute for the Study of Journalism）於2024年2月發佈一篇研究報告，該報告研究10個國家中，有哪些新聞網站封鎖人工智慧的網路爬蟲機器人。在生成式AI迅速發展的時代，OpenAI的ChatGPT與Google的Gemini是最廣為人知的。

研究報告指出，截至2023年底，在這10個國家的熱門新聞網站，有48%封鎖了OpenAI的爬蟲，封鎖Google爬蟲的新聞網站數量則約佔24%。在封鎖Google爬蟲的新聞網站中，有97%的新聞網站，也都同時封鎖了OpenAI的爬蟲。

網路爬蟲是AI科技公司用來蒐集網路資料，藉以訓練大型語言模型的工具，而新聞媒體網站是高品質文本和視聽資料的重要來源。這份研究報告的結論，儘管這10個國家接受調查的新聞媒體中，有近半的新聞網站已封鎖OpenAI和Google的AI爬蟲，且傳統印刷媒體封鎖爬蟲比例較高，但這份報告僅是2023年AI產業中的一小部分觀察，AI是一個快速發展的領域，相關的新產品也不斷開發中，或許不久的將來，媒體會開始與AI科技公司達成交易，發展出相關的應用。（深入閱讀文章內容）

美國最大的報業集團甘尼特（Gannett）宣布其2023年第四季數位營收佔總收入的 41%，並希望在2026年將數位營收比例提高到 55%，以達到收支平衡。甘尼特的數位受重及數位營收的成長，也讓該公司有望在2024年底來到轉虧為盈的「轉折點」，請看特約記者劉郁葶編譯整理的內容，一探甘尼特報團如何逆境求生。（深入閱讀文章內容）

------

若您對本週《卓越新聞電子報》內容有意見或想分享您的看法，歡迎來信主編信箱：editor@feja.org.tw 與我們聯繫，亦歡迎各界來稿，針砭當今媒體相關議題。

主編｜蔡宏杰

牛津路透新聞學研究所報告：有多少新聞網站封鎖了 AI 爬蟲？

研究報告｜AI公司需以大量資料訓練大型語言模型，新聞網站是高品質文本重要來源

在生成式AI時代，OpenAI的ChatGPT和Google的Gemini（原名Bard）可說是AI聊天機器人龍頭。為了讓AI的回答更加精確，它們需要很多資料訓練其大型語言模型（LLM），各國的新聞網站便是資料來源之一。然而，牛津路透新聞學研究所（Reuters Institute for the Study of Journalism）於2024年2月發佈的一篇研究報告指，在他們研究的10個國家中，有些新聞網站已經封鎖了OpenAI和Google，阻止他們使用AI爬蟲從其網站上抓取資料。

增加數位訂戶、用房地產還債　美國最大報業甘尼特如何翻身？

國際傳媒現況｜甘尼特2023年第四季數位營收佔總收入41%，寄望提高營收達收支平衡

美國最大的報業公司甘尼特（Gannett）宣布，2023年第四季數位營收佔總收入的 41%，並希望在2026年將數位營收比例提高到 55%，達到收支平衡。

2023年甘尼特報團的總虧損為2,780萬美元，比 2022 年的虧損7,800萬美元有所改善。甘尼特高層在會議上展現樂觀的態度，並指出甘尼特的數位受眾和營收均有所增長，預計公司將在 2024 年底左右，達到轉虧為盈的「轉折點」。

※ IG臉書AI生成標籤5月上路不再移除內容避免侵害自由｜中央社｜20240408
※ 中天新聞台裁處案訴訟 NCC：再添2件勝訴確定｜中央廣播電台｜20240410
※ 「網路充滿噁心直播」　杜奕瑾籲《兒少法》實施網紅分級｜太報｜20240411

✎ The New York Times 美國《紐約時報》｜20240406
How Tech Giants Cut Corners to Harvest Data for A.I.
科技巨頭為了收集AI數據而使用欺瞞手段便宜行事
OpenAI, Google and Meta ignored corporate policies, altered their own rules and discussed skirting copyright law as they sought online information to train their newest artificial intelligence systems.

Discussion about this post

Ready for more?