Please enable JavaScript.
Coggle requires JavaScript to display documents.
漢語共時語料庫與追蹤語料庫 : 語料庫語言學的新方面 (結語 (在自然語言處理領域,大規模語料庫作為基礎性的工具不可或缺, 語料庫重要性得到普遍認同…
漢語共時語料庫與追蹤語料庫 : 語料庫語言學的新方面
樹與樹林的分別
族
共同意願的特徵
追車族 追星族 賞櫻族 血拼族 等
自認/被認定的特徵
電腦族 快閃族 背包族 隱婚族 等
共同特徵的群體
上班族 地鐵族 受薪族 北漂族 等
男/女
熟女 剩女 應召女 骨女 等
型男 宅男 電車男 召妓男 等
零
零團費 零首期 零成本 零意外 等
零容忍 零交流 零拒絕 零寬容 等
軟/硬
硬資產 硬推銷 硬舉措 硬軍事 等
軟商品 軟手腕 軟規定 軟優勢 等
新聞熱點人物及社會文化意義
名人榜
港台京滬名人榜
創立自2000年
過去10年的名人榜作綜合累計和回顧可以反映各地社會文化的異同
名人榜上的常客可以稱為常青樹
香港媒體新聞視野較具穩定性,新
聞人物變動不大,但覆蓋範圍廣闊
上海流動性大
楊利偉現象與族群認同
通過追蹤名人榜,監察各媒體對新聞人物的報導,可以看到各地媒體對重大新聞、社會活動或新聞人物的重視程度或評價
楊利偉現象
2003年名人榜統計 : 上海位居11、北京位居13、香港位居25、台灣無紀錄
台灣社會對台灣身分的認同問題
冠名稱呼與身分認同
新聞媒介對當地新聞的關注度,體現一個國家或地區對自己身分的認同程度
可以從媒體對國家或地區領導人的稱呼看出認同程度
以香港為例
九七回歸初期
中國主席、中國總理
多數不認同自己中國身分
1995年至今
較少冠上中國,
直稱主席、總理
多數認同自己中國身分
對英國首相則一貫不變冠名為英國
香港人對英國向來持有一種身分不認同態度
新聞人物褒貶指數
見報率高低,只能客觀反映出社會對某些事件或人物的關心程度,並不能表示社會所關注的重要內容
要得知媒體對新聞人物的褒貶,必須作仔細審讀和深入分析,才能得出正確結果
以2004年港台京三地都曾出現的高見報率七位名人為例
北京對新聞人物評價最涇渭分明
香港媒體較為平和
對董建華的評價各走極端
是否與三地民主、社會形勢與取態有關,值得深入探討
新聞媒體意義
一個地區的社會文化發展傾向及其演變
良好客觀考察一個地區社會文化的對象
多方面反映一個地區文化傾向的指標
有關新聞人物的見報率是一個十分重要的指標
結語
在自然語言處理領域,大規模語料庫作為基礎性的工具不可或缺
語料庫重要性得到普遍認同
建立、開發、維護大規模語料庫與信息處理取得新突破是極為必要的工作環節
漢語自然語言處理技術得到快速發展,漢語語料庫發展已經成熟到可以擔更有社會意義的新任務
語料庫兼具共時和立時的特點
語料庫為緊密追蹤、科學觀察泛華語區的語言現象與社會變遷提供堅實的基礎和科學依據
語料庫幫助我們進一步客觀的了解漢語及華語地區語言和多元化的社會發展
中文信息處理的研究更上層樓、有更多新發展指日可待
研究背景
新構建的漢語語料庫大多是為了各種語言工程而構建
二十世紀80年代初 世界各地開始出現許多漢語語料庫
21世紀漢語語料庫的發展更加深入和多元化
漢語語料庫大部份是暫時性的、開放性的
語料庫面臨新的發展方向
LIVAC語料庫的延伸:
從“共時語料庫”到“追踪語料庫”作完成情况
LIVAC語料庫
創立背景
香港教育學院語言資訊科學研究中心語料庫實驗室 於1995年7月創建
語料庫特色
採用前所未有的嚴謹“視窗”模式
“共時性”
LIVAC 語料庫
詞和詞組的相關異同
探索其背後的社會文化意義
各地使用的字