CENSORED
STATUS: RESCUED DATE: 未知

百度設定搜索敏感詞的工作模式

搜詞的方法和要領
一:搜詞的方法
 
搜索一個帖子,分為三部分,發貼人,標題,關鍵語句,其中每部份搜索都對應不同的需求。
1:發貼人
需要搜索發貼人時,多是因為刷屏或廣告,少量情況是因為此人發違法貼吧原則的文章,這時我們搜索發貼人,查找此人是否發出更多的反動或色情文章,這些人會在很多貼吧轉貼,所以需要搜索發貼人,此方法更多適用於處理刷屏和廣告。
2:標題
當一篇需要刪除的帖子多次出現在貼吧時,可以搜索標題,此方法適用於流傳於各個貼吧的文章,由於廣告經常性變換標題,所以搜索標題對處理廣告的效果並不明顯。
3:內容
經 過以上兩種搜索後,還需要搜索帖子的內容,如果時較長的文章,可以從文章的開頭,中部和尾部分別節選一句代表性語句,進行搜索,這樣搜索可以提高搜索的準 確度,經過搜索語句後,這篇文章應該已經從貼吧消失,此時要從帖子裡挑選出富有代表性的詞彙進行搜索,這樣可以搜索出更多的相關文章,根據挑選出的詞彙的 發帖量,決定每日或每周搜索。

正確的搜索方法:
當處理廣告時,首先搜索發貼人,並及時封鎖,之後挑選帖子內容,要挑選網址和帖子內容一起搜索,當確保完全刪除後,搜索標題進行確認,此時如果搜索出其它網址或內容,再一次進行清楚。
例如:
k`a`o66 6 .c om 99,這種拆散的詞彙,應該搜索o66 6  c om,因為搜索.是沒有結果的。
處理反動貼時,由於網際網路上的反動文章多數是流傳性質的,很少有人去原創一些反動文章,所以我們首先搜索內容,此時需要挑選出3~5段關鍵語句進行搜索並添加A類詞,確保完全刪除的情況下,搜索標題,查看是否有換內容的帖子,之後再搜索發貼人,對其言論進行篩選。
處理色情的圖片,後臺審核時發現後,只需要搜索發貼人即可。

二:搜詞的要領

首先要明確當前階段主要打擊的對象,按照打擊的方向去搜詞。
其中有一些固定的搜索方向:89事件、法輪功、反動言論
另外一些階段性的搜索,根據時間不同進行重點搜索:反日、中考等等
搜詞的宗旨在於精,不在於多。
例如:
搜索共產黨,可以帶出操共產黨、打倒共產黨等等
搜索中央,可以帶出打倒中央、推翻中央等等
這樣的詞雖然搜索結果多,但是前後加的一些字簡單明了就能看到,如果自己去想打倒共產黨這樣的詞,難免有遺漏,要合理的利用網友的頭腦。
也有一些例外的情況,例如搜索黨應該出現共產黨,實際上搜索結果裡共產黨出現的並不全,這個需要大家在工作中積累經驗。
新發的帖子需要5分種左右才可以進入後臺,搜詞的時候會有這段延遲搜索不到結果,這個需要注意一下,不是搜不到東西就一定沒有。
另外搜詞過程中,首先看討論區,出現在敏感討論區的應該更加重視,另外通過搜詞,可以看到一些不好的討論區,這時候應該發給貼吧巡視的人員。

任 何工作都是需要合理的搭配,搜詞也需要和後臺審核結合工作,例如 打 倒 共 產 黨 ,這個內容在後臺審核就很容易被發現,後臺審核隱蔽性高的,搜詞和前臺巡視可能就容易發現了,貼吧是一個整體的團隊,脫離了組織,任何一個獨立的工作都是 不可能完美的,大家一起努力才能使貼吧更好的成長。

過濾詞添加、維護流程

1.提交
每組同事如有需要添加的過濾詞,且拿不準時,通過即時工具(QQ群:19714036 、MSN)發送給過濾詞審核專員。晚班同事,統一提交給組長進行添加和評估。

提交格式儘量統一:所需要添加的過濾詞+哪類過濾詞。這樣提交,能及時掌握組員添加過濾詞的熟練程度、哪些地方不足或添加錯誤,可馬上指導。

例:
    xxxxx.com      + xx類濾             ———需添加的過濾詞+ 添加哪類過濾詞

2.審核及指導
組員提交的過濾詞或url,專員及時處理。首先判斷所需要添加的過濾詞是否正確,如正確,添加並記錄。如提交過濾詞有問題,馬上進行指導。晚班同事同樣按照此過程進行,如有疑問,記錄並發郵件到郵件組討論。

3.監控
各班添加專員需及時監控A類詞的添加 ,將誤傷減小到最低程度。專員當天工作前需要審核前個班所添加的各類過濾詞。白班的專員審核晚班的添加內容,發現添加錯誤的地方並及時糾正。晚班可觀察前個白班的添加內容,熟練、鞏固添加方法、技巧。

4.解除
解除過濾詞表內容分為兩部分。一,通過監控,及時解除錯誤添加入詞表或過期、不夠精準的各類過濾詞。

補充:
1.   當過濾詞添加專員因別的原因短時間內無法添加過濾詞的時候,A類詞部分,詢問老管理員後添加,並記錄。中文A類及其他過濾詞先暫記錄(確保記錄的準確性),如情況緊急請組長添加。過濾詞添加專員回來後,審核組員添加過濾詞並作出判斷。
2.   目前,添加A類詞的詞表已經有老後臺轉到mis後臺,添加或刪除時注意要點“發布”才能正式生效。並且可以同時添加或刪除多個過濾詞後,統一點“發布”
3.   目前新做的A類詞表,很多功能跟原有的強過濾詞表比較像,添加時要慎重,如果拿不準請提交給指定的過濾詞專員。

後臺審核流程

一、   操作流程

1、將全部帖子列表分成9組進行分組審核,每個人分別負責一組,在後臺以瀏覽帖子的形式進行審核。

2、 在瀏覽帖子時,首先應注意的是貼吧名稱,是否屬於已經指定的敏感貼吧,或者未被列入,但根據貼吧的吧名很容易聯想到一些黃、反信息或本身就是一個代表黃、 反信息的吧名,來判斷帖子的審核尺度和帖子的刪除和保留情況。同時如發現屬於易聯想到或本身就屬於黃、反信息的貼吧,又未被列為敏感貼吧,應進入該吧,對 其進行相應的評估,確認該吧的討論主題和討論範圍,如果為需要注意的內容,視其嚴重程度,則可對該吧提請關閉、只讀、巡視等相應操作,如果不含有需要注意 的內容,則保留該吧的吧名,過段時間後再對其進行二次確認,如果確實屬於正常討論,這可放過該吧。

3、 其次應注意的是帖子本身的標題,如 果標題中含有黃、反信息,應先進入該吧,確認該吧的情況,與此同時對該帖進行拖動刪除,如果該吧屬於有問題的貼吧,則可對該吧提請關閉、只讀、巡視等相應 操作。同時對該帖的標題、發帖人的ID和IP、關鍵詞、特別字句(一般在比較長的文章中,且文章的個別字句比較有特色)進行搜索,視搜索的情況和帖子內容 的嚴重性,決定是否對該帖或發帖人進行封鎖處理。經過10至15分鐘後對於需要搜索刪除的部分進行二次搜索,以免遺漏。

4、 再次觀察發帖 人的ID或IP是否屬於違反貼吧協議的各種類型的ID或刷屏的IP,同時也通過主題和內容的重複度和無意義度來判斷是否屬於刷屏行為。評估後,如果屬於違 紀的行為則對其的ID、IP、內容等進行相應的封鎖和搜索刪除操作。經過10至15分鐘後對於需要搜索刪除的部分進行二次搜索,以免遺漏。

5、然後確定內容部分,因為後臺顯示的帖子的內容只是第一句,很多需要控制的部分通常顯示不出來,這一部分主要是用來控制比較短且黃、反信息比較明顯的帖子, 一旦發現違規的帖子的處理方法基本上與以上幾種情況的處理方法相同。

補充:(1)如果經過判斷,發表內容為黃反信息,則根據黃反信息處理流程處理,如果需要添加過濾詞,則根據提詞表添加流程處理。
    
(2)如果經過判斷,發表內容為廣告,人身攻擊類的信息,則根據廣告處理流程處理,如果需要添加過濾詞,則根據提詞表添加流程處理。

    (3)如果經過判斷,發表內容為刷屏,灌水信息;則根據和編輯會議記錄的原則進行處理。

6、 最後,也是最重要的部分就是審核每條帖子所含有的圖片信息,這是其他專員完全無法幫上忙的部分,只有審帖的管理員可以接觸到第一手的資料,通常遇到違紀的 圖片時,處理方法與遇到普通的帖子(不含圖片的)的處理方法基本相同,但除了基本方法以外,還可以通過添加URL過濾來進行控制。

7、如果遇到轉碼情況,無論是廣告連結還是圖片連結都可以通過添加過濾詞來對其進行控制;此時可以將需要過濾的詞,提交給過濾詞專員。

8、如在審核過程中發現其他任何可疑或異常問題(如前臺沒有新帖產生,後臺無法訪問等,用戶反應貼吧的信息,頁面錯誤等),請及時提交討論組或者相關人員;大家一起討論解決。

二、   後臺基本功能

1、   分組審核列表中對各組的帖子進行分組審核

2、   在全部帖子列表中,可以對所發現的問題帖進行ID、IP、主題、關鍵詞的搜索操作,而且進行搜索時,通常所顯示的帖子內容為含有關鍵詞部分,同時在搜索時可以採用高亮,比較容易發現問題所在。

3、   添加A類詞可以對帖子中的關鍵詞,進行屏蔽。如果關鍵詞中含有空格,去掉空格後同樣可以對添加空格的帖子進行屏蔽,如果添加的A類詞為半角形式,同樣也可以對全形形式的詞進行屏蔽。

4、   Mis後臺,可以對圖片的URL進行封鎖,同時還可以通過強過濾詞封鎖轉碼後的URL和廣告連結和添加符合後的關鍵詞。

5、   回收站中可以查看已刪除的帖子,並且可以對已刪除的帖子進行恢復。在回收站中的帖子主要有以下幾種方法進行查找,包括關鍵詞、發帖人的ID和IP、和在指定的貼吧內進行搜索。

6、   A類隔離區,可以查看已添加的A類詞所屏蔽的內容,察看是否有誤傷,和是否出現填加上的bug造成的誤傷(被屏蔽的帖子中完全不含有所提示的添加的A類詞)。

7、   B類隔離區,審核先審後發部分的帖子,這部分帖子主要是包括含有過多的可能造成誤傷的黃、反詞彙的帖子、一段時間內發送過多的相同內容的帖子,被懷疑為長期發廣告等信息的IP段內IP所發出的帖子等。

 

(轉自百度外洩的內部工作文件)



[ 🔙 斷開連線 / 返回檔案庫主機 ]