现在早已有近千个标准答案了,但是没有人提及两个基本上每一儒者、每晚单厢碰触到的育苗智慧应用领域——文本审查[1]. 角石蛾广度自学的导入,文本审查控制技术再次出现了飞速产业发展的产业发展,它比大家日常生活能看到的人脸、导航系统、文本所推荐之类控制技术都产业发展的更快,应用领域更多样,型态更多样化。目前早已相比之下相比之下超过一般来说人的想像。
先说一般来说型态的文本审查,这类型态的文本审查还在一般来说人的想像当中,控制技术非常简单,也是时常被交互到的。主要包括但不局限于:
关键字审核[2]
也就是“下面”和互联网街道社区各别建立和保护两个关键字白名单,然后使用关键字投弹的方式展开审查。总之,关键字投弹可能引致许多不幸的中文名称女团被严重错误投弹(众所周知地,AB是两个关键字,但CA和BD分别是两个短语,当CABD次序再次出现时候会引致严重错误投弹),因此,许多互联网街道社区导入了智能化不定式控制技术展开关键字审查,急剧防止这种严重错误投弹的情况[3][4],增加使用者的被审查交互。
2. 热门话题审查[5]
热门话题审查一般来说通过热门话题检索、hashtag的方式展开审查,应用领域于颈部热门话题,一般来说有育苗审查跟进。一般来说地,如果不加审查,任何人主要包括相关联的hashtag的文本单厢再次出现在浏览者的timeline上,但导入审查后,会前瞻性的展开文本曝出控制,对于不合乎舰炮控管路径
3. 事前上溯
以某一文本的在脆弱群体中的曝出突然增加为转化成条件展开事前的育苗跟进审查,删掉或是增加曝出/撷取。
4. 其他
以上都是非常简单的方式,在广度自学和算力解锁之后,我们正在体会许多新的方式,主要包括但不局限于
1.社交图互联网使用者画像
根据使用者之间的聊天交互、家庭关系、联系人列表、买卖关系、地理关系、商业关系等构件十亿个顶点,万亿条边以上的超大规模社交图互联网[6],在该互联网下,对极小比例的脆弱使用者展开标定,就可以对十亿量级的人口展开足够准确的刻画,主要包括其性格、政治取向、言论风格、影响力之类。
2.多模态信息文本理解和意图判定[7]
文本、图像、视频、语音等文本在时间线上相邻关系意味着它们之间具有文本的相关性,多模态信息文本理解可以从聊天、朋友圈、想法、微博等具有时间线性质的文本中更准确地提取文本的信息,判定其脆弱性,并分析参与时间线讨论的使用者的根本意图[8][9], 从而在育苗不跟进的情况下近实时地锁定脆弱使用者,展开定向督导。
3. 信息流分发干预
传统上理解,审查是两个被动的动作,需要在使用者发表文本之后做出。但是信息流分发干预可以在使用者不交互的情况下,更多地、隐含地给使用者曝出许多不引起其反感的受控文本,从而在长期上改变使用者对社会的认知,改变其政治取向[10],对使用者言论发表产生积极主动而且稳定的影响[11],纠正使用者的严重错误观念和严重错误记忆,甚至可以在中长期达到治本的目的,有效地增加审查算力和育苗审查压力,保护社会文明和稳定,助力社会和谐。
4. 注意力调离
当再次出现主流价值和思想体系下无法自洽的新闻热点事件时,对使用者推送其他争议性热点,有效地分散使用者的注意力[12][13],增加使用者的交互扰动,从而增加其极端言论输出的可能性,保护社会稳定。
5. 其他
在广度自学控制技术的助力下,审查不再以固定的关键字存在,而是以动态的方式存在。这种情况下,使用者无法对审查规则展开准确交互,提高了审查的不可知性,降低了使用者与审查对抗的意图。审查控制技术日新月异,限制它的不是算力和控制技术,而是我们的想像力。
参考
^Xu, B., & Albert, E. (2014). Media censorship in China. Council on Foreign Relations, 25, 243.^Xu, X., Mao, Z. M., & Halderman, J. A. (2011, March). Internet censorship in China: Where does the filtering occur?. In International Conference on Passive and Active Network Measurement (pp. 133-142). Springer, Berlin, Heidelberg.^Huang, H., Wang, X., & Wang, H. (2020). NER‐RAKE: An improved rapid automatic keyword extraction method for scientific literatures based on named entity recognition. Proceedings of the Association for Information Science and Technology, 57(1), e374.^Song, Y., Kim, E., Lee, G. G., & Yi, B. K. (2004). POSBIOTM-NER in the Shared Task of BioNLP/NLPBA2004. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA/BioNLP) (pp. 103-106).^Liao, S. (2019). “# IAmGay# What About You?”: Storytelling, Discursive Politics, and the Affective Dimension of Social Media Activism against Censorship in China. International Journal of Communication, 13, 21.^Chaudhary, A., Mittal, H., & Arora, A. (2019, February). Anomaly detection using graph neural networks. In 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon) (pp. 346-350). IEEE.^Dey, N., Ashour, A. S., & Nguyen, G. N. (2020). Recent advancement in multimedia content using deep learning.^Froehlich, D. E., Rehm, M., & Rienties, B. C. (2020). Mixed methods social network analysis. Mixed methods social network analysis: Theories and methodologies in learning and education, 1-10.^Hu, M., Peng, J., Zhang, W., Hu, J., Qi, L., & Zhang, H. (2021). An intent recognition model supporting the spoken expression mixed with Chinese and English. Journal of Intelligent & Fuzzy Systems, 40(5), 10261-10272.^Sparr, M. (2022). Explicit User Manipulation in Reinforcement Learning Based Recommender Systems. arXiv preprint arXiv:2203.10629.^Papakyriakopoulos, O., Serrano, J. C. M., & Hegelich, S. (2020). Political communication on social media: A tale of hyperactive users and bias in recommender systems. Online Social Networks and Media, 15, 100058.^Paasonen, S. (2016). Fickle focus: Distraction, affect and the production of value in social media. First Monday.^Xie, J. Q., Rost, D. H., Wang, F. X., Wang, J. L., & Monk, R. L. (2021). The association between excessive social media use and distraction: An eye movement tracking study. Information & Management, 58(2), 103415.