Sherioc's Blog

Python 导入与 sys.path 复盘

sherioc — Sat, 04 Apr 2026 02:50:25 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/python-dao-ru-yu-syspath--fu-pan

一、Python 导入的核心规则

Python 找模块只看一个地方：sys.path
- sys.path 是一个路径列表
- 执行 import 时，Python 按顺序在这些目录里查找包/模块
- 第三方库（PyQt6、numpy 等）都在 site-packages，它默认就在 sys.path 里
绝对导入 vs 相对导入
- 绝对导入：from a.b import c 从 sys.path 里的某个目录开始找，最稳定、最推荐
- 相对导入：from .a import c 仅用于包内部文件之间互相导入，不能用于直接运行的脚本

二、相对导入 `.` 的使用限制

. 代表“当前包目录”
直接运行的文件（python main.py）不能用相对导入 原因：运行时该文件被视为顶层脚本 __main__，不属于任何包，Python 不知道 . 指向谁报错：attempted relative import with no known parent package

适用场景：包内部模块互相引用

# controller/main_controller.py
from .utils import helper  # 正确

三、`sys.path.insert(0, ...)` 到底做什么

sys.path.insert(0, os.path.dirname(os.path.dirname(__file__)))

__file__：当前 .py 文件的完整路径
os.path.dirname(...)：获取所在文件夹
套两层 → 拿到项目上级目录
sys.path.insert(0, 路径)：把该目录加到 Python 搜索路径最前面
目的：让 from pointcloud_gui.controller... 这种包式导入可以找到

四、直接运行脚本的标准写法

import sys
import os
sys.path.insert(0, os.path.dirname(os.path.dirname(__file__)))

from pointcloud_gui.controller.main_controller import MainController

入口文件：不用 .，只用绝对导入
手动把根目录加入搜索路径，保证在哪运行都不报错

五、简要

直接运行 → 不能用 .
包内引用 → 可以用 .
import 只看 sys.path
找不到模块就把目录加进 sys.path

"""Entry point for the point cloud GUI application."""

import sys
import os


# =====================调试=====================
print("当前文件 __file__ =", __file__) # E:\Desktop\Project\Project_CAGE\CAGE_ReBuild\GUI\pointcloud_gui\main.py

# 第一层 dirname：当前文件所在文件夹（pointcloud_gui）
dir1 = os.path.dirname(__file__)
print("第一层 os.path.dirname(__file__) =", dir1) # E:\Desktop\Project\Project_CAGE\CAGE_ReBuild\GUI\pointcloud_gui 

# 第二层 dirname：上级文件夹（GUI 文件夹）
dir2 = os.path.dirname(dir1)
print("第二层 os.path.dirname(...) =", dir2) # E:\Desktop\Project\Project_CAGE\CAGE_ReBuild\GUI

# print(sys.path)
# ['E:\\Desktop\\Project\\Project_CAGE\\CAGE_ReBuild\\GUI\\pointcloud_gui', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\python310.zip', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\DLLs', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\lib', 'C:\\Users\\Administrator\\.conda\\envs\\build3d', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\lib\\site-packages', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\lib\\site-packages\\win32', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\lib\\site-packages\\win32\\lib', 'C:\\Users\\Administrator\\.conda\\envs\\build3d\\lib\\site-packages\\Pythonwin'] 
# =========================================================

sys.path.insert(0, os.path.dirname(os.path.dirname(__file__)))

from PyQt6.QtWidgets import QApplication
from pointcloud_gui.controller.main_controller import MainController


def main():
    app = QApplication(sys.argv)
    app.setStyle("Fusion")

    controller = MainController()
    controller.show()

    sys.exit(app.exec())


if __name__ == "__main__":
    main()

两兄弟坐在灯下叙旧那些旧事好像被时间悄悄合上了石珍珠在院子里溜...

sherioc — Thu, 26 Mar 2026 18:23:09 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/thinkings#thinking-4

两兄弟坐在灯下叙旧
那些旧事
好像被时间悄悄合上了
石珍珠在院子里溜达
还找来了瓦片和废纸箱
在院子里给小猫搭了个窝
等猫钻进去
她蹲在旁边乐呵呵地笑
眼睛眯成了一条线
一个被世人说啥了一辈子的女人
懂的事情却比很多人都多
春天一到
风声散了
厉百程带着石珍珠重新回到了燕郊
准备赶一年一度的庙会
他翻出了压箱底的马前课转盘
那是当年他跟着瞎子师傅偷学来的看家本领
平时不轻易拿出来
去庙会的路上
遇到了一家人停灵
对方认出厉百程是算命先生
让他上前表一下
给他五块钱
厉百程爽快地答应了
并表示自己不是为了要钱才过来的
在口诵一番令文后
厉百程虽然收下了对方塞来的钱
但还是一再表示自己不是图那钱来的
在他看来
那是一个算命先生应尽的本分
也是对亡人的一份尊重
奇怪的是
厉百程并没有直奔庙会
而是先去了城里的寺庙
在为自己祈求平安健康的时候
也没有忘记给芸芸众生祈福
虔诚地为妻子的健康和世人的平安上香祈福
——《算命》

这个网站的点点滴滴

Sat, 21 Mar 2026 07:35:12 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/about-site

::: link-card href="https://github.com/SheriocCode/grtblog" title="SheriocCode/grtblog" desc="" newtab="true"

:::

魔改于grtsinry43的https://github.com/grtsinry43/grtblog，本站地址https://github.com/SheriocCode/grtblog

::: timeline title="一些历史" sub="HISTORY"

2026-03-21|添加日常Gallery模块|https://github.com/SheriocCode/grtblog/commit/f00ef654e592bb3e6e26494ff6fbdf3bb708482c 2026-03-14|Starting the Blog!|Fork & Init仓库 :::

关于我

Mon, 16 Mar 2026 03:33:43 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/about

Windows11+Linux双系统安装-Ubuntu24.04

sherioc — Mon, 22 Dec 2025 15:08:34 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/windows11linuxshuang-xi-tong-an-zhuang-ubuntu2404

参考链接： Windows11 + Linux (Ubuntu22.04) 双系统最简安装详细避坑版_win11安装linux双系统-CSDN博客 (2025.12.22链接有效)
双系统安装指南：Linux 与 Windows 10 共存全攻略 — geek-blogs.com
b站相关视频教程： https://www.bilibili.com/video/BV1Cc41127B9

1、Ubuntu24.04安装

首先我们有一个安装了Windows11系统的电脑，准备一个8G以上的U盘（或者移动硬盘）
查看/更改引导方式 --Win+R呼出运行界面，输入：msinfo32，确定，会弹出一个系统信息的面板（或者直接搜索系统信息）。 --在项目栏找到BIOS模式，看对应的值，是否为UEFI，如果是就OK！跳到准备工作第三点~ --如果BIOS模式的值不是UEFI，而是显示传统（Legacy），那么就要改成UEFI，重启电脑狂按对应按键进入BIOS模式（如果不知道按哪个可以看看下面这个表，一般电脑开机的时候也会很快闪过按什么键的提示） --比如鱼鱼用的Thinkbook16+是要在启动的时候狂按回车，然后出现一个Startup Interrupt Menu，再按F1就可以进入BIOS启动设置界面了。 --进入BIOS后开启UEFI，不同的电脑可能操作方法不同，下面的操作有对应的就按着修改没有就换一个： Boot，选择UEFI Boot回车选择Enabled； Startup，Boot，UEFI/Legacy Boot旁边的选项选择修改为UEFI Only； Boot mode select选择修改为UEFI； Boot Type选择修改为UEFI Boot Type； Launch CSM选择修改为Disabled。改完了记得保存并退出！不要忘记保存！！！
查看/更改磁盘的分区格式避免安装Ubuntu到最后了却因为引导器安装失败功亏一篑： --右键开始按钮选择磁盘管理 --在Windows所在的磁盘（图中的磁盘0）左边灰色块右键，选择属性 --在卷这栏可以看到磁盘分区形式，是否为GPT格式，如果是就OK！跳到准备工作第四点~ --如果磁盘分区形式显示的是：主启动记录(MBR)，那么就要修改为GPT格式（pass）
关闭BitLocker加密避免装双系统过程中进入BitLocker恢复模式： --如果有BitLocker加密，在设置-隐私和安全性里找到设备加密（或者直接搜索bitlocker打开设备加密设置），把设备加密的开关关闭就好。（不过，磁盘已存储的数据越多，关闭设备加密耗时越长，如果电脑里面东西比较多的话最好合理安排一段空闲时间并接通电源再进行哦！）

--关闭后再进入磁盘管理就会发现没有 (BitLocker 已加密) 这行信息了。

压缩分区在磁盘管理中挑选一个分区压缩给Ubuntu，右键选择压缩卷，如果发现可以输入的可压缩空间大小远小于磁盘剩余空间，可以使用DiskGenius工具先进行分区压缩。鱼鱼压缩了200000MB，压缩后会发现多出来一个不到200GB的未分配分区。
关闭独显直连（未用到）如果电脑有配备独立显卡并且有独显直连的功能，最好先关闭，以避免安装Ubuntu系统时遇到显卡驱动问题，安装好双系统再启用独显直连功能。鱼鱼没有这样的电脑，如果有这个问腿可以搜一搜如何关闭独显直连功能。
制作Ubuntu安装盘、启动盘制作 --首先下载Ubuntu的映像文件 https://ubuntu.com/ rufus启动盘制作软件 https://rufus.ie/en/ --确认一下盘符容量大小显示的是要用到的U盘，在配置选项中选择分区类型，改为GPT

--弄好后就可以开始安装啦，会弹出两次格式化提示，都选择是，绿条加载完成弹出安装成功的提示框就完成了，接下来打开把下载好的Ubuntu映像文件粘贴到这个U盘里（如果U盘剩余空间够多，还可以放进去一些其他的系统安装映像文件，当然，放进去其他的文件当作正常U盘使用也是可以的。

--接着重启电脑（U盘不要拔下来哦）狂按对应按键进入BIOS模式（如果不知道按哪个可以看看下面这个表，一般电脑开机的时候也会很快闪过按什么键的提示）

--比如鱼鱼用的Thinkbook16+是要在启动的时候狂按回车，然后出现一个Startup Interrupt Menu，再按F1就可以进入BIOS启动设置界面了。

--先关闭安全启动（Secure Boot），避免启动安装盘时出现Verification failed错误，在鱼鱼电脑的BIOS设置界面中安全启动的设置在这个位置，其他电脑基本也会在类似security，boot，startup这类菜单里找到，然后选择关闭

--接下来关闭Intel RST，避免Ubuntu安装过程出现Turn off RST的问题，找一找SATA Controller Mode这个磁盘的SATA管理器选项，选择设置为AHCI就可以了，有些电脑比如鱼鱼的没有这个选项就没有问题不用管啦（未用到）

--最后把U盘设置为最优先引导项，避免要进入U盘的Ubuntu安装程序时，电脑自动返回到Windows系统启动。在BIOS设置界面找到Boot启动顺序列表，把要用的U盘设备按提示移到最前面，鱼鱼的电脑是F6上移，有些电脑可以直接鼠标拖动的

--最重要的！做完所有修改后记得保存再退出！！！

--接下来进行U盘启动，出现这个Ventoy映像文件列表，选择Ubuntu22.04，启动(Boot in normal mode)，进入Ubuntu映像文件的引导菜单

--选择Try or Install Ubuntu，就进入Ubuntu的安装程序了，没有问题的话就OK！跳到安装程序第一点~

--如果确定BIOS设置里启动顺序保存成功后，还是会直接进入Windows系统，不从U盘启动无法进入Ventoy映像文件列表的话，在设置->系统->恢复里，找到恢复选项的高级启动，选择立即重新启动

安装程序选择Try or Install Ubuntu后等待进入Ubuntu界面，弹出安装程序。此时如果无法使用键鼠功能可以尝试有线外接鼠标键盘，等之后各类驱动安装完毕就可以用了。默认正常安装，其他选项中建议取消选择“安装Ubuntu时下载更新”，减少耗时；可以勾上“为图形或无线硬件，以及其他媒体格式安装第三方软件”。

选择继续，安装类型选择其他选项，选择继续，出现一个磁盘列表，找到设备为空闲且大小较我们之前磁盘分区大小稍大的那条，选中，点左下角的‘+’号，挂载点选择‘/’，点击‘OK’；再找到类型为efi分区的设备那条，看对应的设备号，在下面‘安装启动引导器的设备’下拉找到并选中（一般是Windows Boot Manager）。

分区方案可参考，rtx6000使用的是8G用于swap，其余全部挂载到 / 下最后点击现在安装，继续，选时区选择Shanghai，继续。

接下来设置姓名，计算机名，用户名和密码。名字建议简短一点的英文，登录时是否需要密码按自己需要选择。继续。

等待安装完毕，出现安装完成的提示框后点击现在重启。重启时会看到‘Please remove the installation medium then press ENTER'，这时把U盘拔掉，然后敲回车。按回车电脑如果没反应直接按电源强制重启也可以。

简单配置 BIOS 重启电脑后可能直接进入的还是Windows系统，接下来还要进入一次BIOS启动设置界面，然后将启动顺序里的Ubuntu移动到第一个，还是要记得保存并退出！（有的电脑硬盘引导项有独立子菜单，配置的优先项如果没有找到Ubuntu，先选包括Windows的选项，再找有没有类似UEFI硬盘BBS优先权选项的二级菜单，能够切换成Ubuntu）

2、中文输入法安装

输入法安装点击链接查看和 Kimi 的对话 (采用方案A) https://kimi.moonshot.cn/share/d54goh76rtpcgorbp72g

sudo apt update
sudo apt install -y ibus-libpinyin

3、向日葵远程控制安装（使用PC远程连接一直显示正在建立远程连接，Ubuntu-22.04bug）

3.1 dpkg -i安装报错解决（缺少gconf2库）

可以装，但有 90% 概率第一次 dpkg -i 会报依赖错误，按下面“先补依赖再重装”的顺序 30 秒就能搞定。

进入 deb 包所在目录（假设文件名是 SunloginClient_15.2.0.xxxxx_amd64.deb） cd ~/下载
先一次性把可能缺的旧库补齐（Ubuntu 22.04/24.04 官方仓库已移除 gconf，必须手动装） sudo apt update sudo apt -y install gconf2-common libgconf-2-4 libappindicator3-1 libindicator3-7
正式安装向日葵 sudo dpkg -i SunloginClient_15.2.0.xxxxx_amd64.deb # 此时如仍报 missing sudo apt --fix-broken install # 自动把剩余依赖拉齐 sudo dpkg -i SunloginClient_15.2.0.xxxxx_amd64.deb # 再次安装，0 报错
装完就能在“活动”里搜到 Sunlogin Client，第一次启动会要求设置访问密码，设完即可用识别码远控。
如果以后被控端黑屏/断连，再执行下面两行（官方 workaround）
sudo wget https://sunlogin.oray.com/conf/50-slscreenagrentsvr.conf -P /usr/share/lightdm/lightdm.conf.d/
sudo reboot

Ubuntu 22.04/24.04 已经把旧的 gconf 系列包移出官方仓库，所以 apt 直接装会提示 “Unable to locate”。
办法只有一个——手动把 20.04 时代的两个古董 deb 装回来，再装向日葵即可。

# 1. 先抓回 gconf2-common 和 libgconf-2-4（3.2.6-6ubuntu1 版本最稳）
wget http://archive.ubuntu.com/ubuntu/pool/universe/g/gconf/gconf2-common_3.2.6-6ubuntu1_all.deb
wget http://archive.ubuntu.com/ubuntu/pool/universe/g/gconf/libgconf-2-4_3.2.6-6ubuntu1_amd64.deb

# 2. 一次性装上（顺序已排好）
sudo dpkg -i gconf2-common_3.2.6-6ubuntu1_all.deb libgconf-2-4_3.2.6-6ubuntu1_amd64.deb

# 3. 如果还提示缺 libappindicator3-1、libindicator3-7 等，再补一句
sudo apt --fix-broken install -y

# 4. 现在可以正常装向日葵了
sudo apt install ./SunloginClient_*.deb      # 推荐用 apt，依赖自动补齐
# 或者 sudo dpkg -i SunloginClient_*.deb && sudo apt --fix-broken install

装完 systemctl status runsunloginclient.service 看到 active 即 OK，桌面也会弹出“向日葵”图标。
以后系统升级不会影响这两个旧包，放心用。

3.2 解决一直“正在建立远程连接”

https://kimi.moonshot.cn/share/d54hbt5e09nb76lq38lg Ubuntu 24.04 默认使用的 gdm3 + Wayland 与向日葵存在兼容性问题，这是导致“一直卡在正在建立远程连接”的根本原因。解决方案：切换为 lightdm 显示管理器

sudo apt update
sudo apt install lightdm
sudo dpkg-reconfigure lightdm  # 选择 lightdm 后回车确认
sudo reboot

（硬件安装）4、加装机械硬盘

https://www.kimi.com/share/d54m44fhq49t3uog8av0 b站相关视频 https://www.bilibili.com/video/BV1kY411K75H

WSL2配置代理

sherioc — Fri, 17 Jan 2025 13:58:51 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/wsl2pei-zhi-dai-li

1、关闭小猫🐱

2、设置为mirrored模式

该设置会生成 C:/Users//.wslconfig

【可选】修改.wslconfig文件内容如下

[experimental]
autoMemoryReclaim=gradual  
networkingMode=mirrored
dnsTunneling=true
firewall=true
autoProxy=true

3、打开cmd并执行wsl --shutdown 4、重新启动🐱、wsl

参考 :

使用WSL2时控制台输出“wsl: 检测到 localhost 代理配置，但未镜像到 WSL。NAT 模式下的 WSL 不支持 localhost 代理“_wsl: 使用镜像网络模式时,wsl2.localhostforwarding 设置无效-CSDN博客

CUDA配置

sherioc — Tue, 10 Sep 2024 13:38:11 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/cudapei-zhi

ref :https://zhuanlan.zhihu.com/p/10747333168

1、GPU准备

1、查看GPU类型 GeForce RTX 3060

2、查看算力

https://en.wikipedia.org/wiki/CUDA#GPUs_supported

算力8.6

3、确定CUDA Runtime 支持的CUDA SDK为11.1-12.5

4、查看驱动的Driver Version CUDA Version 为12.3

所以适用的CUDA 11.1-12.3

2、更新显卡驱动

1、下载了最新显卡驱动 C:\NVIDIA\DisplayDriver\560.94\Win11_Win10-DCH_64\International

2、查看最新驱动的Driver Version CUDA Version为12.6

3、项目环境搭建（示例）

CORS跨域

sherioc — Tue, 16 Jul 2024 13:36:07 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/corskua-yu

什么是跨域

浏览器的同源策略：浏览器为确保资源安全，而遵循的一种策略，该策略对访问资源进行了一些限制 https://www.w3.org/Security/wiki/Same_Origin_Policy https://developer.mozilla.org/zh-CN/docs/Web/HTTP/CORS

1、发生跨域后会出现的问题：

const url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc'
let result = await fetch(url)
let data = await result.json();
console.log(data)

2、注意点

1、跨域限制仅存在浏览器端，服务端不存在跨域限制 2、即使跨域了，Ajax 请求也可以正常发出，但响应数据不会交给开发者

3、、

$.getJSON('http://127.0.0.1:8081/teachers?callback=?',(data)=>{
  console.log(data)
})

4、配置代理解决跨域

4.1 自己配置代理服务器

const { createProxyMiddleware } = require('http-proxy-middleware');

app.use('/api',createProxyMiddleware({
  target:'https://www.toutiao.com',
  changeOrigin:true,
  pathRewrite:{
    '^/api':''
  }
}))

4.2

基于nginx搭建代理服务器，基于Vue等脚手架搭建代理服务器（本质上是对4.1的封装）

文本抄袭自动检测分析

sherioc — Tue, 18 Jun 2024 02:40:50 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/wen-ben-chao-xi-zi-dong-jian-ce-fen-xi

任务描述

如果你是某新闻单位工作人员（这里假设source=新华社），为了防止其他媒体抄袭你的文章，做一个抄袭自动检测分析的工具：

一、定义可能抄袭的文章来源

二、与原文对比定位抄袭的地方

数据预处理

本次实验涉及的数据预处理

- 数据清洗，针对content字段为空的情况，进行dropna
- 分词，使用jieba进行分词
- 数据集切分，70%训练集，30%测试集
- 分词并保存分词结果到 corpus.pkl

需求分析及实现路线

需求分析

- 实现对大量文本数据的快速加载和处理
- 有效地提取文本特征以进行抄袭检测
- 使用分类模型预测文章风格是否与源文章一致
- 对疑似抄袭文章进行聚类和相似度比对
- 通过编辑距离进行精确比对确认抄袭情况

实现路线

- 数据加载与预处理：加载数据库导出的文章数据，进行数据清洗、分词等预处理操作。
- 特征提取与分类模型训练：提取TF-IDF特征，并使用分类模型（如MultinomialNB）训练数据集。
- 聚类降维：对全量文本进行聚类降维，减少比对复杂度。
- 相似度比对：基于TF-IDF相似度矩阵找出相似文章，并利用编辑距离进行精确比对。

算法设计如下

数据加载与预处理：
a. 加载包含文本内容的CSV文件（如sqlResult.csv）和停用词表（如chinese_stopwords.txt）。
b. 清洗数据，移除空值（如content字段为空的情况）。
c. 使用分词工具（如jieba）对文本进行分词。
d. 将处理后的分词结果保存到corpus.pkl以便后续使用。
e. 将数据集划分为训练集（70%）和测试集（30%）。
特征提取：
a. 计算文本的TF-IDF特征。
预测文章风格：
a. 使用分类算法（如MultinomialNB）基于文本特征（如TF-IDF）和标签（是否为新华社）进行训练。
寻找可能的抄袭文章：
a. 找到预测标签为1（属于新华社）但实际标签为0的文章。
聚类降维：
a. 如果需要比对的文本数量较大，可以使用k-means算法对文本进行聚类降维，例如将文本分为25个类别。
检索相似文章：
a. 对于一篇可能的抄袭文章，从相同标签中找到对应新华社的文章。
b. 根据TF-IDF相似度矩阵，按相似度从大到小排序，取Top N（如Top 10）相似文章。
计算编辑距离：
a. 使用编辑距离（editdistance）算法计算疑似抄袭文章与原文之间的编辑距离。
逐句比对：
a. 对疑似抄袭文章与原文进行逐句比对，计算每个句子的编辑距离。

模块设计及实现

总体模块设计

使用pandas进行数据预处理、特征工程提取TF-IDF特征、基于MultinomialNB进行分类模型训练，并基于K-Means聚类桶进行分组后使用模型进行结果预测，最后使用编辑距离进行文章对比，总体模块设计如下：

1、数据集加载

导包

import pickle, os
import jieba
import pandas as pd
from icecream import ic
from sklearn.cluster import KMeans
from collections import defaultdict
from sklearn.preprocessing import Normalizer # 把tfidf归一化为单位向量
from sklearn.naive_bayes import MultinomialNB # 多项式贝叶斯模型
from sklearn.model_selection import train_test_split # 拆分数据集
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer # 统计词频、计算tfidf
from sklearn.metrics import classification_report # 分类报告 评估模型
from sklearn.metrics.pairwise import cosine_similarity # 计算余弦相似度
import editdistance # 计算编辑距离

加载停用词

with open('dataset/chinese_stopwords.txt','r',encoding='utf-8') as file:
    stopwords = [line.strip() for line in file]

stopwords[:10]

['，', '的', '。', '、', '在', '了', '是', '', '“', '”']

加载数据集

# gb18030编码收录的中文字符更全，对中文文档兼容性更好
df = pd.read_csv('dataset/sqlResult.csv',encoding='gb18030')

df.head(2)

.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}

df.info()


RangeIndex: 89611 entries, 0 to 89610
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       89611 non-null  int64
 1   author   79396 non-null  object
 2   source   89609 non-null  object
 3   content  87054 non-null  object
 4   feature  89611 non-null  object
 5   title    89577 non-null  object
 6   url      87144 non-null  object
dtypes: int64(1), object(6)
memory usage: 4.8+ MB

可以看到，content 存在缺失数据，需要进行缺失值处理而 source 中也存在缺失数据（无源数据），需要单独去除

2、数据预处理

缺失值处理

# 去除content列存在缺失值的行
df.dropna(subset=['content'],inplace=True)
# 去除
df.dropna(subset=['source'],inplace=True)
df.info()


Index: 87052 entries, 0 to 89610
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       87052 non-null  int64
 1   author   76925 non-null  object
 2   source   87052 non-null  object
 3   content  87052 non-null  object
 4   feature  87052 non-null  object
 5   title    87052 non-null  object
 6   url      87052 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB

分词，使用 jieba 分词

def split_text(text):
    text = text.replace(' ', '').replace('\n','').replace('\r','')
    text2 = jieba.cut(text)
    # 去掉停用词
    result = ' '.join([w for w in text2 if w not in stopwords])
    return result

temp = df.iloc[0].content
print('测试数据：',temp)
print('测试分词结果：',split_text(temp))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache

测试数据： 此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/体验版内测，稳定版暂不受影响），以确保工程师可以集中全部精力进行系统优化工作。有人猜测这也是将精力主要用到MIUI 9的研发之中。
MIUI 8去年5月发布，距今已有一年有余，也是时候更新换代了。
当然，关于MIUI 9的确切信息，我们还是等待官方消息。

Loading model cost 0.488 seconds.
Prefix dict has been built successfully.

测试分词结果： 此外 本周 除 小米 手机 款 机型 外 机型 暂停 更新 发布 含 开发 版 体验版 内测 稳定版 暂不受 影响 确保 工程师 集中 全部 精力 进行 系统优化 工作 有人 猜测 精力 主要 用到 MIUI9 研发 之中 MIUI8 去年 发布 距今已有 一年 有余 更新换代 当然 MIUI9 确切 信息 等待 官方消息

分词并保存分词结果到 corpus.pkl

# 假如路径存在，则直接读取，否则进行分词，并保存到本地
if os.path.exists('dataset/corpus.pkl'):
    with open('dataset/corpus.pkl', 'rb') as file:
        corpus = pickle.load(file)
else:
    corpus = df['content'].map(split_text)
    # 将处理好的分词保存到 corpus.pkl，方便下次调用
    with open('dataset/corpus.pkl', 'wb') as file:
        pickle.dump(corpus, file)

print(corpus.shape)
print(type(corpus[0]))
print(corpus[0])
print(len(set(corpus[0].split())))

(87052,)

此外 本周 除 小米 手机 款 机型 外 机型 暂停 更新 发布 含 开发 版 体验版 内测 稳定版 暂不受 影响 确保 工程师 集中 全部 精力 进行 系统优化 工作 有人 猜测 精力 主要 用到 MIUI9 研发 之中 MIUI8 去年 发布 距今已有 一年 有余 更新换代 当然 MIUI9 确切 信息 等待 官方消息
45

查看所有新闻对应的 source

df['source'].value_counts().head()

source
新华社          78661
中国新闻网          523
中国证券报?中证网      510
参考消息网          385
环球网            308
Name: count, dtype: int64

查看含有新华社的 source

df[df['source'].str.contains('新华')]['source'].value_counts()

source
新华社                                                                                78661
新华网                                                                                  172
新华社新媒体专线                                                                              10
新华日报1                                                                                  3
新华国际                                                                                   2
新华社@                                                                                   1
新华通讯社                                                                                  1
新华社@http://tech.163.com/17/0619/15/CNA7J2EJ00097U7T.html                               1
新华社@http://tech.huanqiu.com/intelligent/2017-06/10868069.html?qq-pf-to=pcqq.c2c        1
新华网@                                                                                   1
新华网@http://tech.163.com/17/0620/15/CNCQ8UH500097U81.html                               1
新华国际微博                                                                                 1
Name: count, dtype: int64

认为上面类似‘新华社@’，‘新华社新媒体专线’等都属于新华社

进行 0 1 标记 source 为新华社的新闻和其他新闻

label = df['source'].copy()
target = label.str.contains('新华') * 1 # series.str.contains() 返回布尔索引，用*1转为 0 1
target[:5]

0    0
1    0
2    0
3    1
4    0
Name: source, dtype: int32

3、逆向文档率 TF-IDF 特征提取

corpus

0        此外 本周 除 小米 手机 款 机型 外 机型 暂停 更新 发布 含 开发 版 体验版 内测...
1        骁龙 835 唯一 Windows10 桌面 平台 认证 ARM 处理器 高通 强调 不会 ...
2        此前 一加 3T 搭载 3400mAh 电池 DashCharge 快充 规格 5V 4A ...
3        这是 18 葡萄牙 中部 佩德罗 冈 地区 拍摄 森林 大火 烧毁 汽车 新华社 记者 张立 云摄
4        原 标题 44 岁 女子 跑 深圳 约会 网友 拒 暴雨 裸身 奔走 … … @ 深圳 交警...
                               ...
89606    新华社 照片 多伦多 2017 \ n 体育 冰球 国家 女子 冰球队 海外 选秀 多伦多 ...
89607    新华社 兰州 日电 王衡 徐丹 记者 甘肃省 交通运输 厅 获悉 甘肃 近日 集中 开建 高...
89608    \ n \ n2017 29 法国巴黎 郊外 凡尔赛宫 法国 总统 马克 龙 出席 新闻 发...
89609    \ n \ n2017 25 美国 马萨诸塞州 剑桥市 哈佛大学 毕业生 毕业典礼 欢呼 新...
89610    新华社 德国 杜塞尔多夫 ６ ６ 日电 题 乒乓 女球迷 \ n 新华社 记者 王子江 张寒...
Name: content, Length: 87052, dtype: object

计算词频矩阵 TF

countvectorizer = CountVectorizer(encoding='gb18030',min_df=0.015)

countvector = countvectorizer.fit_transform(corpus) # 学习词频稀疏矩阵
print(countvector.shape)
print(countvector[:1]) # 查看第一个文档的词频向量（只显示非零元素及其索引）

(87052, 884)
  (0, 590)	1
  (0, 461)	1
  (0, 271)	2
  (0, 416)	1
  (0, 432)	1
  (0, 669)	1
  (0, 860)	1
  (0, 184)	1
  (0, 822)	1
  (0, 385)	1
  (0, 103)	1
  (0, 667)	1
  (0, 263)	1
  (0, 44)	1
  (0, 174)	1

countvector_arr = countvector.toarray() # 转换稀疏矩阵为数组
print(countvector_arr.shape)
countvector_arr

(87052, 884)

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 6, 0]], dtype=int64)

将词频矩阵转为 TF-IDF 矩阵

tfidftransformer = TfidfTransformer()
# 拟合后返回tfidf稀疏矩阵
tfidf = tfidftransformer.fit_transform(countvector)
print(tfidf.shape)
print(tfidf[0])

(87052, 884)
  (0, 44)	0.2622676107691569
  (0, 103)	0.20106899736814415
  (0, 174)	0.23459189038564443
  (0, 184)	0.2468108139475762
  (0, 263)	0.22918780918486897
  (0, 271)	0.4315609902828978
  (0, 385)	0.18500978673205756
  (0, 416)	0.2635573764739399
  (0, 432)	0.21737704053822574
  (0, 461)	0.28783155518886216
  (0, 590)	0.2377411770105167
  (0, 667)	0.28309620126453316
  (0, 669)	0.2671380200521529
  (0, 822)	0.15081444348966608
  (0, 860)	0.2674007239601568

拆分数据集（70%训练集，30%测试集）

# train_test_split(数据集，标签（source），测试集比例)
x_train,x_test,y_train,y_test = train_test_split(tfidf.toarray(),target,test_size=0.3)
x_train.shape,x_test.shape,y_train.shape,y_test.shape

((60936, 884), (26116, 884), (60936,), (26116,))

4、MultinomialNB 分类模型进行训练

初始化分类模型 MultinomialNB

estimator = MultinomialNB()
estimator

对于文本的特征（TF-IDF）和label（0-1是否为新华社）进行训练

estimator.fit(x_train,y_train)

评估模型

y_pred = estimator.predict(x_test)
print(classification_report(y_test,y_pred,labels=[0,1],target_names=['others','新华']))

precision    recall  f1-score   support

others       0.45      0.65      0.54      2530
          新华       0.96      0.92      0.94     23586

accuracy                           0.89     26116
   macro avg       0.71      0.78      0.74     26116
weighted avg       0.91      0.89      0.90     26116

模型的整体精确度达到了 0.89，说明模型在大多数情况下能够正确分类文本

5、基于模型进行风格预测并找出可能抄袭的文章

# compare_news_df中，prediction1代表预测文章的风格是新华社风格；labels1说明实际为新华社
prediction = estimator.predict(tfidf.toarray())
compare_news_df = pd.DataFrame({"prediction":prediction,'labels':target.values})
print(compare_news_df.head(2))

# 在实际非新华社的文章中找出预测为新华社风格的文章
copy_news_index = compare_news_df[(compare_news_df['labels'] == 0) & (compare_news_df['prediction'] == 1)]
print(copy_news_index.head(10))
print("模型预测结果与实际标签不符（即判定为抄袭嫌疑）的文章数:{}".format(len(copy_news_index)))

prediction  labels
0           0       0
1           0       0
    prediction  labels
4            1       0
15           1       0
24           1       0
28           1       0
30           1       0
32           1       0
35           1       0
37           1       0
38           1       0
43           1       0
模型预测结果与实际标签不符（即判定为抄袭嫌疑）的文章数:2823

有 2814 则新闻预测 source 为新华社，但是 label 却不是，所以这些与新华社新闻风格相似的有抄袭嫌疑可以看到，4 和 24 号文章都有抄袭嫌疑

# 实际为新华社和非新华社新闻的index
xinhuashe_news_index = compare_news_df[compare_news_df['labels'] == 1].index
no_xinhuashe_news_index = compare_news_df[compare_news_df['labels'] == 0].index
print(xinhuashe_news_index)
print(no_xinhuashe_news_index)

Index([    3,    17,    25,    27,    39,    51,    65,    95,   102,   111,
       ...
       87042, 87043, 87044, 87045, 87046, 87047, 87048, 87049, 87050, 87051],
      dtype='int64', length=78855)
Index([   0,    1,    2,    4,    5,    6,    7,    8,    9,   10,
       ...
       8544, 8545, 8546, 8547, 8548, 8549, 8550, 8551, 8552, 8553],
      dtype='int64', length=8197)

6、使用 K-Means 对文章进行聚类

"""
sklearn中的k-means算法只支持欧氏距离计算相似度
在文本的相似度比较中我们一般使用余弦距离。

欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关；
而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异，而不是位置。
"""

'\nsklearn中的k-means算法只支持欧氏距离计算相似度\n在文本的相似度比较中我们一般使用余弦距离。\n\n欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关；\n而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异，而不是位置。\n'

对全量文本的 TF-IDF 进行范式归一化

# 对特征向量进行L2范数归一化后，欧氏距离和余弦距离等价，便于进行k-means聚类
transfer = Normalizer()
scaled_array = transfer.fit_transform(tfidf.toarray())

对全量文本进行 K-Means 聚类

# 使用K-Means进行聚类降维，嫌疑新闻只和相同堆中的新华社新闻进行计算
estimator2 = KMeans(n_clusters=25)
estimator2.fit(scaled_array)
k_labels = estimator2.predict(scaled_array)

建立聚类类别与实为新华社文章的 index 之间的映射关系

k_labels_sr = pd.Series(k_labels)

class_id = defaultdict(set)

for index,value in k_labels_sr.items():
    # 对真实为新华社的新闻index分组
    if index in xinhuashe_news_index:
        class_id[value].add(index)

class_id.keys()

dict_keys([13, 12, 6, 10, 24, 11, 2, 7, 15, 17, 20, 21, 4, 18, 22, 1, 16, 23, 5, 0, 14, 19, 8, 3, 9])

将聚类结果保存在 label.pkl 中

# 假如路径存在，则直接读取，否则进行分词，并保存到本地
import os
if os.path.exists('dataset/label.pkl'):
    with open('dataset/label.pkl', 'rb') as file:
        label = pickle.load(file)
else:
    label = df['content'].map(class_id)
    # 将处理好的分词保存到 label.pkl，方便下次调用
    with open('dataset/label.pkl', 'wb') as file:
        pickle.dump(label, file)

7、查看相似文章(测试结果)

def find_similar_text(copy_index,top=10):
    # 只在新华社发布的文章中查找
    label = k_labels_sr[copy_index]
    dist_dict = {i:cosine_similarity(tfidf[copy_index],tfidf[i]) for i in class_id[label]}

    # 从大到小排序
    return sorted(dist_dict.items(),key=lambda x:x[1][0], reverse=True)[:top]

copy_index = 3352

抄袭嫌疑新闻与相似 Top10 新华社新闻

similar_list = find_similar_text(copy_index)

ic(len(similar_list))
similar_list

ic| len(similar_list): 10

[(3134, array([[0.96848961]])),
 (63509, array([[0.94642972]])),
 (29439, array([[0.94283134]])),
 (3218, array([[0.87621302]])),
 (980, array([[0.87534597]])),
 (29613, array([[0.86935867]])),
 (29886, array([[0.8621539]])),
 (64044, array([[0.85277574]])),
 (29775, array([[0.84875245]])),
 (64756, array([[0.73394623]]))]

查看抄袭新闻与新华社原文

print('抄袭嫌疑新闻内容:\n',df.iloc[copy_index].content)

抄袭嫌疑新闻内容:
 　　中国5月份56座城市新建商品住宅价格环比上涨，4月份为58座上涨。5月份15个一线和热点二线城市房地产市场基本稳定，5月份房地产调控政策效果继续显现。
　　统计局：15个一线和热点二线城市房价同比涨幅全部回落
　　国家统计局城市司高级统计师刘建伟解读5月份房价数据
　　5月份一二线城市房价平均涨幅继续回落
　　国家统计局今日发布了2017年5月份70个大中城市住宅销售价格统计数据。对此，国家统计局城市司高级统计师刘建伟进行了解读。
　　一、15个一线和热点二线城市新建商品住宅价格同比涨幅全部回落、9个城市环比下降或持平
　　5月份，因地制宜、因城施策的房地产调控政策效果继续显现，15个一线和热点二线城市房地产市场基本稳定。从同比看，15个城市新建商品住宅价格涨幅均比上月回落，回落幅度在0.5至6.4个百分点之间。从环比看，9个城市新建商品住宅价格下降或持平；5个城市涨幅在0.5%以内。
　　二、70个大中城市中一二线城市房价同比涨幅持续回落
　　5月份，70个城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有29和18个。其中，一二线城市同比涨幅回落尤其明显。据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续8个月回落，5月份比4月份分别回落2.2和1.7个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续6个月和4个月回落，5月份比4月份分别回落0.8和0.5个百分点。
　　三、70个大中城市中房价环比下降及涨幅回落城市个数均有所增加
　　5月份，70个城市中新建商品住宅价格环比下降的城市有9个，比上月增加1个；涨幅回落的城市有26个，比上月增加3个。二手住宅价格环比下降的城市有7个，比上月增加2个；涨幅回落的城市有30个，比上月增加8个。

# 找一篇相似的新华社原文
similar2 = similar_list[0][0]
print('新华社相似原文:\n',df.iloc[similar2].content)

新华社相似原文:
 　　国家统计局19日发布数据，5月份，15个一线和热点二线城市新建商品住宅价格同比涨幅全部回落，其中9个城市环比下降或持平。这9个价格环比下降或持平的城市为：北京、上海、南京、杭州、合肥、福州、郑州、深圳、成都。
　　“5月份，因地制宜、因城施策的房地产调控政策效果继续显现，15个一线和热点二线城市房地产市场基本稳定。”国家统计局城市司高级统计师刘建伟说，从同比看，15个城市新建商品住宅价格涨幅均比上月回落，回落幅度在0.5至6.4个百分点之间。从环比看，9个城市新建商品住宅价格下降或持平；5个城市涨幅在0.5%以内。
　　国家统计局当天还发布了5月份70个大中城市住宅销售价格统计数据。刘建伟介绍，5月份，70个大中城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有29和18个。其中，一二线城市同比涨幅回落尤其明显。据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续8个月回落，5月份比4月份分别回落2.2和1.7个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续6个月和4个月回落，5月份比4月份分别回落0.8和0.5个百分点。
　　此外，70个大中城市中房价环比下降及涨幅回落城市个数均有所增加。统计显示，5月份，70个大中城市中新建商品住宅价格环比下降的城市有9个，比上月增加1个；涨幅回落的城市有26个，比上月增加3个。二手住宅价格环比下降的城市有7个，比上月增加2个；涨幅回落的城市有30个，比上月增加8个。

# 找一篇相似的新华社原文
similar3 = similar_list[1][0]
print('新华社相似原文:\n',df.iloc[similar3].content)

新华社相似原文:
 　　新华社北京5月18日电国家统计局18日发布的数据显示，4月份，15个一线和热点二线城市新建商品住宅价格同比涨幅回落，9个城市环比下降或持平。\n　　这9个价格环比下降或持平的城市是天津、上海、南京、合肥、福州、杭州、厦门、深圳、成都。\n　　“4月份，因地制宜、因城施策的房地产调控政策继续发挥作用。”国家统计局城市司高级统计师刘建伟说，从同比看，15个城市新建商品住宅价格涨幅均比上月回落，回落幅度在0.7至7.4个百分点之间。从环比看，9个城市新建商品住宅价格下降或持平；5个城市涨幅回落，回落幅度在0.2至1.1个百分点之间。\n　　国家统计局当天还发布了4月份70个大中城市住宅销售价格统计数据。刘建伟介绍，从同比看，4月份70个城市中有30个城市新建商品住宅价格涨幅比上月回落，比3月份增加6个，回落城市中23个为一二线城市。初步测算，一线城市新建商品住宅价格同比涨幅连续7个月回落，4月份比3月份回落2.8个百分点；二线城市新建商品住宅价格同比涨幅连续5个月回落，4月份比3月份回落1.0个百分点；三线城市新建商品住宅价格同比涨幅略有扩大，4月份比3月份扩大0.4个百分点。\n　　从环比看，4月份70个城市中有23个城市新建商品住宅价格涨幅比上月回落，比3月份增加13个；7个城市由上月上涨转为持平或下降；3个城市降幅扩大。（完）

8、基于编辑距离进行文章对比

嫌疑文章和新华社原文整体编辑距离

editdistance.eval(df.iloc[copy_index].content, df.iloc[similar2].content)

import editdistance
from IPython.display import display, HTML

# 示例疑似文章和原文
suspected_article = df.iloc[copy_index].content
original_article = df.iloc[similar2].content

# 分句函数
def split_into_sentences(text):
    return text.split('。')

# 对齐句子
def align_sentences(sentences1, sentences2):
    max_len = max(len(sentences1), len(sentences2))
    sentences1 += [''] * (max_len - len(sentences1))
    sentences2 += [''] * (max_len - len(sentences2))
    return sentences1, sentences2

# 分句
suspected_sentences = split_into_sentences(suspected_article)
original_sentences = split_into_sentences(original_article)

# 对齐句子
aligned_suspected, aligned_original = align_sentences(suspected_sentences, original_sentences)

# 设置编辑距离阈值
threshold = 100

# 逐句比对并显示彩色文本
html_output = ""
for suspected_sentence, original_sentence in zip(aligned_suspected, aligned_original):
    distance = editdistance.eval(suspected_sentence, original_sentence)
    if distance <= threshold:
        html_output += f"{suspected_sentence} vs {original_sentence} (编辑距离为：{distance})"
    else:
        html_output += f"{suspected_sentence} vs {original_sentence} (编辑距离为：{distance})"

display(HTML(html_output))

统计局：15 个一线和热点二线城市房价同比涨幅全部回落

国家统计局城市司高级统计师刘建伟解读 5 月份房价数据

5 月份一二线城市房价平均涨幅继续回落

国家统计局今日发布了 2017 年 5 月份 70 个大中城市住宅销售价格统计数据 vs

“5 月份，因地制宜、因城施策的房地产调控政策效果继续显现，15 个一线和热点二线城市房地产市场基本稳定 (编辑距离为：108)

``对此，国家统计局城市司高级统计师刘建伟进行了解读 vs ”国家统计局城市司高级统计师刘建伟说，从同比看，15 个城市新建商品住宅价格涨幅均比上月回落，回落幅度在 0.5 至 6.4 个百分点之间 (编辑距离为：50)

一、15 个一线和热点二线城市新建商品住宅价格同比涨幅全部回落、9 个城市环比下降或持平

5 月份，因地制宜、因城施策的房地产调控政策效果继续显现，15 个一线和热点二线城市房地产市场基本稳定 vs 从环比看，9 个城市新建商品住宅价格下降或持平；5 个城市涨幅在 0.5%以内 (编辑距离为：79)

``从同比看，15 个城市新建商品住宅价格涨幅均比上月回落，回落幅度在 0.5 至 6.4 个百分点之间 vs

国家统计局当天还发布了 5 月份 70 个大中城市住宅销售价格统计数据 (编辑距离为：44)

``从环比看，9 个城市新建商品住宅价格下降或持平；5 个城市涨幅在 0.5%以内 vs 刘建伟介绍，5 月份，70 个大中城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有 29 和 18 个 (编辑距离为：38)

二、70 个大中城市中一二线城市房价同比涨幅持续回落

5 月份，70 个城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有 29 和 18 个 vs 其中，一二线城市同比涨幅回落尤其明显 (编辑距离为：65)

其中，一二线城市同比涨幅回落尤其明显 vs 据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续 8 个月回落，5 月份比 4 月份分别回落 2.2 和 1.7 个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续 6 个月和 4 个月回落，5 月份比 4 月份分别回落 0.8 和 0.5 个百分点 (编辑距离为：102)

据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续 8 个月回落，5 月份比 4 月份分别回落 2.2 和 1.7 个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续 6 个月和 4 个月回落，5 月份比 4 月份分别回落 0.8 和 0.5 个百分点 vs

此外，70 个大中城市中房价环比下降及涨幅回落城市个数均有所增加 (编辑距离为：106)

三、70 个大中城市中房价环比下降及涨幅回落城市个数均有所增加

5 月份，70 个城市中新建商品住宅价格环比下降的城市有 9 个，比上月增加 1 个；涨幅回落的城市有 26 个，比上月增加 3 个 vs 统计显示，5 月份，70 个大中城市中新建商品住宅价格环比下降的城市有 9 个，比上月增加 1 个；涨幅回落的城市有 26 个，比上月增加 3 个 (编辑距离为：40)

``二手住宅价格环比下降的城市有 7 个，比上月增加 2 个；涨幅回落的城市有 30 个，比上月增加 8 个 vs 二手住宅价格环比下降的城市有 7 个，比上月增加 2 个；涨幅回落的城市有 30 个，比上月增加 8 个 (编辑距离为：0)

(编辑距离为：0)

import editdistance
from IPython.display import display, HTML

# 示例疑似文章和原文
suspected_article = df.iloc[copy_index].content
original_article = df.iloc[similar2].content

# 分句函数
def split_into_sentences(text):
    return text.split('。')

# 对齐句子
def align_sentences(sentences1, sentences2):
    max_len = max(len(sentences1), len(sentences2))
    sentences1 += [''] * (max_len - len(sentences1))
    sentences2 += [''] * (max_len - len(sentences2))
    return sentences1, sentences2

# 分句
suspected_sentences = split_into_sentences(suspected_article)
original_sentences = split_into_sentences(original_article)

# 对齐句子
aligned_suspected, aligned_original = align_sentences(suspected_sentences, original_sentences)

# 设置编辑距离阈值
threshold = 50

# 创建用于颜色标注的HTML标记
def create_colored_sentence(sentence, color='red'):
    return f"{sentence}"

# 初始化标记后的句子列表
marked_original_sentences = []
marked_suspected_sentences = []

# 逐句比对并在原文和疑似抄袭文章中进行颜色标注
for i, (suspected_sentence, original_sentence) in enumerate(zip(aligned_suspected, aligned_original)):
    distance = editdistance.eval(suspected_sentence, original_sentence)
    if distance <= threshold:
        marked_sentence_original = create_colored_sentence(original_sentences[i])
        marked_sentence_suspected = create_colored_sentence(suspected_sentences[i])
    else:
        marked_sentence_original = original_sentences[i]
        marked_sentence_suspected = suspected_sentences[i]

    marked_original_sentences.append(marked_sentence_original)
    marked_suspected_sentences.append(marked_sentence_suspected)

# 将标记后的句子重新组合成原文和疑似抄袭文章
marked_original_article = '。'.join(marked_original_sentences).strip()
marked_suspected_article = '。'.join(marked_suspected_sentences).strip()

# 显示颜色标注后的原文和疑似抄袭文章
print("原文：")
display(HTML(marked_original_article))
print("\n疑似抄袭文章：")
display(HTML(marked_suspected_article))

原文：

　　国家统计局 19 日发布数据，5 月份，15 个一线和热点二线城市新建商品住宅价格同比涨幅全部回落，其中 9 个城市环比下降或持平。这 9 个价格环比下降或持平的城市为：北京、上海、南京、杭州、合肥、福州、郑州、深圳、成都。

“5 月份，因地制宜、因城施策的房地产调控政策效果继续显现，15 个一线和热点二线城市房地产市场基本稳定。”国家统计局城市司高级统计师刘建伟说，从同比看，15 个城市新建商品住宅价格涨幅均比上月回落，回落幅度在 0.5 至 6.4 个百分点之间。从环比看，9 个城市新建商品住宅价格下降或持平；5 个城市涨幅在 0.5%以内。

国家统计局当天还发布了 5 月份 70 个大中城市住宅销售价格统计数据。刘建伟介绍，5 月份，70 个大中城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有 29 和 18 个。其中，一二线城市同比涨幅回落尤其明显。据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续 8 个月回落，5 月份比 4 月份分别回落 2.2 和 1.7 个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续 6 个月和 4 个月回落，5 月份比 4 月份分别回落 0.8 和 0.5 个百分点。

此外，70 个大中城市中房价环比下降及涨幅回落城市个数均有所增加。统计显示，5 月份，70 个大中城市中新建商品住宅价格环比下降的城市有 9 个，比上月增加 1 个；涨幅回落的城市有 26 个，比上月增加 3 个。二手住宅价格环比下降的城市有 7 个，比上月增加 2 个；涨幅回落的城市有 30 个，比上月增加 8 个。

疑似抄袭文章：

　　中国 5 月份 56 座城市新建商品住宅价格环比上涨，4 月份为 58 座上涨。5 月份 15 个一线和热点二线城市房地产市场基本稳定，5 月份房地产调控政策效果继续显现。

统计局：15 个一线和热点二线城市房价同比涨幅全部回落

国家统计局城市司高级统计师刘建伟解读 5 月份房价数据

5 月份一二线城市房价平均涨幅继续回落

国家统计局今日发布了 2017 年 5 月份 70 个大中城市住宅销售价格统计数据。对此，国家统计局城市司高级统计师刘建伟进行了解读。

一、15 个一线和热点二线城市新建商品住宅价格同比涨幅全部回落、9 个城市环比下降或持平

5 月份，因地制宜、因城施策的房地产调控政策效果继续显现，15 个一线和热点二线城市房地产市场基本稳定。从同比看，15 个城市新建商品住宅价格涨幅均比上月回落，回落幅度在 0.5 至 6.4 个百分点之间。从环比看，9 个城市新建商品住宅价格下降或持平；5 个城市涨幅在 0.5%以内。

二、70 个大中城市中一二线城市房价同比涨幅持续回落

5 月份，70 个城市中新建商品住宅和二手住宅价格同比涨幅比上月回落的城市分别有 29 和 18 个。其中，一二线城市同比涨幅回落尤其明显。据测算，一线城市新建商品住宅和二手住宅价格同比涨幅均连续 8 个月回落，5 月份比 4 月份分别回落 2.2 和 1.7 个百分点；二线城市新建商品住宅和二手住宅价格同比涨幅分别连续 6 个月和 4 个月回落，5 月份比 4 月份分别回落 0.8 和 0.5 个百分点。

三、70 个大中城市中房价环比下降及涨幅回落城市个数均有所增加

5 月份，70 个城市中新建商品住宅价格环比下降的城市有 9 个，比上月增加 1 个；涨幅回落的城市有 26 个，比上月增加 3 个。二手住宅价格环比下降的城市有 7 个，比上月增加 2 个；涨幅回落的城市有 30 个，比上月增加 8 个。

参考文献

[1] https://www.cnblogs.com/zhaop8078/p/13676158.html

[2] https://blog.csdn.net/qq_36667170/article/details/121656279

附：完整代码

import pickle, os
import jieba  
import pandas as pd
from icecream import ic 
from sklearn.cluster import KMeans 
from collections import defaultdict
from sklearn.preprocessing import Normalizer # 把tfidf归一化为单位向量
from sklearn.naive_bayes import MultinomialNB # 多项式贝叶斯模型
from sklearn.model_selection import train_test_split # 拆分数据集
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer # 统计词频、计算tfidf
from sklearn.metrics import classification_report # 分类报告 评估模型
from sklearn.metrics.pairwise import cosine_similarity # 计算余弦相似度
import editdistance # 计算编辑距离

with open('dataset/chinese_stopwords.txt','r',encoding='utf-8') as file:
    stopwords = [line.strip() for line in file]

stopwords[:10]

# gb18030编码收录的中文字符更全，对中文文档兼容性更好
df = pd.read_csv('dataset/sqlResult.csv',encoding='gb18030')

df.head(2)

df.info()

# 去除content列存在缺失值的行
df.dropna(subset=['content'],inplace=True)
# 去除
df.dropna(subset=['source'],inplace=True)
df.info()

def split_text(text):
    text = text.replace(' ', '').replace('\n','').replace('\r','')
    text2 = jieba.cut(text) 
    # 去掉停用词
    result = ' '.join([w for w in text2 if w not in stopwords])
    return result

temp = df.iloc[0].content
print('测试数据：',temp)
print('测试分词结果：',split_text(temp))

# 假如路径存在，则直接读取，否则进行分词，并保存到本地
if os.path.exists('dataset/corpus.pkl'):
    with open('dataset/corpus.pkl', 'rb') as file:
        corpus = pickle.load(file)
else:
    corpus = df['content'].map(split_text)
    # 将处理好的分词保存到 corpus.pkl，方便下次调用
    with open('dataset/corpus.pkl', 'wb') as file:
        pickle.dump(corpus, file)


print(corpus.shape)
print(type(corpus[0]))
print(corpus[0])
print(len(set(corpus[0].split())))

df['source'].value_counts().head()

df[df['source'].str.contains('新华')]['source'].value_counts()

label = df['source'].copy()
target = label.str.contains('新华') * 1 # series.str.contains() 返回布尔索引，用*1转为 0 1
target[:5]

corpus

countvectorizer = CountVectorizer(encoding='gb18030',min_df=0.015)

countvector = countvectorizer.fit_transform(corpus) # 学习词频稀疏矩阵
print(countvector.shape)
print(countvector[:1]) # 查看第一个文档的词频向量（只显示非零元素及其索引）


countvector_arr = countvector.toarray() # 转换稀疏矩阵为数组
print(countvector_arr.shape)
countvector_arr

tfidftransformer = TfidfTransformer()
# 拟合后返回tfidf稀疏矩阵
tfidf = tfidftransformer.fit_transform(countvector)
print(tfidf.shape)
print(tfidf[0])


# train_test_split(数据集，标签（source），测试集比例)
x_train,x_test,y_train,y_test = train_test_split(tfidf.toarray(),target,test_size=0.3)
x_train.shape,x_test.shape,y_train.shape,y_test.shape

estimator = MultinomialNB()
estimator

estimator.fit(x_train,y_train)

y_pred = estimator.predict(x_test)
print(classification_report(y_test,y_pred,labels=[0,1],target_names=['others','新华']))


# compare_news_df中，prediction1代表预测文章的风格是新华社风格；labels1说明实际为新华社
prediction = estimator.predict(tfidf.toarray())
compare_news_df = pd.DataFrame({"prediction":prediction,'labels':target.values})
print(compare_news_df.head(2))

# 在实际非新华社的文章中找出预测为新华社风格的文章
copy_news_index = compare_news_df[(compare_news_df['labels'] == 0) & (compare_news_df['prediction'] == 1)]
print(copy_news_index.head(10))
print("模型预测结果与实际标签不符（即判定为抄袭嫌疑）的文章数:{}".format(len(copy_news_index)))


# 实际为新华社和非新华社新闻的index
xinhuashe_news_index = compare_news_df[compare_news_df['labels'] == 1].index
no_xinhuashe_news_index = compare_news_df[compare_news_df['labels'] == 0].index
print(xinhuashe_news_index)
print(no_xinhuashe_news_index)

"""
sklearn中的k-means算法只支持欧氏距离计算相似度
在文本的相似度比较中我们一般使用余弦距离。

欧氏距离衡量的是空间各点的绝对距离，跟各个点所在的位置坐标直接相关；
而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异，而不是位置。
"""

# 对特征向量进行L2范数归一化后，欧氏距离和余弦距离等价，便于进行k-means聚类
transfer = Normalizer()
scaled_array = transfer.fit_transform(tfidf.toarray())


# 使用K-Means进行聚类降维，嫌疑新闻只和相同堆中的新华社新闻进行计算
estimator2 = KMeans(n_clusters=25)
estimator2.fit(scaled_array)
k_labels = estimator2.predict(scaled_array)

k_labels_sr = pd.Series(k_labels)

class_id = defaultdict(set)

for index,value in k_labels_sr.items():
    # 对真实为新华社的新闻index分组
    if index in xinhuashe_news_index:
        class_id[value].add(index)

class_id.keys()


# 假如路径存在，则直接读取，否则进行分词，并保存到本地
import os
if os.path.exists('dataset/label.pkl'):
    with open('dataset/label.pkl', 'rb') as file:
        label = pickle.load(file)
else:
    label = df['content'].map(class_id)
    # 将处理好的分词保存到 label.pkl，方便下次调用
    with open('dataset/label.pkl', 'wb') as file:
        pickle.dump(label, file)

def find_similar_text(copy_index,top=10):
    # 只在新华社发布的文章中查找
    label = k_labels_sr[copy_index]
    dist_dict = {i:cosine_similarity(tfidf[copy_index],tfidf[i]) for i in class_id[label]}
  
    # 从大到小排序
    return sorted(dist_dict.items(),key=lambda x:x[1][0], reverse=True)[:top]


copy_index = 3352

similar_list = find_similar_text(copy_index)

ic(len(similar_list))
similar_list


print('抄袭嫌疑新闻内容:\n',df.iloc[copy_index].content)

# 找一篇相似的新华社原文
similar2 = similar_list[0][0]
print('新华社相似原文:\n',df.iloc[similar2].content)


# 找一篇相似的新华社原文
similar3 = similar_list[1][0]
print('新华社相似原文:\n',df.iloc[similar3].content)

editdistance.eval(df.iloc[copy_index].content, df.iloc[similar2].content)

import editdistance
from IPython.display import display, HTML

# 示例疑似文章和原文
suspected_article = df.iloc[copy_index].content
original_article = df.iloc[similar2].content

# 分句函数
def split_into_sentences(text):
    return text.split('。')

# 对齐句子
def align_sentences(sentences1, sentences2):
    max_len = max(len(sentences1), len(sentences2))
    sentences1 += [''] * (max_len - len(sentences1))
    sentences2 += [''] * (max_len - len(sentences2))
    return sentences1, sentences2

# 分句
suspected_sentences = split_into_sentences(suspected_article)
original_sentences = split_into_sentences(original_article)

# 对齐句子
aligned_suspected, aligned_original = align_sentences(suspected_sentences, original_sentences)

# 设置编辑距离阈值
threshold = 100

# 逐句比对并显示彩色文本
html_output = ""
for suspected_sentence, original_sentence in zip(aligned_suspected, aligned_original):
    distance = editdistance.eval(suspected_sentence, original_sentence)
    if distance <= threshold:
        html_output += f"{suspected_sentence} vs {original_sentence} (编辑距离为：{distance})"
    else:
        html_output += f"{suspected_sentence} vs {original_sentence} (编辑距离为：{distance})"

display(HTML(html_output))

import editdistance
from IPython.display import display, HTML

# 示例疑似文章和原文
suspected_article = df.iloc[copy_index].content
original_article = df.iloc[similar2].content

# 分句函数
def split_into_sentences(text):
    return text.split('。')

# 对齐句子
def align_sentences(sentences1, sentences2):
    max_len = max(len(sentences1), len(sentences2))
    sentences1 += [''] * (max_len - len(sentences1))
    sentences2 += [''] * (max_len - len(sentences2))
    return sentences1, sentences2

# 分句
suspected_sentences = split_into_sentences(suspected_article)
original_sentences = split_into_sentences(original_article)

# 对齐句子
aligned_suspected, aligned_original = align_sentences(suspected_sentences, original_sentences)

# 设置编辑距离阈值
threshold = 50

# 创建用于颜色标注的HTML标记
def create_colored_sentence(sentence, color='red'):
    return f"{sentence}"

# 初始化标记后的句子列表
marked_original_sentences = []
marked_suspected_sentences = []

# 逐句比对并在原文和疑似抄袭文章中进行颜色标注
for i, (suspected_sentence, original_sentence) in enumerate(zip(aligned_suspected, aligned_original)):
    distance = editdistance.eval(suspected_sentence, original_sentence)
    if distance <= threshold:
        marked_sentence_original = create_colored_sentence(original_sentences[i])
        marked_sentence_suspected = create_colored_sentence(suspected_sentences[i])
    else:
        marked_sentence_original = original_sentences[i]
        marked_sentence_suspected = suspected_sentences[i]
  
    marked_original_sentences.append(marked_sentence_original)
    marked_suspected_sentences.append(marked_sentence_suspected)

# 将标记后的句子重新组合成原文和疑似抄袭文章
marked_original_article = '。'.join(marked_original_sentences).strip()
marked_suspected_article = '。'.join(marked_suspected_sentences).strip()

# 显示颜色标注后的原文和疑似抄袭文章
print("原文：")
display(HTML(marked_original_article))
print("\n疑似抄袭文章：")
display(HTML(marked_suspected_article))

“陈哥，你说我们抓了这个人，到底对不对?” “怎么了?” …… “你...

sherioc — Tue, 28 May 2024 13:02:05 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/thinkings#thinking-2

“陈哥，你说我们抓了这个人，到底对不对?”
“怎么了?”
……
“你心里觉得难受了?是因为死的那个病人?”
“嗯，是有点，如果我们晚几天抓他，是不是那条命就不会没了?”
“谁让他做坏事呢?”
“但这也不是杀人放火的事情啊?”
“你别钻牛角尖，不是杀人放火，就不是犯罪了?就不抓了吗?”
“嗯……那这个病人呢?”
“这就是命。”
“嗯。”

——刘喆《检察官日记》

支付宝沙箱流程

sherioc — Sat, 30 Mar 2024 11:07:38 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/zhibubaoshaxiangliuchen

引子：软件杯智能编辑器添加支付宝付费功能

fastapi支付宝沙箱

.env环境变量

数据库

接口

按照sql补充recharge数据库表，下载支付宝沙箱手机应用app，然后填我的账号就行（或者你自己的需要改环境变量，见下面的详细介绍）

post请求携带充值金额，后端返回url前端进行回调到达扫码页面：

支付宝沙箱

支付页面流程

1、进入支付宝开放平台 (alipay.com)

开发接入——网页/移动应用开发

2、开发文档进入支付流程

3、进入alipay.trade.page.pay（单独打开该页面）进入pypi项目依赖

安装sdk并看example

4、支付宝配置 alipay.trade.page.pay接口

环境变量配置

沙箱应用中配置环境变量(.env文件)【回调url和异步通知url跑不通，不用配置】

下载手机支付宝（沙箱测试版，并使用沙箱账号密码登录）

代码

发起支付接口实现

前端请求支付宝支付接口后端返回拉起支付页面url 前端进行继续访问跳转到支付页面

用户使用支付宝沙箱程序扫码支付，完成付款

【后面还需要异步验签/商家主动验签订单，再进行数据库操作】

AJAX、XHR、Axios、Fetch API

sherioc — Fri, 15 Mar 2024 13:46:42 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/posts/ajaxxhraxiosfetchapi

摘要：

AJAX 是一种==技术概念，用于实现网页的异步交互==。XHR 是==实现== AJAX 功能的具体==工具==之一。

Axios库是对XHR的封装，Fetch API 是 XHR 的现代替代方案。

AJAX（Asynchronous JavaScript and XML）和 XHR（XMLHttpRequest）之间有着紧密的关系，但它们并不是完全相同的概念。以下是它们之间的关系和区别：

AJAX：
- 全称：Asynchronous JavaScript and XML（异步 JavaScript 和 XML）。
- 定义：AJAX 是一种用于创建动态网页的技术，允许网页在不重新加载整个页面的情况下，与服务器进行异步交互，从而更新部分页面内容。
- 核心思想：通过 JavaScript 在后台与服务器进行数据交换，而不需要重新加载整个页面。
XHR：
- 全称：XMLHttpRequest。
- 定义：XHR 是一个 JavaScript 对象，用于与服务器进行异步通信。它是实现 AJAX 功能的核心工具之一。
- 用途：通过 XHR，JavaScript 可以在后台向服务器发送请求并接收响应，而不会影响页面的显示。
XHR 是实现 AJAX 的核心工具：
- ==AJAX 是一种技术概念，而 XHR 是实现这种技术的具体工具之一==。
- 通过 XHR，可以实现 AJAX 的异步交互功能。

// 创建一个 XMLHttpRequest 对象
const xhr = new XMLHttpRequest();

// 配置请求类型、URL 以及是否异步处理
xhr.open('GET', 'https://api.example.com/data', true);

// 设置请求完成的处理函数
xhr.onload = function () {
  if (xhr.status >= 200 && xhr.status < 300) {
    // 请求成功，处理返回的数据
    const data = JSON.parse(xhr.responseText);
    console.log(data);
  } else {
    // 请求失败
    console.error('Request failed with status:', xhr.status);
  }
};

// 设置请求失败的处理函数
xhr.onerror = function () {
  console.error('Request failed');
};

// 发送请求
xhr.send();

现代替代方案

axios：
- 基于 XMLHttpRequest。
- 提供了丰富的功能，如拦截器、超时处理、自动 JSON 解析等。
- 是一个==第三方库==，需要单独引入。

axios.get('https://api.example.com/data')
  .then(response => console.log(response.data))
  .catch(error => console.error(error));

fetch：
- 是浏览器的原生 API，不是基于 XMLHttpRequest。
- 提供了简洁的 API，支持现代的异步编程模式。
- 不需要额外引入库，但功能相对简单。

fetch('https://api.example.com/data')
  .then(response => response.json())
  .then(data => console.log(data))
  .catch(error => console.error(error));

北巷回忆

sherioc — Sat, 19 Aug 2023 05:42:51 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/moments/2023/08/19/bei-xiang-hui-yi

卷一大河浦里

第一章社庙

记不清，不记得。

山头头上有个什么庙。

不知道什么日子，全村老少男女都要上去。供香火，放炮，给佛像磕头。

大河浦的河，从村里唯一的小卖铺旁边那条山路流出来。

流向哪里，不知道。

河上四五米处跨着桥。桥就是路。

两侧没小腿高的铁栏杆。

老汉们坐在栏杆上，抽着烟。

桥这边是斜坡，上头长满了树，高耸入天。

下头是数不清的大石头，像迷宫。

孩子们几个在石头上耍。

老奶们倚靠在石头上，穿的鲜艳的衣服。手里拿着篮子。还有撑着拐棍子。

斜坡是个山坡坡。也是靠近河这一侧，上庙的路。

太阳出来，快晌午了。

扛着东西和炮的，叫鬃鬃。村里的哑巴。胡子总是刮不净。一脸胡茬。

“……叫那鬃鬃扛上……”

一担子东西摞上去，像往驴身上摞。

“摁~……“，鬃鬃从喉咙里冒出哼哼声。像牛叫。东西已经扛上去了。

”赶紧上搁哇！“老奶们朝鬃鬃叫着。

”摁~……“，脸上露出笑，眼里明溜溜的。使劲扛起东西来，沿着山坡往上爬。

哼哧哼哧…哼…哼哧…不时发出那牛一样的叫声。

……

弯弯曲曲的土路，上来再往下看，大河浦、小卖铺、水房、小观音庙、大表姑家、奶奶家、右面的山。

一大片蓝天。

还得再往上走。沿着坡坡，躲开土壕疙瘩。

庙像个四合院。外头能看见里面那棵大树。

庙门开着，能望见里头的佛像。

“放下哇……”

鬃鬃把扛着的东西放下，喘着粗气，哼哼着。牛叫声。

“嗯~……”比划着手脚，脸上是笑的，不停点着头。

“去歇咯哇……”

鬃鬃又比划着手脚，往下走。山坡坡起伏，他那身体一上一下。

庙门前有个鼎，里头是沙子。

上头插着细香，黄的刚点上，红的剩下半截。

还有粗棒香，一只手也握不住。三五根插在沙子里头，烧的高高低低。

怕这口鼎，怕这种粗香。

奶奶们说那和尚，教剃了头发，就拿这粗棒子香，往头上点。

横三个，竖着点三排。

穿上那布衣裳，就再也不长头发了。

……

往里头走，不进去，往右面拐就看见那个树了。

这是庙里头的树，高的看不见顶子，整个树好像都是香火的味道。

下头分叉，有人能躺上去睡。

不会爬树，上不去。

往里面进就是内院。

外头能看见半个佛头。

叫大人引进来，佛像面前有三个桌子，上头开了的罐头、饼子、苹果、橘子梨子、饼干、干馍馍。

桌上打火机。盒子里有香。

中间是佛像，左面观音、右面文殊。

地下是黄垫子。圆的。中间的高，两边低。

从篮子里掏出香，点上，拿三根。

拜三下，上香。插进小香灶。里头装的是小米。

“磕头……”

大人跪下了，赶紧跪在黄垫子上。

双手合十。朝佛，磕头。

一拜。二拜。三拜。

大人嘴里念叨着。

……

出来那口鼎上的粗棒香还在烧。高高低低。

香烧完的灰落在沙子上。

外头地上是大拇炮放完的皮。半截纸筒子。

远处是天。人家。

庙旁边。树，地下长满杂草。狗尾巴草，绿叶子草。蒲公英。像蒲公英的东西，只不过吹不动。

……

树上有人躺着，好像睡着了。

太阳从树叶子缝缝里流出来。地下一堆圆点点。

……

庙后面是什么。

不知道。

什么时候结束。供奉的啥。

不知道。

……

不知道。

……

第二章镰豆、马圈和后山

从大河浦上一直往上走。

最上头那户，奶奶家。

木头门。锈了的锁子，挂着一根红绳子。左手边。土坷垃房沿下放着钥匙。

咯吱咯吱……吱吱…石头疙瘩抵住门。

左边菜院子。踏石头上去。

左半。白菜。茴子白、油菜、生菜。土壕壕。

围栏。树叶子。

右半。几棵杏儿树。不好，好的在后山。

出来。

左边水缸子。叫不上缸子。挖机的前面那东西倒过来，里头黑黑的水。

后山再往里头走。

前头一条窄路。右面一棵树。猫会上去。

左前方旧房子。荒废的。土坷垃堆起来的，房顶上全是草。

几步台阶。

“汪，汪汪！……”

一条黄色窜出来，扑上来。

两条腿一下子就从衣服上窜到肩膀上了。伸着舌头。摇着尾巴。“……汪汪……”

黄黄。

一下子就认出人来了。

还有条白的。叫白白。

白白哪去了。

被卖了。村里来了买狗的。100块。

“起来…”奶奶叫喊着，揪过黄黄。

“回来了……”

……

院子右面。

围栏。柿子。白的。绿的。半红的。黄瓜。

左面。

两间偏房。左侧的没东西。饼干、方便面、大拇炮在右侧。

前头是两间正房。坐北朝南。

台阶下种的菊花。黄的。粉的。

后头。

围栏。黄瓜。有一根最长的。

……

镰豆。厚厚的铺满一地的镰豆。晒干了的豆荚。黑红的，黑白的。

“……去打镰豆咯哇……”

扁担的杆子。一侧穿了孔，上的钉子，吊着一根短一点的棍子。

干镰踩上去噼里啪啦。噼里啪啦的。

捉着杆子甩起来，上头的棍子跟着转。

狠狠地砸到地上。

啪……啪……啪……

打累了，丢了杆子。

在铺满的镰豆荚上踩来踩去，也能踩出豆子。

啪……啪……啪……

豆子红的。白的。青的。豆子很硬，踩不烂。

黄黄听见，也过来踩。

噼里啪啦……啪……啪……

……

院子里的大杏树，背后就是后山。

水库后面是马圈。没马了。里面还有干草，成了鸡圈了。

一只母鸡。喂一两颗米。鸡窝不像样。

“……母鸡把鸡蛋吃了……”

“……鸡妈妈饿的……把娃娃也给吃了……”

捡出一个鸡蛋。

很漂亮。上面挂着黑乎乎的泥土。

阳光下看不清里面有没有蛋黄。

放到狗窝的棉被上面。想孵小鸡。

……

孵不出来。

鸡蛋哪去了。

不知道。

……

蒸鸡蛋好吃。鸡蛋打进去。用筷子搅和散，放上盐、

花椒还是茴香。

不知道，黑的面面，不是红的那个。

扳水龙头，就上一碗水，搅和搅和。

灶里永远有火。

座锅。

蒸。

碗里的糊糊变色，变黑，变得坑坑洼洼，密密麻麻的小洞洞。

疏散了。孔变大了。半碗鸡蛋变成一碗蛋羹了。

……

扳开铁门，就进来后山了。

左面是两棵杏树，矮的能上去。

那棵在山坡上头。

山坡不好走。只有一条小路往上爬。

半山腰有杏树。

干的，不大。

大老老悉心照顾着的。

再往上还能进去，里面连着大山。看不到另一头。

山最里头好像有水，好像有。一堆树。

上头有大棚，蓝色的。山腰上阳光足。种菜好。

除了踩出来的小路，旁边都是杂草。有深不见底的洞。

山能往里进去，里面有些什么东西。

记不得了。

……

第三章过年

“小孩小孩你别馋，过了腊八就是年……”

腊八不在这里过。

年在村子里过。

什么都不用管，大人们就买来了花炮、糖豆、零食和准备好的压岁钱。

花炮什么样式的都有。大地开花、点着了闪着电光的电光棒、鞭炮、各式各样的小筒子炮、好几板子甩炮、黑老大、七匹狼……

糖豆和零食应有尽有。扁核桃、隔着袋子都能闻到酒味的酒心巧克力、玉米糖、瑞士糖、酥糖、黄纸包的高粱饴、不好吃的红红绿绿的果冻一样的糖、话梅糖、还有炭烧的薄饼、里面夹着软糖软糖一样的饼（茯苓饼）、苏打饼干、红枣膜片、上面裹着白芝麻的酥球……

不知道什么时候贴对子。

大铁锅里头熬的白糊糊，又稠又粘。

那是糨糊。

奶奶手里拿的搅和的那个锅刷子。

两只手抱不住，一大把竹篾靠近顶部箍着铁圈，底下早就被磨成一边斜的。

锅刷子在糨糊里搅来搅去，一头粘满了白糊糊。流下来，流进锅里。

白乎乎的，咕噜……咕噜……地冒着大泡泡。

……

不知道什么时候晾凉了，也不知道粘稠的糊糊往碗里头倒时候有没有拉丝。

对子听说是村里老人写的，用毛笔写的。

红纸摸起来沙沙的。

比那有刺的白纸好摸。

五六幅对子，要贴在木头大门上、两件偏房上、两件正房上、马圈那间房上。

门都是木头做的。

不用那个锅刷子。

用刷油的刷子，扁扁的，黑乎乎的把子，前头整整齐齐的刷毛。

蘸上糨糊，往撕了旧对子的门两侧上面刷。

一层……两层……

捏住对子上面，对正了。按上去，两只手顺着往下捋。

“贴好了……”

上联，下联，横批。

……

糨糊不多不少。正好贴完最后一幅对子。

窗花。

红纸，折。折。剪几个窟窿。几道弯弯。展开。

年年有余、数不清多少瓣的花……

窗户。早就擦的明亮亮的了。

倒过来的福字。

……

耍完回来，大人们已经搭好旺火了。

黑的发亮的碳，大块大块的。

一圈又一圈堆起来。

堆的比人高。

旺火顶上放个三尖尖碳。

中间偏上两块碳之间压着一张黄纸。

写的什么。

不知道。

有没有写东西。

不知道。

……

天黑了。年开始过了。

旺火点起来，火苗子从碳之间的缝隙里头窜出来。红的，黄的。忽上忽下，越烧越旺。

正房、偏房的门。都敞开着，灯火都点着。

……

到了什么时候。

接财神。

大门口挂的鞭炮，从门上耷拉到地下。引子在底下。引子很短，只有一小截。

不用香点。拿打火机。

点。

没点着。

点，“噼里啪啦……噼里啪啦……”拿起鞭炮从大门口跑进来。

炸不到手。

财神迎接进来了。

旺火烧着，轰轰地烧。

家里灯点着。黄的灯，白的灯，全亮着。

给土地爷爷上香。

给观音菩萨上香。

苹果、橘子罐头摆上。

……

电视机开着。

大圆桌子。黑红的，圆的，果盘子。里面像切月饼一样切开，分开装着瓜子、花生、糖、果干、核桃和大人们买回来的稀罕吃的。

……

大砂锅端到桌子最中间。底下铺的土豆、豆腐。中间放的白菜。上头铺的白肉片子。大片大片的白肉片子。

一桌子的菜、肉。

碟子里的花生米。金黄金黄的。

白酒。老白干、还有长方形的浅盖盖的白酒、红盒盒里头的红盖子汾酒。

饮料。沙棘汁。装油桶子那么大的，满满一桶。雪碧、橙汁。全是好喝的。

新咯锃锃的玻璃杯，沙棘汁倒上满满一大杯。

咕噜……咕噜。

大人们吵杂的，不停地说的什么。

笑声。叫喊声。做饭声。

……

吃一两口出来。

红塑料袋。掏出炮。

在大人裤道擦（裤兜）里头摸打火机。

叫喝一小盖盖白酒，倒进瓶盖里头。

舔了一点。辣。

没打火机。

旺火烧着。圪啾（蹲）下点香。

大地开花。半指头那么长。引子一点，嗖的一下在地上窜起来。红的、黄的、蓝的在地上窜，撞来撞去。绕了几圈，不转了。

电光棒棒。一根铁丝上灰色的东西面面裹起来。一点，闪着黄色的星星。

甩炮，小花炮。噼里啪啦，噼啪。

……

饺子端出来。

好几轮。

每轮里头有钢镚儿。

一块的、五毛的、一毛的。

筷子一夹，大概就清楚有没有了。

咬到一口硬。

“哎呀……咬住钢蹦子了！……”

……

压岁钱。

压在枕头下。

过了十二点。

挤在炕头上。炕上、地下。一地的瓜子皮、花生皮。

……

”……爷爷背上你睡咯哇……“

背起来。头挡住灯泡子，落下一个半影子。

正房的另一间。

罗马珠珠在柜子上爬。

观音前面的香烧了一半。

……

第四章野、坟

天永远是蓝的。上面飘着几片白云。

从被鹅咬的那个巷子进去，不多远就见一条小溪。

从石头上流下来，石头是青色的。

手放在高低不齐的两块石头中间，一会儿就能捞到小鱼儿。

抬头。树叶遮盖了天空。

水哗啦哗啦流着。

空气是潮湿的，像刚下过雨一样。

树很高，比其他地方都高。又细又高。

时不时有鸟叫声。

这里最清净。

沿着小溪往上走，是进山的路。

沿着小溪往下，就到了大河浦。

水从哪里出来。

不知道。

过了大河浦水流向哪。

不清楚。

水隔开了里外。

踩着石头跨过水，便进山了。

山下永远是潮湿的。阴凉阴凉的。

这座山不高。但是大。望不见尽头的大。

山上平地多，上山得爬。

两个人高的断层。弯弯曲曲一条土道道。

不知道哪只大脚踩出来的坑，便成了落脚的地方。

山上有田地，种着土豆。有没有红薯。不知道。

山是好几座。

有的连着。能过去。

有的只能望向对面，从这座山越走越下。突然就是一堆杂草乱树和灌木。然后就是陡坡。

有没有人从坡滑下去。

不知道。

坡边边上黄红黄红的，长满刺的矮树。

叫醋溜溜，也叫沙棘。

使劲撇下几只来。不小心被刺划破了胳膊。

腿上、鞋上早已粘满了绿绿的小圆球球，上头的小钩子牢牢地抓着。

把醋溜溜枝子撕开，撕好的一小条条枝枝上，密密麻麻的黄红的小球球。

不用洗。不用擦。

囫囵放进嘴里，使劲地嗦。

酸甜酸甜的。

大枝子上有刺，撇下小条条，没啥刺。

酸甜酸甜的。

……

地里种的东西，白萝卜。水萝卜。土豆。都是绿叶子。

浇地的水从哪来。不知道。

戴着草帽子的老奶们，胳膊挽着篮子。

里头放的什么。不知道。

谁家的地。有没有边界。

不知道。

……

“挖山ye咯哇……”

扛起锄头。一人长的杆子。

还是这片地。

抡起来。朝着那叶子方向。挥下去。

清脆的声音。

锄子提出来。锄头带着半个白色的。

一个。两个。

不全是好的。也有出来就是朽的。和锄烂的一起扔掉。

半麻袋。混着土坷拉。

……

什么时候的碳火。

不知道。

烧着了又灭了的。

里头还是滚烫的。

拿树枝子搁搅，翻开里头。黑。红。白。热的。

土豆就在里头埋着。

烤出来就是黑的。

拿根树枝扒拉出来一个。烫手。石头上擦擦。

钢丝圈。擦。擦擦。

外面的皮黄黑黄黑的。焦了的皮。

小的直接啃。

大的两只手倒着掰开。

白。绵。冒着热气。

篮子里有个塑料袋。里头装着面面。

不是孜然调料。

专门蘸山ye的，黑黄黑黄的。面粉一样细。

咬一口，蘸满面面。

一口。又一口。

……

碳火慢慢就熄了。脚上去抹几下。

山还是原来那样。

……

过了大河浦的桥，走上几百米。前面那座山。

庄稼。种的什么。不知道。

沿着山往上走。

弯弯曲曲。拐东拐西。

山很大。很高。

山腰坡上没什么树。

起起伏伏的一些鼓包。

坟。

……

”来，磕头……“

大人先跪下。

坟头在斜坡上。

隆起的土堆。前面有块立着的石头。前面还有块长方形的石头。扁扁的，一半嵌在土里。

磕完头。大人往那块长方形石头上摆东西。拧开的罐头、一个苹果。橘子剥去了皮。

怀里掏出一个酒樽。

食指和中指伸进去。绕着酒樽使劲擦两圈。

摆在坟头前。

白酒。

……最后一杯。洒在石头上。

纸钱。

白的。黄的。花花绿绿的纸衣服。

火一直烧到了指尖。灰白的纸烬。

坟头边上有树。从陡坡侧面长出来。

杨树还是柳树。不记得。

只记得有说法。

……

地是荒的。没有杂草的荒。

地上是苔藓还是什么。

不知道。

灰绿灰绿色的。摸起来滑滑的。抠不起来。

远远地挖了一个小坑。

一个大拇炮。两响。

“走了！”……

山谷里。高高低低的杂草。

……

卷二东寨镇上

第五章小镇

东寨镇是一条。

一长条。

大河浦在村沟沟里。

三轮轮车。一根弯的铁棍子往车头侧面插进去。摇…摇…摇……

突。突突。突突突突突……

往车后面的卡子里头一坐。

大人有直接坐的。有的屁股底下垫着麻袋，里头装着东西红薯、土豆。坐不下的就坐在卡子上，半个屁股露在空中。

大都是两个胳膊张开。扶着车边。

一颠一颠的。车拐弯能把我甩出去。大人们屁股牢牢地粘在车上。

呼呼的风声。大人们的谈笑声。

村子出来，沿着马路颠上几百米，就到了镇上了。

拐个弯。不远处有桥。

过了桥。

要么左拐。要么继续往前走。

左拐。去往旅游处。芦芽山、万年冰洞、情人谷。都在那一块。

往前走。一条。

豆腐坊、月饼坊、镇上的中医……

沿着这一条一直走。就去了城里了。

……

镇子上有豆腐作坊。

两间小屋子。窗户。白纸糊的。陈旧的玻璃片子。

进来有个高高的架子。

大的一块纱布。吊起来。里面是豆浆。

布子吊成了倒锥形。底下的尖尖一点一点往外渗透。

纱布和笼厨下头垫的布子一个样。

下面有大锅。里面熬的什么。

好像是豆浆。

纱布里头的豆浆，最后怎么做成豆腐的。

不知道。

只听说什么卤水。

点豆腐。

里屋有黑色的大缸子。比奶奶家的大缸子还大。只不过底下没有黄的、白的钢镚儿。

豆腐工工整整地码在缸子里。外面是细密的纱布印子。

也有切开的。切开的没有印子，白的。嫩的。

……

镇子上还有打月饼的。也做麻花。饼子。

大铁皮桌子。光亮光亮的。

上面摆些什么。不记得。

只记得，比和好的糕面的颜色浅的一大团面团放在桌子上。

地下大袋子的五仁馅、什么馅儿。

桌子上放着几个铁家伙。连着管子。

揪好的面团包进去馅子。往那模具里头一放。

呲……地挤出来。

上面已经有那月饼的花花了。

几十个月饼整整齐齐地码在长方形的铁盘子里。

身后就是大烤箱。透过玻璃窗子能看见里面烤香肠机子一样的铁柱子，一排排。好几层。

月饼放进去，拧上火。

烤多长时间。不知道。

烤出来金黄金黄的。

掰开一半。五仁馅露出来。掉到地上一块。

烫手烫手的。才好吃。

……

镇子另一头边边上。

是那家中医。

村子镇子里头得大病的人来看。

城里头得了怪病治不好的人来看。

是个院子。

墙角有煤炭。堆成小山的碳。黑亮黑亮的。

墙边边上南瓜。绿皮的、黄皮的老南瓜。

泡沫箱子里头种的几根黄瓜、西红柿。

房子外头木头桌子上。一个小黑板靠在墙上。

用白粉笔写的几行字：“……星期三休息……”

从来没擦过。

一直就是那样。

等候室永远都是满人的。

里屋坐着那位神医。不停给病人看病、把脉……

外屋比里屋黑。

四面墙上。

挂满了红的、黄的锦旗。

一层叠一层。靠近房顶的旗子落满了灰。

看过几回病。

不记得。

姐姐看过一次。十根指头上扎的针。

我腿弯上的硬疙瘩，去城里说要动手术。后来到这里，说把仙人掌切开取出肉，就那样敷上去。

后来再也没起来。

……

与病有关的。

是听奶奶说以前我被村子里狗咬了，连夜跑遍全村借的二百块钱。

去城里打的狂犬。

记不得。

只记得被鹅咬过。每次路过那看起来快要塌下来的土坷垃房子，都得躲在大人后面。

不是怕房塌。是怕这儿的鹅。

……

第六章向日葵、烟囱、井

向日葵。

记不清在哪里了。

种一院子的向日葵。几十个头从白天到黑夜跟着太阳转过去。

是不是每天都是这样。不知道。

晚上偷偷地转回来迎接明天的太阳吗。

或许是这样吧。

……

不知道什么时候。

要收瓜子了。

原来白白的、又软又瘪的。现在已经黑白黑白的、满了。

从头砍下一个大花盘子。里面满满的都是瓜子。

原来是黄色的一圈花瓣，早已不见了踪影，只看见中间镶着黄黑的花籽一样东西的一盘瓜子外面，是一圈枯了的绿叶子。

瓜子密密麻麻排在上面。不好抠下来。

抠下的瓜子还是软的。里面也没什么味道。

要晒干了炒的。

黑乎乎的大铁锅里，炒出来的瓜子烫手烫手的。

两大塑料袋，提回家。

大人们边打扑克，边嗑着瓜子。

也有炒糊的几颗，苦。酸。像是吃了一口碳。

还有炒的大豆，棕黄的皮子上黑的一道子，许多裂开了口。

门外窗沿上晾着南瓜籽、葫芦籽。

白的。扁的。

没啥味道。

底下垫着一张报纸。上面粘着有南瓜的黄丝丝。

……

烟囱。

从房子中央的炉子上升起，快到房顶时拐了个弯，从房子的侧面穿了出去。

炉子上大小不同的三圈铁环子。

有根铁丝棍子用来勾这几个铁环子。

炉子里总是有火。

炉子边边上时不时烤着半个馍馍。

有时候，也会热上几罐八宝粥。

……

炉子熄了火。

大人扶着靠墙的烟囱。下面的被子上垫着几张白纸。

中央炉子上的烟囱往上一推。

靠墙的烟囱往外拉。黑灰撒落在白纸上。

四截烟囱。

一截直弯弯的。

从外面往里头望。黑乎乎的。

扛着。出外面到了垃圾堆前。

扶起到快到肩膀的位置，带着手套。

铛……铛铛……铛……

满地黑色的粉末。

一条狗跑过来，在旁边的电线杆底下张开腿撒了一泡尿……

………

院子里有花圃。

与其说种的花，不如说是种的菜。

大大小小的南瓜、葫芦。

竹竿子上缠绕的豆角。

细长花叶子的水萝卜。

生菜还是油菜。记不得。

偏房旁边就是水井。

看起来很深。

有没有底。不知道。

望下去十几米清的水反着光。

有水管子从井里出来。

黑长黑长的橡胶管子

就一盆水，有时会看见小虾。

比虾米还小。

……

拧开闸。

使劲捏着前面的软胶管子，水就从两边的缝缝里喷射出来。

能喷射到对面房上。

往花园子里面浇水。

水向高处的天空喷出去。

在阳光的照射下，像一层薄薄的水桥。

透过天空的水面。

还能看见彩虹。

彩虹。红的。黄的。蓝的。紫的。

水洒落在南瓜叶子上。

挂在豆角杆子上。

水萝卜上面的那片土地，早已湿润了。

院子里这么大的一片土地。有没有蚯蚓。

不知道，好像没见着。

肯定有的吧。

……

院子中央里有个方方的、突起的砖。

上面画的东西。

好像是八卦。不知道。

大人不让踩。

……

“我们能画出的圆圈总是不够圆，但没有人会因此想取消圆圈。” ——罗翔《圆圈正...

sherioc — Fri, 19 May 2023 13:22:29 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/thinkings#thinking-3

“我们能画出的圆圈总是不够圆，但没有人会因此想取消圆圈。”

——罗翔《圆圈正义》

今人不见古时月，今月曾经照古人

sherioc — Tue, 28 Feb 2023 06:34:20 +0000

该内容由 RSS 渲染生成，最佳阅读体验请前往：http://sherioc.online/moments/2023/02/28/jin-ren-bu-jian-gu-shi-yue-jin-yue-ceng

今人不见古时月，今月曾经照古人。

大唐盛世，纵横天下的雄心壮志；儒者气魄，兼济苍生的广阔胸襟。李白与杜甫，风骨永存，流芳千古。

“终与安社稷，功成去五湖。”渴望像范蠡携西施隐去，亦自比留侯功成身退。酒入豪肠，吞吐一生的放荡；十步杀一，挥洒豪迈与不羁。李白，渴望纵横天下，实现自己心中的抱负。“谁能书阁下，白首太玄经。”他轻视扬雄，看不起那些至死还在儒家烟海中挣扎的老头；他崇拜墨侠，赞颂侠客不计得失的蹈火赴汤。“紫燕枥下嘶，青萍匣中鸣”与“休言女子非英物，夜夜龙泉壁上鸣”有着何等相似之孤傲！他耻学琅琊人，诸葛孔明为他唾弃；风云际会，大厦将倾时力挽狂澜才是他真正的追求。

谁奈，“点额不成龙，归来伴凡鱼。”半生功名都难以企求，济时之策又献于谁呢？“风涛倘相见，更欲凌昆墟。”试借崔侍郎之力步入朝廷，却终成烟涛；又道“精诚动天，长虹贯日，直度易水，不以为寒—膝行于前—”李白，为了实现自己的理想，低三下四的恭维与乞怜却也只徒然成空。

忆天宝二年，玄宗召白进京，四十三岁的他终于高歌“仰天大笑出门去，我辈岂是蓬蒿人。”白酒新熟，黄鸡啄黍，“高歌取杯欲自慰，起舞落日争光辉。”时来运转，岂能不痛饮高歌？笑，大笑，乃至仰天大笑，何等之得意，何等之狂放！然而朝廷毕竟是朝廷，“沐猴而冠”之下也只能“牛滞东鲁”罢了。昔日之繁华，浩如烟云，永王之变，远谪夜郎，与辛判官对饮的慷慨高歌，那份忧愁又有谁能真正懂得？梦游天姥，将进之酒，李白在消极之中，将自己的豪迈与洒脱，放飞天地之间，于睥睨一切的狂放与飘逸之中。

回顾李白的一生，既有远大的抱负，又执着与理想，欲力挽狂澜，功成去五湖，隐居观世变。侠气也罢，仙骨也罢，虽都难免于俗，毕竟纵横之思想，在天下统一之时举步维艰，但李白用自己的一生去追求心中的理想，追求属于自己的巅峰。

“性豪业嗜酒，嫉恶怀钢肠。”壮游时期的杜甫，有着与李白不相上下的狂傲。“检书烧烛短，看剑饮杯长。”烛光之下，樽斗之间，溢散着诗人的豪情壮志。“痛饮狂欢空度日，飞扬跋扈为谁雄？”纵然年华不在，也记得年少轻狂。

长安十年日，肥马轻尘于权贵之门，却也仅仅是酒鱼之宴，谁感受得到“残杯冷炙”的无奈，谁又托得起他心中才华无法施展的悲哀？“窃效贡公喜，难甘原宪贫。”自己不甘于贤士的安贫乐道，因为心中那份信仰——真正的儒者的信仰，兼济天下的抱负与胸襟。“以兹吾事理，独耻事干谒。”——可他怎能不干谒？世俗如此，正如李白“安能摧眉折腰事权贵”不过气话，抱负实现怎能不摧眉折腰？所在李白为自己纵横天下而奋斗，杜甫也为自己兼济天下而努力。他的胸襟，永远阔大开朗，无边落木，江流涌动，星河乾坤之间沉浮着他的壮情与超然。纵然飘零天地，却也在时光掠影间听从自己内心的呼唤。

俯仰杜甫的一世，心怀天下，举目民艰，但他未曾退却，茅屋所破，却仍心念寒颜。纵飘零如孤鸟，仍感受生命。乐观旷达，是儒者的坚韧；凭轩涕泗，是诗人的深爱。

“拟把疏狂图一醉，对酒当歌，强乐还无味。”李白与杜甫，或豪迈，或卑贱，但他们用自己的一生，为了心中的理想而奋斗，明知不可为而为之，即使最后只能泛舟挂罥，涕泗横流，但也仍长歌当哭，抒发那份愁，那片大爱。这就是他们的一生，或心酸，或悲苦，却充实而豪迈。

李白与杜甫，扶摇而去；支离破碎的影子，泛起湖中月，沉入如墨的天穹。

~~作于2020年12月，曾在681班的时光~~

Sherioc's Blog

Python 导入与 sys.path 复盘

一、Python 导入的核心规则

二、相对导入 . 的使用限制

三、sys.path.insert(0, ...) 到底做什么

四、直接运行脚本的标准写法

五、简要

两兄弟坐在灯下叙旧 那些旧事 好像被时间悄悄合上了 石珍珠在院子里溜...

这个网站的点点滴滴

关于我

Windows11+Linux双系统安装-Ubuntu24.04

1、Ubuntu24.04安装

2、中文输入法安装

3、向日葵远程控制安装（使用PC远程连接一直显示正在建立远程连接，Ubuntu-22.04bug）

3.1 dpkg -i安装报错解决（缺少gconf2库）

3.2 解决一直“正在建立远程连接”

（硬件安装）4、加装机械硬盘

WSL2配置代理

CUDA配置

1、GPU准备

2、更新显卡驱动

3、项目环境搭建（示例）

CORS跨域

什么是跨域

1、发生跨域后会出现的问题：

2、注意点

4、配置代理解决跨域

4.1 自己配置代理服务器

4.2

文本抄袭自动检测分析

任务描述

数据预处理

需求分析及实现路线

需求分析

实现路线

算法设计如下

模块设计及实现

总体模块设计

1、数据集加载

2、数据预处理

3、逆向文档率 TF-IDF 特征提取

4、MultinomialNB 分类模型进行训练

5、基于模型进行风格预测并找出可能抄袭的文章

6、使用 K-Means 对文章进行聚类

7、查看相似文章(测试结果)

8、基于编辑距离进行文章对比

参考文献

附：完整代码

“陈哥，你说我们抓了这个人，到底对不对?” “怎么了?” …… “你...

支付宝沙箱流程

fastapi支付宝沙箱

支付宝沙箱

支付页面流程

环境变量配置

代码

AJAX、XHR、Axios、Fetch API

现代替代方案

北巷回忆

卷一 大河浦里

第一章 社庙

第二章 镰豆、马圈和后山

第三章 过年

第四章 野、坟

卷二 东寨镇上

第五章 小镇

第六章 向日葵、烟囱、井

“我们能画出的圆圈总是不够圆，但没有人会因此想取消圆圈。” ——罗翔 《圆圈正...

今人不见古时月，今月曾经照古人

二、相对导入 `.` 的使用限制

三、`sys.path.insert(0, ...)` 到底做什么

两兄弟坐在灯下叙旧那些旧事好像被时间悄悄合上了石珍珠在院子里溜...

卷一大河浦里

第一章社庙

第二章镰豆、马圈和后山

第三章过年

第四章野、坟

卷二东寨镇上

第五章小镇

第六章向日葵、烟囱、井

“我们能画出的圆圈总是不够圆，但没有人会因此想取消圆圈。” ——罗翔《圆圈正...