1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133
| data = { 'text': [ 'Hi, you have won a lottery, click here to claim', 'URGENT! Your account has been compromised!', 'Free Viagra, cheap Cialis, order now!', '恭喜您中奖!请点击链接领取大奖!', '【xx贷】急用钱?马上到账!', '发票,代开,增值税。', '免费领取iPhone15,仅需支付运费', '您的包裹已到达,请点击确认收货', '【银行】您的账户异常,请立即验证', '兼职赚钱,日入500,无需经验', '恭喜您获得1000元购物券,限时领取', '您的订单已发货,请查收', '【腾讯】您的QQ号存在风险,请验证', '免费试用,不满意全额退款', '您的积分即将过期,请尽快兑换', '【支付宝】您的账户有异常交易', '中奖通知:您已获得500万大奖', '您的快递已到达,请签收', '【10086】您的手机欠费,请充值', '免费领取精美礼品,仅限前100名', '您的账户存在风险,请立即处理', '兼职刷单,轻松赚钱', '您的订单已取消,请重新下单', '【银行】您的信用卡额度已提升', '免费体验高级会员,立即开通', 'Lunch meeting tomorrow at 12pm?', 'Can you please review the document?', '你好,下周的会议纪要发你了。', '周末一起去打球吗?', '关于项目进度的更新,请查收', '明天的会议安排已确认', '请查收附件中的合同文件', '客户反馈的问题已解决', '本周工作计划,请审阅', '关于预算调整的讨论', '你好,附件是你要的资料', '下周的出差安排已确认', '请确认收到此邮件', '关于产品发布的讨论', '你好,会议时间已调整', '请查收项目进度报告', '关于合同条款的修改建议', '你好,附件是会议记录', '请确认下周的会议安排', '关于产品功能的讨论', '你好,这是你要的文档', '请查收客户反馈报告', '关于项目预算的讨论', '你好,会议纪要已整理', '请确认收到此信息' ], 'label': [1]*25 + [0]*25 }
df = pd.DataFrame(data) print("原始数据:") print(df.head(10))
print(f"数据集总大小: {len(df)}条 (垃圾邮件: {sum(df['label'])}条, 正常邮件: {len(df)-sum(df['label'])}条)") print("-" * 50)data = { 'text': [ 'Hi, you have won a lottery, click here to claim', 'URGENT! Your account has been compromised!', 'Free Viagra, cheap Cialis, order now!', '恭喜您中奖!请点击链接领取大奖!', '【xx贷】急用钱?马上到账!', '发票,代开,增值税。', '免费领取iPhone15,仅需支付运费', '您的包裹已到达,请点击确认收货', '【银行】您的账户异常,请立即验证', '兼职赚钱,日入500,无需经验', '恭喜您获得1000元购物券,限时领取', '您的订单已发货,请查收', '【腾讯】您的QQ号存在风险,请验证', '免费试用,不满意全额退款', '您的积分即将过期,请尽快兑换', '【支付宝】您的账户有异常交易', '中奖通知:您已获得500万大奖', '您的快递已到达,请签收', '【10086】您的手机欠费,请充值', '免费领取精美礼品,仅限前100名', '您的账户存在风险,请立即处理', '兼职刷单,轻松赚钱', '您的订单已取消,请重新下单', '【银行】您的信用卡额度已提升', '免费体验高级会员,立即开通', 'Lunch meeting tomorrow at 12pm?', 'Can you please review the document?', '你好,下周的会议纪要发你了。', '周末一起去打球吗?', '关于项目进度的更新,请查收', '明天的会议安排已确认', '请查收附件中的合同文件', '客户反馈的问题已解决', '本周工作计划,请审阅', '关于预算调整的讨论', '你好,附件是你要的资料', '下周的出差安排已确认', '请确认收到此邮件', '关于产品发布的讨论', '你好,会议时间已调整', '请查收项目进度报告', '关于合同条款的修改建议', '你好,附件是会议记录', '请确认下周的会议安排', '关于产品功能的讨论', '你好,这是你要的文档', '请查收客户反馈报告', '关于项目预算的讨论', '你好,会议纪要已整理', '请确认收到此信息' ], 'label': [1]*25 + [0]*25 }
df = pd.DataFrame(data) print("原始数据:") print(df.head(10))
print(f"数据集总大小: {len(df)}条 (垃圾邮件: {sum(df['label'])}条, 正常邮件: {len(df)-sum(df['label'])}条)") print("-" * 50)
|