5118,国内知名的站长平台之一,我是每天都要上几回。
前段时间官方出了几张运营地图,每张都真真的是干货满满,而这只是其中一张。
算是个人留着压箱底私藏货之一,共学。
干预搜索引擎被动爬取干预蜘蛛种类:1、页面内容蜘蛛。2、图片收集蜘蛛。3、模拟真实浏览器反作弊爬虫(含JS)索引:1、收录率=收录数量/爬取数量。2、定期进行WEB日志检查、计算收录率、收录率非常低,需要增加内容质量和外链。技巧真假蜘蛛辨识别技巧引导爬虫抓取新页面:制作更新列表网页并放置在所有页面底部、在内容页面放置专门的列表,跟随爬虫访问放出新链接给爬虫有待:给爬虫特殊稳定优质线路确保稳定可用、不给爬虫冗余的HTML、屏蔽时占率少的搜索引擎,留取更多资源给好的引擎主动提交sitemapTXT文本格式(百度)XML格式(谷歌)通知方式:1、可以在robots.txt文件添加代码告知sitemap存放位置。2、可以通过站长后台一次提交10个sitemap地址。要求:1、不得超过5万个。2、文件大小不超过10MB。3、不能是404。死链提交--XENU扫描--及时删除链接--主动提交站长后台网站改版:1、链接301跳转。2、站长后台闭站保护。3、查看日志确保无误。4、死链多层扫描。是否允许索引:1、robots.txt。2、meta。3、httpheader。4、html。
搜索引擎排名核心搜索引擎指标内容相关性指标:1、title标题。2、metakeyword。3、maetadescription。4、内链:全站结构、描文本。5、外链:描文本、对方内容、相关度。6、内容:头部文字、段落标题、内容涉及、相关内容。原创性指标落地页时间因子落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据,百度搜索综合用户对落地页中关于时间因子的实际感受,发现目前PC端及移动端大量网站落地页存在时间标注不清、页面无时间等对用户浏览体验不友好行为。内容更新时间:1、时间标签更新时间。2、百度快照代表索引更新时间。内容原创性:1、词频:TF-IDF算法、LDA算法。2,搜索指纹:simhash。3,内容词向量:doc2vrc。可访问性指标蜘蛛爬取速度WEB日志诊断:1、云服务器日志。2、ELK系统。3、filbeat+elasticsearch.400/500错误数:1、WEB日志诊断。2、百度站长后台。3、Google站长后台。页面最终加载速度:1、工具:Googlepagespeed。2、相关因素:html、dom结构、js。用户行为指标惩罚算法:【SEO优化】SEO运营地图-百度算法大全汇总高清图是否解决用户问题点击率:击中人心的摘要、吸引人的标题、击中需求的头图页面停留时间:百度统计是否会在搜索结果点击下一个结果:快排原理--搜索结果点击行为模拟访问用户数量与粘性初期营销:1、一定要能找到用户集中的地方。2、SEM。3、长尾词SEO。4、高权重网站霸屏。5、激起传播(社交媒体、抖音、论坛消息)中期营销:1、霸屏。2、问答。监控搜索引擎可用性监控日志分析站长平台:抓取异常、抓取频次监控宝百度云观测转化监控百度竞价版高级统计自开发转化监控流量监控日志分析常用统计系统功能流量趋势图跳出率与访问时长转化率流量分类:1、搜索引擎流量。2、直接流量。3、外链流量。真实来源关键词受访网页新老访客受访域名:是否被镜像流量关键词SEO成果监控站长平台索引量site查询:百度查询site:域名.com5118排名趋势图:百度PC、百度移动、360、百家号、神马、熊掌号(非熊掌号)站群监控关键词监控站长工具箱子:1、实时排名查询。2、实时收录查询。3、nofollow工具。4、实时死链查询。首页外链查询收录量趋势图
页面与内容HTML布局策略HTML布局策略第一段落包含目标词TDK:网页描述、目标关键词扩展词、目标关键词关键词目标与类型密度阀值中文分词算法理解:决定标题、内容中的关键词是否可分关键词目标与类型核心词击中:用主页占领:不超过3个核心词长尾词击中搜多页:1、相关搜索。2、支持重要搜索词设置标题。内容页:1、strong标签。2、h标签。3、内链次要核心词击中专题聚合页:1、内容精选。2、不断更新。3、h标签。列表页:支持自动以标题。如何生产内容题材来源热榜需求图谱内容规划原创来源自己写内容、伪原创、信息差、精华段落聚合重组:知乎、头条、微信等全网文章、爬虫索引不到、UGC、采集爬虫索引不到技术、纸张资料、语音资料、视频资料、非HTML格式、需要登录、外文、繁体新媒体第一时间捕捉不同平台索引时间差:微信、头条、知乎、1点资讯、搜狐号、大鱼号、百家号、网易号、简书、凤凰号采集爬虫最佳语言:python、nodejs、goweb技术:js、http协议、cookies提取技术:DOM、正则伪原创工具:5118、文字、图片、视频、声音
结构与设计外部链接HTML:1、a标签:rel属性、title属性。2、img标签:alt属性。3、link标签:rel属性。外部链接获取方式:购买、自然传播、友情链接、能留链接的地方、站群、入侵篡改。内部层次结构不但利于用户也为引导蜘蛛菜单导航:网站地图、方式内链:种类、喂食爬虫链接、html标签
安全性防采集:1、IP访问分级机制。2、键盘鼠标行为。3、用户访问分级机制。4、浏览器指纹。5,给假数据。6,验证码。7,防模拟搜索引擎爬虫。8,登陆。9、CSS+图片位移防采集。10、建立黑名单。11、必须完整渲染JS。12、图片防采集。数据安全:1、磁盘阵列。2、主从备份、3、线下备份。4、文件云备份。防攻击:防DDOS防入侵(杜绝潜在漏洞):HTTPS、补丁、用户权限、社会工程、开源程序反扫描、被动检测、端口检测可访问性内部因素:程序与流程优化WEB服务:厂商--iis/apache/nginxURL:URL设计、URL路由数据库访问:调优分析、主从库、并行扩展、读写分离、备份、磁盘类型静态化:html静态、局部静态化、指标、性价比缓存:分布式缓存、json缓存、定期关注硬性指标前端框架:对SEO不友好、避免使用WEBSQL、使用indexedDB流量优化:负载均衡、指标、确认冗余、减少冗余代码和http请求、监控、工具移动端:移动设计优先、移动适配、优化加载速度、MIP、百度移动搜索落地页体验、百度算法正确的跳转:300/400/500SEO程序及平台选择:开源cms、第三方建站、百家号、自开发程序、第三方博客、小程序、第三方B2B外部因素:DNS常用命令:dig/nslookup/host/mdc常用测速:CDN解析:cdn本身就用了类似云解析或者智能解析技术记录:A记录、CNAME记录域名服务器:跟域名服务器、顶级域名服务器、限制域名服务器、本地域名服务器域名结构:顶级域名、二级域名、三级域名常用服务商:海外:cloudflare、aws等。国内:阿里云、腾讯云、百度云等。CDN优点:本地cache加速、镜像服务、远程加速、宽带优化缺点:应用成本、只对静态内容加速、内容更新时需要分发到其他节点。应用场景:大文件下载、静态网页、应用加速、动态加速服务商:网宿科技、云服务商、海外机房/数据中心主机选择注意:1、地理位置。2、可用性。传统IDC选择注意:1、环境。2,能用。3,电信线路。4,监控设备。5,客户位置。测速和监控工具
点击“扩展链接”下载
思维导图汇总
●SEO运营地图--百度算法大全
●百度小程序开发者运营技能知识图谱1.0
●2019天猫电商双十一作战地图(含京东、苏宁及历年)
●主流编程语言汇总思维图
●短视频从业者必备指南2.0(从创作到盈利)
●思维导图|好好说话,别啥都扯上区块链